生成式人工智能赋能网络安全运营降噪能力研究

魔镜魔镜告诉我 · 发表于 1729157091

生成式人工智能赋能网络安全运营降噪能力研究

孟楠周成胜赵勋

（中国信息通信研究院安全研究所，北京 100191）

作者简介

孟楠：中国信息通信研究院安全研究所副所长，高级工程师，主要研究方向为网络和数据安全、ICT新技术安全领域科研和技术创新、政策和标准制定工作等。

周成胜：中国信息通信研究院安全研究所网络安全联创中心副主任、高级工程师，主要研究方向为网络安全、工业互联网安全、车联网安全、人工智能赋能网络安全、网络安全大数据等。

赵勋：中国信息通信研究院安全研究所网络安全联创中心工程师，主要研究方向为网络安全、密码技术、人工智能赋能网络安全、网络安全大数据等。

摘要：在数字化时代背景下，网络安全面临的挑战日益增加，告警疲劳问题突出，传统的告警处理方法因难以区分真假威胁而效率低下。通过采用生成式人工智能（Artificial Intelligence， AI）技术，不仅能更准确地识别安全威胁、减少误报，还能提高安全事件处理的效率。此外，AI的数据分析能力也有助于安全团队更有效应对复杂安全事件，提升网络安全运营水平。AI技术在实际应用中面临准确度和可解释性挑战，通过引入大型语言模型代理（Large Language Model Agent，LLM Agent）降噪系统，集成大小模型的能力，结合告警态势感知和知识库数据，能进一步提高降噪的准确率，实现告警降噪的高效处理。

关键词：生成式人工智能；告警降噪；大型语言模型代理；告警疲劳

引言

在数字化时代，网络安全已成为重要议题。随着科技飞速发展，网络面临频繁攻击，安全告警疲劳加剧，即安全系统频繁生成大量告警，降低了安全团队对真实威胁的警惕性从而忽视重要安全事件。其原因包括攻击手段多样化、告警规则难以平衡、安全团队谨慎态度和探针信息不一致等。生成式人工智能（Artificial Intelligence，AI）为解决告警疲劳提供了新途径，通过深度学习和自我调整，生成式AI更准确地识别和过滤安全威胁，提高处理效率。生成式AI降噪，包括告警疲劳的原因、传统降噪技术、AI模型降噪技术、生成式AI赋能技术及结论。该方法的创新点在于：一是基于微调数据和创新提示词结构的告警分析，通过独特的提示词设计和微调数据，提高了告警分析的准确性和解释性；二是引入大型语言模型代理（Large Language Model Agent，LLM Agent）降噪系统，集成大小模型和知识库数据，提高了告警研判的效率和准确性；三是机器学习和深度学习小模型的组合应用，实现了实时告警处理，提升了降噪效果。

1 告警疲劳与传统降噪技术

在安全运营中，系统安全维护依赖于监控和检测系统，通过收集、分析和处理日志数据来监视网络和系统活动，并生成告警以提示潜在的安全威胁。这包括将原始日志数据转换为可操作的安全事件或告警，识别异常行为和检测攻击迹象。例如，开源流处理框架Apache Flink的复杂事件处理（Complex Event Processing，CEP）功能通过定义和匹配模式，从海量日志中提取相关安全事件并生成告警^[1]。然而，日志到告警的转化并不简单，误报导致的告警疲劳严重影响了研判效率和准确度。许多研究致力于减少误报以缓解告警疲劳，如减少错误操作、定期培训^[2]，以及探查告警因果依赖以过滤告警数据^[3]。本章讨论传统的过滤告警噪声技术，探讨告警疲劳的原因及其带来的问题，并介绍规则匹配降噪技术在解决告警疲劳问题中的应用及局限性。

1.1 告警疲劳的原因以及当前问题

在网络安全领域，告警疲劳严重影响安全运营效率，其根源在于持续攻击、正常行为误报和探针日志不一致。技术进步使攻击手段不断演进，导致大量安全告警产生，给安全团队带来巨大研判压力。复杂网络环境中的正常行为如多次错误输入口令被误判为暴力破解，会造成大量误报，耗费安全团队时间，降低安全团队对真实攻击的关注。为避免漏报，安全团队倾向将不确定事件误判为真实攻击，导致大量噪声告警^[4]。此外，不同厂商的安全设备日志格式和事件提取细节不同，导致告警准确度低、信息共享不畅，加剧了告警疲劳。告警疲劳不仅降低工作效率，还导致漏报真实攻击、降低警报可信度、延误安全事件响应并增加人工成本。

1.2 规则匹配降噪技术

规则匹配降噪技术通过制定和优化规则集，减少虚假告警数量，提高真实攻击的检测准确率。规则匹配降噪技术用到的主要方法包括：基于黑白名单规则过滤，利用已知恶意行为和可信应用对安全事件进行分类；基于特征匹配的规则过滤，通过已知攻击特征识别潜在威胁；基于统计分析的规则过滤，依据历史数据和异常特征检测异常行为。该技术能有效降低虚假告警率，提高检测准确度，减轻安全团队负担。然而，规则维护成本高、适用范围有限，需结合机器学习和AI以提升处理效率和效果。

2 AI模型数据分析降噪

尽管各厂商在探针日志采集数据的能力、告警提取规则和数据格式上有所不同，但整体相似，一般包含源互联网协议（Internet Protocol，IP）、目的IP、载荷、响应体、请求体、发生时间等必要数据。AI数据分析降噪技术利用这些结构化数据，实现告警数据的自动化、批量化分析。目前，AI降噪从整体架构层面分类主要分为小模型告警降噪和大模型噪声识别两种。

2.1 机器学习/深度学习小模型告警降噪

机器学习/深度学习小模型在告警降噪中发挥关键作用。近年来，已有大量结合AI降噪的研究^[5-7]。告警降噪的核心目标是准确判断告警是否为误报，这一过程可视为结构化文本数据的分类问题。通过机器学习和深度学习技术，利用已有告警数据进行模型训练，可实现自动化误报判断。这些小模型通常具有较快的推理速度和较低的资源消耗，适用于实时告警处理。整个降噪流程包括告警收集、特征工程、降噪模型选择与训练、模型调优以及AI结果解释5个步骤。为提升降噪准确度，通常需要多个小模型从不同维度研判告警数据。

2.1.1 告警收集

告警收集来源于底层探针的进一步信息提取。告警数据本身带有明确的特征，需要通过特征工程，将其转化为可使用的向量。如果数据应用于监督学习模型，还需专家标注可信标签。标签根据模型应用有所不同。例如，识别正常业务时，需标注高置信度的正常业务误报告警；识别蠕虫时，则需标注高置信度的蠕虫攻击告警。

2.1.2 特征工程

特征工程是将特征向量化，使其适用于AI模型的过程。模型的准确率高度依赖于训练数据集的质量，而原始告警数据无法更改，因此特征工程的方式直接影响模型效果。不同的降噪模型有不同的特征提取方式。例如，针对识别漏洞扫描的模型，需要观测一段时间内对不同IP和端口的探测请求频率，基于源IP、目的IP、源端口、目的端口和时间戳等信息进行统计处理，生成特征向量。而针对载荷分析的模型，可以使用Word Embeddings和N-gram等方法抽取特征。本文试验部分从多个维度提取了特征。

2.1.3 降噪模型选择和训练

在拥有预处理的告警数据后，可使用机器学习或深度学习算法进行分类识别。为获得理想效果，通常结合多种模型，从不同维度全面分析和分类告警。对于依赖统计特征的模型，建议使用机器学习，因为其特征简单且易于解释；而对于复杂特征提取模型，如针对载荷文本的降噪模型，适合使用深度学习算法。在实际应用中，往往无法获取大量优质的人工标注数据，通常使用海量无人工研判的告警数据作为训练集。在这种情况下，可以使用聚类算法进行特征向量聚类。研究表明，无监督学习可以有效筛选误报。在实际试验中，随机森林、支持向量机（Support Vector Machine，SVM）和多层感知机（Multilayer Perceptron，MLP）等分类算法结合已有特征向量，可从漏洞扫描识别、正常业务识别和蠕虫行为识别等方面构建多个分类模型。而聚类模型则使用K-means和DBSCAN算法，聚类出相应基线。图1展示了载荷文本使用DBSCAN聚类算法后的二维空间映射效果。基于聚类算法的特征分析，当一条告警明显离散于所有聚类簇时，表明此告警较为异常，可能是一次真实攻击，因此可被标注为真实告警。其余聚类告警则通过研判聚类基线进行统一过滤，大大降低人工研判成本，提升效率。

图1 基于真实数据的DBSCAN聚类算法在告警降噪上的应用示例

2.1.4 模型调优

不同用户的告警数据特性各异。有的用户业务聚焦，告警类型较少，而综合业务用户的告警类型则较多。因此，需要根据实际业务进行模型训练和参数调优。在模型应用中，需定期抽样研判、审计并修正模型，这是一个长期过程。经验表明，使用近期数据训练的模型对新数据的研判效果更佳。

2.1.5 AI 结果解释

使用机器学习降噪模型时，可通过解释算法进行特征可解释性分析。常用的解释算法有LIME和SHAP。

LIME通过构建线性模型来模拟原本的非线性降噪模型，以计算特征权重并揭示原降噪模型的研判结果与向量特征的关系，结合特征权重并填充文本模板，即可生成解释语句。

2.2 生成式大模型噪声识别

随着生成式大模型（如LLM）技术的发展，告警降噪迎来了新方法。LLM通过自然语言描述自动过滤噪声，具备强大的知识储备、逻辑推理和自然语言理解能力。相比传统深度学习模型，LLM利用海量互联网文本数据进行自监督学习，拥有上亿训练参数，在告警数据分析中表现出色。LLM的自然语言理解能力使模型设计者能通过示例模板引导模型准确分析告警，识别噪声和真实攻击，并给出合理解释。构建有效的噪声识别大模型包括LLM基座训练、告警研判数据微调、研判提示词预设和LLM输出提取。在本文的试验中，使用百川2^[8]大模型结合微调数据集进行噪声研判，展示了其无需复杂框架即可通过载荷信息给出准确结论的能力。

2.2.1 LLM基座训练

LLM基座训练对服务器的要求较高，以百川2为例，其官方要求部署内存至少为24 GB，而实际应用时要求更高，约为28 GB。如果从零开始训练，则对内存的需求更高。

2.2.2 告警研判数据微调

拥有基座模型后，需要使用有标签的数据进行微调，以提升大模型在特定场景下的表现。训练数据包括输入的告警原始数据（见图2）和输出的训练数据（见图3）。尽管大模型本身拥有大量知识，但针对性微调可以显著提高其效果。量化版的大模型通过使用降噪分析数据进行微调后，其研判分析的准确性可超越未经微调的大参数大模型（ChatGPT4）。

图2 微调数据集输入数据部分示例

图3 微调数据集输出数据部分示例

2.2.3 研判提示词预设

数据微调后，大模型已具备研判能力，但仍需正确的提示词引导。生成式大模型通过预测下一个Token实现完整的自然语言输出，因此，提示词的细节决定了输出的准确性。如图4所示，实际应用中的降噪研判提示词首先确定大模型的“角色”为“网络安全专家”，确保输出与网络安全相关，然后对定义进行详细描述，以辅助大模型理解输出细节。为提升效果，可使用few-shot^[9]方法添加分析样例，帮助大模型理解告警研判顺序。生成的自然语言研判结果受控于提示词模板，输出固定格式文本，可通过正则表达式提取所需信息，如研判标签和解释等。

2.2.4 试验测试

在当前试验中，使用真实数据结合人工研判对大模型的降噪效果进行测试。测试集由一天内经过人工研判的7 204条告警组成，大模型正确识别了6 196条，研判准确率约为86%。在实际运营中，结合小模型和高置信度规则，可将研判准确率提升至90%以上。

2.3 AI降噪试验结论与面临的挑战

上文讨论了机器学习和深度学习模型在告警降噪中的应用及面临的挑战。小模型因推理速度快、资源消耗少，适合实时告警处理；大型生成式模型如自然语言处理模型，展示了出色的理解和分析能力。结合多种模型，可过滤90%的噪声数据，提高了安全运营效率和准确性。然而，AI降噪面临精确度和可解释性的挑战：小模型的精度依赖于训练数据质量，需持续调优；大模型和小模型在应对新告警类型时准确度会降低。小模型即使使用LIME等解释算法，解释能力仍有限，而大模型的解释效果也受限于训练数据集质量。尽管如此，机器学习和深度学习在告警降噪方面前景广阔，生成式大模型的推理和自然语言识别能力为降噪技术提供了新方向。大模型可扮演安全专家，通过自动分析实现多维度降噪和解释，提高准确度，生成式AI的灵活应用将为降噪技术带来了新的发展机遇。

3 LLM Agent 降噪系统

为解决AI降噪的弊端，引入了LLM Agent^[10]框架，这是一种以LLM为调度控制的自动化降噪体系，涵盖了大小模型的降噪能力。本文试验中设计的Agent体系架构如图5所示。当告警数据接入降噪系统后，首先基于基础数据进行初步分析。根据分析结果，决策核心确定下一步行动，如调用Base64解码数据。通过“告警态势感知”辅助“LLM决策核心”进行规划，并引入“知识库”数据辅助研判，再调用“降噪工具集”补充研判信息，直至决策核心足以判断告警是否为噪声，最终输出结果。通过基于生成式大模型的Agent框架，在保持深度学习和大模型降噪能力的同时，可以显著优化降噪结果。此过程涉及研判步骤分析、辅助工具调用和信息检索等技术细节。本文的试验采用LangChain^[11]架构搭建Agent体系，后续模块详情将基于此框架进行讲解。

图5 基于LLM的Agent 降噪体系架构

3.1 降噪研判流程规划

大模型可以基于不同告警情况自主规划研判步骤并逐步执行。通过分步执行，逐步丰富研判信息，直到获取足够依据，做出正确判断。使用React[12]和Reflexion[13]方法，通过特定提示词模板，使LLM不断思考、行动，直到得出最终结果。在研判降噪过程中，只需定义其角色为“网络安全工程师”并提供详细描述，剩余调度由Agent完成。LLM的这种能力源于其大量数据和训练，在识别Base64、IP提取等功能上远超小模型。

在本文的试验中，React机制通过“提问”“思考”“行动”“行动输入”和“观察”5个部分实现Agent调度。大模型根据模板自动思考、探测、执行，直至判断告警是否为噪声。图6展示了LangChain实现React的提示词模板。通过该模板，Agent在接收到告警数据后，将其拼接至Question部分，然后通过3个步骤（Thought、Action、Observation）深入研判逻辑，最终在Final Answer处给出判断。

图6 LangChain React Agent 调度提示词模板

3.2 降噪研判辅助工具调用

相比于独立的LLM降噪研判，Agent的优势在于可以不断调用工具，丰富和完善研判所需的知识，从而基于综合信息做出更准确的判断。以图7展示的告警处理过程为例，Agent可以调用多种工具和多个维度的AI降噪模块，分析小模型研判的额外信息，如单一角度解释和研判置信度等。噪声研判的准确度依赖于充足的信息收集和总结。LLM的总结能力已接近甚至超过部分人类，加之工具调用自动化收集信息的能力，能够做出正确的判断。LLM的工具调用方式主要通过正确的提示词引导，使其输出特定格式的文本，再使用字符串匹配提取调用工具名称及必要参数。工具的返回结果通常需要转化为文本形式，便于大模型理解。当前常用的工具调用分为两种格式：以LangChain[11]为典型的自然语言模板模式和以ChatGPT^[14]为典型的Json格式。无论哪种格式，背后都需要通过微调以强化LLM对于格式化输入输出的规范性。

图7 工具预处理告警事件过程

3.3 降噪研判辅助信息检索

大模型的知识限制在面对不断更新的威胁情报和网络情况时无法保证准确性，简单工具调用也难以弥补知识差距。为此，引入检索增强生成（Retrieval-Augmented Generation，RAG）技术，实现威胁情报和知识图谱等外挂知识库与大模型的交互。其原理是在大量知识库中匹配当前上下文最相关的知识，作为提示词输入给大模型。部署流程包括数据库支持数据切片、计算当前上下文的向量值、使用算法计算相关性（如最大内积搜索^[15]和局部敏感哈希^[16]），然后将相关知识放入提示词中，实现知识扩充，提升降噪判断力。图8为载荷向量化的示例，生成的向量用于计算与数据库中保存的知识切片的相似度，选取最相关的知识切片用于辅助研判。

图8 告警事件载荷向量化示例

3.4 LLM Agent 降噪框架试验与当前挑战

在本文的试验中，设计并实现了一个基于百川2大模型和LangChain框架的LLM Agent降噪系统。首先，预处理了模拟的告警数据，并使用LangChain框架初始化“网络安全工程师”角色的LLM Agent，配置React Agent调度提示词模板，实现思考、行动和观察循环。其次，定义了一组降噪工具（如Base64解码和威胁情报查询工具）供Agent调用。再次，为弥补大模型知识的局限，配置了威胁情报和知识图谱数据库，并通过RAG技术实现与大模型的交互。最后，Agent接收到告警数据后，依次执行思考、行动和观察步骤，通过调用工具和检索知识库逐步完善研判信息，最终判断告警是否为噪声。尽管试验过程中遇到大模型性能、工具调用稳定性和知识库匹配问题，未能得出最终结果，但试验设计和初步实施为后续优化提供了重要参考。未来的技术挑战包括提升Agent对任务完成标志的识别能力、增强对告警情景的深度理解及改进信息检索的准确性，以形成更高效和稳定的降噪系统。

4 结束语

本文探讨了生成式AI技术在网络安全运营中提升告警降噪效率和准确性的潜力与应用。在数字化时代，网络安全挑战和告警疲劳问题日益突出，传统方法难以有效区分真假威胁，效率低下。生成式AI通过卓越的数据处理和学习能力，不仅能更准确地识别安全威胁、减少误报，还能显著提高安全事件处理效率。本文引入的LLM Agent降噪系统集成大小模型能力，结合告警态势感知和知识库数据，通过AI进行深入分析和决策，提高了降噪的准确率和处理效率。尽管生成式AI面临精确度和可解释性挑战，但通过技术创新和试验验证，这些问题有望得到解决。未来，生成式AI有望在网络安全领域，特别是在解决告警疲劳问题上，扮演关键角色，提高运营效率和准确度，成为该领域的关键技术。因此，生成式AI在告警降噪问题上的应用将带来重大突破和贡献。

本文刊于《信息通信技术与政策》2024年第8期