公司动态

大语言模型安全能力评估 媒体

2025-05-13

大语言模型在网络安全中的应用研究

关键要点

大语言模型LLM在网络安全领域的应用迅速增长,涵盖从代码编写到内容分类等多种任务。我们创建了三项基准测试,以评估不同LLM模型在网络安全任务中的表现。在此次测试中,GPT4在自然语言转换为SQL查询和事件摘要生成等任务中表现最佳,但在事件严重性评估方面成绩欠佳。结果表明,大部分模型在特定网络安全任务上的表现尚不理想,且对事件严重性评估的准确性低于随机猜测。

随着大语言模型LLM机器学习技术的快速发展,市场上出现了多种竞争性开源和专有架构。除了与 ChatGPT 等平台相关的生成文本任务,LLM已经被证明在很多文本处理应用中有实际应用,包括辅助手写代码和内容分类等。

SophosAI 进行了多项研究,探索如何在网络安全相关任务中利用 LLM。然而,面对多种可供选择的 LLM,研究人员面临一个具有挑战性的问题:如何确定哪种模型最适合特定的机器学习问题。创建基准任务是一种有效的方法,这些任务可以快速评估模型的能力。

目前,LLM 的评估基于某些标准基准,但这些测试仅仅评估了这些模型在基本自然语言处理NLP任务上的整体能力。Huggingface Open LLM大语言模型排行榜利用了七个不同的基准来评估 Huggingface 上所有可用的开源模型。

图 1:Huggingface 开放 LLM 排行榜

然而,这些基准任务的表现可能并不能准确反映模型在网络安全环境中的实际应用能力。由于这些任务是通用的,可能无法揭示模型间基于训练数据而产生的安全特定专业知识的差异。

大语言模型安全能力评估 媒体

为此,我们创建了三项基准测试,这些任务被认为是大部分基于 LLM 的防御性网络安全应用程序的基本前提:

小火箭id共享充当事件调查助手,通过将自然语言问题转换为 SQL 语句来提取监测信息从安全运营中心SOC数据中生成事件摘要评估事件的严重性

这三项基准测试有两个目的:一是识别出具有潜在微调能力的基础模型;二是评估这些模型未调优的原始性能。我们对 14 个模型进行了测试,包括 Meta 的 LlaMa2 和 CodeLlaMa 模型的三种不同规模版本。以下是我们所选择的模型,选择标准包括模型规模、流行度、上下文大小和最新程度:

模型名称规模提供者最大上下文窗口GPT4176TOpenAI8k 或 32kGPT35 TurboOpenAI4k 或 16kJurassic2UltraAI21 Labs8kJurassic2MidAI21 Labs8kClaudeInstantAnthropic100kClaudev2Anthropic100kAmazonTitanLarge45BAmazon4kMPT30BInstruct30BMosaic ML8kLlaMa2ChatHF7B、13B、70BMeta4kCodeLlaMa7B、13B、34B4k

在前两项任务中,OpenAI 的 GPT4 明显表现最佳。然而,在我们的最后一个基准测试中,没有任何模型在分类事件严重性方面表现出足够的准确性,无法超过随机选择。

任务 1:事件