自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

對大型語言模型的安全性能進行基準測試,誰更勝一籌?

安全 人工智能
SophosAI研究團隊創(chuàng)建了三個基于任務(wù)的基準,來評估各種LLM模型在網(wǎng)絡(luò)安全環(huán)境中的工作性能。

大型語言模型(LLM)機器學(xué)習技術(shù)正在迅速發(fā)展,催生了多個相互競爭的開源和專有架構(gòu)。除了與ChatGPT等平臺相關(guān)的生成式文本任務(wù)外,LLM還被證實在許多文本處理應(yīng)用程序中具有實用價值,可以協(xié)助編寫代碼以及對內(nèi)容進行分類。

SophosAI研究了許多在網(wǎng)絡(luò)安全相關(guān)任務(wù)中使用LLM的方法。但考慮到LLM的多樣性,研究人員面臨著一個具有挑戰(zhàn)性的問題:如何確定哪種模型最適合特定的機器學(xué)習問題。選擇模型的一個好方法是創(chuàng)建基準任務(wù),以便輕松快速地評估模型處理典型問題的能力。

目前,LLM是在某些基準上進行評估的,但這些測試只衡量了這些模型在基礎(chǔ)自然語言處理(NLP)任務(wù)上的通用能力。Huggingface Open LLM排行榜使用了七個不同的基準來評估Huggingface上所有可訪問的開源模型。

【圖1:Huggingface Open LLM排行榜】

然而,這些基準任務(wù)的性能可能無法準確反映模型在網(wǎng)絡(luò)安全環(huán)境中的工作性能。由于這些任務(wù)是通用化的,因此它們可能無法揭示由訓(xùn)練數(shù)據(jù)產(chǎn)生的模型在特定于安全的專業(yè)知識方面的差異。

為了克服這一點,SophosAI研究團隊創(chuàng)建了下述三個基于任務(wù)的基準,在研究人員看來,這些任務(wù)是大多數(shù)基于LLM的防御性網(wǎng)絡(luò)安全應(yīng)用程序的基本先決條件:

  • 通過將有關(guān)遙測的自然語言問題轉(zhuǎn)換為SQL語句,充當事件調(diào)查助手;
  • 從安全運營中心(SOC)數(shù)據(jù)生成事件摘要;
  • 評定事件嚴重程度。

這些基準測試有兩個目的:確定具有微調(diào)潛力的基礎(chǔ)模型,然后評估這些模型的開箱即用(未調(diào)優(yōu))性能。研究人員根據(jù)模型大小、流行程度、上下文大小等標準選擇了以下模型進行分析:

【接受基準測試的模型】

任務(wù)1:事件調(diào)查助手

在第一個基準測試任務(wù)中,主要目標是評估LLM作為SOC分析師助手的性能,通過基于自然語言查詢檢索相關(guān)信息來調(diào)查安全事件。在上下文模式知識的指導(dǎo)下,評估LLM將自然語言查詢轉(zhuǎn)換為SQL語句的能力,有助于確定它們是否適合此任務(wù)。

研究人員把這個任務(wù)看作是一個few-shot(一種提示技巧)提示問題。最初,他們向模型提供將請求轉(zhuǎn)換為SQL所需的指令。然后,他們?yōu)檫@個問題創(chuàng)建的所有數(shù)據(jù)表提供模式信息。最后,他們提供了三對示例請求及其對應(yīng)的SQL語句作為模型的示例,以及模型應(yīng)該轉(zhuǎn)換為SQL的第四對請求。

【圖2:顯示原始自然語言查詢研究中使用的“few-shot”方法的圖表】

這個任務(wù)的提示示例如下:

【圖3:事件調(diào)查助手基準測試中使用的示例提示】

每個模型生成的查詢的準確性是通過檢查輸出是否與預(yù)期的SQL語句完全匹配來衡量的。如果SQL不完全匹配,那么研究人員就會對創(chuàng)建的測試數(shù)據(jù)庫運行查詢,并將結(jié)果數(shù)據(jù)集與預(yù)期查詢的結(jié)果進行比較。最后,研究人員將生成的查詢和期望的查詢傳遞給GPT-4,以評估查詢的等效性。

測試結(jié)果:

【圖4:查詢生成基準的結(jié)果為OpenAI的GPT -4最準確,Meta的CodeLlaMa 34b、Anthropic的Claude模型和OpenAI的GPT-3.5 Turbo緊隨其后】

根據(jù)評估,GPT-4表現(xiàn)最好,準確率達到88%。緊隨其后的是另外三個模型:CodeLlama-34B-Instruct和兩個Claude模型,準確率均為85%。CodeLlama在這項任務(wù)中的出色表現(xiàn)是意料之中的,因為它專注于生成代碼。

總體而言,較高的準確率分數(shù)表明該任務(wù)對模型來說很容易完成。這表明,這些模型的開箱即用性能可以有效地幫助威脅分析人員調(diào)查安全事件。

任務(wù)2:事件摘要

在安全運營中心,威脅分析人員每天需要調(diào)查大量的安全事故。通常,這些事故表現(xiàn)為發(fā)生在用戶端點或網(wǎng)絡(luò)上的一系列事件,且與已檢測到的可疑活動相關(guān)。威脅分析人員可以利用這些信息進行進一步調(diào)查。然而,對于分析人員來說,這一系列的事件通常是異常繁雜的,并且需要花費大量時間來瀏覽,這使得識別關(guān)鍵事件變得困難。這就是LLM可能發(fā)揮作用的地方,因為它們可以幫助識別和組織基于特定模板的事件數(shù)據(jù),使分析人員更容易理解正在發(fā)生的事情并確定下一步行動。

對于這個基準測試,研究人員使用來自托管檢測和響應(yīng)(MDR) SOC的310個事件的數(shù)據(jù)集,每個事件都格式化為一系列JSON事件,并根據(jù)捕獲傳感器不同分為不同的模式和屬性。數(shù)據(jù)連同匯總數(shù)據(jù)的指令和用于匯總過程的預(yù)定義模板一起傳遞給模型。

【圖5:用于為事件摘要基準傳遞數(shù)據(jù)的模板】

研究人員使用了五個不同的指標來評估每個模型生成的摘要。首先,他們通過將生成的事件描述與“黃金標準”摘要(該摘要是Sophos分析師在GPT-4生成的最初版本基礎(chǔ)上進行改進和糾正形成的)進行比較,來驗證每個模型生成的事件描述是否成功地從原始事件數(shù)據(jù)中提取了所有相關(guān)細節(jié)。

【圖6:“黃金標準”摘要最初由GPT-4生成,然后由威脅分析人員手動檢查和修改,以確保準確性】

如果提取的數(shù)據(jù)不完全匹配,研究人員將通過計算從事件數(shù)據(jù)中提取的每個事實的最長公共子串(Longest Common Subsequence)和Levenshtein距離,來測量提取的所有細節(jié)與人類生成的報告的差距,并為每個模型計算平均分數(shù)。他們還使用BERTScore指標以及METEOR評估指標來評估摘要描述。

測試結(jié)果:

【圖7:事件摘要基準測試前8名模型】

在此次測試中,GPT-4再次脫穎而出,成為優(yōu)勢明顯的贏家,在各方面的表現(xiàn)都顯著優(yōu)于其他模型。但是GPT-4在一些定性指標上存在不公平的優(yōu)勢,尤其是基于嵌入的指標,因為用于評估的“黃金標準”是在GPT-4本身的幫助下開發(fā)的。

在其他模型中,Claude-v2模型和GPT 3.5 Turbo在專有模型領(lǐng)域表現(xiàn)優(yōu)異;Llama-70B型號是性能最好的開源模型。然而,研究人員也觀察到MPT-30B-Instruct模型和CodeLlama-34B-Instruct模型在產(chǎn)出良好的描述方面存在困難。

這些數(shù)字并不一定能完全說明這些模型對事件的總結(jié)有多好。為了更好地掌握每個模型發(fā)生了什么,研究人員仔細查看了由它們生成的描述,并對它們進行了定性評估。(為了保護客戶信息,這里將只顯示生成的事件摘要的前兩個部分。)

GPT-4在總結(jié)方面做得不錯;摘要雖然有點啰嗦,但很準確。GPT-4還正確提取了事件數(shù)據(jù)中的MITRE技術(shù)。然而,它忽略了區(qū)分MITRE技術(shù)與戰(zhàn)術(shù)的首行縮進細節(jié)。

【圖8:在人工審閱之前,GPT-4的后續(xù)版本自動生成的摘要】

Llama-70B也正確地提取了所有的細節(jié)。然而,它忽略了摘要中的一個事實(該帳戶被鎖定)。在總結(jié)中也未能將MITRE技術(shù)與戰(zhàn)術(shù)區(qū)分開來。

【圖9:Llama-70B生成的摘要】

另一方面,J2-Ultra表現(xiàn)不佳。它重復(fù)了三次MITRE技術(shù),完全遺漏了戰(zhàn)術(shù)。不過,好在摘要似乎非常簡明扼要。

【圖10:J2-Ultra生成的摘要】

MPT-30B-Instruct表現(xiàn)完全失敗,只是生成了一個段落,總結(jié)了它在原始數(shù)據(jù)中看到的內(nèi)容。

【圖11:MPT-30B的(編輯過的)摘要輸出】

同樣地,CodeLlaMa-34B的輸出也是完全不可用的。它反芻了事件數(shù)據(jù)而非摘要,甚至部分“幻覺”了一些數(shù)據(jù)。

任務(wù)3:事件嚴重性評估

研究人員評估的第三個基準測試任務(wù)是傳統(tǒng)ML-Sec問題的改進版本:確定觀察到的事件是無害活動的一部分還是攻擊的一部分。

這項任務(wù)的目標是確定LLM是否可以檢查一系列安全事件并評估其嚴重程度。為此,研究人員指示模型從五個選項中分配嚴重性等級:關(guān)鍵、高危、中危、低危和信息性。下面是研究人員為該任務(wù)提供給模型的提示格式:

【圖12:用于事件嚴重性評估的提示結(jié)構(gòu)】

該提示解釋了每個嚴重級別的含義,并提供了與前一個任務(wù)相同的JSON檢測數(shù)據(jù)。由于事件數(shù)據(jù)來源于實際事件,研究人員擁有每個案例的初始嚴重性評估和最終嚴重性級別。

測試結(jié)果:

研究人員針對3300多個案例評估了每個模型的性能并測量了結(jié)果,結(jié)果顯示它們都沒有表現(xiàn)出比隨機猜測更好的性能。研究人員使用最近鄰進行了zero-shot設(shè)置(藍色)和3-shot設(shè)置(黃色)實驗,但兩個實驗都沒有達到30%的準確率閾值。

【圖13:嚴重性分類測試的最佳結(jié)果】

作為基線比較,研究人員使用了XGBoost模型進行初始評估,這個性能用綠色條表示。

此外,研究人員還嘗試將GPT-3生成的嵌入應(yīng)用于警報數(shù)據(jù)(用紅色條表示)。結(jié)果觀察到其性能顯著提高,準確率達到50%。

總的來說,大多數(shù)模型都不具備執(zhí)行這種任務(wù)的能力。在此過程中,研究人員也觀察到了一些有趣的失敗行為,包括生成額外的提示指令、反芻檢測數(shù)據(jù),或是編寫生成嚴重性標簽作為輸出的代碼,而不是僅僅生成一個標簽。

結(jié)論

為安全應(yīng)用程序使用哪種模型是一個微妙的問題,涉及許多不同的因素。這些基準測試為起點提供了一些需要考慮的信息,但不一定能解決每個潛在的問題集。

大型語言模型在協(xié)助威脅搜索和事件調(diào)查方面還是有效的。然而,它們?nèi)匀恍枰恍┫拗坪椭笇?dǎo)。我們相信這個潛在的應(yīng)用可以使用開箱即用LLM,通過精心的提示工程來實現(xiàn)。

當涉及到從原始數(shù)據(jù)總結(jié)事件信息時,大多數(shù)LLM整體表現(xiàn)良好。然而,評估單個工件或工件組對于預(yù)先訓(xùn)練和公開可用的LLM來說仍然是一項具有挑戰(zhàn)性的任務(wù)。為了解決這個問題,可能需要一個專門接受過網(wǎng)絡(luò)安全數(shù)據(jù)培訓(xùn)的LLM。

就純粹的性能而言,我們可以看到GPT-4和Claude v2在所有基準測試中表現(xiàn)最好。然而,CodeLlama-34B模型在第一個基準測試任務(wù)中表現(xiàn)出色,獲得了榮譽提名,我們認為它是可以作為SOC助手部署的有競爭力的模型。

原文鏈接:https://news.sophos.com/en-us/2024/03/18/benchmarking-the-security-capabilities-of-large-language-models/

責任編輯:趙寧寧 來源: FreeBuf
相關(guān)推薦

2024-07-31 09:39:33

2020-03-06 09:21:28

PWA原生應(yīng)用Web

2010-05-28 11:21:17

2010-07-27 14:36:31

Flex Array

2014-03-06 15:07:41

青橙小米

2018-06-12 10:09:41

編程語言PythonJava

2022-07-20 08:16:54

Lombokjava工具

2020-02-02 15:42:22

PythonC++編程語言

2024-02-29 09:43:44

2017-06-08 15:38:41

2017-01-11 14:38:39

編程語言Java

2020-01-18 14:55:03

架構(gòu)運維技術(shù)

2023-08-09 18:08:35

ChatGPTStackOverflow

2015-12-08 13:48:50

大數(shù)據(jù)工具R語言Spark

2017-11-13 15:38:03

VMwareOpenStack混合云

2013-02-19 13:13:33

SurfaceiPad

2018-10-12 13:54:26

2019-01-04 09:59:14

KafkaRabbitMQMQ

2025-01-03 09:27:14

2017-04-15 18:58:31

PythonRuby編程語言
點贊
收藏

51CTO技術(shù)棧公眾號