深度探索:LLaMa-3 網(wǎng)絡(luò)安全能力全解析
隨著人工智能技術(shù)的迅速發(fā)展,大模型在處理各種復(fù)雜任務(wù)中展示出了卓越的能力。特別是在網(wǎng)絡(luò)安全領(lǐng)域,大模型的應(yīng)用潛力巨大,它們可以幫助自動化處理大量數(shù)據(jù)、識別潛在威脅和提供安全建議。
然而,新型大模型層出不窮,要有效利用這些模型,首先必須驗證它們在理解和處理網(wǎng)絡(luò)安全相關(guān)問題上的能力。
4 月 19 日凌晨,Meta 開源了新一代 LLaMa-3 模型。作為當前最受矚目的大語言模型之一,LLaMa-3 在網(wǎng)絡(luò)安全領(lǐng)域的表現(xiàn)到底怎樣?如何將 LLaMa-3 這樣的新型大模型快速應(yīng)用到網(wǎng)絡(luò)安全問題解決中?
騰訊朱雀實驗室和騰訊安全科恩實驗室基于自研的網(wǎng)絡(luò)安全大模型評測平臺 SecBench,對 LLaMa-3 在網(wǎng)絡(luò)安全領(lǐng)域的能力表現(xiàn)進行了全面評測。
SecBench:評測網(wǎng)絡(luò)安全大模型的新基準
SecBench 積累了行業(yè)獨有的安全評測數(shù)據(jù)集,覆蓋多題型、多任務(wù),支持從能力、語言、領(lǐng)域、安全證書模擬考試等多個維度對大模型的網(wǎng)絡(luò)安全能力進行評估。
同時,SecBench 構(gòu)建了方便快捷的評測框架,支持不同數(shù)據(jù)、不同模型快速接入評測,輸出評測結(jié)果。
??https://secbe??nch.org/
LLaMa-3 網(wǎng)絡(luò)安全能力評測結(jié)果分析
SecBench 對 LLaMa-3 小參數(shù)量模型進行了全面評測,同時與上一代 LLaMa-2 進行了對比。綜合來看,LLaMa-3 的網(wǎng)絡(luò)安全能力相較于上一版本有顯著提升。
能力維度
能力維度主要從大模型通用能力的視角,評估大模型對網(wǎng)絡(luò)安全知識的記憶能力、邏輯推理能力和理解表達能力。在網(wǎng)絡(luò)安全綜合能力上,LLaMa-3 相較于 LLaMa-2 有較大提升(相對提升>44%);從各個細分能力維度上看,如對網(wǎng)絡(luò)安全知識的記憶能力、邏輯推理能力、理解表達能力等,LLaMa-3 也有較明顯的提升。特別是在對網(wǎng)絡(luò)安全知識的理解表達能力上,Llama-3-8B-Instruct 模型提升最為明顯。
語言維度
語言維度主要評估大模型對不同語言的網(wǎng)絡(luò)安全知識的學習理解能力,目前覆蓋中文和英文兩種主流語言。在語言維度的測試中,LLaMa-3 相較于 LLaMa-2 同樣有較大提升。同時,可以看出,前后兩個版本的模型在英文上的能力表現(xiàn)都優(yōu)于中文。
領(lǐng)域維度
領(lǐng)域維度從垂類安全視角,評估大模型對網(wǎng)絡(luò)安全九個子領(lǐng)域問題的解決能力。細分到網(wǎng)絡(luò)安全各個領(lǐng)域,Llama-3-8B 和Llama-3-8B-Instruct 綜合能力表現(xiàn)相當,在“云安全”和“應(yīng)用安全”兩個子領(lǐng)域表現(xiàn)最佳。
安全證書考試模擬評估
安全證書考試模擬評估是 SecBench 的特色能力,支持使用信息系統(tǒng)審計、云安全認證、云計算安全管理等經(jīng)典證書考試模擬試題,評測大模型通過安全證書考試的能力。從安全證書模擬評估上來看,LLaMa-3 已經(jīng)可以通過滲透測試和信息系統(tǒng)審計兩類模擬評估測試,相對于 LLaMa-2 的全部不及格也有明顯改善。雖然 LLaMa-3 仍然有部分安全證書模擬考試不及格,但從分數(shù)上看,LLaMa-3 相較于 LLaMa-2 還是有很大程度上的提升。
問題示例:
Llama-3-8B-Instruct 安全證書模擬評估結(jié)果:
Llama-3-8B 安全證書模擬評估結(jié)果:
Llama-2-7B-Chat 安全證書模擬評估結(jié)果:
Llama-2-7B 安全證書模擬評估結(jié)果:
綜合來看,LLaMa-3 小參數(shù)量模型的網(wǎng)絡(luò)安全能力相較于上一版本有明顯提升,但對比 Claude-3-Opus、GPT-4 等行業(yè)頭部大模型還有較大差距。Claude-3-Opus 與 GPT-4 在網(wǎng)絡(luò)安全上的綜合得分分別高達 0.816 和0.7984(更多排名請參考:secbench.org),對于幾類安全證書模擬評估也可以高分通過,LLaMa-3 的網(wǎng)絡(luò)安全能力還有較大提升空間。
本文轉(zhuǎn)載自司南 ??司南評測體系??,作者: OpenCompass
