自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

網(wǎng)絡(luò)安全大模型評測平臺SecBench發(fā)布

安全
2024年1月19日,網(wǎng)絡(luò)安全大模型評測平臺SecBenc正式發(fā)布,該平臺由騰訊朱雀實驗室和騰訊安全科恩實驗室,聯(lián)合騰訊混元大模型、清華大學江勇教授/夏樹濤教授團隊、香港理工大學羅夏樸教授研究團隊、上海人工智能實驗室OpenCompass團隊共同建設(shè),主要解決開源大模型在網(wǎng)絡(luò)安全應(yīng)用中安全能力的評估難題,旨在為大模型在安全領(lǐng)域的落地應(yīng)用選擇基座模型提供參考,加速大模型落地進程。

2024年1月19日,網(wǎng)絡(luò)安全大模型評測平臺SecBenc正式發(fā)布,該平臺由騰訊朱雀實驗室和騰訊安全科恩實驗室,聯(lián)合騰訊混元大模型、清華大學江勇教授/夏樹濤教授團隊、香港理工大學羅夏樸教授研究團隊、上海人工智能實驗室OpenCompass團隊共同建設(shè),主要解決開源大模型在網(wǎng)絡(luò)安全應(yīng)用中安全能力的評估難題,旨在為大模型在安全領(lǐng)域的落地應(yīng)用選擇基座模型提供參考,加速大模型落地進程。同時,通過建設(shè)安全大模型評測基準,為安全大模型研發(fā)提供公平、公正、客觀、全面的評測能力,推動安全大模型建設(shè)。

行業(yè)首發(fā),彌補大模型在網(wǎng)絡(luò)安全垂類領(lǐng)域評測空白

202211月ChatGPT發(fā)布以來,AI大模型在全球范圍內(nèi)掀起了有史以來規(guī)模最大的人工智能浪潮,大模型的落地進程也隨之加速。然而,在網(wǎng)絡(luò)安全應(yīng)用中,大模型研發(fā)人員如何選擇合適的基座模型,當前大模型的安全能力是否已經(jīng)達到業(yè)務(wù)應(yīng)用需求,都成為亟待解決的問題。

SecBench網(wǎng)絡(luò)安全大模型評測平臺,將重點從能力、語言、領(lǐng)域、安全證書考試四個維度對大模型在網(wǎng)絡(luò)安全領(lǐng)域的各方面能力進行評估,為大模型研發(fā)人員、學術(shù)研究者提供高效、公正的基座模型選型工具和研究參考。

圖 1. SecBench網(wǎng)絡(luò)安全大模型評測整體設(shè)計架構(gòu)


圖 2. GPT-4在能力維度、語言維度以及安全領(lǐng)域能力的評估結(jié)果



圖 3. GPT-4在各類安全證書考試中的評估結(jié)果(綠色為通過考試)

SecBench設(shè)計架構(gòu)

圖1. 為SecBench網(wǎng)絡(luò)安全大模型評測初期規(guī)劃的架構(gòu),主要圍繞三個維度進行構(gòu)建:

一是積累行業(yè)獨有的網(wǎng)絡(luò)安全評測數(shù)據(jù)集。評測數(shù)據(jù)是評測基準建設(shè)的基礎(chǔ),也是大模型能力評測最關(guān)鍵的部分。目前行業(yè)內(nèi)還沒有專門針對大模型在網(wǎng)絡(luò)安全垂類領(lǐng)域的評測基準/框架,主要原因也是由于評測收據(jù)缺失的問題。因此,構(gòu)建網(wǎng)絡(luò)安全大模型評測基準的首要目標是積累行業(yè)內(nèi)獨有的網(wǎng)絡(luò)安全評測數(shù)據(jù)集,覆蓋多語言、多題型、多能力、多領(lǐng)域,以全面地評測大模型安全能力。

二是搭建方便快捷的網(wǎng)絡(luò)安全大模型評測框架。“百模大戰(zhàn)”下,大模型的形態(tài)各異,有HuggingFace上不斷涌現(xiàn)的開源大模型,有類似GPT-4、騰訊混元、文心一言等大模型API服務(wù),以及自研本地部署的大模型。評測框架如何支持各類大模型的快速接入、快速評測也很關(guān)鍵。此外,評測數(shù)據(jù)的多樣性也挑戰(zhàn)著評測框架的靈活性,例如,選擇題和問答題往往需要不同的prompt和評估指標,如何快速對比few shot和zero shot的差異。因此,需要搭建方便快捷的網(wǎng)絡(luò)安全大模型評測框架,以支持不同模型、不同數(shù)據(jù)、不同評測指標的靈活接入、快速評測。

三是輸出全面、清晰的評測結(jié)果。網(wǎng)絡(luò)安全大模型研發(fā)的不同階段其實對評測的需求不同。例如,在研發(fā)初期進行基座模型選型階段,通常只需要了解各類基座模型的能力排名、對比不同模型能力差異;而在網(wǎng)絡(luò)安全大模型研發(fā)階段,就需要了解每次迭代模型能力的變化,仔細分析評估結(jié)果等。因此,網(wǎng)絡(luò)大模型評測需要輸出全面、清晰的評測結(jié)果,如評測榜單、能力對比、中間結(jié)果等,以支持不同研發(fā)階段的需求。

SecBench除了圍繞上述三個目標進行建設(shè)外,還設(shè)計了兩個網(wǎng)絡(luò)安全特色能力:安全領(lǐng)域評測安全證書考試評估。安全領(lǐng)域評測從垂類安全視角,評測大模型在九個安全領(lǐng)域的能力;安全證書考試評估支持經(jīng)典證書考試評估,評測大模型通過安全證書考試的能力。

SecBench評測框架

SecBench網(wǎng)絡(luò)安全評測框架可以分為數(shù)據(jù)接入、模型接入、模型評測、結(jié)果輸出四個部分,通過配置文件配置數(shù)據(jù)源、評測模型、評估指標,即可快速輸出模型評測結(jié)果。

  • 數(shù)據(jù)接入:在數(shù)據(jù)接入上,SecBench支持多類型數(shù)據(jù)接入,如選擇題、判斷題、問答題等,同時支持自定義數(shù)據(jù)接入及評測prompt模板定制化。
  • 模型接入:在模型接入上,SecBench同時支持HuggingFace開源模型、大模型API服務(wù)、本地部署大模型自由接入,還支持用戶自定義模型。
  • 模型評測:在模型評測上,SecBench支持多任務(wù)并行,加快評測速度。此外,SecBench已內(nèi)置多個評估指標以支持常規(guī)任務(wù)結(jié)果評估,也支持自定義評估指標滿足特殊需求。
  • 結(jié)果輸出:在結(jié)果輸出上,SecBench不僅可以將評測結(jié)果進行前端頁面展示,還可以輸出模型評測中間結(jié)果,如配置文件、輸入輸出、評測結(jié)果文件等,支持網(wǎng)絡(luò)安全大模型研發(fā)人員數(shù)據(jù)分析需求。

圖 4. SecBench網(wǎng)絡(luò)安全大模型評測框架

SecBench評測數(shù)據(jù)

網(wǎng)絡(luò)安全大模型的能力難以評測,主要原因之一還是網(wǎng)絡(luò)安全垂類數(shù)據(jù)的缺失。為了解決這一問題,SecBench目前已經(jīng)收集整理了12個安全評測數(shù)據(jù)集,累計數(shù)據(jù)10000條。

  • 語言維度:覆蓋中文、英文兩類常見語言的評測。
  • 能力維度:從安全視角,支持大模型對安全知識的知識記憶能力、邏輯推理能力、理解表達能力的評估。
  • 領(lǐng)域維度:支持大模型在不同安全領(lǐng)域能力的評測,包括數(shù)據(jù)安全、應(yīng)用安全、端點與主機安全、網(wǎng)絡(luò)與基礎(chǔ)架構(gòu)安全、身份與訪問控制、基礎(chǔ)軟硬件與技術(shù)、安全管理等。
  • 證書考試:SecBench還積累了各類安全證書模擬試題,支持大模型安全證書等級考試評估。


圖 5. SecBench網(wǎng)絡(luò)安全大模型評測數(shù)據(jù)分布

當前SecBench評測數(shù)據(jù)仍然存在多樣性不足、分布不均勻等問題,當前正在持續(xù)補充建設(shè)多題型、多能力、多維度的評測數(shù)據(jù)。

SecBench評測結(jié)果

SecBench正在逐步接入大模型進行網(wǎng)絡(luò)安全能力評測,目前主要針對經(jīng)典GPT模型以及小規(guī)模開源模型進行評測榜單輸出。展示模型在能力、語言、安全領(lǐng)域不同能力維度的結(jié)果,同時支持安全等級證書考試結(jié)果輸出。后續(xù)將持續(xù)接入商用大模型、安全大模型,支持模型能力對比等能力。

圖 6. SecBench網(wǎng)絡(luò)安全大模型評測榜單

隨著大模型在網(wǎng)絡(luò)安全領(lǐng)域的落地應(yīng)用加速,網(wǎng)絡(luò)安全大模型的評測變得尤為關(guān)鍵。SecBecnch初步建立起圍繞網(wǎng)絡(luò)安全垂類領(lǐng)域的評測能力,以更好地支持網(wǎng)絡(luò)安全大模型的研發(fā)及落地應(yīng)用。此外為評估大模型在Prompt安全方面的表現(xiàn),騰訊朱雀實驗室已聯(lián)合清華大學深圳國際研究生院,發(fā)布了《大語言模型(LLM) 安全性測評基準》。

未來展望

SecBecnch初步建立起圍繞網(wǎng)絡(luò)安全垂類領(lǐng)域的評測能力,然而還有許多需要優(yōu)化迭代的地方:一是仍需持續(xù)補充構(gòu)建高質(zhì)量的網(wǎng)絡(luò)安全評測數(shù)據(jù),覆蓋多領(lǐng)域、多題型,以更好地支持模型在網(wǎng)絡(luò)安全領(lǐng)域的全面評測;二是快速跟進大模型評測,對于新發(fā)布的大模型,能夠及時輸出評測結(jié)果;三是豐富模型結(jié)果呈現(xiàn)方式,支持模型對比、結(jié)果分析等功能,以滿足不同用戶的使用需求。SecBench也希望能夠引入更多的合作伙伴,包括學術(shù)界、工業(yè)界相關(guān)從業(yè)者,共創(chuàng)共贏,共同推動網(wǎng)絡(luò)安全大模型的發(fā)展。


責任編輯:鳶瑋 來源: 騰訊
相關(guān)推薦

2024-04-17 12:51:49

2024-02-26 12:30:17

2012-03-13 13:44:01

Hillstone網(wǎng)絡(luò)安全

2012-04-24 18:39:10

HillstoneHSA

2023-10-07 00:23:34

2021-11-12 06:05:38

網(wǎng)絡(luò)安全安全預測網(wǎng)絡(luò)攻擊

2023-09-03 16:20:30

2023-11-06 13:56:20

2023-11-09 14:38:28

2023-11-20 14:34:09

2021-11-19 11:51:27

CISA網(wǎng)絡(luò)安全美國

2025-03-04 10:08:07

2024-08-06 16:33:10

2024-06-24 21:30:43

2010-08-30 15:48:09

2022-12-29 07:40:58

2010-11-26 12:47:04

2009-03-11 14:14:47

點贊
收藏

51CTO技術(shù)棧公眾號