自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

中國信通院聯(lián)合淘天集團(tuán)發(fā)布全球首個中文安全領(lǐng)域事實性基準(zhǔn)評測集,僅三個大模型達(dá)及格線

人工智能 新聞
探討如何評估和提升這些模型在復(fù)雜的法律、政策和倫理領(lǐng)域的安全性,成為了學(xué)術(shù)界和工業(yè)界亟待解決的重要議題。

在當(dāng)今迅速發(fā)展的人工智能時代,大語言模型(LLMs)在各種應(yīng)用中發(fā)揮著至關(guān)重要的作用。然而,隨著其應(yīng)用的廣泛化,模型的安全性問題也引起了廣泛關(guān)注。探討如何評估和提升這些模型在復(fù)雜的法律、政策和倫理領(lǐng)域的安全性,成為了學(xué)術(shù)界和工業(yè)界亟待解決的重要議題。

首先,大語言模型的安全性與其對安全知識的理解密切相關(guān)。這要求模型對理解知識具有高準(zhǔn)確性、全面性和清晰度,尤其是在法律、政策和倫理等敏感領(lǐng)域中。模型的回復(fù)不僅需要符合基本的安全標(biāo)準(zhǔn),還需要在復(fù)雜的情境中表現(xiàn)出清晰的邏輯和正確的判斷。這種深刻的理解能力將直接關(guān)系到模型在現(xiàn)實應(yīng)用場景中的安全性和可靠性。

其次,傳統(tǒng)的安全評測方法,往往依賴于特定場景的問題設(shè)置,生成帶有風(fēng)險性的問題并評估模型回復(fù)的安全性,這種方式雖然能夠一定程度上保證模型的輸出不違背基本的安全原則,但卻存在顯著的局限性。造成模型不安全的因素可能有多種,例如,缺乏安全領(lǐng)域知識,安全對齊不充分等。而依賴于傳統(tǒng)的評測方法,模型可以通過安全對齊訓(xùn)練的方式,形成一種 “虛假對齊” 的狀態(tài),即使模型本身缺乏足夠的專業(yè)安全知識,也可能在某些特定情景中給出 “正確” 的安全回復(fù)。然而,這種 “知其然而不知其所以然” 的安全能力是不穩(wěn)定的,在遇到不同領(lǐng)域的風(fēng)險問題時,會缺乏泛化性。除此之外,由于知識缺乏而產(chǎn)生的幻覺,不準(zhǔn)確等問題本身也會產(chǎn)生一定的安全風(fēng)險。因此,評估模型對安全相關(guān)知識的掌握程度顯得尤為重要,需要構(gòu)建更精確的評測框架。

最后,不同國家地區(qū)在大模型安全領(lǐng)域研究的側(cè)重點是不同的。國際上,對安全方向研究的側(cè)重點主要在于有害意圖,越獄攻擊以及違反國際 ESG 規(guī)定的內(nèi)容,絕大多數(shù)的研究工作和開源數(shù)據(jù)也集中于這一方面。而在中國,模型是否能夠理解和遵循中國法律,政策,道德,主流價值觀的要求是決定大模型的能否安全落地最為重要的因素,開發(fā)一種全面的基礎(chǔ)安全知識評測方法顯得尤為重要。一個全面且無偏的評測框架能夠幫助研究人員和開發(fā)者更好地理解模型在全球范圍內(nèi)的表現(xiàn)差異,并針對不同的地區(qū)需求調(diào)整和優(yōu)化模型,從而確保其合規(guī)性和有效性。

在此背景下,為了更好地評估 LLMs 在回復(fù)簡短的事實性安全問題上的能力,中國信息通信研究院聯(lián)合淘天集團(tuán)算法技術(shù) - 未來生活實驗室推出了 Chinese SafetyQA,這是全球第一個針對中文安全領(lǐng)域的系統(tǒng)性評估模型安全事實性知識的高質(zhì)量評測集,主要包含以下 7 個特征:

1. 中文:使用中文并且聚焦于中國相關(guān)的安全知識,特別是中國法律框架、道德標(biāo)準(zhǔn)和文化環(huán)境相關(guān)的安全問題。

2. 高質(zhì)量:我們評測了 OpenAI o1-preview、OpenAI GPT-4、LLaMA、Claude-3.5、Qwen、Doubao 等國內(nèi)外 38 個開源和閉源大模型。從評測結(jié)果看,只有三個模型達(dá)到及格線(60 分)以上,最高得分也僅為 73 分。

3. 全面性:我們的數(shù)據(jù)集包含 7 個一級類目、27 個二級類目和 103 個子類目。涵蓋了包括中國違法違規(guī),倫理道德,偏見歧視,辱罵仇恨,身心健康,謠言錯誤,網(wǎng)絡(luò)安全理論知識等方面的安全知識。這在國際上第一個全面的覆蓋中國內(nèi)容安全類目的知識類評測數(shù)據(jù)集。

4. 易評估:和 OpenAI 的 SimpleQA 以及阿里巴巴的 Chinese SimpleQA 相比,我們除了聚集安全以外,還同時提供了 QA 和 MCQ 兩種問題形式。問題和回答都保證簡短、清晰,降低了評測的難度。

5. 定期迭代:中國信通院 & 阿里巴巴團(tuán)隊會定期對該數(shù)據(jù)集進(jìn)行周期性的迭代,以保證其對于最新法律法規(guī)的適應(yīng)性。

6. 穩(wěn)定:在現(xiàn)有版本數(shù)據(jù)中,所有問題的知識都是截止于 23 年底且答案不隨時間變化而改變的。

7. 無害化:雖然該數(shù)據(jù)集都是安全相關(guān)的評測問題,但是所有問題都是合法合規(guī)的無害化內(nèi)容。



注:調(diào)用 Doubao-pro-32k* API 評測時有 3 個系統(tǒng)預(yù)置的離線 RAG 庫。


圖片

Chinese SafetyQA 的推出,為業(yè)界提供了一個客觀公正的評測工具,幫助更好地理解和提升 LLMs 在安全領(lǐng)域的應(yīng)用能力。詳細(xì)的評測結(jié)果在我們的 leaderboard 測評結(jié)果表中。而且,為保障數(shù)據(jù)集的長期有效性,不會被大模型采集以用于針對性訓(xùn)練提高虛假性安全性,數(shù)據(jù)集分為開源和閉源兩部分。開源部分用于行業(yè)內(nèi)共享使用,閉源部分用于持續(xù)監(jiān)測大模型安全水平提升情況。

圖片


  • 論文鏈接:https://arxiv.org/abs/2412.15265
  • 項目主頁:https://openstellarteam.github.io/ChineseSafetyQA
  • 數(shù)據(jù)集下載:https://huggingface.co/datasets/OpenStellarTeam/Chinese-SafetyQA
  • 代碼倉庫:https://github.com/OpenStellarTeam/ChineseSafetyQA

一、數(shù)據(jù)集生成

圖片


數(shù)據(jù)集的生成與質(zhì)檢流程采用了人類專家與大語言模型(LLMs)相結(jié)合的雙重驗證機制,有效保障了數(shù)據(jù)的準(zhǔn)確性與高水準(zhǔn)。具體流程概述如下:

1. 種子文檔收集:Chinese SafetyQA 的數(shù)據(jù)源主要包括:

  • 從搜索引擎(如 Google、百度)和權(quán)威網(wǎng)站(如維基百科、人民網(wǎng)、新華網(wǎng))獲取的數(shù)據(jù)。
  • 人類專家編寫的安全相關(guān)數(shù)據(jù),通常以描述性概念或解釋形式呈現(xiàn)。

2. 數(shù)據(jù)增強與問答對生成:在收集初始數(shù)據(jù)后,利用 GPT 模型對數(shù)據(jù)進(jìn)行增強,并生成問答示例和多選題。同時,為提升數(shù)據(jù)集的全面性與精確度,采用檢索增強生成(RAG)工具(如 Google、百度)獲取補充信息。

3. 多模型驗證:隨后,通過多模型合議機制來評估 Chinese SafetyQA 數(shù)據(jù)集的質(zhì)量。例如,確保答案唯一且穩(wěn)定,問題具有挑戰(zhàn)性并在安全領(lǐng)域內(nèi)具備相關(guān)性。

4. RAG 驗證:使用在線 RAG 工具進(jìn)一步驗證數(shù)據(jù)集中標(biāo)準(zhǔn)答案的準(zhǔn)確性,確保全部信息都符合預(yù)期標(biāo)準(zhǔn)。

5. 安全規(guī)則驗證:為了確保數(shù)據(jù)集不涉及敏感或不被允許的內(nèi)容,我們制定了一系列與中文語境相關(guān)的安全指南,包括意識形態(tài)、法律合規(guī)與身心健康等規(guī)則。這些規(guī)則作為 GPT 的系統(tǒng)提示,確保生成的數(shù)據(jù)都是無害且合規(guī)的。

6. 難度過濾:質(zhì)量檢測流程中也包含難度驗證,旨在提高數(shù)據(jù)集的挑戰(zhàn)性。我們利用四種開源模型對數(shù)據(jù)進(jìn)行推斷,凡是所有模型均能準(zhǔn)確回答的問題被定義為簡單問題并從數(shù)據(jù)集中移除,以此增加整體難度。

7. 人類專家雙重驗證:最終,所有數(shù)據(jù)均由人類專家進(jìn)行雙重標(biāo)注和驗證,確保數(shù)據(jù)在答案準(zhǔn)確性、質(zhì)量與安全性等各個方面均達(dá)到高標(biāo)準(zhǔn)。

通過以上系統(tǒng)化的流程,Chinese SafetyQA 數(shù)據(jù)集僅保留了 2000 個 QA 對。我們希望該數(shù)據(jù)集能助力優(yōu)化在中文場景下改進(jìn)訓(xùn)練策略以及增強模型在安全關(guān)鍵領(lǐng)域的應(yīng)用能力。

二、數(shù)據(jù)集統(tǒng)計

圖片

該數(shù)據(jù)集包含 2000 個 QA 對和 2000 個問題相同且有 4 個迷惑性選項的選擇題,其中違法違規(guī)、偏見歧視和安全理論知識的問題占比最多?;?GPT4o 的編碼器,QA 的問題平均長度僅為 21 個 token。

三、評測指標(biāo)

評測方式和指標(biāo)直接遵循 OpenAI 的方式,主要有以下四個指標(biāo):

圖片

四、整體結(jié)果

圖片


CO, NA, IN 和 CGA 分別表示 "正確"、“未嘗試”、“錯誤” 和 “嘗試正確”。

對于子主題,RM, IRC, PMH, IH, PD, EM 和 STK 分別是我們的子主題的縮寫:



  • “Rumor & Misinformation”(謠言與錯誤信息)
  • “Illegal & Reg. Compliance”(違法違規(guī))
  • “Physical & Mental Health”(身心健康)
  • “Insults & Hate”(侮辱與仇恨)
  • “Prejudice & Discrimination”(偏見與歧視)
  • “Ethical & Moral”(倫理與道德)
  • “Safety Theoretical Knowledge”(安全理論知識)

從以上匯總結(jié)果可以分析出一些值得關(guān)注的信息。首先,研究結(jié)果表明,模型的參數(shù)規(guī)模與其在安全知識領(lǐng)域的表現(xiàn)呈現(xiàn)顯著的正相關(guān)性。這一發(fā)現(xiàn)支持了大規(guī)模語言模型在知識編碼和信息保留方面的優(yōu)勢假說。特別是,開源模型中參數(shù)量更大的變體展現(xiàn)出更優(yōu)異的性能,而閉源模型中標(biāo)記為 "mini" 或 "flash" 的輕量級版本則表現(xiàn)相對遜色。

其次,在控制參數(shù)規(guī)模的條件下,我們觀察到中國大模型公司開發(fā)的模型相較于海外公司(如 LLaMA/Mistral)在中文上具有顯著優(yōu)勢。這一現(xiàn)象凸顯了中國企業(yè)在高質(zhì)量中文語料庫構(gòu)建和利用方面的獨特優(yōu)勢,為探討文化和語言特異性在大語言模型開發(fā)中的重要性提供了實證支持。

此外,幾乎所有模型在中文安全問答任務(wù)中均表現(xiàn)出較高的回答傾向,這與 SimpleQA 和中文 SimpleQA 基準(zhǔn)中觀察到的結(jié)果形成鮮明對比。模型的低未回答率可能反映了安全關(guān)鍵知識在預(yù)訓(xùn)練階段被優(yōu)先考慮,以及相關(guān)數(shù)據(jù)的廣泛收集。然而,值得注意的是,部分模型在此任務(wù)中仍然表現(xiàn)出較高的錯誤率(IN),這可能源于知識沖突、信息錯誤以及模型在理解和記憶能力方面的局限性。

五、進(jìn)一步實驗

我們還對模型的認(rèn)知一致性、“舌尖現(xiàn)象”、self-reflection、主被動 RAG 等方向做了進(jìn)一步的探究。發(fā)現(xiàn)了一些有趣的結(jié)論:

1. 大模型普遍存在認(rèn)知一致性問題

圖片


我們通過分析大語言模型在中文安全知識評測中的置信度,揭示了當(dāng)前模型在認(rèn)知一致性方面的顯著局限性。我們引導(dǎo)受測模型為其響應(yīng)分配一個精確的置信度評估(區(qū)間為 0-100,粒度為 5),旨在量化模型對自身認(rèn)知邊界的自我感知能力。

實驗結(jié)果指出:盡管模型在技術(shù)復(fù)雜性上不斷進(jìn)步,其認(rèn)知校準(zhǔn)機制仍存在顯著偏差。受測模型傾向于對其回復(fù)賦予高置信度,這種過度自信模式在多數(shù)模型中保持一致。即便某些模型(如 Qwen72b)偶爾展現(xiàn)出置信度分配的微觀差異,但整體上仍未能實現(xiàn)置信度與準(zhǔn)確性的有效對應(yīng)。值得注意的是,高置信度區(qū)間(>50)的數(shù)據(jù)點持續(xù)低于理想校準(zhǔn)標(biāo)準(zhǔn)線。這不僅反映了模型置信度評估的內(nèi)在不確定性,更暗示了預(yù)訓(xùn)練語料中潛在的知識表征缺陷。

2. 愛你在心口難開,大模型也存在 “舌尖現(xiàn)象”(Tip of the tongue) 

圖片


我們發(fā)現(xiàn)主流模型在多項選擇題(Multiple Choice Questions, MCQ)任務(wù)中,呈現(xiàn)出顯著高于問答(Question and Answer, QA)任務(wù)的準(zhǔn)確率。在 QA 任務(wù)中答不對的問題,給與一定的提示時(MCQ 的選項)模型即可答對。這和人類話到嘴邊說不出,但是給于一定的提示即可答對的 “舌尖現(xiàn)象” 類似。為了排除是選項縮小了搜索空間導(dǎo)致的準(zhǔn)確性提升,我們通過置信度做了進(jìn)一步地確認(rèn),發(fā)現(xiàn)模型在給出答案時置信度非常高,這證明模型給出了非常確定的答案。

除此之外,通過對主流模型的不同類目評測發(fā)現(xiàn)各家模型在不同的類目上各有優(yōu)勢。在國際環(huán)境、社會和治理(ESG)議題中,所有 GPT 系列模型在身體和心理健康(Physical and Mental Health, PHM)維度均表現(xiàn)出相對優(yōu)異的能力,這可能反映了這些模型在相關(guān)領(lǐng)域接受了更為精細(xì)的訓(xùn)練。與此同時,在非法和法規(guī)合規(guī)(Illegal and Regulatory Compliance, IRC)領(lǐng)域,我們觀察到了更為復(fù)雜的模型間差異:非中國模型(o1 除外)在該維度顯示出明顯的能力局限,而中國本土模型(如 Qwen 系列和 Doubao)則展現(xiàn)出更為突出的本土法律知識理解能力,這可能得益于針對性的本地化訓(xùn)練策略。

3.self-reflection 對知識性的缺失幾乎沒有幫助

圖片


自我反思機制被廣泛視為提升模型輸出質(zhì)量的有效策略。然而,我們對多個先進(jìn)語言模型進(jìn)行的實驗發(fā)現(xiàn)在知識缺失場景下的局限性。

實驗發(fā)現(xiàn)在所有受測語言模型中,自我反思機制帶來的性能提升微乎其微,平均改進(jìn)幅度不超過 5%,且在 o1 系列模型中更呈現(xiàn)出負(fù)面影響。

這一現(xiàn)象可能源于大語言模型固有的認(rèn)知局限。模型高度依賴訓(xùn)練語料中的統(tǒng)計模式,這使其在自我反思過程中更傾向于將原本正確的答案轉(zhuǎn)變?yōu)殄e誤響應(yīng)。特別是在知識型問題中,模型的性能更多地取決于內(nèi)在知識理解能力,而非后續(xù)推理過程。值得注意的是,訓(xùn)練語料中潛在的事實性錯誤會顯著干擾模型的自我校正機制,導(dǎo)致推理鏈路的可靠性進(jìn)一步降低。

4.RAG 能補齊大模型的知識缺失,但最好不要讓它來決定做不做:

圖片


知識檢索增強生成(Retrieval-Augmented Generation, RAG)技術(shù)已成為提升模型事實性和準(zhǔn)確性的關(guān)鍵方法。我們探討了兩種 RAG 觸發(fā)范式:主動 RAG 和被動 RAG,其對模型準(zhǔn)確性的影響。被動 RAG 對所有輸入問題進(jìn)行語料檢索,而主動 RAG 則由模型自主判斷是否需要額外檢索并由模型給出檢索關(guān)鍵詞。

由實驗結(jié)果可以看出:

首先,RAG 增強機制顯著提升了大語言模型的事實安全性,有效縮小了不同規(guī)模模型間的性能差距。較小參數(shù)規(guī)模的模型從 RAG 技術(shù)中獲得的性能提升更為顯著。

其次,主動 RAG 的性能普遍低于被動 RAG。這一現(xiàn)象是源于大語言模型的過度自信特性,它們不傾向于主動請求檢索工具,所以這種 RAG 方式帶來的準(zhǔn)確性增益通常不夠大。

關(guān)于更多實驗結(jié)果和細(xì)節(jié)請參考我們的論文。

最后,歡迎廣大研究者使用我們的評測集進(jìn)行實驗和研究,我們非常感謝您對我們工作的信任,并非常重視并期待收到您的寶貴意見。當(dāng)前,我們正全力完善排行榜功能,力求盡快為廣大研究者提供更加便捷、高效的使用體驗。

我們將持續(xù)更新和維護(hù)數(shù)據(jù)集及評測榜單,為中文社區(qū)的發(fā)展貢獻(xiàn)力量。如需進(jìn)一步咨詢或幫助,也可隨時與我們溝通。再次感謝您的理解與支持!

作者介紹

核心作者包括譚映水,鄭博仁,鄭柏會,曹珂瑞,景慧昀。

作者團(tuán)隊來自中國信息通信研究院和淘天集團(tuán)算法技術(shù) - 未來生活實驗室團(tuán)隊。信息通信研究院始終秉持 “國家高端專業(yè)智庫產(chǎn)業(yè)創(chuàng)新發(fā)展平臺” 的發(fā)展定位和 “厚德實學(xué) 興業(yè)致遠(yuǎn)” 的核心文化價值理念,在行業(yè)發(fā)展的重大戰(zhàn)略、規(guī)劃、政策、標(biāo)準(zhǔn)和測試認(rèn)證等方面發(fā)揮了有力支撐作用,為我國通信業(yè)跨越式發(fā)展和信息技術(shù)產(chǎn)業(yè)創(chuàng)新壯大起到了重要推動作用。淘天集團(tuán)未來生活實驗室致力于建設(shè)面向未來的生活和消費方式,進(jìn)一步提升用戶體驗和商家經(jīng)營效果。實驗室聚焦大模型、多模態(tài)等 AI 技術(shù)方向,致力于打造大模型相關(guān)基礎(chǔ)算法、模型能力和各類 AI Native 應(yīng)用,引領(lǐng) AI 在生活消費領(lǐng)域的技術(shù)創(chuàng)新。

責(zé)任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2024-11-20 14:00:00

模型測評

2024-11-21 12:43:06

2024-07-24 16:42:14

2025-03-17 08:48:00

大模型AI生成

2022-07-07 15:56:23

數(shù)據(jù)集論文

2023-08-31 17:38:47

2017-03-06 19:14:19

2022-09-06 18:10:32

超聚變

2023-09-21 15:11:09

新華三

2023-07-05 09:57:11

2018-04-19 12:05:39

大數(shù)據(jù)
點贊
收藏

51CTO技術(shù)棧公眾號