媲美OpenAI事實性基準,這個中文評測集讓o1-preview剛剛及格
核心作者包括賀彥程,李世龍,劉佳恒,蘇文博。作者團隊來自淘天集團算法技術 - 未來生活實驗室團隊。為了建設面向未來的生活和消費方式,進一步提升用戶體驗和商家經營效果,淘天集團集中算力、數(shù)據和頂尖的技術人才,成立未來生活實驗室。實驗室聚焦大模型、多模態(tài)等 AI 技術方向,致力于打造大模型相關基礎算法、模型能力和各類 AI Native 應用,引領 AI 在生活消費領域的技術創(chuàng)新。
如何解決模型生成幻覺一直是人工智能(AI)領域的一個懸而未解的問題。為了測量語言模型的事實正確性,近期 OpenAI 發(fā)布并開源了一個名為 SimpleQA 的評測集。而我們也同樣一直在關注模型事實正確性這一領域,目前該領域存在數(shù)據過時、評測不準和覆蓋不全等問題。例如現(xiàn)在大家廣泛使用的知識評測集還是 CommonSenseQA、CMMLU 和 C-Eval 等選擇題形式的評測集。
為了進一步同步推進中文社區(qū)對模型事實正確性的研究,淘天集團算法技術 - 未來生活實驗室團隊提出了 Chinese SimpleQA,這是第一個系統(tǒng)性地全面評估模型回答簡短事實性問題能力的中文評測集,可以全面探測模型在各個領域的知識水平。具體來說,Chinese SimpleQA 主要有六個特點:
- 中文:專注于中文語言,并特地包含中國文化等特色知識相關的問題
- 全面性:涵蓋 6 個大類主題(中華文化、人文與社會科學、自然科學、生活藝術與文化、工程技術與應用科學、社會)和 99 個子類主題
- 高質量:我們進行了全面且嚴格的質量控制,有包括 52 位外包和 6 位算法工程師的參與
- 靜態(tài):參考答案都是在時間上保持不變的,保證了評測集的長期有效性,可以長期作為模型知識能力的評估基準
- 易于評估:評測數(shù)據的問題和答案非常簡短,評測可以基于任意的模型,能夠以較低成本和較快速度進行高一致性的評測。
- 有難度和區(qū)分度:我們評估了 40 + 國內外開源和閉源大模型。目前在評測集上 o1-preview 都僅剛過及格線 (正確率 63.8), 其他大部分模型都處于低分狀態(tài),其中 GPT-4o mini 僅 37.6 分,ChatGLM3-6B 和 Qwen2.5-1.5B 僅 11.2 和 11.1 的準確率。
基于中文 SimpleQA,我們對現(xiàn)有 LLM 的事實性能力進行了全面的評估。并維護一個全面的 leaderboard 榜單。同時我們也在評測集上實驗分析了推理 scaling law、模型校準、RAG、對齊稅等研究問題,后續(xù)本評測集都可以作為這些方向的重要參考之一。
總之,我們希望 Chinese SimpleQA 能幫助開發(fā)者深入了解其模型在中文領域的事實正確性,同時也能為他們的算法研究提供重要基石,共同促進中文基礎模型的成長。
- 論文鏈接:https://arxiv.org/abs/2411.07140
- 項目主頁:https://openstellarteam.github.io/ChineseSimpleQA
- 數(shù)據集下載:https://huggingface.co/datasets/OpenStellarTeam/Chinese-SimpleQA
- 代碼倉庫:https://github.com/OpenStellarTeam/ChineseSimpleQA
一、數(shù)據集構建
在構建 Chinese SimpleQA 數(shù)據集的過程中,我們采用了嚴格且周密的流程,確保數(shù)據質量達到高標準。主要分為自動化構建和質量控制兩個階段:
1. 自動化構建階段,主要包括五個步驟:
(1)知識內容提取與過濾:我們從維基百科等多種知識領域中收集大量富含知識的文本內容,并利用規(guī)則和質量評估模型篩除低質量數(shù)據。
(2)自動生成問答對:制定問題標準,基于高質量的知識內容,利用大型語言模型(LLM)基于標準條例自動生成問題與答案對。其中大概制定了 9 條嚴格的細則,包括:答案必須唯一且確定、答案不應隨時間變化等。
(3)自動質量驗證:通過 LLM 根據預先設定的標準對生成的問答對進行初步篩選,剔除不符合要求的樣本。
(4)結合工具驗證:引入 RAG 和 Agent 的方式,結合外部檢索工具收集驗證信息,指導 LLM 進一步準確評估答案的事實正確性。
(5)難度級別過濾:過濾掉過于簡單的樣本,提升數(shù)據集的難度,以發(fā)現(xiàn) LLM 的普遍存在的知識邊界。具體來說,如果一個問題四個模型都能正確回答,則認為該問題過于簡單并予以舍棄。
2. 質量控制階段,我們引入了嚴格的人工驗證流程:
(1)每條數(shù)據在隱藏答案后交由兩位獨立的標注員進行標注,首先判斷問題是否符合預定標準。不符合的問題將被淘汰。然后要求每位標注員結合權威來源(如維基百科、百度百科)的相關信息填寫答案,同時需要提供至少兩個參考鏈接,確保答案可溯源。
(2)若兩位標注員的答案不一致,由第三位標注員進行復審,最終確定答案。
(3)安排多名算法工程師進行多輪抽檢與反饋,同時不斷細化標準
整個構建和標注過程中,初步生成了 10,000 對問答對,經過難度評估和多輪驗證,最終只保留了約 3,000 對高質量的問答對,確保了數(shù)據集的高質量和嚴謹性,希望為評估 LLM 的事實正確性提供正確的引導。
二、評測指標
評測方式和指標直接遵循 OpenAI 的方式,主要有以下四個指標:
三、評測榜單
我們評估了 17 個閉源模型和 24 個開源模型,排名榜如下:
不同模型在 Chinese SimpleQA 上的結果。關于指標,Correct(CO)、Not attempted(NA)、Incorrect(IN) 和 Correct given attempted(CGA) 分別表示 “回答正確率”、“未回答率”、“回答錯誤率” 和 “回答精確率”。關于主題,Chinese Culture(CC)、Humanities(HU)、Engineering, Technology、Applied Sciences(ETAS)、Life, Art, and Culture(LAC)、Society(SO) 和 Natural Science(NS) 分別表示 “中華文化”、“人文與社會科學”、“工程、技術與應用科學”、“生活、藝術與文化”、“社會” 以及 “自然科學”。
總的來看,o1-preview 表現(xiàn)最佳,同時有幾個近期專注于中文的閉源大模型(如 Doubao-pro-32k 和 GLM-4-Plus)的表現(xiàn)與 o1-preview 相近。從榜單表現(xiàn)來看,首先,“mini” 系列模型(如 o1-mini, GPT-4o-mini)的表現(xiàn)明顯不如其對應的大模型(如 o1-preview, GPT-4o),這表明 “mini” 系列在記憶事實知識方面有明顯的下降。其次通常越大的模型表現(xiàn)更好,例如 GPT、Qwen2.5、InternLM2.5 等系列。而小模型通常在 “未嘗試(NA)” 項上得分較高,比如 o1-mini 和 InternLM2.5-1.8B,其 NA 分數(shù)分別為 20.5 和 31.2,遠高于對應大模型的得分(如 o1-preview 的 12.2 和 InternLM2.5-20B 的 7.7)。另外,各模型在不同主題上的表現(xiàn)差異顯著,特別是中文社區(qū)的大模型(如 Doubao-pro-32k, GLM-4-Plus, Qwen-Max, Deepseek)在 “中國文化(CC)” 主題上明顯優(yōu)于 GPT 或 o1 模型,而在科學相關主題(如 ETAS 和 NS)上,o1 則具有顯著優(yōu)勢。
四、實驗發(fā)現(xiàn)
我們還在 Chinese SimpleQA 上探索了 inference scaling law、模型校準、RAG、對齊稅等熱門研究課題(具體詳見論文)。得出了以下幾個有見地的發(fā)現(xiàn):
1. 更大規(guī)模的模型有更好的校準性能
我們要求模型在回答問題時提供 0 到 100 的信心指數(shù),以衡量模型的校準程度,即模型對其答案的自信程度。理想的校準模型應該是信心指數(shù)與答案的實際準確率相匹配。實驗結果顯示,GPT-4o 的校準優(yōu)于 GPT-4o-mini,而 o1-preview 優(yōu)于 o1-mini。在 Qwen2.5 系列中,校準效果依次為 Qwen2.5-72B > Qwen2.5-32B > Qwen2.5-7B > Qwen2.5-3B,說明更大規(guī)模的模型具有更好的校準性能。此外,對于所有評估的模型,當信心指數(shù)大于 50 時,它們的信心水平都低于了完美校準線,表明它們普遍對自身回答的準確性過于自信。
2.O1 提出的推理 scaling law 在事實類 QA 上也成立
我們研究了不同模型在增加推理計算資源和回答準確性之間的關系。具體方式是從 Chinese SimpleQA 中隨機抽取 50 個樣本,每個樣本要求模型獨立回答 100 次。通過 Best-of-N 方法隨著推理次數(shù)的增加來計算模型的回答準確性。結果表明,隨著推理次數(shù)的增加,所有模型的響應準確性都提高,并最終達到上限。這一現(xiàn)象與 OpenAI o1 發(fā)布時提出的結論表現(xiàn)一致。
3.RAG 仍是快速提升模型能力的捷徑
我們同時在 Chinese SimpleQA 上探討了檢索增強生成(RAG)策略在提升 LLMs 事實正確性方面的效果。我們基于 LlamaIndex 和谷歌搜索 API 搭建了 RAG 系統(tǒng)。結果表明,所有模型在配置 RAG 后準確性都顯著提高,例如,Qwen2.5-3B 的性能提升了三倍多。同時,在配置 RAG 后各模型之間的性能差異也顯著減少,例如,帶有 RAG 的 Qwen2.5-3B 與 Qwen2.5-72B 的 F-score 相差僅 6.9%。這表明 RAG 可顯著縮小模型性能差距,使得較小模型在 RAG 支持下也能獲得高性能。因此,RAG 仍是增強 LLMs 事實性的一條強有效的捷徑。
4. 大部分模型都有明顯的 “對齊稅” 問題
我們對比分析了預訓練模型與對齊后的模型在評測集上的表現(xiàn)。結果顯示,盡管不同模型在后期訓練后表現(xiàn)各異,但大多數(shù)模型的表現(xiàn)都顯著下降。其中,Baichuan2 系列模型下降最為明顯,Baichuan2-7B 和 Baichuan2-13B 的 F-score 分別下降了 47% 和 28%。這反映出當前大多數(shù)大語言模型的對齊訓練在幻覺緩解方面仍有明顯不足,也突顯了評測集的價值。
評測集涵蓋 99 個主題和領域,能夠全面檢測模型在各個領域的知識水平,可以幫助各個領域的研究者識別最適合其特定需求的模型。目前 o1-preview 模型表現(xiàn)最為全面,但是評測結果展示了許多其他模型在特定垂直領域的強有力的表現(xiàn)(具體詳見論文和榜單)。
最后,歡迎廣大研究者使用我們的評測集進行實驗和研究。淘天集團算法技術 - 未來生活實驗室團隊將持續(xù)更新和維護數(shù)據集及評測榜單,為中文社區(qū)的發(fā)展貢獻力量。