大模型走捷徑「刷榜」?數(shù)據(jù)污染問題值得重視
生成式 AI 元年,大家的工作節(jié)奏快了一大截。
特別是,今年大家都在努力卷大模型:最近國內(nèi)外科技巨頭、創(chuàng)業(yè)公司都在輪番推出大模型,發(fā)布會一開,個個都是重大突破,每一家都是刷新了重要 Benchmark 榜單,要么排第一,要么第一梯隊。
在興奮于技術(shù)進展速度之快后,很多人發(fā)現(xiàn)似乎也有些不對味:為什么排行榜第一人人有份?這是個什么機制?
于是乎,「刷榜」這個問題也開始備受關(guān)注。
近日,我們關(guān)注到朋友圈和知乎社區(qū)對大模型「刷榜」這一問題的討論越來越多。特別是,知乎一篇帖子:如何評價天工大模型技術(shù)報告中指出很多大模型用領(lǐng)域內(nèi)數(shù)據(jù)刷榜的現(xiàn)象?引起了大家的討論。
鏈接:https://www.zhihu.com/question/628957425
多家大模型刷榜機制曝光
該研究來自昆侖萬維的「天工」大模型研究團隊,他們上個月底把一份技術(shù)報告發(fā)布在了預印版論文平臺 arXiv 上。
論文鏈接:https://arxiv.org/abs/2310.19341
論文本身是在介紹 Skywork-13B,這是天工的一個大型語言模型(LLM)系列。作者引入了使用分段語料庫的兩階段訓練方法,分別針對通用訓練和特定領(lǐng)域的增強訓練。
和往常有關(guān)大模型的新研究一樣,作者表示在流行的測試基準上,他們的模型不僅表現(xiàn)出色,而且在很多中文的分支任務(wù)上取得了 state-of-art 水平(就是業(yè)內(nèi)最佳)。
重點是,該報告還驗證了下很多大模型的真實效果,指出了一些其他一些國產(chǎn)大模型存在投機取巧的嫌疑。說的就是這個表格 8:
在這里,作者為了驗證目前業(yè)內(nèi)幾個常見大模型在數(shù)學應用問題基準 GSM8K 上的過擬合程度,使用 GPT-4 生成了一些與 GSM8K 形式上相同的樣本,人工核對了正確性,并讓這些模型在生成的數(shù)據(jù)集,和 GSM8K 原本的訓練集、測試集上比了比,計算了損失。然后還有兩個指標:
Δ1 作為模型訓練期間潛在測試數(shù)據(jù)泄漏的指標,較低的值表明可能存在泄漏。沒有用測試集訓練,那數(shù)值應該為零。
Δ2 衡量數(shù)據(jù)集訓練分割的過度擬合程度。較高的 Δ2 值意味著過擬合。如果沒有用訓練集訓練過,那數(shù)值應該為零。
用簡單的話來解釋就是:如果有模型在訓練的時候,直接拿基準測試里面的「真題」和「答案」來當學習資料,想以此來刷分,那么此處就會有異常。
好的,Δ1 和 Δ2 有問題的地方,上面都貼心地以灰色突出顯示了。
網(wǎng)友對此評論道,終于有人把「數(shù)據(jù)集污染」這個公開的秘密說出來了。
也有網(wǎng)友表示,大模型的智力水平,還是要看 zero-shot 能力,現(xiàn)有的測試基準都做不到。
圖:截圖自知乎網(wǎng)友評論
在作者與讀者中互動中,作者也表示,希望「讓大家更理性看待刷榜這個事情,很多模型和 GPT4 的差距還很大」。
圖:截圖自知乎文章 https://zhuanlan.zhihu.com/p/664985891
數(shù)據(jù)污染問題值得重視
其實,這并不是一時的現(xiàn)象。自從有了 Benchmark,此類問題時常會有發(fā)生,就像今年 9 月份 arXiv 上一篇極具嘲諷意味的文章標題指出的一樣 Pretraining on the Test Set Is All You Need。
除此之外,最近人民大學、伊利諾伊大學香檳分校一個正式研究同樣指出了大模型評估中存在的問題。標題很扎眼《Don't Make Your LLM an Evaluation Benchmark Cheater》:
論文鏈接:https://arxiv.org/abs/2311.01964
論文指出,當前火熱的大模型領(lǐng)域讓人們關(guān)心基準測試的排名,但其公平性和可靠性正在受到質(zhì)疑。其中主要的問題就是數(shù)據(jù)污染和泄露,這樣的問題可能會被無意識地觸發(fā),因為我們在準備預訓練語料庫時可能不知道未來的評估數(shù)據(jù)集。例如,GPT-3 發(fā)現(xiàn)預訓練語料庫中包含了 Children's Book Test 數(shù)據(jù)集,LLaMA-2 的論文曾提到提取了 BoolQ 數(shù)據(jù)集中的上下文網(wǎng)頁內(nèi)容。
數(shù)據(jù)集是需要很多人花費大量精力收集、整理和標注的,優(yōu)質(zhì)的數(shù)據(jù)集如果優(yōu)秀到能被用于評測,那自然也有可能會被另一些人用于訓練大模型。
另一方面,在使用現(xiàn)有基準進行評估時,我們評測的大模型的結(jié)果大多是通過在本地服務(wù)器上運行或通過 API 調(diào)用來獲得的。在此過程中,沒有嚴格檢查任何可能導致評估績效異常提高的不當方式(例如數(shù)據(jù)污染)。
更糟糕的是,訓練語料庫的詳細組成(例如數(shù)據(jù)源)通常被視為現(xiàn)有大模型的核心「秘密」。這就更難去探究數(shù)據(jù)污染的問題了。
也就是說,優(yōu)秀數(shù)據(jù)的數(shù)量是有限的,在很多測試集上,GPT-4 和 Llama-2 也不一定就沒問題。比如在第一篇論文中提到的 GSM8K,GPT-4 在官方 technical report 里提到過使用了它的訓練集。
你不是說數(shù)據(jù)很重要嗎,那么用「真題」刷分的大模型,性能會不會因為訓練數(shù)據(jù)更優(yōu)秀而變得更好呢?答案是否定的。
研究人員實驗發(fā)現(xiàn),基準泄漏會導致大模型跑出夸張的成績:例如 1.3B 的模型可以在某些任務(wù)上超越 10 倍體量的模型。但副作用是,如果我們僅使用這些泄露的數(shù)據(jù)來微調(diào)或訓練模型,這些專門應試的大模型在其他正常測試任務(wù)上的表現(xiàn)可能會受到不利影響。
因此作者建議,以后研究人員在評測大模型,或是研究新技術(shù)時應該:
- 使用更多來自不同來源的基準,涵蓋基本能力(例如文本生成)和高級能力(例如復雜推理),以全面評估 LLM 的能力。
- 在使用評估基準時,在預訓練數(shù)據(jù)和任何相關(guān)數(shù)據(jù)(例如訓練和測試集)之間執(zhí)行數(shù)據(jù)凈化檢查非常重要。此外,還需要報告評估基準的污染分析結(jié)果作為參考。如有可能,建議公開預訓練數(shù)據(jù)的詳細組成。
- 建議應采用多樣化的測試提示來減少提示敏感性的影響。在基準數(shù)據(jù)和現(xiàn)有預訓練語料庫之間進行污染分析,提醒任何潛在的污染風險也很有意義。為了進行評估,建議每次提交都附有一份特殊的污染分析報告。
最后想說,好在這個問題開始逐漸引起大家的關(guān)注,無論是技術(shù)報告、論文研究還是社區(qū)討論,都開始重視大模型「刷榜」的問題了。
對此,你有什么看法與有效建議呢?