GPT-4滿(mǎn)分通過(guò)MIT本科數(shù)學(xué)考試!卻遭同門(mén)質(zhì)疑“作弊”,數(shù)據(jù)集本身就有問(wèn)題
大數(shù)據(jù)文摘出品
作者:Caleb
這兩天,相信大家都被GPT-4滿(mǎn)分輕松拿下MIT本科數(shù)學(xué)考試的事兒給刷屏了。
給先不知情的小伙伴們說(shuō)一下,這次的測(cè)試是MIT、波士頓大學(xué)和康奈爾大學(xué)的研究團(tuán)隊(duì)共同根據(jù)MIT所有獲得學(xué)位所需的數(shù)學(xué)、電氣工程和計(jì)算機(jī)科學(xué) (EECS) 課程整理出來(lái)了4550個(gè)問(wèn)題。
參與測(cè)試的AI模型有GPT-3.5、GPT-4、StableVicuna-13B、LLaMA-30B和LLaMA-60B。結(jié)果嘛,可想而知,GPT-4滿(mǎn)分通過(guò),但GPT-3.5卻只做對(duì)了三分之一。
論文鏈接:https://huggingface.co/papers/2306.08997
這樣的結(jié)果自然也是吸引到了眾多網(wǎng)友的討論,在網(wǎng)友們的一眾驚呼聲中,三位同樣來(lái)自MIT的學(xué)生卻發(fā)現(xiàn)了其中端倪。
揭開(kāi)“網(wǎng)騙”GPT-4的面紗
在6月16日發(fā)現(xiàn)這篇論文后,三人決定深入挖掘一下。但是一小時(shí)內(nèi),他們對(duì)論文的方法論產(chǎn)生了懷疑,不到兩個(gè)小時(shí),他們意識(shí)到,數(shù)據(jù)集本身是有問(wèn)題的。
論文中寫(xiě)到,研究人員“在沒(méi)有圖像和有解決方案的問(wèn)題中隨機(jī)選擇了288個(gè)問(wèn)題的測(cè)試集”。這個(gè)數(shù)據(jù)集(不包括用于微調(diào)開(kāi)源LLM的訓(xùn)練集)也隨著論文的發(fā)布被開(kāi)源到了GitHub上,以及用于生成報(bào)告的測(cè)試性能代碼。
然而,Drori教授卻刪除了這個(gè)項(xiàng)目。
他們目前針對(duì)此發(fā)布了該測(cè)試集的注釋副本:https://docs.google.com/spreadsheets/d/1FZ58hu-lZR-e70WP3ZPNjp9EK_4RgrQvQfsvjthQh_Y/edit#gid=1598949010
三人也表示,他們確信這個(gè)文件代表了論文中分析的測(cè)試集,因?yàn)樵u(píng)估代碼中所有數(shù)據(jù)的文件路徑都指向它,沒(méi)有提供任何修改其內(nèi)容的代碼,而且在最初發(fā)布的GitHub倉(cāng)庫(kù)中也是可用的。此外,該文件也滿(mǎn)足論文中規(guī)定的所有模式要求。
這些證據(jù)似乎非常有力地支持了一個(gè)主張,那就是,這個(gè)文件有可能被換成了一個(gè)用于測(cè)試的不同文件。如果是這樣的話(huà),證明的責(zé)任在于作者公開(kāi)發(fā)布這個(gè)數(shù)據(jù)和用它做的所有分析。
于是,他們開(kāi)始檢查各個(gè)數(shù)據(jù)點(diǎn)。
很快就發(fā)現(xiàn),數(shù)據(jù)集中至少有10個(gè)問(wèn)題是無(wú)法用提供的信息解決的,也就是說(shuō),根本不可能出現(xiàn)滿(mǎn)分的情況。除此之外,還有幾個(gè)問(wèn)題在這個(gè)給出的背景下根本就不是有效的問(wèn)題,這樣的題目至少占了4%。
除了問(wèn)題本身存在爭(zhēng)議外,他們還發(fā)現(xiàn),在所檢查的288個(gè)問(wèn)題中,有14個(gè)是重復(fù)的,在這些情況下,問(wèn)題串之間的唯一區(qū)別是極小的字符級(jí)噪音,或者完全相同。
鑒于此,GPT-4能夠獲得滿(mǎn)分不得不令人懷疑。得出這樣的結(jié)果要么是在某個(gè)階段將解決方案泄露到了提示中,要么是問(wèn)題沒(méi)有被正確評(píng)分。
這也促使他們進(jìn)一步調(diào)查。最終發(fā)現(xiàn),其實(shí)兩邊都占了。
它在演示一種更高級(jí)的“作弊”
在這里,還需要簡(jiǎn)單解釋一下論文中提到的的“小樣本示例”(few-shot examples)。簡(jiǎn)而言之,研究人員對(duì)OpenAI嵌入的數(shù)據(jù)集內(nèi)的類(lèi)似問(wèn)題進(jìn)行余弦相似度搜索,并將這些問(wèn)題和解決方案作為額外的背景納入模型的提示,以幫助模型解決問(wèn)題。這本身沒(méi)什么問(wèn)題,只要給出的例子和問(wèn)題存在足夠大的差異,以便不暴露不公平信息。
但是在隨機(jī)掃描已發(fā)布的測(cè)試數(shù)據(jù)集時(shí),他們注意到一些奇怪的事情。許多提供給模型的小樣本示例幾乎與問(wèn)題本身一字不差,這種重疊情況可以用柱狀圖來(lái)表示:
也就是說(shuō),模型得到的是問(wèn)題的答案或與問(wèn)題非常相似的問(wèn)題。通常情況下,這來(lái)自于很多有類(lèi)似背景的問(wèn)題被反復(fù)提問(wèn)。
在他們看來(lái),為了正確評(píng)估GPT的解題能力,“多部分問(wèn)題”(multi-part questions)的其他部分應(yīng)該被完全排除在某一問(wèn)題的小樣本示例外。事實(shí)上,他們還發(fā)現(xiàn),這些多部分問(wèn)題的解決方案往往直接提到或給出模型被要求解決的另一部分問(wèn)題的解決方案。
而在評(píng)分上,根據(jù)開(kāi)源的打分機(jī)制中,他們也發(fā)現(xiàn)了一些問(wèn)題。
比如流程是如何處理分級(jí)的。事實(shí)上,研究人員是利用GPT-4來(lái)打分的,包括原始問(wèn)題、解決方案,和GPT自己的答案,作為分級(jí)提示的參數(shù)。
在其他技術(shù)領(lǐng)域,GPT更有可能出現(xiàn)隱性誤解,這種自動(dòng)評(píng)分也就更有可能出現(xiàn)自我安慰的結(jié)果。
此外,雖然prompt級(jí)聯(lián)是最近許多GPT論文中常見(jiàn)的技術(shù),但這里有大量數(shù)據(jù)泄漏的可能性。每一級(jí)不僅提供基于基礎(chǔ)事實(shí)的二元信息,而且還在prompt,直到達(dá)到正確答案。
雖然這些創(chuàng)建的prompt沒(méi)有看到實(shí)際的解決方案,但重新prompt正確答案直到達(dá)到正確答案的二進(jìn)制反饋是足夠的,尤其是在占測(cè)試集16%的多選題中,無(wú)限的嘗試保證了正確的答案。
這就好比有人拿著答題紙告訴學(xué)生他們是否得到了正確的答案,直到他們得到答案。
在戳破這層假象后,他們?cè)跀?shù)據(jù)集上完成了零樣本GPT-4的運(yùn)行,對(duì)數(shù)據(jù)的前30%進(jìn)行了手動(dòng)評(píng)分,結(jié)果與原論文可以說(shuō)是“天壤之別”。
語(yǔ)言模型還不能被當(dāng)作產(chǎn)生基礎(chǔ)真理的神諭
最后,三人表示,他們目前提出的問(wèn)題只是幾個(gè)小時(shí)的審查中發(fā)現(xiàn)的最明顯的問(wèn)題,后期隨著更多人更仔細(xì)的檢查,會(huì)發(fā)現(xiàn)更多的漏洞。
他們也鼓勵(lì)讀者下載數(shù)據(jù)集,自己檢查,畢竟只有通過(guò)了同行評(píng)估,才能得到最終肯定。
同時(shí),他們也寫(xiě)到,他們對(duì)數(shù)據(jù)分析方法的完整性的觀察是令人擔(dān)憂(yōu)的。這篇論文道出了最近人工智能研究的一個(gè)更大趨勢(shì):隨著該領(lǐng)域的進(jìn)展越來(lái)越快,研究時(shí)間線(xiàn)似乎在縮短,這其中就不可避免地存在走捷徑的行為。
一個(gè)特別令人擔(dān)憂(yōu)的趨勢(shì)是使用像GPT-4這樣基于語(yǔ)言的模型來(lái)評(píng)估一個(gè)模型的準(zhǔn)確性的技術(shù)。雖然它是一個(gè)有用的工具,但結(jié)論絕不應(yīng)該被夸大,也不應(yīng)該被當(dāng)作地面真理。
最近有論文就寫(xiě)到,如果沒(méi)有準(zhǔn)確的真實(shí)信息,GPT-4的驗(yàn)證并不可靠。至少,應(yīng)該選擇一個(gè)隨機(jī)的數(shù)據(jù)集子集,將GPT-4的性能與人類(lèi)的對(duì)應(yīng)物進(jìn)行比較。語(yǔ)言模型還不能被當(dāng)作產(chǎn)生基礎(chǔ)真理的神諭。
此外,在使用數(shù)據(jù)之前,無(wú)論是用于訓(xùn)練、推理、基準(zhǔn)測(cè)試還是其他方面,重新評(píng)估每一個(gè)數(shù)據(jù)點(diǎn)并進(jìn)行基本的理智檢查是極其重要的。鑒于有關(guān)數(shù)據(jù)集的規(guī)模較小,簡(jiǎn)單的人工驗(yàn)證很容易在工作范圍內(nèi)完成。
有網(wǎng)友在推特上打趣地說(shuō)到,“這是LLM和作者推薦必吃的甜點(diǎn),如果你趕時(shí)間,讓GPT-4預(yù)測(cè)以下哪種味道最好”。
看來(lái),關(guān)于GPT的相關(guān)研究和衍生風(fēng)波,都還會(huì)持續(xù)再刮一陣子。
相關(guān)報(bào)道: