大模型幻覺排行榜GPT-4奪冠,英偉達(dá)科學(xué)家強(qiáng)力打假!Meta版ChatGPT一作發(fā)長文鳴冤
大模型的幻覺問題,是業(yè)內(nèi)老生常談的話題了。
最近,一個(gè)名為Vectara的機(jī)構(gòu),在GitHub推出了一個(gè)大模型幻覺排行榜。
結(jié)果顯示,在總結(jié)短文檔方面,GPT-4的表現(xiàn)最為優(yōu)異,而Google Palm的兩款模型直接墊底!
其中GPT-4的準(zhǔn)確率為97.0%,幻覺率為3.0%,回答率為100.0%。而墊底的Palm Chat 2的準(zhǔn)確率為72.8%,幻覺率高達(dá)27.2%,回答率為88.8%。
項(xiàng)目地址:https://github.com/vectara/hallucination-leaderboard
這個(gè)榜單一出來,立馬開始在網(wǎng)上瘋轉(zhuǎn),不過,它也引發(fā)了許多業(yè)內(nèi)人士的質(zhì)疑。
英偉達(dá)高級(jí)科學(xué)家Jim Fan表示,這個(gè)榜單在很多方面都存在問題——
首先,它只評(píng)估了摘要與原文的事實(shí)一致性,卻沒有評(píng)估摘要本身的質(zhì)量。其次,它也沒有解釋用于評(píng)估幻覺的LLM,具體性能到底如何。
而LeCun這邊,除了轉(zhuǎn)發(fā)了Jim Fan的這條推文外,還有更多的「冤屈」要控訴。
一年前的這個(gè)時(shí)候,Meta的科研模型Galactica才上線三天,就因?yàn)榛糜X問題被噴下架。之后沒過幾天,ChatGPT全球爆火,LeCun對(duì)此憤憤不平了一整年。
與此同時(shí),沉默一年后,Galactica論文的一作Ross Taylor值此之際也被炸了出來,寫下大段的總結(jié)傾訴委屈,表示自己心里真的很痛!
Galactica被貪婪的推特暴徒謀殺了!
Galactica之殤:一作泣血控訴
再過兩天,就是Galactica的一周年忌日了。
Sharon Goldman在外媒Venturebeat上發(fā)表了一篇文章《Meta從Galactica那里學(xué)到了什么?這個(gè)比ChatGPT早兩周誕生的模型,為什么注定要失敗》。
LeCun面色凝重地轉(zhuǎn)發(fā)了這篇文章,打出了下面幾行字,字字泣血——
Galactica是Meta為科學(xué)家做出的模型,在ChatGPT前幾周發(fā)布,但3天后就被下線。它被貪婪的推特暴徒謀殺了。
暴徒們聲稱,這種「大模型幻覺」會(huì)將摧毀科學(xué)出版系統(tǒng)。結(jié)果,一個(gè)對(duì)科學(xué)家非常有用的工具,被他們屠殺了。
打著人工智能倫理的幌子,誤導(dǎo)性的尖酸刻薄可能會(huì)適得其反。
LeCun如此沉痛,相愛相殺的老冤家馬庫斯卻跳出來倒油了——
一年前,Meta不負(fù)責(zé)任推出Galactica,并未做紅隊(duì)工作。科學(xué)界介入,并指出了缺陷。
現(xiàn)在,Meta的LeCun居然用「謀殺」來形容他的團(tuán)隊(duì)忽略的紅隊(duì)工作。這令人瞠目結(jié)舌。
Galactica一作也趁勢(shì)被炸出,表示這個(gè)故事,自己已經(jīng)在心底埋藏一年了……
Taylor說,Galactica是一個(gè)基于科學(xué)文獻(xiàn)和科研范式訓(xùn)練的基礎(chǔ)模型。當(dāng)時(shí)在同領(lǐng)域中,它的性能很好,優(yōu)于PaLM和Chinchilla,計(jì)算量分別減少了10倍和2倍。
Galactica的團(tuán)隊(duì)只有8人,比其他的LLM團(tuán)隊(duì)少了一個(gè)數(shù)量級(jí)。在發(fā)布Galactica時(shí),團(tuán)隊(duì)過度緊張,以至于失去了態(tài)勢(shì)感知能力,發(fā)布的demo是沒有經(jīng)過檢查的基本模型。
一年前發(fā)布demo時(shí),團(tuán)隊(duì)希望能了解人們利用LLM進(jìn)行科學(xué)查詢的分布情況,這對(duì)指令調(diào)整和RLHF很有用。當(dāng)時(shí)他們有一個(gè)善意的假設(shè)——開源所有模型,并且在demo中包含了對(duì)幻覺的免責(zé)聲明,這樣人們就可以暢想,Galactica可以用來干什么。
結(jié)果,一切都失控了。
他們想給大家一個(gè)免費(fèi)的工具,但記者們卻在科學(xué)文獻(xiàn)之外的領(lǐng)域使用Galactica,大肆宣傳模型幻覺的荒謬和危害。
團(tuán)隊(duì)犯的另一個(gè)錯(cuò)誤是,讓人們誤以為網(wǎng)站就是產(chǎn)品。其實(shí)團(tuán)隊(duì)只是把愿景放在網(wǎng)站上,放出了一個(gè)基本模型demo,Galactica絕不是一個(gè)產(chǎn)品。
現(xiàn)在它已經(jīng)在HuggingFace上存在一年了,也并沒有造成任何損害。顯然,反Galactica的輿論很愚蠢。
盡管如此,Taylor表示即使再來一次,自己還是會(huì)做出同樣的選擇。即使后悔,也好過什么都不做。但是,心里真的很痛!
有網(wǎng)友表示,你不用這么抱歉,Galactica顯然是被網(wǎng)暴了。仔細(xì)想想,其實(shí)ChatGPT和Galactica一樣愚蠢。網(wǎng)友們對(duì)Galactica散布的恐懼,顯然過度了。
LeCun轉(zhuǎn)發(fā)了一作寫下的故事,并表示——
開源界的口頭禪,是「早點(diǎn)發(fā)布,經(jīng)常發(fā)布」。但如果涉及AI,就得加上「沒錯(cuò),但要準(zhǔn)備好忽略推特暴徒對(duì)它厄運(yùn)的荒謬預(yù)言」。
「網(wǎng)紅」LLM幻覺評(píng)測(cè)方法
說起來,這個(gè)「網(wǎng)紅」大模型幻覺評(píng)測(cè),是怎么做出來的呢?
文章地址:https://vectara.com/cut-the-bull-detecting-hallucinations-in-large-language-models/
為了評(píng)估大模型的幻覺,Vectara對(duì)摘要模型的事實(shí)一致性進(jìn)行了研究。
具體來說,這一領(lǐng)域研究的是,訓(xùn)練模型檢測(cè)抽象摘要(即原始資料的轉(zhuǎn)述)中事實(shí)不一致之處的方法。
目前,用于評(píng)估事實(shí)一致性的數(shù)據(jù)集主要有兩個(gè)——SummaC和TRUE。
基于此,Vectara微調(diào)了一個(gè)小規(guī)模語言模型(1.84 億個(gè)參數(shù)),將其作為一個(gè)二元分類器,用于將摘要分類為與源文件事實(shí)一致(或不一致)。
然后,Vectara對(duì)照著兩個(gè)SummaC模型、TrueTeacher模型和AlignScore模型,對(duì)自己的「幻覺評(píng)估模型」進(jìn)行了評(píng)估。
TRUE數(shù)據(jù)集指標(biāo)是在11個(gè)TRUE數(shù)據(jù)集中的9個(gè)數(shù)據(jù)集上計(jì)算得出的。TRUE摘要數(shù)據(jù)集是TrueTeacher論文中選擇的其中5個(gè)數(shù)據(jù)集的子集。
對(duì)于SummaC基準(zhǔn)分?jǐn)?shù),這里使用了SummaC數(shù)據(jù)集的測(cè)試分集,并根據(jù)在SummaC驗(yàn)證數(shù)據(jù)集上調(diào)整每個(gè)數(shù)據(jù)集的閾值自行計(jì)算了平衡準(zhǔn)確率。
因?yàn)闊o法在該數(shù)據(jù)集上重現(xiàn)AlignScore作者聲稱的分?jǐn)?shù),所以這里下載了他們的模型,并使用sci-kit learn平衡準(zhǔn)確率指標(biāo)和sci-kit-learn AUC分?jǐn)?shù)指標(biāo)自行計(jì)算了所有模型的分?jǐn)?shù)。
為了根據(jù)幻覺發(fā)生率對(duì)LLM進(jìn)行比較,研究人員從「cnn_dailymail」語料庫中選取了約一千份不同長度的文檔(包括一組新聞文章),然后要求被測(cè)試的LLM在不偏離源材料(即不附加額外信息)的情況下提供這些文檔的摘要。
利用這些摘要和幻覺評(píng)估模型,最終為每個(gè)模型計(jì)算了幻覺得分,從而構(gòu)建了這個(gè)LLM排行榜。
在生成摘要時(shí)使用的提示是:
You are a chat bot answering questions using data. You must stick to the answers provided solely by the text in the passage provided. You are asked the question ‘Provide a concise summary of the following passage, covering the core pieces of information described.’ <PASSAGE>’
你是一個(gè)使用數(shù)據(jù)回答問題的聊天機(jī)器人。你必須嚴(yán)格按照所提供段落中的文字回答問題。你要回答的問題是「對(duì)以下段落進(jìn)行簡明總結(jié),涵蓋所述的核心信息。<PASSAGE>」
這里<PASSAGE>表示需要生成摘要的文章。
需要注意的是,雖然Vectara提供的模型準(zhǔn)確度很高,但它仍然只是一個(gè)模型,并不能100%準(zhǔn)確地對(duì)幻覺進(jìn)行分類。
在上面的表格中,「準(zhǔn)確率」指的是被正確歸納的文檔比例(無事實(shí)錯(cuò)誤或者添加),「幻覺率」為100-準(zhǔn)確率,而「回答率」則是LLM歸納的文檔比例。
因?yàn)橛袝r(shí)模型會(huì)基于自身的規(guī)則拒絕提供答復(fù)。為了確保比較的公平性,最終的準(zhǔn)確率數(shù)字只針對(duì)每個(gè)模型都提供了摘要的文檔進(jìn)行計(jì)算。
從數(shù)據(jù)中,Vectara得出了一個(gè)有趣的結(jié)論:答題率較低的模型似乎幻覺率相對(duì)較高。——也許,正確拒絕內(nèi)容的能力似乎與正確提供摘要的能力相關(guān),因?yàn)閷?shí)際上,測(cè)試中并沒有提供不恰當(dāng)?shù)膬?nèi)容。
另外一個(gè)現(xiàn)象是,PaLM模型在回復(fù)的長度上有很大的不同,PaLM-Chat(chat-bison-001)非常啰嗦,經(jīng)常會(huì)添加很多源文件中沒有的額外信息。
相比之下,PaLM基礎(chǔ)模型(text-bison-001)則非常簡潔,而且它的幻覺率比PaLM-Chat低得多。
對(duì)此,Vectara給出了幾個(gè)具體的例子來說明這兩種PaLM模型的區(qū)別。
這里為了便于說明,選擇一些較小的文檔,不過數(shù)據(jù)集中的大多數(shù)源文本都要長得多。
原文段落
The plants were found during the search of a warehouse near Ashbourne on Saturday morning. Police said they were in 「an elaborate grow house.」 A man in his late 40s was arrested at the scene.
這些植物是周六早上在Ashbourne附近的一個(gè)倉庫搜索時(shí)發(fā)現(xiàn)的。警方說,他們住在「一個(gè)精心設(shè)計(jì)的種植屋」里。一名40多歲的男子在現(xiàn)場被捕。
PaLM生成的摘要
Police have arrested a man in his late 40s after cannabis plants worth an estimated £100,000 were found in a warehouse near Ashbourne.
警方逮捕了一名40多歲的男子,此前在Ashbourne附近的一個(gè)倉庫中發(fā)現(xiàn)了價(jià)值約10萬英鎊的大麻。
我們可以看到PaLM推斷這篇文章是關(guān)于種植大麻的,甚至還估計(jì)了它的價(jià)格,而這兩者都不在源文本中。
原文段落
Veeru Devgan is an Indian stunt and action choreographer and film director in Bollywood.
Veeru Devgan是寶萊塢的印度特技和動(dòng)作編舞家,同時(shí)也是電影導(dǎo)演。
PaLM Chat生成的摘要
Veeru Devgan is an Indian stunt and action choreographer and film director in Bollywood. He is the father of actor Ajay Devgn and director Anil Devgan. He has worked in over 100 films, including some of the biggest blockbusters of Indian cinema. He is known for his innovative and exciting action sequences, which have helped to make him one of the most sought-after action choreographers in the industry. He is also a successful film director, having directed several hit films, including 「Phool Aur Kaante」 and 「Zakhm」.
Veeru Devgan是寶萊塢的印度特技和動(dòng)作編舞家以及電影導(dǎo)演。他是演員Ajay Devgn和導(dǎo)演Anil Devgan的父親。他曾參與過100多部電影,其中包括印度電影界的一些大片。他以創(chuàng)新和激動(dòng)人心的動(dòng)作場面而聞名,這使他成為業(yè)內(nèi)最受歡迎的動(dòng)作編舞家之一。他也是一位成功的電影導(dǎo)演,曾執(zhí)導(dǎo)過多部熱門電影,包括《Phool Aur Kaante》和《Zakhm》。
Vectara認(rèn)為,PaLM-Chat在原始文本中添加了大量的額外細(xì)節(jié),盡管事先已經(jīng)告訴它要嚴(yán)格遵照源文本。
而且,添加的文本內(nèi)容還包含一些幻覺,例如,Devgan并不是《Zakhm》的導(dǎo)演,以及Veeru Devgan是Anil Devgan的兄弟,不是他的父親。
此外,這些模型也會(huì)翻轉(zhuǎn)一些關(guān)系,例如在一篇關(guān)于拳擊手Manny Pacquiao的文章中,源文本指出Mark Wahlberg是他的粉絲之一,而LLM則表示Manny是Wahlberg的粉絲。
大佬表示懷疑
對(duì)于這個(gè)在網(wǎng)上瘋傳的LLM幻覺基準(zhǔn),英偉達(dá)高級(jí)研究科學(xué)家Jim Fan表示「很不嚴(yán)謹(jǐn)」,他評(píng)論道:
最近,一個(gè)LLM幻覺基準(zhǔn)在網(wǎng)上瘋傳,人們根據(jù)一張表格截圖就妄下結(jié)論。
但這項(xiàng)評(píng)估在很多方面都存在問題。事實(shí)上,一個(gè)微不足道的基準(zhǔn)就能使幻覺達(dá)到0%。
比如,這項(xiàng)研究只評(píng)估了摘要與原文的「事實(shí)一致性」,而沒有評(píng)估摘要本身的質(zhì)量。但是,一個(gè)簡單復(fù)制文章中幾句話的模型,就能達(dá)到100%的事實(shí)一致性,完全沒有幻覺。
這類似于眾所周知的「有用性與安全性 」的權(quán)衡。一個(gè)100%安全的模型會(huì)對(duì)所有請(qǐng)求回復(fù)「抱歉,我?guī)筒簧厦Α?。但這毫無意義。
另外,這項(xiàng)評(píng)估依賴于另一個(gè)LLM「法官」,來判斷幻覺是否發(fā)生,但作者并沒有詳細(xì)說明:(1)法官LLM如何進(jìn)行提示;(2)對(duì)于細(xì)節(jié)的錯(cuò)誤,它是如何捕捉和判定的。
它只是吐出一個(gè)「對(duì)或錯(cuò)」的二元答案嗎?還是進(jìn)行更細(xì)致的推理,說明哪個(gè)事實(shí)是幻覺,然后解釋原因,說明規(guī)則?
它和人類的對(duì)齊程度如何,什么時(shí)候是不對(duì)齊的?「幻覺」又是如何定義的?
例如,假設(shè)模型注入了一些無關(guān)但真實(shí)的事實(shí)。文章只提到「巴黎」,但模型卻說「巴黎,法國的首都」。這算不算幻覺?
事實(shí)上,這項(xiàng)研究甚至可能會(huì)懲罰那些總結(jié)得更好的模型,因?yàn)樗鼈兺鶗?huì)進(jìn)行更多的轉(zhuǎn)述和提煉。差勁的LLM只會(huì)簡單地抄襲,按這個(gè)標(biāo)準(zhǔn)卻更容易得分。
這不禁讓人想起MIT那篇被撤回的論文,他們使用GPT-4為自己對(duì)數(shù)學(xué)問題的回答打分,然后得出了「GPT-4與MIT本科生不相上下」這種吸引眼球的結(jié)論。
在下結(jié)論之前,請(qǐng)務(wù)必閱讀評(píng)估協(xié)議。這一點(diǎn)對(duì)于LLM任務(wù)和其他任何ML系統(tǒng),都是普遍適用的。
應(yīng)對(duì)手段:檢索增強(qiáng)生成(RAG)
所以,大模型的幻覺,到底該怎么破?
RAG的使用,直接改變了LLM解答問題的范式——從之前的「閉卷」變成了「開卷」。
具體來說,在閉卷答題系統(tǒng)(如ChatGPT)中,LLM只能使用自己通過預(yù)訓(xùn)練獲得的知識(shí)生成答案。在這種情況下,LLM本身便是知識(shí)源。
在RAG系統(tǒng)中,LLM的角色從知識(shí)源轉(zhuǎn)變?yōu)榱诵畔⒌臋z索員。也就是說,LLM會(huì)先在知識(shí)庫中對(duì)原始問題進(jìn)行查詢,在進(jìn)一步的解析和總結(jié)之后,以簡明扼要的語言給出答案。
由于LLM提供的答案是基于檢索系統(tǒng)中提供的信息,因此這種方法可以很大程度上改善LLM的幻覺問題。
時(shí)間回到ChatGPT等大語言模型剛剛發(fā)布的時(shí)候,人們?cè)驗(yàn)樗麄儭负f八道」的特性而感到有趣。
今天,LLM展現(xiàn)出來的非凡能力使得他們有機(jī)會(huì)深入各行各業(yè)以及人們的生活,我們開始逐漸依賴他們的「準(zhǔn)確性」。
如今的我們,又將如何看待和處理LLM的「幻覺」問題呢?
對(duì)于大模型產(chǎn)生幻覺的說法,人工智能教父Hinton曾表示:
「這就是人類記憶的樣子。在我看來,編造和說實(shí)話之間沒有界限。說實(shí)話只是正確地編造。從這個(gè)角度來看,ChatGPT的編造能力是一個(gè)缺陷,但也是其類人智能的標(biāo)志?!?/span>