大模型幻覺(jué)率排行:GPT-4 3%最低,谷歌Palm竟然高達(dá)27.2%
人工智能發(fā)展進(jìn)步神速,但問(wèn)題頻出。OpenAI 新出的 GPT 視覺(jué) API 前腳讓人感嘆效果極好,后腳又因幻覺(jué)問(wèn)題令人不禁吐槽。
幻覺(jué)一直是大模型的致命缺陷。由于數(shù)據(jù)集龐雜,其中難免會(huì)有過(guò)時(shí)、錯(cuò)誤的信息,導(dǎo)致輸出質(zhì)量面臨著嚴(yán)峻的考驗(yàn)。過(guò)多重復(fù)的信息還會(huì)使大模型形成偏見(jiàn),這也是幻覺(jué)的一種。但是幻覺(jué)并非無(wú)解命題。開(kāi)發(fā)過(guò)程中對(duì)數(shù)據(jù)集慎重使用、嚴(yán)格過(guò)濾,構(gòu)建高質(zhì)量數(shù)據(jù)集,以及優(yōu)化模型結(jié)構(gòu)、訓(xùn)練方式都能在一定程度上緩解幻覺(jué)問(wèn)題。
流行的大模型有那么多,它們對(duì)于幻覺(jué)的緩解效果如何?這里有個(gè)排行榜明確地對(duì)比了它們的差距。
該排行榜由專(zhuān)注于 AI 的 Vectara 平臺(tái)發(fā)布。排行榜更新于 2023 年 11 月 1 日,Vectara 表示后續(xù)會(huì)隨著模型的更新繼續(xù)跟進(jìn)幻覺(jué)評(píng)估。
項(xiàng)目地址:https://github.com/vectara/hallucination-leaderboard
為了確定這個(gè)排行榜,Vectara 使用各種開(kāi)源數(shù)據(jù)集對(duì)摘要模型進(jìn)行了事實(shí)一致性研究,并訓(xùn)練了一個(gè)模型來(lái)檢測(cè) LLM 輸出中的幻覺(jué)。他們使用了一個(gè)媲美 SOTA 模型,然后通過(guò)公共 API 向上述每個(gè) LLM 輸送了 1000 篇簡(jiǎn)短文檔,并要求它們僅使用文檔中呈現(xiàn)的事實(shí)對(duì)每篇文檔進(jìn)行總結(jié)。在這 1000 篇文檔中,只有 831 篇文檔被每個(gè)模型總結(jié),其余文檔由于內(nèi)容限制被至少一個(gè)模型拒絕回答。利用這 831 份文件,Vectara 計(jì)算了每個(gè)模型的總體準(zhǔn)確率和幻覺(jué)率。每個(gè)模型拒絕響應(yīng) prompt 的比率詳見(jiàn) 「Answer Rate」一欄。發(fā)送給模型的內(nèi)容都不包含非法或 不安全內(nèi)容,但其中的觸發(fā)詞足以觸發(fā)某些內(nèi)容過(guò)濾器。這些文件主要來(lái)自 CNN / 每日郵報(bào)語(yǔ)料庫(kù)。
需要注意的是,Vectara 評(píng)估的是摘要準(zhǔn)確性,而不是整體事實(shí)準(zhǔn)確性。這樣可以比較模型對(duì)所提供信息的響應(yīng)。換句話說(shuō),評(píng)估的是輸出摘要是否與源文件「事實(shí)一致」。由于不知道每個(gè) LLM 是在什么數(shù)據(jù)上訓(xùn)練的,因此對(duì)于任何特別問(wèn)題來(lái)說(shuō),確定幻覺(jué)都是不可能的。此外,要建立一個(gè)能夠在沒(méi)有參考源的情況下確定回答是否是幻覺(jué)的模型,就需要解決幻覺(jué)問(wèn)題,而且需要訓(xùn)練一個(gè)與被評(píng)估的 LLM 一樣大或更大的模型。因此,Vectara 選擇在總結(jié)任務(wù)中查看幻覺(jué)率,因?yàn)檫@樣的類(lèi)比可以很好地確定模型整體真實(shí)性。
檢測(cè)幻覺(jué)模型地址:https://huggingface.co/vectara/hallucination_evaluation_model
此外,LLM 越來(lái)越多地用于 RAG(Retrieval Augmented Generation,檢索增強(qiáng)生成)管道來(lái)回答用戶(hù)的查詢(xún),例如 Bing Chat 和谷歌聊天集成。在 RAG 系統(tǒng)中,模型被部署為搜索結(jié)果的匯總器,因此該排行榜也是衡量模型在 RAG 系統(tǒng)中使用時(shí)準(zhǔn)確性的良好指標(biāo)。
由于 GPT-4 一貫的優(yōu)秀表現(xiàn),它的幻覺(jué)率最低似乎是意料之中的。但是有網(wǎng)友表示,GPT-3.5 與 GPT-4 并沒(méi)有非常大的差距是令他較為驚訝的。
LLaMA 2 緊追 GPT-4 與 GPT-3.5 之后,有著較好的表現(xiàn)。但谷歌大模型的表現(xiàn)實(shí)在不盡人意。有網(wǎng)友表示,谷歌 BARD 常用「我還在訓(xùn)練中」來(lái)搪塞它的錯(cuò)誤答案。
有了這樣的排行榜,能夠讓我們對(duì)于不同模型之間的優(yōu)劣有更加直觀的判斷。前幾天,OpenAI 推出了 GPT-4 Turbo,這不,立刻有網(wǎng)友提議將其也更新在排行榜中。
下次的排行榜會(huì)是怎樣的,有沒(méi)有大幅變動(dòng),我們拭目以待。