科學(xué)美國人: 大模型永遠(yuǎn)不會停止幻覺
去年夏天,一名聯(lián)邦法官對紐約市一家律師事務(wù)所處以 5,000 美元的罰款,原因是一名律師使用人工智能工具 ChatGPT 起草了一起人身傷害案件的摘要。文本中充滿了虛假信息,包括超過六個(gè)完全捏造的過去案例,旨在為人身傷害訴訟建立判例。斯坦福大學(xué)(Stanford University)和耶魯大學(xué)(Yale University)的研究人員在最近對三種流行的大語言模型(LLM)的研究預(yù)印本中發(fā)現(xiàn),類似的錯(cuò)誤在人工智能生成的法律輸出中非常普遍。當(dāng)生成式 AI 模型產(chǎn)生與現(xiàn)實(shí)不符的響應(yīng)時(shí),有一個(gè)術(shù)語:“幻覺 hallucination”。
幻覺通常被描述為人工智能的一個(gè)技術(shù)問題,一個(gè)勤奮的開發(fā)人員最終會解決的問題。但許多機(jī)器學(xué)習(xí)專家并不認(rèn)為幻覺是可以修復(fù)的,因?yàn)樗从贚LMs只是在做他們被開發(fā)和訓(xùn)練應(yīng)該做的事情:盡可能地響應(yīng)用戶提示。根據(jù)一些人工智能研究人員的說法,真正的問題存在于我們的共同想法 - 對這些模型是什么以及如何使用它們的決定。研究人員表示,為了減輕幻覺,生成式人工智能工具必須與事實(shí)核查系統(tǒng)配對,避免任何不受監(jiān)督的聊天機(jī)器人。
許多與人工智能幻覺有關(guān)的沖突都源于營銷和炒作??萍脊緦⑺麄兊腖LM描繪成數(shù)字瑞士軍刀,能夠解決無數(shù)問題或取代人類工作。但是應(yīng)用在錯(cuò)誤的設(shè)置中,這些工具就會失敗。聊天機(jī)器人為用戶提供了不正確且可能有害的醫(yī)療建議,媒體機(jī)構(gòu)發(fā)布了人工智能生成的文章,其中包括不準(zhǔn)確的財(cái)務(wù)指導(dǎo),具有人工智能界面的搜索引擎發(fā)明了虛假引文。隨著越來越多的人和企業(yè)依賴聊天機(jī)器人來獲取事實(shí)信息,他們編造事情的傾向變得更加明顯和具有破壞性。
但今天的 LLM 從來都不是為了純粹準(zhǔn)確而設(shè)計(jì)的。它們被創(chuàng)造出來是為了創(chuàng)造——為了生成——亞利桑那州立大學(xué)(Arizona State University)研究人工智能的計(jì)算機(jī)科學(xué)教授Subbarao Kambhampati說。“現(xiàn)實(shí)情況是:沒有辦法保證所生成內(nèi)容的真實(shí)性,”他解釋說,并補(bǔ)充說,所有計(jì)算機(jī)生成的“創(chuàng)造力在某種程度上都是幻覺”?!咀g者注:譯者一直強(qiáng)調(diào)GenAI的應(yīng)用場景選擇的一個(gè)最重要的原則是:創(chuàng)意大于準(zhǔn)確性。當(dāng)前有人建議你將GenAI應(yīng)用于數(shù)據(jù)分析的時(shí)候,請三思?!?/p>
在一月份發(fā)布的一項(xiàng)研究預(yù)印本中,新加坡國立大學(xué)的三名機(jī)器學(xué)習(xí)研究人員提出了一個(gè)證據(jù),證明在大型語言模型中,幻覺是不可避免的。該證明應(yīng)用了學(xué)習(xí)理論中的一些經(jīng)典結(jié)果,例如康托爾的對角化論證(Cantor’s diagonalization argument),以證明 LLM 根本無法學(xué)習(xí)所有可計(jì)算函數(shù)。換句話說,它表明總會有超出模型能力的可解決的問題?!皩τ谌魏未笳Z言模型來說,現(xiàn)實(shí)世界中都有一部分是它無法學(xué)習(xí)的,在那里它不可避免地會產(chǎn)生幻覺,”該研究的合著者Ziwei Xu,Sanjay Jain和Mohan Kankanhalli在給《科學(xué)美國人》的一封聯(lián)合電子郵件中寫道。
盡管這個(gè)證明看起來是準(zhǔn)確的,Kambhampati說,但它提出的 - 某些難題總能難倒計(jì)算機(jī)的論點(diǎn) - 過于寬泛,無法深入了解為什么會發(fā)生特定的虛構(gòu)。而且,他繼續(xù)說,這個(gè)問題比證明所顯示的更為普遍,因?yàn)榇笳Z言模型即使面對簡單的請求也會產(chǎn)生幻覺?!咀g者注:譯者在“??大模型的幻覺,解鈴還須系鈴人??”文中從生成的數(shù)理框架的機(jī)理出發(fā),對幻覺的主要來源,比如跨范疇采樣與變分推理,以及如何管控幻覺做了詳細(xì)的邏輯推演。】
伊利諾伊大學(xué)香檳分校(University of Illinois at Urbana-Champaign)研究自然語言和語音處理的計(jì)算機(jī)科學(xué)教授迪萊克·哈卡尼-圖爾(Dilek Hakkani-Tür)說,人工智能聊天機(jī)器人經(jīng)常產(chǎn)生幻覺的一個(gè)主要原因源于它們的基本結(jié)構(gòu)。LLM 基本上是超高級的自動(dòng)完成工具;他們經(jīng)過訓(xùn)練,可以預(yù)測序列中接下來應(yīng)該出現(xiàn)什么,例如文本字符串。如果模型的訓(xùn)練數(shù)據(jù)包含有關(guān)某個(gè)主題的大量信息,則可能會產(chǎn)生準(zhǔn)確的輸出。但是 LLM 的構(gòu)建是為了始終產(chǎn)生答案,即使是在其訓(xùn)練數(shù)據(jù)中沒有出現(xiàn)的主題上也是如此。哈卡尼-圖爾說,這增加了出現(xiàn)錯(cuò)誤的可能性。
添加更多基于事實(shí)的訓(xùn)練數(shù)據(jù)似乎是一個(gè)顯而易見的解決方案。但是,LLM可以容納多少信息存在實(shí)際和物理限制,計(jì)算機(jī)科學(xué)家Amr Awadallah說,他是AI平臺Vectara的聯(lián)合創(chuàng)始人兼首席執(zhí)行官,該平臺在排行榜上跟蹤LLM的幻覺率。(在跟蹤的AI模型中,最低的幻覺率約為3%至5%。為了達(dá)到語言的流暢性,這些龐大的模型用來訓(xùn)練的數(shù)據(jù)比它們能存儲的數(shù)據(jù)多得多,數(shù)據(jù)壓縮是不可避免的結(jié)果。當(dāng) LLM 無法“像在培訓(xùn)中一樣回憶起一切時(shí),他們會編造東西并填補(bǔ)空白,”Awadallah 說。而且,他補(bǔ)充說,這些模型已經(jīng)在我們計(jì)算能力的邊緣運(yùn)行;試圖通過使 LLM 變大來避免幻覺會產(chǎn)生更慢的模型,這些模型更昂貴且對環(huán)境更有害。
【譯者注:舉一個(gè)真實(shí)例子,大模型幫助審閱合同的時(shí)候,找到合同中的問題,稱是根據(jù)某某法典某條某款的判斷,判斷確實(shí)是對的,但大模型無法完整復(fù)述該法典該條該款。其實(shí)這很類似人類的理解式學(xué)習(xí)】
幻覺的另一個(gè)原因是校準(zhǔn),佐治亞理工學(xué)院計(jì)算機(jī)科學(xué)教授Santosh Vempala說。校準(zhǔn)是調(diào)整 LLM 以偏愛某些輸出而不是其他輸出的過程(以匹配訓(xùn)練數(shù)據(jù)的統(tǒng)計(jì)數(shù)據(jù)或生成更逼真的人類短語)。【譯者注:作者后來修正注釋這是一個(gè)單獨(dú)的過程,稱為對齊】 在去年 11 月首次發(fā)布的一篇預(yù)印本論文中,Vempala 和一位合著者認(rèn)為,任何經(jīng)過校準(zhǔn)的語言模型都會產(chǎn)生幻覺——因?yàn)闇?zhǔn)確性本身有時(shí)與自然流暢且看起來是原創(chuàng)的文本不一致。減少校準(zhǔn)可以提高真實(shí)性,同時(shí)在 LLM 生成的文本中引入其他缺陷。Vempala說,未經(jīng)校準(zhǔn)的模型可能會公式化地寫作,比人更頻繁地重復(fù)單詞和短語。問題在于,用戶希望人工智能聊天機(jī)器人既真實(shí)又流暢。
Kambhampati 說,接受 LLM 可能永遠(yuǎn)無法產(chǎn)生完全準(zhǔn)確的輸出意味著重新考慮我們何時(shí)、何地以及如何部署這些生成工具。他補(bǔ)充說,他們是很棒的創(chuàng)意創(chuàng)造者,但他們不是獨(dú)立的問題解決者?!澳憧梢酝ㄟ^把它們放到一個(gè)有驗(yàn)證者的架構(gòu)中來利用它們,”他解釋說,無論這意味著讓更多的人參與進(jìn)來,還是使用其他自動(dòng)化程序?!咀g者注:重要的事情說三遍:譯者一直強(qiáng)調(diào)GenAI的應(yīng)用場景選擇的一個(gè)最重要的原則是:創(chuàng)意大于準(zhǔn)確性。而且RAG 在事實(shí)校驗(yàn)中的作用是十分局限的?!?nbsp;
在Vectara公司,Awadallah正在為此努力。他說,他的團(tuán)隊(duì)的排行榜項(xiàng)目是幻覺檢測器的早期概念驗(yàn)證,而檢測幻覺是能夠修復(fù)幻覺的第一步。未來的檢測器可能會與自動(dòng)化 AI 編輯器配對,該編輯器可以在錯(cuò)誤到達(dá)最終用戶之前糾正錯(cuò)誤。他的公司還在開發(fā)一個(gè)名為AskNews的混合聊天機(jī)器人和新聞數(shù)據(jù)庫,該數(shù)據(jù)庫將LLM與檢索引擎相結(jié)合,該引擎從最近發(fā)表的文章中挑選最相關(guān)的事實(shí)來回答用戶的問題。阿瓦達(dá)拉說,AskNews提供的時(shí)事描述比LLM本身所能產(chǎn)生的要準(zhǔn)確得多,因?yàn)榱奶鞕C(jī)器人的響應(yīng)僅基于數(shù)據(jù)庫搜索工具挖掘的來源。
Hakkani-Tür也在研究基于事實(shí)的系統(tǒng),將專門的語言模型與相對可靠的信息源(如公司文件、經(jīng)過驗(yàn)證的產(chǎn)品評論、醫(yī)學(xué)文獻(xiàn)或維基百科帖子)配對,以提高準(zhǔn)確性。她希望,一旦所有的問題都得到解決,這些接地氣的網(wǎng)絡(luò)有朝一日可以成為實(shí)現(xiàn)健康獲取和教育公平等方面的有用工具?!拔掖_實(shí)看到了語言模型的力量,它是讓我們的生活更美好、更有成效、更公平的工具,”她說。
在未來,專業(yè)系統(tǒng)會驗(yàn)證LLM輸出,為特定環(huán)境設(shè)計(jì)的人工智能工具將部分取代今天的通用模型。人工智能文本生成器的每個(gè)應(yīng)用程序(無論是客戶服務(wù)聊天機(jī)器人、新聞?wù)?wù)還是法律顧問)都將成為定制架構(gòu)的一部分,從而實(shí)現(xiàn)其實(shí)用性。同時(shí),不那么接地氣的通才聊天機(jī)器人將能夠回答你提出的任何問題,但不能保證真實(shí)性。他們將繼續(xù)成為強(qiáng)大的創(chuàng)意伙伴或靈感和娛樂的來源——但不是神諭或百科全書——完全遵照其設(shè)計(jì)目標(biāo)。
【譯者注:譯者在“??大模型的幻覺,解鈴還須系鈴人??”文中運(yùn)用自己總結(jié)的大模型數(shù)學(xué)物理原理的思維框架,從原理層面分析了大模型幻覺產(chǎn)生的機(jī)理和控制方法,與本文中眾多學(xué)者的學(xué)術(shù)分析吻合,印證了思維框架的重要價(jià)值?!?nbsp;
作者勞倫·萊弗(LAUREN LEFFER)是《科學(xué)美國人》的特約撰稿人和前技術(shù)報(bào)道研究員。她報(bào)道了許多主題,包括人工智能、氣候和奇怪的生物學(xué),因?yàn)樗龑﹀e(cuò)誤感到好奇。
