AI海洋中的海妖之歌:騰訊AI Lab大模型幻覺問題綜述
大規(guī)模語言模型在眾多下游任務中展現(xiàn)了驚人的能力,但它們在使用中仍然暴露了一些問題。其中,幻覺是目前影響大模型落地的重要問題之一。ChatGPT 的發(fā)布使學術界和工業(yè)界關注大模型實際落地的潛能,大量關于幻覺的工作也開始涌現(xiàn)。
近期,騰訊 AI Lab 聯(lián)合國內外多家學術機構發(fā)布了面向大模型幻覺工作的綜述,對幻覺的評估、溯源、緩解等進行了全面的探討。
- 論文鏈接:https://arxiv.org/abs/2309.01219
- Github 鏈接:https://github.com/HillZhang1999/llm-hallucination-survey
什么是大模型幻覺問題?
根據相關工作和平時對大模型的使用體驗,研究人員總結了大模型常見的三類幻覺:
- 和用戶輸入沖突的幻覺 (Input-Conflicting Hallucination):大模型生成的回復違背了用戶輸入中的任務指示或者任務輸入。
- 和已生成的上下文沖突的幻覺 (Context-Conflicting Hallucination):大模型生成的回復出現(xiàn)了自我矛盾。
- 和事實知識沖突的幻覺 (Fact-Confilicting Hallucination):大模型生成的回復與公認的事實知識出現(xiàn)了沖突。
在上述三類幻覺中,和事實知識沖突的幻覺是目前大模型幻覺研究的核心熱點。研究人員認為是因為這一類幻覺研究的難度更大,對用戶實際使用體驗的干擾也最大。例如,大模型在生成醫(yī)療建議時可能會捏造錯誤的藥品劑量,誤導缺少專業(yè)醫(yī)學知識的用戶,產生風險。
大模型幻覺和傳統(tǒng)幻覺的主要區(qū)別在哪里?
在大模型時代前 (以 ChatGPT 的發(fā)布為節(jié)點),幻覺問題在傳統(tǒng)的自然語言生成任務中也有一定的研究積累。研究人員總結了大模型幻覺和傳統(tǒng)幻覺研究的幾點重要區(qū)別:
- 大模型使用海量訓練數據:與傳統(tǒng)任務不同,大模型需要在海量數據上進行大規(guī)模預訓練。這些海量數據往往采集于互聯(lián)網,可能包含大量偽造的、有偏見、過時的內容,從而導致幻覺。由于數據規(guī)模過大,上述問題內容也難以分析和篩除。
- 大模型的通用性:傳統(tǒng)模型往往只面向單一的任務,而大模型則被應用于多任務、多語言、多領域的通用場景。大模型的通用性給幻覺的全面評估、消除帶來了全新挑戰(zhàn)。
- 大模型幻覺不易被察覺:由于大模型的強悍能力,大模型生成的幻覺看上去非常合理,有的時候甚至人類都很難發(fā)現(xiàn)。
- 其他區(qū)別:大模型的一些新特性,例如額外引入的基于人類反饋的強化學習 (RLHF) 過程、模糊的知識邊界、以及潛在的黑盒屬性,也給幻覺研究帶來了新的挑戰(zhàn)。
大模型幻覺如何評估
大模型幻覺問題的研究基石是可靠的評估基準。現(xiàn)有研究工作提出了多個針對性的評估基準,主要面向事實沖突類型的幻覺。研究人員從多個方面對這些基準進行了總結。
- 評估形式 (Evaluation):現(xiàn)有評估基準往往有兩類方式評估大模型的幻覺,即生成式 (generation) 和判別式 (discrimination)。生成式的基準直接評估大模型生成回復中出現(xiàn)幻覺的傾向,而判別式的基準則評估大模型判斷一段文本是否存在幻覺的能力。
- 應用任務 (Task Format):現(xiàn)有評估基準在不同的下游任務中評估大模型的幻覺現(xiàn)象,例如問答、指令遵循、文本續(xù)寫等。
- 評測指標 (Metrics):現(xiàn)有評估基準各自設計了特殊的指標,用于判斷大模型出現(xiàn)幻覺的程度,包括:1)人工評估;2) 基于模型的自動評估;3)基于規(guī)則的自動評估。
大模型幻覺來源于什么
研究人員也對大模型產生幻覺的原因進行了一些初步分析,例如:
- 大模型缺乏相關知識或者記憶錯誤知識:在大模型回答用戶問題或者解決更復雜的下游任務時,如果缺少了所需要的知識或者從訓練數據中記憶了錯誤的知識,則有可能出現(xiàn)幻覺。
- 大模型高估了自己的能力:一些工作發(fā)現(xiàn),大模型往往無法準確地估計自己的能力邊界。因此,大模型在回復超出自己能力的問題時,往往會高估自己,從而自信地編造幻覺回復。
- 對齊過程中引入幻覺:大模型在預訓練階段外,還需要進行對齊,包括指令微調和 RLHF。這些步驟可能誤導大模型出現(xiàn)幻覺。例如不恰當的指令微調可能讓大模型學會捏造自己不會的答案,RLHF 也可能讓大模型學會為了討好人類而編造內容。
- 生成過程中引入幻覺:一些工作認為,不恰當的生成策略也可能導致大模型出現(xiàn)幻覺。例如,基于采樣的解碼生成方式中引入的隨機性被證明可能導致幻覺,而大模型常用的自回歸生成方式也可能導致幻覺的累積傳播現(xiàn)象。
有什么方法可以緩解大模型幻覺
為了盡可能減少大模型的幻覺現(xiàn)象,從而促進大模型的落地應用,近期出現(xiàn)了大量新的研究工作嘗試緩解幻覺。針對緩解幻覺的方法貫穿了包括預訓練、指令微調、強化學習以及推理在內的整個大模型生命周期,研究人員對此進行了如下總結:
預訓練階段的緩解
已有工作認為,大模型的知識主要來自基于海量文本的自監(jiān)督預訓練。考慮到錯誤和缺失的知識可能導致幻覺的產生,預訓練階段的幻覺緩解工作主要關注如何自動提高預訓練語料質量。例如,Llama 2 在構建預訓練語料時,特地對事實性更好的數據源 (如維基百科) 進行了上采樣。
指令微調階段的緩解
在微調階段,現(xiàn)有工作也探討了如何提高指令微調數據的質量,從而減少大模型的幻覺。與預訓練階段的一個不同點在于,指令微調數據的規(guī)模較小,可以人工進行清洗。
此外,OpenAI 也指出,指令微調階段存在著因為行為克隆現(xiàn)象而導致幻覺的風險。這一現(xiàn)象代表:指令微調的數據中存在著超過大模型能力的樣本,如果一味地強迫大模型學習這類樣本,則有可能導致大模型學會對任何問題都以非??隙ǖ恼Z氣進行回復。那么反映到實際使用時,大模型就會對自己不會的問題捏造回復,從而導致幻覺。
強化學習階段的緩解
針對行為克隆現(xiàn)象導致的幻覺,OpenAI 的強化學習負責人 John Schulman 在伯克利大學的演講中分享了 OpenAI 在訓練 ChatGPT 時緩解幻覺的一種方法。他們在強化學習時,給大模型不同語氣回復的錯誤以不同的懲罰力度。這樣做的目的是鼓勵大模型表達不確定性、質疑問題、承認錯誤,從而緩解過度自信而出現(xiàn)幻覺。
雖然強化學習通過讓模型學會拒絕回答問題一定程度上緩解了幻覺,但也帶來了額外的問題。由于強化學習主要依賴獎勵模型提供監(jiān)督信號,然而獎勵模型并不能達到 100% 的準確率,導致生成模型可能被過優(yōu)化 (over-optimization)。這種情況下,大模型會過度保守,拒絕回答一些它本可以回答正確的問題。
推理階段的緩解
由于在推理階段幻覺最為靈活,許多現(xiàn)有工作集中于此方向。代表性的做法有:
1. 改進解碼策略:研究人員嘗試通過設計更好的解碼策略來緩解幻覺,例如 Inference-Time-Intervention 方法在解碼時通過讓模型激活值在和事實性更為相關的注意力頭上傳播,從而緩解幻覺。
2. 借助外部知識:通過在模型解碼時,檢索和用戶問題相關的知識,讓模型在回復時予以參考,可以顯著解決幻覺問題。這里的知識源可以是無結構文本、結構化文本 (網頁或數據庫),甚至是各類工具。
檢索到相關知識后,一類做法是直接在模型生成回復時提供給模型。另一類做法是在模型生成回復后,提供給模型,讓模型自我糾正先前回復中存在的幻覺。
3. 度量不確定性:通過衡量大模型輸出回復時的不確定度 (uncertainty),可以使用戶了解到回復中哪些部分是不能信任的。常見的不確定度度量方法有:1)基于輸出分數的;2) 基于描述的;3)基于一致性的。
此外,還有更多的緩解方案,如多智能體交互、指令設計、人在回路、分析模型內部狀態(tài)等,都在論文中有著更詳細的介紹。
總結和挑戰(zhàn)
該綜述系統(tǒng)性地探討了大模型幻覺問題的評估、解釋和緩解策略,希望能給后續(xù)的研究人員以啟發(fā)。此外,大模型幻覺問題的研究也有著一些新的研究方向和挑戰(zhàn),如:
1. 可靠評估:大模型的幻覺問題的評估仍然留有大量挑戰(zhàn),比如怎樣設計健壯的、和人類偏好對齊的自動指標,以及判別式和生成式評估方式的取舍和關系等。
2. 多語言和跨語言幻覺:大模型往往可被用于多語言和跨語言場景,但研究人員發(fā)現(xiàn),在英文上表現(xiàn)良好的大模型,在其他語言上可能出現(xiàn)幻覺。
3. 多模態(tài)幻覺:大語言模型的到來使研究者們開始研究多模態(tài)大模型,如語言和圖像、視頻、語音的結合。在這些多模態(tài)場景下,幻覺問題的研究迎來了新的定義和挑戰(zhàn)。
4. 模型編輯:模型編輯技術通過直接編輯大模型參數,來改變它蘊含的知識,從而改變其行為。模型編輯可能是緩解幻覺的一種有潛力的方法。
5. 面向幻覺的攻防:盡管現(xiàn)有的商業(yè)大模型,如 GPT4,已經在面向事實性問題時展現(xiàn)了良好的可靠性,但已有研究表明可以通過一些方式來繞過大模型的安全策略。面向幻覺的攻防也可能是一個有趣的研究方向。