自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

LLM幻覺問題全梳理!哈工大團隊50頁綜述重磅發(fā)布

人工智能 新聞
重磅!哈爾濱工程大學研究團隊發(fā)布50頁綜述,細致盤點有關(guān)LLM幻覺問題你該知道的所有事。

幻覺,老朋友了。

自打LLM進入我們的視野,幻覺問題就一直是一道坎,困擾著無數(shù)開發(fā)人員。

當然,有關(guān)大語言模型幻覺的問題已經(jīng)有了無數(shù)研究。

最近,來自哈工大和華為的團隊發(fā)表了一篇50頁的大綜述,對有關(guān)LLM幻覺問題的最新進展來了一個全面而深入的概述。

這篇綜述從LLM幻覺的創(chuàng)新分類方法出發(fā),深入探究了可能導致幻覺的因素,并對檢測幻覺的方法和基準進行了概述。

這其中肯定也少不了業(yè)內(nèi)比較有代表性的減輕幻覺的方法。

論文地址:https://arxiv.org/abs/2311.05232

下面,我們就來看一看本篇綜述中主要講了些什么內(nèi)容。

想深入學習的朋友,可以移步文章底部的參考鏈接,閱讀論文原文。

幻覺大分類

首先,先來看看有哪些種類的幻覺。

上圖中,左邊是事實性的幻覺。當LLM被問到誰是第一個在月球上漫步的人時,LLM編了個人物出來,甚至還說得有模有樣。

右邊則是文本摘要模型中的忠實度問題,可以看到LLM在看到這段新聞后,直接把年份概括錯了。

在本篇綜述中,研究人員深入分析了LLM中幻覺的起源,涵蓋了從數(shù)據(jù)、訓練到推理階段的一系列促成因素。

在這一框架內(nèi),研究人員指出了與數(shù)據(jù)相關(guān)的潛在原因。例如,有缺陷的數(shù)據(jù)源和未優(yōu)化的數(shù)據(jù)利用,或是在預訓練和對齊過程中可能會誘發(fā)幻覺的訓練策略,以及源于解碼策略的隨機性和推理過程中不完善的表征等等。

此外,研究人員還全面概述了專為檢測LLM中的幻覺而設(shè)計的各種有效方法,以及與LLM幻覺相關(guān)的基準的詳盡概述,和作為評估LLM產(chǎn)生幻覺的程度和檢測方法有效性的試驗平臺。

下圖即為本篇綜述所涉及到的內(nèi)容、前人研究,以及論文。

下圖是一張更為詳細的LLM幻覺種類圖。

在事實型幻覺和忠實度幻覺下,還包括更為細致的分類。

事實型幻覺:

a)事實不一致

當問LLM,誰是第一位登月的人時,LLM回答說是加加林,而非阿姆斯特朗。這種屬于答案與事實不一致,因為確有加加林其人,所以不屬于捏造。

b)事實捏造

當讓LLM介紹一下獨角獸的起源時,LLM并沒有指出世界上沒有獨角獸這種生物,反倒是編了一大段。這種現(xiàn)實世界中沒有的,稱之為捏造。

忠實度幻覺又包括:指令-答案的不一致、文本不一致,以及邏輯不一致。

a)指令-答案不一致

當LLM被要求翻譯一個問句時,LLM輸出的答案實際上回答了問題,沒有進行翻譯。因此是一種指令和答案的不一致。

b)文本不一致

這類不一致更多出現(xiàn)在概括類任務中。LLM可能會罔顧給出的文本,總結(jié)一個錯的出來。

c)邏輯不一致

在被要求給出2x+3=11的方程解法時,第一步LLM指出,兩邊同時減去3,得到2x=8.接下來在兩邊除以2的操作中,LLM輸出的答案是3.

8除以2怎么會等于3呢?

幻覺產(chǎn)生原理

數(shù)據(jù)

接下來,綜述開始梳理有關(guān)幻覺產(chǎn)生原理的內(nèi)容。

第一類,數(shù)據(jù)問題。

·錯誤信息和偏見。鑒于對大規(guī)模語料庫的需求日益增長,啟發(fā)式數(shù)據(jù)收集方法被用來有效收集大量數(shù)據(jù)。

這種方法在提供大量數(shù)據(jù)的同時,可能會無意中引入錯誤信息,增加出現(xiàn)模仿性錯誤的風險。此外,社會偏見也會在無意中被引入LLMs的學習過程。

這些偏差主要包括重復偏差和各種社會偏差(Social Biases)。

要知道,LLM預訓練的主要目的是模仿訓練分布。所以當LLM在事實不正確的數(shù)據(jù)上接受訓練時,它們可能會無意中放大這些不準確的數(shù)據(jù),從而可能導致事實不正確的幻覺。

神經(jīng)網(wǎng)絡(luò),尤其是大型語言模型,具有記憶訓練數(shù)據(jù)的內(nèi)在傾向。研究表明,這種記憶趨勢會隨著模型規(guī)模的擴大而增強。

然而,在預訓練數(shù)據(jù)中存在重復信息的情況下,固有的記憶能力就會出現(xiàn)問題。這種重復會使 LLM 從泛化轉(zhuǎn)向記憶,最終產(chǎn)生重復偏差,即LLM會過度優(yōu)先回憶重復的數(shù)據(jù),導致幻覺,最終偏離所需的內(nèi)容。

除了這些偏見,數(shù)據(jù)分布的差異也是產(chǎn)生幻覺的潛在原因。

下一種情況是,LLM通常會存在知識邊界。

雖然大量的預培訓語料庫為法律碩士提供了廣泛的事實知識,但它們本身也有局限性。這種局限性主要體現(xiàn)在兩個方面:缺乏最新的事實知識和專業(yè)領(lǐng)域知識。

雖說LLM在通用領(lǐng)域的各種下游任務中表現(xiàn)出了卓越的性能,但由于這些通用型LLMs主要是在廣泛的公開數(shù)據(jù)集上進行訓練,它們在專業(yè)領(lǐng)域的專業(yè)知識受到缺乏相關(guān)訓練數(shù)據(jù)的內(nèi)在限制。

因此,當遇到需要特定領(lǐng)域知識的問題時,如醫(yī)學和法律問題,這些模型可能會表現(xiàn)出明顯的幻覺,通常表現(xiàn)為捏造事實。

此外,還有過時的事實知識。除了特定領(lǐng)域知識的不足,LLMs知識邊界的另一個內(nèi)在限制是其獲取最新知識的能力有限。

蘊含在LLM中的事實知識具有明確的時間界限,隨著時間的推移可能會過時。

這些模型一旦經(jīng)過訓練,其內(nèi)部知識就永遠不會更新。

而鑒于我們這個世界的動態(tài)性和不斷變化的本質(zhì),這就構(gòu)成了一個挑戰(zhàn)。當面對超越其時間范圍的領(lǐng)域知識時,LLMs往往會采用捏造事實或提供過去可能正確,但現(xiàn)在已經(jīng)過時的答案的方法來試圖「蒙混過關(guān)」。

下圖中,上半部分即為LLM缺失特定領(lǐng)域內(nèi)的專業(yè)知識——phenylketonuria(苯丙酮尿)。

下半部分即為最簡單的一個知識過時的案例。2018年韓國平昌舉辦冬奧會,2022年北京舉辦冬奧會。LLM并沒有有關(guān)后者的知識儲備。

由此可見,LLM中與數(shù)據(jù)有關(guān)的幻覺主要源于錯誤的數(shù)據(jù)源和不佳的數(shù)據(jù)利用情況。數(shù)據(jù)源中的錯誤信息和固有偏差不僅會傳播模仿性虛假信息,還會引入有偏差的輸出,從而導致各種形式的幻覺。

在處理特定領(lǐng)域的知識或遇到快速更新的事實知識時,LLM所擁有知識的局限性就會變得很明顯。

在數(shù)據(jù)利用方面,LLMs 往往會捕捉到虛假的相關(guān)性,在回憶知識(尤其是長尾信息)和復雜推理場景中表現(xiàn)出困難,從而進一步加劇幻覺。

這些挑戰(zhàn)突出表明,亟需提高數(shù)據(jù)質(zhì)量,增強模型更有效地學習和回憶事實知識的能力。

訓練

現(xiàn)在,綜述把目光轉(zhuǎn)向LLM的訓練階段。

LLM的訓練過程主要包括兩個主要階段:

預訓練階段,LLMs在這一階段學習通用表征并捕捉廣泛的知識。

對齊階段,LLMs在這一階段進行調(diào)整,以更好地使用戶指令和人類的基本價值觀保持一致。雖然這一過程使LLM 具備了還算不錯的性能,但這些階段中的任何不足都可能無意中導致幻覺的發(fā)生。

預訓練是LLM的基礎(chǔ)階段,通常采用基于transformer的架構(gòu),在龐大的語料庫中進行因果語言建模。

然而,固有的架構(gòu)設(shè)計和研究人員所采用的特定訓練策略,可能會產(chǎn)生與幻覺相關(guān)的問題。如上所說,LLM通常采用基于transformer的架構(gòu),遵循GPT建立的范式,它們通過因果語言建模目標獲取表征,OPT和Llama-2等模型都是這一框架的典范。

除了結(jié)構(gòu)缺陷,訓練策略也起著至關(guān)重要的作用。值得注意的是,自回歸生成模型的訓練和推理之間的差異導致了暴露偏差(Exposure Bias)現(xiàn)象。

而在對齊階段,一般涉及兩個主要過程,即監(jiān)督微調(diào)和從人類反饋中強化學習(RLHF),是釋放LLM能力并使其符合人類偏好的關(guān)鍵一步。

雖然對齊能顯著提高 LLM 響應的質(zhì)量,但也會帶來產(chǎn)生幻覺的風險。

主要分為兩方面:能力不對齊和信念不對齊(Capability Misalignment、Belief Misalignment)。

如何檢測幻覺?

檢測LLM中的幻覺對于確保生成內(nèi)容的可靠性和可信度來說至關(guān)重要。

傳統(tǒng)的衡量標準主要依賴于詞語重疊,無法區(qū)分可信內(nèi)容和幻覺內(nèi)容之間的細微差別。

這一挑戰(zhàn)凸顯了針對LLM幻覺采用更先進的檢測方法的必要性。研究人員指出,鑒于這些幻覺的多樣性,檢測方法也相應地有所不同。

這里僅詳細介紹一例——

·檢索外部事實

如下圖所示,為了有效地指出LLM輸出中不準確的事實,一種比較直觀的策略是,直接將模型生成的內(nèi)容與可靠的知識來源進行比較。

這種方法與事實檢查任務的工作流程非常吻合。然而,傳統(tǒng)的事實核查方法往往出于實用性考慮而采用了簡化假設(shè),導致在應用于復雜的現(xiàn)實世界場景時有可能會出現(xiàn)偏差。

在認識到這些限制因素以后,一些研究者提出,要更加重視真實世界的場景,即從時間受限、未經(jīng)整理的網(wǎng)絡(luò)資源中獲取證據(jù)。

他們首創(chuàng)了一種全自動的工作流,集成多個組成部分,包括原始文檔檢索、細粒度檢索、真實性分類等等。

當然,還有不少其他研究者提出了另外一些辦法,比如FACTSCORE,專門用于長文本生成的細粒度事實度量。

圖片

其它方法還包括不確定性估計,如下圖所示。

有關(guān)忠實度幻覺的檢測,也有不少相關(guān)研究,如下圖所示。

其中包括基于事實度量:通過檢測生成內(nèi)容與源內(nèi)容之間的事實重疊度來評估忠實度。

基于分類器的度量:利用經(jīng)過訓練的分類器來區(qū)分生成內(nèi)容與源內(nèi)容之間的關(guān)聯(lián)程度。

基于QA的度量方法:利用問題解答系統(tǒng)來驗證源內(nèi)容與生成內(nèi)容之間的信息一致性。

不確定性估計:通過測量模型對其生成輸出的置信度來評估忠實度。

基于prompt的度量方法:讓LLM充當評估者,通過特定的prompt策略來評估生成內(nèi)容的忠實度。

之后,哈工大團隊還將較為前沿的減輕幻覺的方法進行了整理,針對上述提到的各類問題,分別提供可行的解決辦法。

總結(jié)

總而言之,在論文的最后,哈工大的研究人員表示,在這份全面的綜述中,他們對大型語言模型中的幻覺現(xiàn)象進行了深入研究,深入探討了其潛在原因的復雜性、開創(chuàng)性的檢測方法和相關(guān)基準,以及有效的緩解策略。

雖然開發(fā)者們在這個問題上已經(jīng)有了不少進步,但大型語言模型中的幻覺問題仍然是一個令人關(guān)注的持續(xù)性問題,需要繼續(xù)研究。

此外,本篇論文還可以作為推進安全可信的AI的指路明燈。

哈工大團隊表示,希望通過對幻覺這一復雜問題的探索,為這些有志之士提供寶貴的見解,推動AI技術(shù)向更可靠、更安全的方向發(fā)展。

責任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2023-10-29 22:38:59

2023-10-07 13:17:44

2025-04-27 09:07:00

模型安全AI

2013-11-04 14:46:18

2021-12-17 10:00:38

2021 Ventur

2023-02-28 13:09:53

訓練模型

2023-12-01 14:36:33

模型數(shù)據(jù)

2025-04-08 02:22:00

2015-10-27 09:25:01

2025-01-09 12:32:57

2010-06-11 17:35:08

路由協(xié)議

2023-09-14 12:35:59

2024-12-31 08:03:12

2022-09-04 19:22:46

開發(fā)科技

2025-01-10 00:00:00

2024-01-29 11:56:23

數(shù)據(jù)AI

2023-09-18 08:50:51

智能模型

2017-05-27 13:16:52

聯(lián)想企業(yè)網(wǎng)盤

2020-09-11 10:29:16

騰訊云WeData 全鏈路
點贊
收藏

51CTO技術(shù)棧公眾號