OpenAI翁荔提出大模型「外在幻覺」:萬字blog詳解抵抗辦法、產(chǎn)幻原因和檢測方式
大模型幻覺還分內(nèi)在、外在了——
OpenAI華人科學家翁荔最新Blog,提出LLM外在幻覺(extrinsic hallucination)。
有別于代指模型生成與現(xiàn)實不符、虛構、不一致或者毫無意義的內(nèi)容,翁荔將LLM“幻覺”問題具體化為模型輸出內(nèi)容是虛構的,并且不基于所提供的上下文或世界知識。
由此,幻覺有兩種類型:
- 上下文內(nèi)幻覺:模型輸出應該與上下文中的源內(nèi)容一致(出現(xiàn)上下文內(nèi)幻覺時,輸出與源內(nèi)容不一致)。
- 外在幻覺:模型輸出應該基于預訓練數(shù)據(jù)集。然而,考慮到預訓練數(shù)據(jù)集的規(guī)模,檢索并識別每次生成的沖突成本過高。如果將預訓練數(shù)據(jù)集看作是世界知識的象征,那么本質(zhì)上是試圖確保模型輸出是事實性的并可以通過外部世界知識進行驗證。同樣重要的是,當模型不了解某個事實時,它應該明確表示不知道。
之前,翁荔還提出過Agent公式:Agent=大模型+記憶+主動規(guī)劃+工具使用,被一些網(wǎng)友稱為是“看到的有關Agent的最好的文章”。
而這次關于大模型幻覺的這篇Blog,同樣“重工”,文章超長,足足24篇參考文獻:
翁荔重點關注外在幻覺,討論了三個問題:產(chǎn)生幻覺的原因是什么?幻覺檢測,抵抗幻覺的方法。
量子位在不改變原意的情況下,對原文進行了編譯整理。
量子位已獲原作者授權翻譯轉(zhuǎn)載。
原文在這里:
https://lilianweng.github.io/posts/2024-07-07-hallucination/
產(chǎn)生幻覺的原因是什么?
考慮到一個標準的可部署LLM需要經(jīng)過預訓練和微調(diào)來進行對齊和改進,所以原因分析從這兩個階段入手。
預訓練數(shù)據(jù)問題
預訓練數(shù)據(jù)集旨在代表所有可獲得的書面形式的世界知識,因此體量巨大。
從公共互聯(lián)網(wǎng)爬取數(shù)據(jù)是最常見的選擇,但這就導致可能會出現(xiàn)一些過時、缺失或錯誤的信息。由于模型可能僅僅通過最大化對數(shù)似然來錯誤地記憶這些信息,所以模型可能會犯錯誤。
微調(diào)新知識
通過監(jiān)督微調(diào)(SFT)和人類反饋強化學習(RLHF)來微調(diào)預訓練LLM是提高模型某些能力(例如指令跟蹤)的常用技術。微調(diào)階段難免引入新知識。
而微調(diào)通常消耗的計算資源較少,通過小規(guī)模的微調(diào)模型是否能可靠地學習新知識還有待商榷。
Gekhman等人在今年的一項研究中討論了一個問題:用新知識進行LLM微調(diào)是否會促使幻覺現(xiàn)象的發(fā)生。
他們發(fā)現(xiàn):LLM學習帶有新知識的微調(diào)示例,要比學習與模型預先存在的知識一致的示例,學得更慢;一旦學習了這些帶有新知識的示例,模型產(chǎn)生幻覺的傾向就會增加。
具體來說,給定一個封閉式問答數(shù)據(jù)集(即EntityQuestions)??=(??,??),將??Correct(??,??;??,??) 定義為模型M準確生成正確答案的可能性的估計,當使用隨機示例和一定的解碼溫度??來提示時,問題??的正確答案是??。
他們根據(jù)??Correct(??,??;??,??) 不同條件將示例分為4個類別:Known組(包括三個子組:HighlyKnown、MaybeKnown、WeakKnown)、Unknown組。
實驗中的一些有趣觀察,其中驗證集(dev set)的準確率被視為幻覺的象征性指標:
- Unknown擬合速度明顯比Known慢得多;
- 當LLM擬合了大多數(shù)Known訓練示例,但只擬合了少數(shù)Unknown示例時,可以獲得最佳表現(xiàn);
- 當大多數(shù)Unknown示例被學習后,模型開始產(chǎn)生幻覺。
這些來自Gekhman等人的研究結果,指出了使用監(jiān)督微調(diào)來更新LLM知識的風險。
幻覺檢測
檢索增強評估
為量化模型的幻覺現(xiàn)象,Lee等人2022年引入了一個新的基準數(shù)據(jù)集FactualityPrompt,該數(shù)據(jù)集包含了事實性和非事實性的提示,使用維基百科文檔或句子作為事實性的基礎知識庫。
維基百科文檔是來自FEVER數(shù)據(jù)集的已知真實信息,而句子則是通過tf-idf或基于句子嵌入的相似度選擇的。
在給定模型續(xù)寫和配對的維基百科文本的情況下,考慮了兩種評估幻覺的指標:幻覺命名實體(NE)錯誤率、蘊含比率(Entailment ratios)。
較高的NE錯誤率和較低的蘊含比率表明事實性較高,研究發(fā)現(xiàn)這兩個指標都與人類注釋相關,較大模型在此基準上表現(xiàn)更佳。
此外,Min等人2023提出了FActScore,將長文生成分解成多個原子事實,并根據(jù)維基百科等知識庫單獨驗證每個事實。然后可以測量每個模型生成的知識來源支持的句子的比率(精度),F(xiàn)ActScore是一組提示中模型生成的平均精度。
該論文在人物傳記生成任務上試驗了多種事實性驗證方式,發(fā)現(xiàn)使用檢索比無上下文LLM具有更好的一致性。在檢索增強方法中,最佳估計器的選擇取決于模型。
- 無上下文LLM:直接使用“True or False?”提示LLM,無需附加上下文
- 檢索→LLM:以從知識來源檢索的??相關段落作為上下文進行提示
- 非參數(shù)概率 (NP):通過掩碼LM計算原子事實中標記的平均似然度,并用其進行預測
- 檢索→LLM+NP:兩種方法的集成
關于模型幻覺行為的一些有趣的觀察:
- 在傳記生成任務中,越稀有的實體的錯誤率越高
- 在生成內(nèi)容中較晚提及的事實的錯誤率也較高
- 使用檢索來為模型生成提供基礎可以顯著幫助減少幻覺現(xiàn)象
Wei等人2024年還提出了一種評估LLM長篇事實性的方法,名為SAFE(Search-Augmented Factuality Evaluator)。
與FActScore相比,主要區(qū)別在于SAFE使用語言模型作為Agent,通過多步驟過程迭代地發(fā)出谷歌搜索查詢,并推理搜索結果是支持還是不支持該事實。
在每一步中,Agent基于待檢查的事實以及之前獲得的搜索結果生成搜索查詢。經(jīng)過若干步驟后,模型進行推理以確定該事實是否得到搜索結果的支持。
根據(jù)實驗,盡管SAFE方法的成本比人類注釋低20倍,但其效果卻優(yōu)于人類注釋:與人類的一致率為72%,在意見不一致時勝過人類的比率為76%。
SAFE評估指標是F1@K。對于長篇事實性的模型響應,理想情況下應同時達到精確度和召回率,因為響應應同時滿足:
- 事實性的:通過精確度衡量,即整個響應中被支持的事實占所有事實的百分比。
- 長篇的:通過召回率衡量,即提供的事實占應出現(xiàn)在響應中的所有相關事實的百分比。因此,要考慮最多支持的事實數(shù)量??。
給定模型響應??,指標F1@K定義為:
另外,Chern等人2023年提出了遵循標準的事實核查工作流程FacTool。它旨在檢測包括基于知識的問答、代碼生成、解決數(shù)學問題以及科學文獻審查等多種任務中的事實錯誤。步驟包括:
- 聲明提?。和ㄟ^提示LLM提取所有可驗證的聲明。
- 查詢生成:將每個聲明轉(zhuǎn)換為適合外部工具的一系列查詢,例如搜索引擎查詢、單元測試用例、代碼片段和論文標題。
- 工具查詢與證據(jù)收集:查詢外部工具,如搜索引擎、代碼解釋器、谷歌學術,并獲取返回結果。
- 一致性驗證:根據(jù)外部工具提供的證據(jù)支持程度,為每個聲明分配一個二進制的事實性標簽。
基于采樣的檢測
Manakul等人2023年提出了依賴于對來自黑盒LLM的多個樣本進行一致性檢查——SelfCheckGPT,以識別事實性錯誤。
考慮到灰盒事實核查測量需要訪問LLM的token級別的logprob,SelfCheckGPT僅需使用不依賴外部知識庫的樣本,因此黑盒訪問就足夠了,無需外部知識庫。
該方法使用不同的指標來衡量模型響應與其它隨機模型樣本之間的一致性,包括BERTScore、NLI、提示(詢問是/否)等。在對GPT-3生成的WikiBio段落進行實驗檢測時,使用提示的SelfCheckGPT似乎表現(xiàn)最佳。
校準未知知識
讓模型對無法回答或未知問題生成答案可能會引發(fā)幻覺。TruthfulQA(Lin等人,2021年)和SelfAware(Yin等人,2023年)是兩個基準測試,用以衡量模型在這類情況下生成真實回應的能力,前者是為了強調(diào)人類的錯誤而對抗性構建的,后者包含了因其性質(zhì)而無法回答的問題。
面對這些問題時,模型應該拒絕回答或提供相關信息。
在TruthfulQA中,測試問題是根據(jù)人類常見的誤解或錯誤對抗性地設計的。這個基準包含了覆蓋健康、法律、金融和政治等38個話題的817個問題。
在進行測試時,最佳LLM的準確率為58%,而人類可以達到94%。研究團隊發(fā)現(xiàn),由于常見的誤解,較大的模型不太真實,但這種趨勢并未在其它標準(非對抗性)事實基準中顯示出來。
以下是GPT-3在TruthfulQA上的錯誤答案示例:
Yin等人2023年研究了SelfAware的概念,指的是語言模型是否知道它們知道什么或不知道什么。
SelfAware包含了五個類別中的1032個無法回答的問題和2337個可回答的問題。無法回答的問題來源于在線論壇并附有人類注釋,可回答的問題來源于SQuAD、HotpotQA和TriviaQA。
一個問題可能因為各種原因而無法回答,例如沒有科學共識、對未來的想象、完全主觀、可能產(chǎn)生多種回應的哲學原因等。
研究將區(qū)分可回答和不可回答的問題視為二元分類任務,并使用F1分數(shù)或準確率來評估模型的表現(xiàn),實驗表明更大的模型在這項任務上表現(xiàn)得更好。
評估模型對未知知識的認知程度的另一種方式是測量模型輸出的不確定性。當一個問題介于已知和未知之間時,模型應表現(xiàn)出正確的置信度。
Kadavath等人2022年的實驗表明,在具有可見字母答案選項的多種多選題格式(MMLU、TruthfulQA、QuALITY、LogiQA)中,LLM在估計答案正確性的概率上表現(xiàn)得很好,這意味著預測的概率與該答案為真的頻率一致。
RLHF微調(diào)使模型校準效果較差,但較高的采樣溫度會帶來更好的校準結果。
Lin等人2022年提出了CalibratedMath任務套件。CalibrateMath是一套以編程方式生成的數(shù)學問題,具有不同的難度級別,用以測試模型輸出概率的校準程度。
對于每個問題,模型必須提供一個數(shù)值答案及其對該答案的置信度。考慮了三種類型的概率:
- 用文字表述的數(shù)字或詞(例如“最低”,“低”,“中等”,“高”,“最高”),如“置信度:60% / 中等”。
- 答案token的歸一化對數(shù)概率。注意,微調(diào)實驗中沒有使用這種參數(shù)。
- 在原始答案之后的間接”True/False”標記的Logprob。實驗側(cè)重于校準在任務難度或內(nèi)容的分布變化下的泛化程度。每個微調(diào)數(shù)據(jù)點是一個問題、模型的答案(可能是錯誤的)和校準的置信度。在兩種情況下,文字表述的概率都能很好地泛化,而所有設置在乘除任務轉(zhuǎn)換上表現(xiàn)良好。在模型預測置信度方面,F(xiàn)ew-shot比微調(diào)模型弱。包含更多示例很有幫助,50-shot幾乎與微調(diào)版本一樣好。
間接查詢
Agrawal等人2023年專門研究了LLM生成中出現(xiàn)的幻覺引用案例,包括虛構的書籍、文章和論文標題。他們使用兩種基于一致性的方法來檢測幻覺,即直接查詢與間接查詢。這兩種方法在T>0時多次運行檢查,并驗證一致性。
直接查詢要求模型判斷生成的參考資料是否存在,間接查詢則要求提供輔助細節(jié),如參考資料的作者是誰。
假設是,對于一個幻覺參考資料,多次生成同一作者的一致性要小于直接查詢多次回應顯示參考資料存在的可能性。
實驗表明,間接查詢方法效果更好,更大的模型能力更強,且幻覺現(xiàn)象更少。
抵抗幻覺的方法
接下來,回顧一組提升LLM響應真實性的方法,這些方法包括從外部知識庫檢索、特殊的采樣方法、對齊微調(diào)。在這里暫不討論一些通過神經(jīng)元編輯來減少幻覺的可解釋性方法。
RAG→編輯與歸因
RAG(檢索增強生成)是一種非常常見的提供基礎信息的方法,即檢索相關文檔,然后利用額外的相關文檔作為上下文進行生成。
RARR(Retrofit Attribution using Research and Revision)是Gao等人2022年提出的一個框架,通過編輯歸因使LLM能夠追溯地支持對外部證據(jù)的歸因。
給定一個模型生成的文本??,RARR分兩步處理,輸出一個修訂后的文本 ??和一個歸因報告??:
1、研究階段:查找相關文檔作為證據(jù)。
首先使用查詢生成模型(通過少樣本提示, ??→??1,…,???? )構建一組搜索查詢 ??1,…,????來驗證每個句子的各個方面。
運行Google搜索,每個查詢??=5個結果????。
利用預訓練的查詢-文檔相關性模型來分配相關性分數(shù),并且每個查詢????僅保留一個最相關的??=1文檔 ????1,…,??????。
2、修訂階段:編輯輸出以糾正不受證據(jù)支持的內(nèi)容,同時盡可能保留原始內(nèi)容。初始化修訂后的文本??=??。
根據(jù) (????,??????) ,協(xié)議模型(通過few-shot提示+CoT, (??,??,??)→0,1 ) 檢查證據(jù)????是否與當前修訂后的文本不一致。
僅當檢測到不一致時,編輯模型(通過少數(shù)提示+CoT, (??,??,??)→ new ?? )輸出新版本的?? ,旨在與證據(jù)同時最小限度地改變?? 。
最后只有有限數(shù)量的??=5證據(jù)進入歸因報告??。
在評估修訂后的文本??時,歸因和保留都很重要。
歸因使用AIS(歸因于已識別來源)分數(shù)來衡量??中有多少可歸因于????梢允占斯ぷ⑨尰蚴褂肗LI模型來近似自動AIS評分。
保留是指??保留??原始文本的程度,以Previntent×PrevLev衡量,其中Previntent需要人工注釋,而PrevLev基于字符級Levenshtein編輯距離。與兩個基線相比,RARR會帶來更好的平衡結果,特別是在保留指標方面。
與使用搜索+編輯的RARR類似,Mishra等人2024提出的FAVA(Factuality Verification with Augmented Knowledge)也會檢索相關文檔,然后編輯模型輸出以避免幻覺錯誤。FAVA模型由一個檢索器和一個編輯器組成。
給定提示??和模型輸出??,檢索最相關的文檔:
編輯器生成增強輸出:
RARR不需要訓練,但是FAVA中的編輯器模型??edit需要微調(diào)。通過更詳細地分類不同類型的幻覺錯誤,可以為編輯模型生成合成訓練數(shù)據(jù),方法是在模型生成中插入隨機錯誤。
每個示例都是一個三元組 (??,??,???) ,其中??是作為黃金上下文的原始維基百科段落,??是帶錯誤的LM輸出,而???是帶有錯誤標簽和正確編輯的輸出。
He等人2022年提出的RR(Rethinking with retrieval)方法同樣依賴于檢索相關的外部知識,但不涉及額外的編輯。
RR的檢索不是利用搜索查詢生成模型,而是基于分解的CoT提示。
給定輸入提示??,RR使用CoT提示在溫度>0時生成多個推理路徑??1,…,???? ,其中每個????推理路徑包含一個解釋????(即推理部分),然后是預測????(即實際模型輸出)。檢索外部知識??1,…,????來支持每個解釋。然后,根據(jù)檢索到的知識??1,…,???? 的契合程度選擇最忠實的答案。
- 知識檢索:RR的實驗應用稀疏檢索BM25對維基百科進行搜索,然后通過預訓練的MPNet模型提供的嵌入余弦相似度進行重新排序。
- 忠實度評分:每個推理路徑的忠實度通過蘊含得分、矛盾得分和MPNet相似度的組合來估計。蘊含得分和矛盾得分均由預訓練的NLI模型提供。
Self-RAG(Asai等人,2024)通過端到端訓練一個語言模型,使其學會通過輸出任務結果和間歇性的特殊反思標記來反思自身的生成。
研究團隊通過提示GPT-4創(chuàng)建了一個用于評判模型和生成模型的監(jiān)督數(shù)據(jù)集,然后將其蒸餾到一個內(nèi)部模型中,以降低推理成本。
給定輸入提示??,生成的輸出??由多個部分(例如,一個段是一個句子)。反思標記總共有四種類型,一種用于檢索,三種用于評價:
- Retrieve:決定是否并行運行檢索來獲取一組文檔;輸出值:{yes, no, continue}。
- IsRel:判斷提示??與檢索到的文檔??是否相關;輸出值:{relevant, irrelevant}。
- IsSup:判斷??是否支持輸出文本??;輸出值:{fully supported, partially supported, no support}。
- IsUse:判斷輸出文本??是否對??有用;輸出值:{5, 4, 3, 2, 1}。
Self-RAG一次生成一段????。根據(jù)給定的??和前面的生成??<?? ,模型對Retrieve token進行解碼:
- 如果Retrieve==no,直接生成????;
- 如果Retrieve==yes,模型并行檢索多個段落,并使用IsRel token檢查檢索到的文檔是否相關。如果相關,生成????并使用其它評價token來評分、排名并選擇多個輸出中的最佳結果。
動作鏈
在沒有外部檢索知識的基礎上,可以設計一個利用模型本身進行驗證和修訂的過程,以減少幻覺。
Dhuliawala等人2023年提出了一種基于動作鏈進行規(guī)劃和執(zhí)行驗證的方法,名為Chain-of-Verification(CoVe)。CoVe包括四個核心步驟:
- 基線響應:模型生成一個初始響應草稿,稱為“baseline”。
- 規(guī)劃驗證:基于這個原始生成,模型設計非模板化的驗證問題進行事實核查;可以通過少量示例提示(回答,驗證問題)來實現(xiàn)。
- 執(zhí)行驗證:模型獨立回答這些問題。有幾種設置變體:
1)聯(lián)合:與步驟2結合,其中few-shot示例結構為(響應,驗證問題,驗證答案);缺點是原始響應在上下文中,模型可能會重復類似的幻覺。
2)兩步法:將驗證規(guī)劃和執(zhí)行步驟分開,如不影響原始響應。
3)分解:分別回答每個驗證問題。例如,如果長篇基本生成結果產(chǎn)生多個驗證問題,將逐一回答每個問題。
4)分解+修訂:在分解驗證執(zhí)行后添加一個“交叉檢查”步驟,根據(jù)基線響應和驗證問題及答案進行條件限制,檢測不一致性。
- 最終輸出:生成最終的、精煉的輸出。如果發(fā)現(xiàn)任何不一致,則在此步驟中將修改輸出。
CoVe之所以這樣設計,是因為使用長篇驗證鏈生成可能會導致重復幻覺,因為初始的幻覺響應仍在上下文中,并且在新生成過程中可以被關注,而單獨回答每個驗證問題被發(fā)現(xiàn)比長篇生成能帶來更好的結果。
以下是來自CoVe實驗的一些有趣觀察:
- 指令調(diào)整和CoT并未減少幻覺。
- 分解和兩步法的CoVe提高了性能,并且對不一致性檢測的進一步明確推理也有所幫助(“分解+修訂”方法)。
- 簡短形式的驗證問題比長形式問題,得到的回答更準確。
- 自由格式的LLM生成的驗證問題比啟發(fā)式問題(例如,X是否回答了問題?)更好,需要開放式生成的問題比“是/否”問題更好。
此外,Sun等人2023年提出了RECITE的方法,依賴于復述作為中間步驟,以提高模型生成的事實正確性并減少幻覺。
其動機是將Transformer的記憶作為信息檢索模型來使用。在RECITE的復述與回答方案中,首先要求LLM復述相關信息,然后生成輸出。
具體來說,可以使用few-shot的上下文提示來教導模型進行復述,然后基于復述來生成答案。此外,它還可以與自我一致性的集成方法結合,這種方法使用多個樣本,并且可以擴展以支持多跳問答。
生成的復述與基于BM25的檢索模型相當,但兩者在使用真實段落時都存在差距。根據(jù)研究團隊進行的錯誤分析,大約7-10%的問題雖然復述正確,但無法生成正確的答案;大約12%的問題復述不正確,但仍然可以正確回答。
抽樣方法
Lee等人2022年發(fā)現(xiàn),在FactualityPrompt基準測試中,核采樣(top-??采樣)的表現(xiàn)不如貪婪采樣,盡管核采樣增加了額外的隨機性,實現(xiàn)了更好的多樣性和較少的重復。
因此,他們提出了基于假設的事實核采樣算法,該假設認為采樣的隨機性對句子后半部分的事實性的影響大于句子開頭。事實核采樣旨在動態(tài)調(diào)整每個句子中采樣詞匯的概率??。對于一個句子中的第??個token,有????=max(??,????????1),其中??用于防止采樣回退到損害生成質(zhì)量和多樣性的貪婪采樣。
Li等人2023年提出Inference-Time Intervention(ITI),通過在每層上對激活進行線性探測,以區(qū)分真實與虛假的輸出,研究了某些注意力頭與事實性是否更相關。
他們發(fā)現(xiàn),對于許多注意力頭來說,探測器的表現(xiàn)不比隨機選擇更好,而有些則表現(xiàn)出很強的性能。在識別出一組在真實性線性探測準確性高的稀疏注意力頭后,ITI在推理時會將top ??選定的注意力頭的激活沿著“真實”方向進行調(diào)整。
針對事實性的微調(diào)
Lee等人2022年提出了兩個事實增強訓練的想法:
- 引入TopicPrefix以更好地了解事實:在該文檔的每個句子前添加主題(即維基百科文檔標題)。
- 將句子完成損失作為訓練目標:更新訓練損失以便聚焦于句子的后半部分,假設句子的后半部分包含更多的事實知識。實現(xiàn)非常簡單,決定一個樞軸點??,并且第?? token之前的所有token都應用零掩碼。在他們的實驗中,最佳的樞軸點??被選擇為0.5x句子長度。
Lin等人2024年提出進行關注事實性的SFT+RLHF對齊訓練,命名為FLAME。
- SFT階段(Factuality-aware SFT):目標是生成比模型自身生成更具事實性的訓練數(shù)據(jù)(通過FActScore衡量)。
- RLHF階段(Factuality-aware DPO):測試了兩種方法,方法1表現(xiàn)不佳,方法2表現(xiàn)還可以,可能是因為方法1試圖在沒有足夠訓練的情況下將新知識蒸餾到模型中。
前文也有提到過,有一些證據(jù)表明,微調(diào)新知識可能會導致幻覺,而RAG的監(jiān)督包含了LLM未知的信息。
方法1:使用RAG數(shù)據(jù)樣本作為正樣本,原始模型生成作為負樣本作為RM數(shù)據(jù)。
方法2:使用FActScore作為事實性的獎勵信號。
為了避免在對齊訓練期間意外將未知知識蒸餾到模型中,他們建議使用模型生成的響應來構建SFT/DPO數(shù)據(jù)集。
Tian&Mitchell等人2024年提出的Factuality tuning同樣依賴于微調(diào)語言模型以提高事實性。他們試驗了不同的方法來估計每個模型樣本中原子聲明的真實性,然后運行DPO。
事實性調(diào)整過程:
1、給定提示集的模型完成示例對(例如”Write a bio of Yo-Yo Ma”)
2、根據(jù)兩種無需人工干涉的方法對其進行真實性標注:
基于參考:檢查外部知識庫是否支持模型聲明,類似于上述基于檢索的幻覺評估部分。(a) 提取一系列原子聲明;(b) 查找維基百科參考;(c) 使用一個微調(diào)過的小型NLI模型來檢查參考文本是否支持原子聲明。
不基于參考的:使用模型自身的置信度作為其真實性的象征,類似于間接查詢方法。(a) 將每個聲明轉(zhuǎn)換成相應的問題/需要仔細改寫以確保問題明確;使用few-shot提示;(b) 從模型中多次采樣以回答該問題;(c) 計算聚合分數(shù)/使用字符串匹配或詢問GPT判斷兩個答案是否語義等價。
3、通過從模型生成多個樣本并根據(jù)真實性分數(shù)分配偏好,構建一個訓練數(shù)據(jù)集。然后在這個數(shù)據(jù)集上使用DPO對模型進行微調(diào)。
針對歸因的微調(diào)
在生成依賴于搜索結果的模型輸出時,賦予歸因是減少幻覺的一個好方法。有一系列工作旨在訓練LLM更好地利用檢索到的內(nèi)容并分配高質(zhì)量的歸因。
Nakano等人2022年提出WebGPT,將用于文檔檢索的Web搜索與微調(diào)的GPT模型相結合,旨在回答長篇問題以減少幻覺并提高事實精度。
該模型與基于文本的Web瀏覽器中的互聯(lián)網(wǎng)搜索進行交互,并學會引用網(wǎng)頁來回答問題。當模型正在瀏覽時,它可以采取的一種行動是引用當前頁面的摘錄。執(zhí)行此操作時,會記錄頁面標題、域名和摘錄,以便稍后作為參考使用。WebGPT的核心是使用參考資料幫助人們判斷事實正確性。
該模型首先在人類使用Web瀏覽環(huán)境回答問題的演示上進行監(jiān)督微調(diào),以進行行為克隆。
收集同一問題的兩個模型生成的答案(每個答案都有自己的參考集)之間的比較數(shù)據(jù),其中答案會根據(jù)其事實精度、連貫性和整體有用性進行評判。獎勵模型用于RL訓練和best-of-n拒絕采樣。相比之下,RL效果有限,并且當使用拒絕抽樣時,效果更有限。
Menick等人2022年提出GopherCite,在使用搜索引擎創(chuàng)建支持材料和教模型提供參考資料方面與WebGPT非常相似。兩者都對引導進行監(jiān)督微調(diào),并且都應用RLHF訓練。
與依賴人類演示進行行為克隆的WebGPT不同的是,GopherCite通過few-shot提示生成演示,并且每次生成都使用相關文檔的上下文填充,然后使用獎勵模型來評分哪些是最好的。
為避免低質(zhì)量響應的另一個技巧將模型配置為拒絕使用預設答案 “I don’t know” 進行回答,該答案由全局RM閾值決定,稱為選擇性預測(selective prediction)。
RL實證結果與WebGPT類似,即RL只帶來有限的改進,或者當與拒絕抽樣結合使用時不帶來改進。
翁荔是誰?
翁荔是OpenAI華人科學家、ChatGPT的貢獻者之一,北大畢業(yè)。
她是OpenAI人工智能應用研究的負責人,2018年加入OpenAI,在GPT-4項目中主要參與預訓練、強化學習&對齊、模型安全等方面的工作。
在OpenAI去年底成立的安全顧問團隊中,她領導安全系統(tǒng)團隊(Safety Systems),解決減少現(xiàn)有模型如ChatGPT濫用等問題。