自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

大模型總弄錯「事實」怎么辦?這有一份匯聚了300多篇文獻(xiàn)的綜述

人工智能 新聞
西湖大學(xué)聯(lián)合國內(nèi)外十家科研單位發(fā)表了一篇大模型事實性的綜述,這篇文章對大模型的事實性進(jìn)行了詳細(xì)的梳理和總結(jié)。

大模型在掌握事實性知識上展現(xiàn)出巨大的能力和潛力,但是其仍然存在一些問題,比如缺乏領(lǐng)域知識,缺乏實時知識,可能會產(chǎn)生幻覺等等,這極大的限制了大模型的應(yīng)用和可依靠性。近期已經(jīng)有一些工作針對大模型的事實性進(jìn)行了研究,但仍未有文章對大模型事實性的定義、影響、評估、分析和增強(qiáng)進(jìn)行完整的梳理。

西湖大學(xué)聯(lián)合國內(nèi)外十家科研單位發(fā)表了一篇大模型事實性的綜述《Survey on Factuality in Large Language Models: Knowledge, Retrieval and Domain-Specificity》,該綜述調(diào)研了三百余篇文獻(xiàn),重點討論了事實性的定義和影響、大模型事實性的評估、大模型事實性機(jī)制和產(chǎn)生錯誤的原理、大模型事實性的增強(qiáng)等幾個方面的內(nèi)容,對大模型的事實性進(jìn)行了詳細(xì)的梳理和總結(jié)。這篇綜述的目標(biāo)是為了幫助學(xué)界和業(yè)界的研究開發(fā)人員更好得理解大模型的事實性,增加模型的知識水平和可靠程度。

  • 論文鏈接:https://arxiv.org/pdf/2310.07521.pdf
  • 開源鏈接:https://github.com/wangcunxiang/LLM-Factuality-Survey
  • 作者單位:西湖大學(xué)、普渡大學(xué)、復(fù)旦大學(xué)、耶魯大學(xué)、微軟亞洲研究院等

一、引言

對知識的掌握一直是人工智能系統(tǒng)發(fā)展中的基礎(chǔ)追求。從歷史上看,McCarthy(1963)和 Newell(1976)的開創(chuàng)性工作都強(qiáng)調(diào)了知識表示和推理在 AI 系統(tǒng)中的重要性。例如,Cyc 項目開始了一個雄心勃勃的旅程,旨在編碼常識知識,希望為 AI 系統(tǒng)提供對世界的全面理解。與此同時,像 Miller(1990)的 WordNet 項目這樣的努力試圖創(chuàng)建捕捉詞語之間語義關(guān)系的詞匯數(shù)據(jù)庫,從而幫助 AI 系統(tǒng)掌握人類語言的細(xì)微差別。

而大型語言模型(LLMs)的出現(xiàn),如 GPT-4,已經(jīng)在學(xué)術(shù)界和工業(yè)界被視為一個重大的飛躍,特別是它們在掌握和應(yīng)用知識上展現(xiàn)出巨大的能力和潛力。

使用 LLMs 作為知識載體的優(yōu)勢是多方面的。首先,它們減少了構(gòu)建和維護(hù)專用知識庫所需的開銷和成本。此外,LLMs 提供了一種更靈活的知識處理和利用方法,允許進(jìn)行上下文感知的推理,并具有適應(yīng)新信息或提示的能力。

然而,盡管 LLMs 具有無與倫比的能力,其產(chǎn)生非事實或誤導(dǎo)性內(nèi)容的可能也讓人產(chǎn)生擔(dān)憂。此外,對一些特定領(lǐng)域知識或者實時事實知識的缺乏也極大限制了大模型的使用。一個常見的例子是,當(dāng)你問 LLM 關(guān)于某個知名人士的問題,它可能會根據(jù)它所掌握的信息生成答案,但這些信息可能已經(jīng)過時或者錯誤。如果該人士最近有重要的生涯變動,例如換工作或獲得獎項,而這些信息并不在 LLM 的訓(xùn)練數(shù)據(jù)中,那么它生成的答案就會落后于現(xiàn)實。同樣,如果其訓(xùn)練數(shù)據(jù)中包含了錯誤的信息,例如錯誤的出生日期或誤報的死亡,那么它也可能會復(fù)制這些錯誤。

作者旨在為 LLMs 中的事實性研究提供一個詳盡的概覽,深入探討四個關(guān)鍵維度:1)事實性問題的定義及其影響;2)評估事實性的技術(shù)及其定量評估;3)分析 LLMs 中事實性的基本機(jī)制并確定事實錯誤的根本原因;4)增強(qiáng) LLMs 事實性的方法。

作者將 LLMs 的使用分為兩個主要設(shè)置:沒有外部知識的 LLMs,如 ChatGPT,以及檢索增強(qiáng)型 LLMs,如 BingChat。

本次調(diào)查的完整結(jié)構(gòu)如下圖中所展示:

圖片

二、事實性問題

圖片

當(dāng)作者談到大模型中的事實性時,指的是大型語言模型生成符合事實信息的內(nèi)容的能力,這些事實信息包括常識、世界知識和領(lǐng)域事實知識,這些事實信息的來源可以是詞典、維基百科或來自不同領(lǐng)域的教科書。作者在上表中展示了 LLMs 中的各種事實性問題實例。例如,LLM 可能在特定領(lǐng)域的事實知識,如醫(yī)學(xué)或法律領(lǐng)域,上存在缺陷。此外,LLM 可能不知道其最后更新后發(fā)生的事實。還有一些情況,盡管 LLM 擁有相關(guān)的事實,但未能推理出正確的答案。在某些情況下,它甚至可能忘記或無法回憶之前學(xué)到的事實。

圖片

事實性問題與大型語言模型領(lǐng)域的幾個熱門話題密切相關(guān),包括幻覺、過時的信息和領(lǐng)域特異性。這些話題的核心都是解決同一個問題:LLMs 生成與某些事實相矛盾的內(nèi)容的潛力,無論這些內(nèi)容是憑空產(chǎn)生的、過時的信息,還是缺乏領(lǐng)域特定的知識。因此,作者認(rèn)為這三個話題都屬于事實性問題的范疇。 

然而,值得注意的是,盡管這些話題是相關(guān)的,但它們各自有一個獨特的焦點。

幻覺和 LLMs 中的事實性問題都涉及到生成內(nèi)容的準(zhǔn)確性和可靠性,但它們解決的是不同的方面?;糜X主要圍繞 LLMs 生成無根據(jù)或不合理的內(nèi)容。從 GPT4 technical report和一些Hallucination相關(guān)工作的定義中,作者將幻覺理解為模型傾向于 “產(chǎn)生與某些來源不符的無意義或不真實的內(nèi)容”。這與強(qiáng)調(diào)模型學(xué)習(xí)、獲取和利用事實知識的事實性問題是不同的。具體對比如下表:

圖片

而過時的信息則關(guān)注先前準(zhǔn)確的信息被更近期的知識所取代,或者新的不存在的事件發(fā)生的情況。最后,領(lǐng)域特異性強(qiáng)調(diào)生成需要特定、專門知識的內(nèi)容。盡管存在這些差異,但這三個話題都有助于更深入地了解 LLMs 中更廣泛的事實性問題。

這篇綜述關(guān)注兩種設(shè)定:

  • 1. 標(biāo)準(zhǔn) LLMs:直接使用 LLMs 進(jìn)行回答和聊天;
  • 2. 檢索增強(qiáng)型 LLMs:檢索增強(qiáng)的生成。

三、事實性的評估

圖片

本章關(guān)注于大模型事實性的評估指標(biāo)、基準(zhǔn)測試、評估方法、特定領(lǐng)域的事實性評估。

事實性評估指標(biāo):

作者介紹了通常用于 NLG 的幾種自動評價指標(biāo),同時特別檢查了事實性的指標(biāo)。

本文將這些指標(biāo)分為以下幾類:

  • (1) 基于規(guī)則的評價指標(biāo);
  • (2) 基于神經(jīng)網(wǎng)絡(luò)評價指標(biāo);
  • (3) 人類評價指標(biāo);
  • (4) 大模型評價指標(biāo)。

圖片

事實性基準(zhǔn)測試:

作者介紹了用于大模型事實性評估的基準(zhǔn)測試,同時介紹了其任務(wù)類型、數(shù)據(jù)集、評價指標(biāo)、以及目前代表性大模型在其上的表現(xiàn),具體內(nèi)容如下表所示:

圖片

事實性評估方法:

作者介紹了評估大模型事實性但沒有引入新評價基準(zhǔn)的工作,重點在于那些開創(chuàng)了評估技術(shù)、指標(biāo)的工作,或為 LLMs 的事實性評估提供了獨特見解的研究。

作者介紹了每個工作的任務(wù)、數(shù)據(jù)集、指標(biāo)、是否有人類評估、被評估的大模型以及粒度,具體如下圖所示:

圖片

同時有一些增強(qiáng)模型事實性的工作也使用了一些傳統(tǒng)任務(wù)的數(shù)據(jù)集,作者也將這些工作的評價方式和數(shù)據(jù)集囊括其中,如下表所示:

圖片

特定領(lǐng)域的事實性評估:

針對特定領(lǐng)域事實性評估的基準(zhǔn)。該表展示了領(lǐng)域、任務(wù)、數(shù)據(jù)集,以及在相應(yīng)研究中評估的 LLMs:

圖片

四、事實性的分析

圖片

本章關(guān)注于大模型事實性的內(nèi)在機(jī)制以及大模型產(chǎn)生事實性錯誤的原因。

具體來說,大模型事實性內(nèi)在機(jī)制的分析包括大模型存儲、處理事實知識和產(chǎn)生事實性內(nèi)容的機(jī)制,尤其是知識存儲、知識完整性和認(rèn)知、上下文影響和知識沖突的方面的分析;而事實性錯誤的來源分為三個層面,分別是模型層面,包括領(lǐng)域知識缺乏、信息過時、記憶不全、遺忘和推理錯誤等;檢索層面,包括信息不足、擾亂性信息、信息不被模型接受、誤解相關(guān)信息等;推理層面,包括雪球效應(yīng)、錯誤解碼和展示誤差等。

五、事實性的增強(qiáng)


圖片

本章關(guān)注于大模型事實性增強(qiáng)的方法,包括應(yīng)用在獨立大模型(Standalone LLMs)上的和檢索增強(qiáng)的大模型(Retrieval Augmented LLMs)上,以及對領(lǐng)域知識增強(qiáng)的大模型(Domain Factuality Enhanced LLMs)也進(jìn)行了詳細(xì)的討論。

當(dāng)關(guān)注獨立大模型生成時,增強(qiáng)策略可以大致分為三大類:

  • 1.從無監(jiān)督語料庫中獲取事實知識:這涉及在預(yù)訓(xùn)練期間優(yōu)化訓(xùn)練數(shù)據(jù),例如通過去重和強(qiáng)調(diào)信息性詞匯。
  • 2.從有監(jiān)督數(shù)據(jù)中獲取事實知識:這一類別的例子包括有監(jiān)督的微調(diào)策略,重點是使用帶標(biāo)簽的數(shù)據(jù)進(jìn)行微調(diào),或從知識圖譜這樣的結(jié)構(gòu)化知識中進(jìn)行整合,或?qū)δP蛥?shù)進(jìn)行精確調(diào)整。
  • 3.生成時從模型中最好地提取事實知識:這一類是為了模型能夠輸出事實性知識,包括了像 Multi-agent 這樣的方法和創(chuàng)新的 prompts,也包括新的解碼方法,如事實核心抽樣。

當(dāng)關(guān)注檢索增強(qiáng)的大模型生成時,增強(qiáng)策略可以大致分為三大類:

  • 1.交互式檢索和生成:盡管檢索系統(tǒng)旨在獲取相關(guān)信息,但它們有時可能無法檢索到準(zhǔn)確或全面的數(shù)據(jù)。此外,LLMs 可能難以識別或甚至被檢索到的內(nèi)容誤導(dǎo)。實施交互式檢索機(jī)制可以指導(dǎo) LLM 進(jìn)行更好的內(nèi)容生成。相關(guān)工作包括將 Chain-of-Thoughts 推理中間步驟應(yīng)用到檢索中,以及使用基于 LLM 的 agent 框架,讓LLM和外部知識 API 進(jìn)行交互,反饋修正LLM生成的事實錯誤。
  • 2.讓 LLMs 適應(yīng)檢索生成:僅僅使用 LLMs 中的檢索信息并不總是能增強(qiáng)它們回答事實性問題的能力,這可能是模型不能適應(yīng)檢索到的數(shù)據(jù)。而有些適應(yīng)策略能幫大模型更好得使用檢索的數(shù)據(jù),具體來說,作者探索了三類方法:基于提示的方法、基于 SFT 的方法和基于 RLHF 的方法。這些方法增強(qiáng)了檢索的準(zhǔn)確率,或是讓LLM有了引用檢索來源的能力。 
  • 3.從其他知識庫中檢索:這一類別包括從外部參數(shù)記憶或知識圖譜中檢索的方法,以增強(qiáng)模型的事實性知識。

作者選取了一部分事實性增強(qiáng)的方法,展示其效果,包括評估的數(shù)據(jù)集、指標(biāo),以及 baseline 效果和使用他們方法后的效果,如下圖所示:

圖片

領(lǐng)域事實性增強(qiáng)的大模型:

作者列出了針對特定領(lǐng)域事實性增強(qiáng)的 LLMs。其中涵蓋了多個領(lǐng)域,包括醫(yī)療 / 健康(H)、金融(F)、法律 / 法務(wù)(L)、地球科學(xué) / 環(huán)境(G)、教育(E)、食品檢測(FT)和家居裝修(HR)。基于特定領(lǐng)域 LLMs 的實際應(yīng)用場景和作者之前對增強(qiáng)方法的分類,他們總結(jié)了幾種常用的增強(qiáng)技術(shù):

  • 1. 持續(xù)預(yù)訓(xùn)練:一種通過使用特定領(lǐng)域數(shù)據(jù)持續(xù)更新和微調(diào)預(yù)訓(xùn)練語言模型的方法。這個過程確保模型在特定領(lǐng)域或領(lǐng)域內(nèi)保持最新和相關(guān)性。它從一個初始的預(yù)訓(xùn)練模型開始,通常是一個通用語言模型,然后使用特定領(lǐng)域的文本或數(shù)據(jù)對其進(jìn)行微調(diào)。隨著新信息的出現(xiàn),模型可以進(jìn)一步微調(diào)以適應(yīng)不斷發(fā)展的知識領(lǐng)域。持續(xù)預(yù)訓(xùn)練是維持 AI 模型在快速變化的領(lǐng)域,如技術(shù)或醫(yī)學(xué)中的準(zhǔn)確性和相關(guān)性的強(qiáng)大方法。
  • 2.持續(xù) SFT:另一種增強(qiáng) AI 模型事實性的策略。在這種方法中,模型使用特定領(lǐng)域的標(biāo)記或注釋數(shù)據(jù)進(jìn)行微調(diào)。這個微調(diào)過程使模型能夠?qū)W習(xí)和適應(yīng)領(lǐng)域的細(xì)微差別和特點,提高其提供準(zhǔn)確和與上下文相關(guān)的信息的能力。當(dāng)隨著時間的推移可以獲得特定領(lǐng)域的標(biāo)記數(shù)據(jù)時,它尤其有用,例如在法律數(shù)據(jù)庫、醫(yī)療記錄或財務(wù)報告的情況下。
  • 3.從零開始訓(xùn)練:這涉及從最小的先驗知識或預(yù)訓(xùn)練開始學(xué)習(xí)過程。這種方法可以類比為用一個空白的板子教機(jī)器學(xué)習(xí)模型。雖然它可能沒有利用預(yù)先存在的知識的優(yōu)勢,但在處理完全新的領(lǐng)域或任務(wù)時,如果只有有限的相關(guān)數(shù)據(jù)可用,從零開始訓(xùn)練可能是有利的。它允許模型從頭開始建立其理解,盡管它可能需要大量的計算資源和時間。
  • 4.外部知識:這涉及用外部來源的信息增強(qiáng)語言模型的內(nèi)部知識。這種方法允許模型訪問數(shù)據(jù)庫、網(wǎng)站或其他結(jié)構(gòu)化數(shù)據(jù)存儲庫,以驗證事實或在回應(yīng)用戶查詢時收集額外的信息。通過整合外部知識,模型可以增強(qiáng)其事實檢查能力,并提供更準(zhǔn)確和與上下文相關(guān)的答案,特別是在處理動態(tài)或快速變化的信息時。

對于每一個特定領(lǐng)域大模型,作者列出了其領(lǐng)域、模型名稱、評估任務(wù)和數(shù)據(jù)集,以及各自的增強(qiáng)方法,如下表中呈現(xiàn):

圖片

六、結(jié)論

在這次的綜述中,作者系統(tǒng)地探索了大型語言模型(LLMs)中事實性問題的復(fù)雜景觀。首先,作者定義了事實性的概念,然后討論了其更廣泛的影響。之后,作者進(jìn)入事實性評估部分,包括基準(zhǔn)測試、評估指標(biāo)、特定的評估研究和特定領(lǐng)域的評估。隨后,作者深入探討了大模型事實性的內(nèi)在機(jī)制。作者進(jìn)行了事實性增強(qiáng)技術(shù)的討論,無論是對于純大模型還是檢索增強(qiáng)的大模型,并關(guān)注了特定領(lǐng)域知識增強(qiáng)的大模型。

盡管這次綜述中詳細(xì)描述了許多進(jìn)展,但仍然存在一些巨大的挑戰(zhàn)。由于自然語言固有的復(fù)雜性,事實性的評估仍然是一個復(fù)雜的難題。此外,大模型如何存儲、更新事實知識和產(chǎn)生事實性內(nèi)容的核心過程尚未完全揭示。盡管某些事實增強(qiáng)技術(shù),如持續(xù)訓(xùn)練和檢索,顯示出前景,但它們?nèi)源嬖诰窒扌浴?/span>

展望未來,尋求忠實于事實的大模型既帶來了挑戰(zhàn),也帶來了機(jī)會。未來的研究可能會更深入地了解大模型的神經(jīng)結(jié)構(gòu),開發(fā)更穩(wěn)健的評估指標(biāo),并在增強(qiáng)技術(shù)上進(jìn)行創(chuàng)新。隨著大模型越來越多地融入數(shù)字生態(tài)系統(tǒng),確保它們的事實可靠性將始終是至關(guān)重要的,這將對 AI 社區(qū)及其以外的領(lǐng)域產(chǎn)生影響。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
點贊
收藏

51CTO技術(shù)棧公眾號