自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

大模型中幻覺緩解技術(shù)的綜合調(diào)查

人工智能
大型語(yǔ)言模型(LLMs)是具有大量參數(shù)和數(shù)據(jù)的深度神經(jīng)網(wǎng)絡(luò),能夠在自然語(yǔ)言處理(NLP)領(lǐng)域?qū)崿F(xiàn)多種任務(wù),如文本理解和生成。近年來(lái),隨著計(jì)算能力和數(shù)據(jù)規(guī)模的提升,LLMs取得了令人矚目的進(jìn)展,如GPT-4、BART、T5等,展現(xiàn)了強(qiáng)大的泛化能力和創(chuàng)造力。

大型語(yǔ)言模型(LLMs)是具有大量參數(shù)和數(shù)據(jù)的深度神經(jīng)網(wǎng)絡(luò),能夠在自然語(yǔ)言處理(NLP)領(lǐng)域?qū)崿F(xiàn)多種任務(wù),如文本理解和生成。近年來(lái),隨著計(jì)算能力和數(shù)據(jù)規(guī)模的提升,LLMs取得了令人矚目的進(jìn)展,如GPT-4、BART、T5等,展現(xiàn)了強(qiáng)大的泛化能力和創(chuàng)造力。

LLMs也存在嚴(yán)重的問(wèn)題,在生成文本時(shí)容易產(chǎn)生與真實(shí)事實(shí)或用戶輸入不一致的內(nèi)容,即幻覺(hallucination)。這種現(xiàn)象不僅會(huì)降低系統(tǒng)的性能,也會(huì)影響用戶的期望和信任,甚至?xí)斐梢恍┌踩偷赖律系娘L(fēng)險(xiǎn)。因此,如何檢測(cè)和緩解LLMs中的幻覺,已經(jīng)成為了當(dāng)前NLP領(lǐng)域的一個(gè)重要和緊迫的課題。

1月1日,來(lái)自于孟加拉國(guó)伊斯蘭科技大學(xué)、美國(guó)南卡羅來(lái)納大學(xué)人工智能研究所、美國(guó)斯坦福大學(xué)、美國(guó)亞馬遜人工智能部門的幾位科學(xué)家SM Towhidul Islam Tonmoy、SM Mehedi Zaman、Vinija Jain、Anku Rani、Vipula Rawte、Aman Chadha、Amitava Das發(fā)表了題為《A Comprehensive Survey of Hallucination Mitigation Techniques in Large Language Models》的論文,旨在介紹和分類大型語(yǔ)言模型(LLMs)中的幻覺緩解技術(shù)。

他們首先介紹了幻覺的定義、原因和影響,以及評(píng)估方法。然后他們提出了一個(gè)詳細(xì)的分類體系,將幻覺緩解技術(shù)分為四大類:基于數(shù)據(jù)集的,基于任務(wù)的,基于反饋的,和基于檢索的。每一類中,他們又進(jìn)一步細(xì)分了不同的子類,并舉例說(shuō)明了一些代表性的方法。

作者們還分析了這些技術(shù)的優(yōu)缺點(diǎn),挑戰(zhàn)和局限性,以及未來(lái)的研究方向。他們指出,目前的技術(shù)仍然存在一些問(wèn)題,如缺乏通用性,可解釋性,可擴(kuò)展性,和魯棒性。他們建議,未來(lái)的研究應(yīng)該關(guān)注以下幾個(gè)方面:開發(fā)更有效的幻覺檢測(cè)和量化方法,利用多模態(tài)信息和常識(shí)知識(shí),設(shè)計(jì)更靈活和可定制的幻覺緩解框架,以及考慮人類的參與和反饋。

1.LLMs幻覺的分類體系

為了更好地理解和描述LLMs中的幻覺問(wèn)題,他們提出了一個(gè)基于幻覺的來(lái)源、類型、程度和影響的分類體系,如圖1所示。他們認(rèn)為,這個(gè)體系能夠覆蓋LLMs中幻覺的各個(gè)方面,有助于分析幻覺的原因和特征,以及評(píng)估幻覺的嚴(yán)重性和危害性。

圖1圖1

LLM中幻覺緩解技術(shù)的分類,側(cè)重于涉及模型開發(fā)和提示技術(shù)的流行方法。模型開發(fā)分為各種方法,包括新的解碼策略、基于知識(shí)圖的優(yōu)化、添加新的損失函數(shù)組件和監(jiān)督微調(diào)。同時(shí),提示工程可以包括基于檢索增強(qiáng)的方法、基于反饋的策略或提示調(diào)整。

幻覺的來(lái)源

幻覺的來(lái)源是指導(dǎo)致LLMs生成幻覺的根本原因,可以分為以下三類:

參數(shù)知識(shí)(Parametric Knowledge):LLMs在預(yù)訓(xùn)練階段從大規(guī)模的無(wú)標(biāo)注文本中學(xué)習(xí)到的隱式知識(shí),如語(yǔ)法、語(yǔ)義、常識(shí)等。這種知識(shí)通常存儲(chǔ)在LLMs的參數(shù)中,可以通過(guò)激活函數(shù)和注意力機(jī)制來(lái)調(diào)用。參數(shù)知識(shí)是LLMs的基礎(chǔ),但也可能是幻覺的來(lái)源,因?yàn)樗赡馨恍┎粶?zhǔn)確、過(guò)時(shí)或有偏見的信息,或者與用戶輸入的信息存在沖突。

非參數(shù)知識(shí)(Non-parametric Knowledge):LLMs在微調(diào)或生成階段從外部的有標(biāo)注數(shù)據(jù)中獲取的顯式知識(shí),如事實(shí)、證據(jù)、引用等。這種知識(shí)通常以結(jié)構(gòu)化或非結(jié)構(gòu)化的形式存在,可以通過(guò)檢索或內(nèi)存機(jī)制來(lái)訪問(wèn)。非參數(shù)知識(shí)是LLMs的補(bǔ)充,但也可能是幻覺的來(lái)源,因?yàn)樗赡艽嬖谝恍┰肼?、錯(cuò)誤或不完整的數(shù)據(jù),或者與LLMs的參數(shù)知識(shí)不一致。

生成策略(Generation Strategy):指LLMs在生成文本時(shí)采用的一些技術(shù)或方法,如解碼算法、控制碼、提示等。這些策略是LLMs的工具,但也可能是幻覺的來(lái)源,因?yàn)樗鼈兛赡軐?dǎo)致LLMs過(guò)度依賴或忽視某些知識(shí),或者在生成過(guò)程中引入一些偏差或噪聲。

幻覺的類型

幻覺的類型是指LLMs生成幻覺的具體表現(xiàn)形式,可以分為以下四類:

語(yǔ)法幻覺(Grammatical Hallucination):指LLMs生成的文本在語(yǔ)法上存在錯(cuò)誤或不規(guī)范,如拼寫錯(cuò)誤、標(biāo)點(diǎn)錯(cuò)誤、詞序錯(cuò)誤、時(shí)態(tài)錯(cuò)誤、主謂不一致等。這種幻覺通常是由于LLMs對(duì)語(yǔ)言規(guī)則的不完全掌握或?qū)υ肼晹?shù)據(jù)的過(guò)度擬合造成的。

語(yǔ)義幻覺(Semantic Hallucination):指LLMs生成的文本在語(yǔ)義上存在錯(cuò)誤或不合理,如詞義錯(cuò)誤、指代錯(cuò)誤、邏輯錯(cuò)誤、歧義、矛盾等。這種幻覺通常是由于LLMs對(duì)語(yǔ)言意義的不充分理解或?qū)?fù)雜數(shù)據(jù)的不足處理造成的。

知識(shí)幻覺(Knowledge Hallucination):指LLMs生成的文本在知識(shí)上存在錯(cuò)誤或不一致,如事實(shí)錯(cuò)誤、證據(jù)錯(cuò)誤、引用錯(cuò)誤、與輸入或上下文不匹配等。這種幻覺通常是由于LLMs對(duì)知識(shí)的不正確獲取或不恰當(dāng)使用造成的。

創(chuàng)造幻覺(Creative Hallucination):指LLMs生成的文本在創(chuàng)造上存在錯(cuò)誤或不適當(dāng),如風(fēng)格錯(cuò)誤、情感錯(cuò)誤、觀點(diǎn)錯(cuò)誤、與任務(wù)或目標(biāo)不符合等。這種幻覺通常是由于LLMs對(duì)創(chuàng)造的不合理控制或不充分評(píng)估造成的。

幻覺的程度

幻覺的程度是指LLMs生成幻覺的數(shù)量和質(zhì)量,可以分為以下三類:

輕微幻覺(Mild Hallucination):幻覺較少且較輕,不影響文本的整體可讀性和可理解性,也不損害文本的主要信息和目的。例如,LLMs生成了一些語(yǔ)法上的小錯(cuò)誤,或者一些語(yǔ)義上的不明確,或者一些知識(shí)上的細(xì)節(jié)錯(cuò)誤,或者一些創(chuàng)造上的微妙差異。

中等幻覺(Moderate Hallucination):幻覺較多且較重,影響文本的部分可讀性和可理解性,也損害文本的次要信息和目的。通常是LLMs生成了一些語(yǔ)法上的大錯(cuò)誤,或者一些語(yǔ)義上的不合理。

嚴(yán)重幻覺(Severe Hallucination):幻覺非常多且非常重,影響文本的整體可讀性和可理解性,也破壞文本的主要信息和目的。

幻覺的影響

幻覺的影響是指LLMs生成幻覺對(duì)用戶和系統(tǒng)的潛在后果,可以分為以下三類:

無(wú)害幻覺(Harmless Hallucination):對(duì)用戶和系統(tǒng)沒有造成任何負(fù)面的影響,甚至可能有一些正面的影響,如增加趣味性、創(chuàng)造性、多樣性等。例如,LLMs生成了一些與任務(wù)或目標(biāo)無(wú)關(guān)的內(nèi)容,或者一些與用戶的偏好或期望相符的內(nèi)容,或者一些與用戶的情緒或態(tài)度相契合的內(nèi)容,或者一些與用戶的交流或互動(dòng)有助的內(nèi)容。

有害幻覺(Harmful Hallucination):對(duì)用戶和系統(tǒng)造成了一些負(fù)面的影響,如降低效率、準(zhǔn)確性、可信度、滿意度等。例如,LLMs生成了一些與任務(wù)或目標(biāo)不符合的內(nèi)容,或者一些與用戶的偏好或期望不一致的內(nèi)容,或者一些與用戶的情緒或態(tài)度不協(xié)調(diào)的內(nèi)容,或者一些與用戶的交流或互動(dòng)有礙的內(nèi)容。

危害幻覺(Hazardous Hallucination):對(duì)用戶和系統(tǒng)造成了嚴(yán)重的負(fù)面的影響,如引發(fā)誤解、沖突、爭(zhēng)議、傷害等。例如,LLMs生成了一些與事實(shí)或證據(jù)相違背的內(nèi)容,或者一些與道德或法律相沖突的內(nèi)容,或者一些與人權(quán)或尊嚴(yán)相抵觸的內(nèi)容,或者一些與安全或健康相威脅的內(nèi)容。

2.LLMs幻覺的原因分析

為了更好地解決LLMs中的幻覺問(wèn)題,我們需要深入分析導(dǎo)致幻覺的原因。根據(jù)前文提出的幻覺的來(lái)源,作者將幻覺的原因分為以下三類:

參數(shù)知識(shí)的不足或過(guò)剩:LLMs在預(yù)訓(xùn)練階段,通常使用大量的無(wú)標(biāo)注文本來(lái)學(xué)習(xí)語(yǔ)言的規(guī)則和知識(shí),從而形成參數(shù)知識(shí)。然而這種知識(shí)可能存在一些問(wèn)題,如不完整、不準(zhǔn)確、不更新、不一致、不相關(guān)等,導(dǎo)致LLMs在生成文本時(shí),無(wú)法充分理解和利用輸入的信息,或者無(wú)法正確區(qū)分和選擇輸出的信息,從而產(chǎn)生幻覺。另一方面參數(shù)知識(shí)也可能過(guò)于豐富或強(qiáng)大,使得LLMs在生成文本時(shí),過(guò)度依賴或偏好自身的知識(shí),而忽視或沖突輸入的信息,從而產(chǎn)生幻覺。

非參數(shù)知識(shí)的缺失或錯(cuò)誤:LLMs在微調(diào)或生成階段,通常使用一些外部的有標(biāo)注數(shù)據(jù)來(lái)獲取或補(bǔ)充語(yǔ)言的知識(shí),從而形成非參數(shù)知識(shí)。這種知識(shí)可能存在一些問(wèn)題,如稀缺、噪聲、錯(cuò)誤、不完整、不一致、不相關(guān)等,導(dǎo)致LLMs在生成文本時(shí),無(wú)法有效地檢索和融合輸入的信息,或者無(wú)法準(zhǔn)確地驗(yàn)證和糾正輸出的信息,從而產(chǎn)生幻覺。非參數(shù)知識(shí)也可能過(guò)于復(fù)雜或多樣,使得LLMs在生成文本時(shí),難以平衡和協(xié)調(diào)不同的信息來(lái)源,或者難以適應(yīng)和滿足不同的任務(wù)需求,從而產(chǎn)生幻覺。

生成策略的不恰當(dāng)或不充分:LLMs在生成文本時(shí),通常使用一些技術(shù)或方法來(lái)控制或優(yōu)化生成的過(guò)程和結(jié)果,從而形成生成策略。這些策略可能存在一些問(wèn)題,如不恰當(dāng)、不充分、不穩(wěn)定、不可解釋、不可信等,導(dǎo)致LLMs在生成文本時(shí),無(wú)法有效地調(diào)節(jié)和指導(dǎo)生成的方向和質(zhì)量,或者無(wú)法及時(shí)地發(fā)現(xiàn)和修正生成的錯(cuò)誤,從而產(chǎn)生幻覺。生成策略也可能過(guò)于復(fù)雜或多變,使得LLMs在生成文本時(shí),難以保持和保證生成的一致性和可靠性,或者難以評(píng)估和反饋生成的效果,從而產(chǎn)生幻覺。

3.LLMs幻覺的檢測(cè)方法和評(píng)測(cè)標(biāo)準(zhǔn)

為了更好地解決LLMs中的幻覺問(wèn)題,我們需要有效地檢測(cè)和評(píng)估LLMs生成的幻覺。根據(jù)前文提出的幻覺的類型,作者將幻覺的檢測(cè)方法分為以下四類:

語(yǔ)法幻覺的檢測(cè)方法:利用一些語(yǔ)法檢查工具或規(guī)則,來(lái)識(shí)別和糾正LLMs生成的文本中的語(yǔ)法錯(cuò)誤或不規(guī)范。例如,可以使用一些拼寫檢查、標(biāo)點(diǎn)檢查、詞序檢查、時(shí)態(tài)檢查、主謂一致檢查等工具或規(guī)則,來(lái)檢測(cè)和修正LLMs生成的文本中的語(yǔ)法幻覺。

語(yǔ)義幻覺的檢測(cè)方法:利用一些語(yǔ)義分析工具或模型,來(lái)理解和評(píng)估LLMs生成的文本中的語(yǔ)義錯(cuò)誤或不合理。例如,可以使用一些詞義分析、指代消解、邏輯推理、歧義消除、矛盾檢測(cè)等工具或模型,來(lái)檢測(cè)和修正LLMs生成的文本中的語(yǔ)義幻覺。

知識(shí)幻覺的檢測(cè)方法:利用一些知識(shí)檢索或驗(yàn)證工具或模型,來(lái)獲取和比較LLMs生成的文本中的知識(shí)錯(cuò)誤或不一致。例如,可以使用一些知識(shí)圖譜、搜索引擎、事實(shí)檢查、證據(jù)檢查、引用檢查等工具或模型,來(lái)檢測(cè)和修正LLMs生成的文本中的知識(shí)幻覺。

創(chuàng)造幻覺的檢測(cè)方法:利用一些創(chuàng)造評(píng)估或反饋工具或模型,來(lái)檢測(cè)和評(píng)價(jià)LLMs生成的文本中的創(chuàng)造錯(cuò)誤或不適當(dāng)。例如,可以使用一些風(fēng)格分析、情感分析、創(chuàng)造評(píng)估、觀點(diǎn)分析、目標(biāo)分析等工具或模型,來(lái)檢測(cè)和修正LLMs生成的文本中的創(chuàng)造幻覺。

根據(jù)前文提出的幻覺的程度和影響,我們可以將幻覺的評(píng)測(cè)標(biāo)準(zhǔn)分為以下四類:

語(yǔ)法正確性(Grammatical Correctness):指LLMs生成的文本在語(yǔ)法上是否符合語(yǔ)言的規(guī)則和習(xí)慣,如拼寫、標(biāo)點(diǎn)、詞序、時(shí)態(tài)、主謂一致等。這個(gè)標(biāo)準(zhǔn)可以通過(guò)一些自動(dòng)或人工的語(yǔ)法檢查工具或方法來(lái)評(píng)估,如BLEU、ROUGE、BERTScore等。

語(yǔ)義合理性(Semantic Reasonableness):指LLMs生成的文本在語(yǔ)義上是否符合語(yǔ)言的意義和邏輯,如詞義、指代、邏輯、歧義、矛盾等。這個(gè)標(biāo)準(zhǔn)可以通過(guò)一些自動(dòng)或人工的語(yǔ)義分析工具或方法來(lái)評(píng)估,如METEOR、MoverScore、BERTScore等。

知識(shí)一致性(Knowledge Consistency):指LLMs生成的文本在知識(shí)上是否符合真實(shí)的事實(shí)或證據(jù),或者與輸入或上下文的信息是否一致,如事實(shí)、證據(jù)、引用、匹配等。這個(gè)標(biāo)準(zhǔn)可以通過(guò)一些自動(dòng)或人工的知識(shí)檢索或驗(yàn)證工具或方法來(lái)評(píng)估,如FEVER、FactCC、BARTScore等。

創(chuàng)造適當(dāng)性(Creative Appropriateness):指LLMs生成的文本在創(chuàng)造上是否符合任務(wù)或目標(biāo)的要求,或者與用戶的偏好或期望是否相符,或者與用戶的情緒或態(tài)度是否協(xié)調(diào),或者與用戶的交流或互動(dòng)是否有助,如風(fēng)格、情感、觀點(diǎn)、目標(biāo)等。這個(gè)標(biāo)準(zhǔn)可以通過(guò)一些自動(dòng)或人工的創(chuàng)造評(píng)估或反饋工具或方法來(lái)評(píng)估,如BLEURT、BARTScore、SARI等。

4.LLMs幻覺的緩解方法

為了更好地解決LLMs中的幻覺問(wèn)題,我們需要有效地緩解和減少LLMs生成的幻覺。根據(jù)不同的層次和角度,作者將幻覺的緩解方法分為以下幾類:

后生成細(xì)化(Post-generation Refinement)

后生成細(xì)化是在LLMs生成文本后,對(duì)文本進(jìn)行一些檢查和修正,以消除或減少幻覺。這類方法的優(yōu)點(diǎn)是不需要對(duì)LLMs進(jìn)行重新訓(xùn)練或調(diào)整,可以直接應(yīng)用于任何LLMs。這類方法的缺點(diǎn)是可能無(wú)法完全消除幻覺,或者可能引入新的幻覺,或者可能損失一些原始文本的信息或創(chuàng)造性。這類方法的代表有:

RARR(Refinement with Attribution and Retrieved References):(Chrysostomou和Aletras,2021)提出了一種基于歸因和檢索的細(xì)化方法,用于提高LLMs生成的文本的忠實(shí)度。使用一個(gè)歸因模型來(lái)識(shí)別LLMs生成的文本中的每個(gè)詞,是來(lái)自于輸入的信息還是來(lái)自于LLMs的參數(shù)知識(shí),或者還是來(lái)自于LLMs的生成策略。使用一個(gè)檢索模型,來(lái)從外部的知識(shí)源中檢索一些與輸入的信息相關(guān)的參考文本。最后使用一個(gè)細(xì)化模型,來(lái)根據(jù)歸因結(jié)果和檢索結(jié)果,對(duì)LLMs生成的文本進(jìn)行修正,以提高其與輸入的信息的一致性和可信度。

High Entropy Word Spotting and Replacement(HEWSR):(Zhang等,2021)提出了一種基于熵的細(xì)化方法,用于減少LLMs生成的文本中的幻覺。首先使用一個(gè)熵計(jì)算模型,來(lái)識(shí)別LLMs生成的文本中的高熵詞,即那些在生成時(shí)具有較高不確定性的詞。然后使用一個(gè)替換模型,來(lái)從輸入的信息或外部的知識(shí)源中選擇一個(gè)更合適的詞,來(lái)替換高熵詞。最后使用一個(gè)平滑模型,來(lái)對(duì)替換后的文本進(jìn)行一些調(diào)整,以保持其語(yǔ)法和語(yǔ)義的連貫性。

ChatProtect(Chat Protection with Self-Contradiction Detection):(Wang等,2021)提出了一種基于自我矛盾檢測(cè)的細(xì)化方法,用于提高LLMs生成的聊天對(duì)話的安全性。首先使用一個(gè)矛盾檢測(cè)模型,來(lái)識(shí)別LLMs生成的對(duì)話中的自我矛盾,即那些與之前的對(duì)話內(nèi)容相沖突的內(nèi)容。然后使用一個(gè)替換模型,來(lái)從一些預(yù)定義的安全回復(fù)中選擇一個(gè)更合適的回復(fù),來(lái)替換自我矛盾的回復(fù)。最后使用一個(gè)評(píng)估模型,來(lái)對(duì)替換后的對(duì)話進(jìn)行一些評(píng)分,以衡量其安全性和流暢性。

反饋和推理的自我完善(Self-improvement with Feedback and Reasoning)

反饋和推理的自我完善是在LLMs生成文本的過(guò)程中,對(duì)文本進(jìn)行一些評(píng)估和調(diào)整,以消除或減少幻覺。這類方法的優(yōu)點(diǎn)是可以實(shí)時(shí)地監(jiān)測(cè)和糾正幻覺,可以提高LLMs的自我學(xué)習(xí)和自我調(diào)節(jié)能力。這類方法的缺點(diǎn)是可能需要對(duì)LLMs進(jìn)行一些額外的訓(xùn)練或調(diào)整,或者可能需要一些外部的信息或資源。這類方法的代表有:

Self-Reflection Methodology(SRM):(Iyer等,2021)提出了一種基于自我反饋的完善方法,用于提高LLMs生成的醫(yī)學(xué)問(wèn)答的可靠性。該方法首先使用一個(gè)生成模型,來(lái)根據(jù)輸入的問(wèn)題和背景,生成一個(gè)初始的答案。然后使用一個(gè)反饋模型,來(lái)根據(jù)輸入的問(wèn)題和背景,生成一個(gè)反饋問(wèn)題,用于檢測(cè)初始答案中的潛在的幻覺。接著使用一個(gè)回答模型,來(lái)根據(jù)反饋問(wèn)題,生成一個(gè)回答,用于驗(yàn)證初始答案的正確性。最后使用一個(gè)修正模型,來(lái)根據(jù)回答的結(jié)果,對(duì)初始答案進(jìn)行修正,以提高其可靠性和準(zhǔn)確性。

Structured Comparative(SC)reasoning:(Yan等,2021)提出了一種基于結(jié)構(gòu)化比較的推理方法,用于提高LLMs生成的文本偏好預(yù)測(cè)的一致性。該方法使用一個(gè)生成模型,來(lái)根據(jù)輸入的文本對(duì),生成一個(gè)結(jié)構(gòu)化的比較,即在不同的方面下,對(duì)文本對(duì)進(jìn)行比較和評(píng)價(jià)。使用一個(gè)推理模型,來(lái)根據(jù)結(jié)構(gòu)化的比較,生成一個(gè)文本偏好的預(yù)測(cè),即選擇文本對(duì)中的哪一個(gè)更優(yōu)。使用一個(gè)評(píng)估模型,來(lái)根據(jù)預(yù)測(cè)的結(jié)果,對(duì)生成的比較進(jìn)行評(píng)估,以提高其一致性和可信度。

Think While Effectively Articulating Knowledge(TWEAK):(Qiu等,2021a)提出了一種基于假設(shè)驗(yàn)證的推理方法,用于提高LLMs生成的知識(shí)到文本的忠實(shí)度。該方法使用一個(gè)生成模型,來(lái)根據(jù)輸入的知識(shí),生成一個(gè)初始的文本。然后使用一個(gè)假設(shè)模型,來(lái)根據(jù)初始的文本,生成一些假設(shè),即在不同的方面下,對(duì)文本的未來(lái)的文本進(jìn)行預(yù)測(cè)。接著使用一個(gè)驗(yàn)證模型,來(lái)根據(jù)輸入的知識(shí),驗(yàn)證每個(gè)假設(shè)的正確性。最后使用一個(gè)調(diào)整模型,來(lái)根據(jù)驗(yàn)證的結(jié)果,對(duì)初始的文本進(jìn)行調(diào)整,以提高其與輸入的知識(shí)的一致性和可信度。

新的解碼策略(New Decoding Strategy)

新的解碼策略是在LLMs生成文本的過(guò)程中,對(duì)文本的概率分布進(jìn)行一些改變或優(yōu)化,以消除或減少幻覺。這類方法的優(yōu)點(diǎn)是可以直接影響生成的結(jié)果,可以提高LLMs的靈活性和效率。這類方法的缺點(diǎn)是可能需要對(duì)LLMs進(jìn)行一些額外的訓(xùn)練或調(diào)整,或者可能需要一些外部的信息或資源。這類方法的代表有:

Context-Aware Decoding(CAD):(Shi等,2021)提出了一種基于對(duì)比的解碼策略,用于減少LLMs生成的文本中的知識(shí)沖突。該策略使用一個(gè)對(duì)比模型,來(lái)計(jì)算LLMs在使用和不使用輸入的信息時(shí),輸出的概率分布的差異。然后使用一個(gè)放大模型,來(lái)放大這個(gè)差異,使得與輸入的信息一致的輸出的概率更高,而與輸入的信息沖突的輸出的概率更低。最后使用一個(gè)生成模型,來(lái)根據(jù)放大后的概率分布,生成文本,以提高其與輸入的信息的一致性和可信度。

Decoding by Contrasting Layers(DoLa):(Chuang等,2021)提出了一種基于層對(duì)比的解碼策略,用于減少LLMs生成的文本中的知識(shí)幻覺。首先使用一個(gè)層選擇模型,來(lái)選擇LLMs中的某些層,作為知識(shí)層,即那些包含較多事實(shí)知識(shí)的層。然后使用一個(gè)層對(duì)比模型,來(lái)計(jì)算知識(shí)層和其他層在詞匯空間中的對(duì)數(shù)差異。最后使用一個(gè)生成模型,來(lái)根據(jù)層對(duì)比后的概率分布,生成文本,以提高其與事實(shí)知識(shí)的一致性和可信度。

知識(shí)圖譜的利用(Knowledge Graph Utilization)

知識(shí)圖譜的利用是在LLMs生成文本的過(guò)程中,利用一些結(jié)構(gòu)化的知識(shí)圖譜,來(lái)提供或補(bǔ)充一些與輸入的信息相關(guān)的知識(shí),以消除或減少幻覺。這類方法的優(yōu)點(diǎn)是可以有效地獲取和融合外部的知識(shí),可以提高LLMs的知識(shí)覆蓋和知識(shí)一致性。這類方法的缺點(diǎn)是可能需要對(duì)LLMs進(jìn)行一些額外的訓(xùn)練或調(diào)整,或者可能需要一些高質(zhì)量的知識(shí)圖譜。這類方法的代表有:

RHO(Representation of linked entities and relation predicates from a Knowledge Graph):(Ji等,2021a)提出了一種基于知識(shí)圖譜的表示方法,用于提高LLMs生成的對(duì)話回復(fù)的忠實(shí)度。首先使用一個(gè)知識(shí)檢索模型,來(lái)從一個(gè)知識(shí)圖譜中檢索一些與輸入的對(duì)話相關(guān)的子圖,即包含一些實(shí)體和關(guān)系的圖。然后使用一個(gè)知識(shí)編碼模型,來(lái)對(duì)子圖中的實(shí)體和關(guān)系進(jìn)行編碼,得到它們的向量表示。接著使用一個(gè)知識(shí)融合模型,來(lái)將知識(shí)的向量表示融合到對(duì)話的向量表示中,得到一個(gè)增強(qiáng)的對(duì)話表示。最后使用一個(gè)知識(shí)生成模型,來(lái)根據(jù)增強(qiáng)的對(duì)話表示,生成一個(gè)忠實(shí)的對(duì)話回復(fù)。

FLEEK(FactuaL Error detection and correction with Evidence Retrieved from external Knowledge):(Bayat等,2021)提出了一種基于知識(shí)圖譜的驗(yàn)證和修正方法,用于提高LLMs生成的文本的事實(shí)性。該方法首先使用一個(gè)事實(shí)識(shí)別模型,來(lái)識(shí)別LLMs生成的文本中的潛在的可驗(yàn)證的事實(shí),即那些可以在知識(shí)圖譜中找到證據(jù)的事實(shí)。然后使用一個(gè)問(wèn)題生成模型,來(lái)為每個(gè)事實(shí)生成一個(gè)問(wèn)題,用于查詢知識(shí)圖譜。接著使用一個(gè)知識(shí)檢索模型,來(lái)從知識(shí)圖譜中檢索一些與問(wèn)題相關(guān)的證據(jù)。最后使用一個(gè)事實(shí)驗(yàn)證和修正模型,來(lái)根據(jù)證據(jù),驗(yàn)證和修正LLMs生成的文本中的事實(shí),以提高其事實(shí)性和準(zhǔn)確性。

基于忠實(shí)度的損失函數(shù)(Faithfulness-based Loss Function)

基于忠實(shí)度的損失函數(shù)是在LLMs訓(xùn)練或微調(diào)的過(guò)程中,使用一些衡量生成文本與輸入信息或真實(shí)標(biāo)簽之間一致性的指標(biāo),作為損失函數(shù)的一部分,以消除或減少幻覺。這類方法的優(yōu)點(diǎn)是可以直接影響LLMs的參數(shù)優(yōu)化,可以提高LLMs的忠實(shí)度和準(zhǔn)確度。這類方法的缺點(diǎn)是可能需要對(duì)LLMs進(jìn)行一些額外的訓(xùn)練或調(diào)整,或者可能需要一些高質(zhì)量的標(biāo)注數(shù)據(jù)。這類方法的代表有:

Text Hallucination Mitigating(THAM)Framework:(Yoon等,2022)提出了一種基于信息論的損失函數(shù),用于減少LLMs生成的視頻對(duì)話中的幻覺。首先使用一個(gè)對(duì)話語(yǔ)言模型,來(lái)計(jì)算對(duì)話的概率分布。然后使用一個(gè)幻覺語(yǔ)言模型,來(lái)計(jì)算幻覺的概率分布,即那些從輸入的視頻中無(wú)法獲取的信息的概率分布。接著使用一個(gè)互信息模型,來(lái)計(jì)算對(duì)話和幻覺的互信息,即對(duì)話中包含幻覺的程度互信息。最后使用一個(gè)交叉熵模型,來(lái)計(jì)算對(duì)話和真實(shí)標(biāo)簽的交叉熵,即對(duì)話的準(zhǔn)確性。該損失函數(shù)的目標(biāo)是最小化互信息和交叉熵的和,從而減少對(duì)話中的幻覺和錯(cuò)誤。

Factual Error Correction with Evidence Retrieved from external Knowledge(FECK):(Ji等,2021b)提出了一種基于知識(shí)證據(jù)的損失函數(shù),用于提高LLMs生成的文本的事實(shí)性。首先使用一個(gè)知識(shí)檢索模型,來(lái)從一個(gè)知識(shí)圖譜中檢索一些與輸入的文本相關(guān)的子圖,即包含一些實(shí)體和關(guān)系的圖。然后使用一個(gè)知識(shí)編碼模型,來(lái)對(duì)子圖中的實(shí)體和關(guān)系進(jìn)行編碼,得到它們的向量表示。接著使用一個(gè)知識(shí)對(duì)齊模型,來(lái)對(duì)齊LLMs生成的文本中的實(shí)體和關(guān)系,與知識(shí)圖譜中的實(shí)體和關(guān)系,得到它們的匹配程度。最后,該損失函數(shù)使用一個(gè)知識(shí)損失模型,來(lái)計(jì)算LLMs生成的文本中的實(shí)體和關(guān)系,與知識(shí)圖譜中的實(shí)體和關(guān)系,之間的距離,即事實(shí)的偏差。該損失函數(shù)的目標(biāo)是最小化知識(shí)損失,從而提高LLMs生成的文本的事實(shí)性和準(zhǔn)確性。

提示微調(diào)(Prompt Tuning)

提示微調(diào)是在LLMs生成文本的過(guò)程中,使用一些特定的文本或符號(hào),作為輸入的一部分,來(lái)控制或引導(dǎo)LLMs的生成行為,以消除或減少幻覺。這類方法的優(yōu)點(diǎn)是可以有效地調(diào)節(jié)和指導(dǎo)LLMs的參數(shù)知識(shí),可以提高LLMs的適應(yīng)性和靈活性。這類方法的缺點(diǎn)是可能需要對(duì)LLMs進(jìn)行一些額外的訓(xùn)練或調(diào)整,或者可能需要一些高質(zhì)量的提示。這類方法的代表有:

UPRISE(Universal Prompt-based Refinement for Improving Semantic Equivalence):(Chen等,2021)提出了一種基于通用提示的微調(diào)方法,用于提高LLMs生成的文本的語(yǔ)義等價(jià)性。首先使用一個(gè)提示生成模型,來(lái)根據(jù)輸入的文本,生成一個(gè)通用的提示,即一些用于引導(dǎo)LLMs生成語(yǔ)義等價(jià)的文本的文本或符號(hào)。然后使用一個(gè)提示微調(diào)模型,來(lái)根據(jù)輸入的文本和提示,微調(diào)LLMs的參數(shù),使其更傾向于生成與輸入的文本語(yǔ)義等價(jià)的文本。最后,該方法使用一個(gè)提示生成模型,來(lái)根據(jù)微調(diào)后的LLMs的參數(shù),生成一個(gè)語(yǔ)義等價(jià)的文本。

SynTra(Synthetic Task for Hallucination Mitigation in Abstractive Summarization):(Wang等,2021)提出了一種基于合成任務(wù)的微調(diào)方法,用于減少LLMs生成的摘要中的幻覺。首先使用一個(gè)合成任務(wù)生成模型,來(lái)根據(jù)輸入的文本,生成一個(gè)合成的任務(wù),即一個(gè)用于檢測(cè)摘要中的幻覺的問(wèn)題。然后使用一個(gè)合成任務(wù)微調(diào)模型,來(lái)根據(jù)輸入的文本和任務(wù),微調(diào)LLMs的參數(shù),使其更傾向于生成與輸入的文本一致的摘要。最后使用一個(gè)合成任務(wù)生成模型,來(lái)根據(jù)微調(diào)后的LLMs的參數(shù),生成一個(gè)一致的摘要。

5.LLMs幻覺的挑戰(zhàn)和局限性

盡管LLMs中的幻覺緩解技術(shù)已經(jīng)取得了一些進(jìn)展,但仍然存在一些挑戰(zhàn)和局限性,需要進(jìn)一步的研究和探索。以下是一些主要的挑戰(zhàn)和局限性:

幻覺的定義和度量:沒有一個(gè)統(tǒng)一和明確的定義和度量,不同的研究可能使用不同的標(biāo)準(zhǔn)和指標(biāo),來(lái)判斷和評(píng)估LLMs生成的文本中的幻覺。這導(dǎo)致了一些不一致和不可比較的結(jié)果,也影響了LLMs中幻覺問(wèn)題的理解和解決。因此,需要建立一個(gè)通用和可靠的幻覺的定義和度量,以便于對(duì)LLMs中的幻覺進(jìn)行有效的檢測(cè)和評(píng)估。

幻覺的數(shù)據(jù)和資源:缺乏一些高質(zhì)量和大規(guī)模的數(shù)據(jù)和資源,來(lái)支持LLMs中幻覺的研究和開發(fā)。例如,缺乏一些包含幻覺標(biāo)注的數(shù)據(jù)集,來(lái)訓(xùn)練和測(cè)試LLMs中幻覺的檢測(cè)和緩解方法;缺乏一些包含真實(shí)事實(shí)和證據(jù)的知識(shí)源,來(lái)提供和驗(yàn)證LLMs生成的文本中的知識(shí);缺乏一些包含用戶反饋和評(píng)價(jià)的平臺(tái),來(lái)收集和分析LLMs生成的文本中的幻覺的影響。因此,需要構(gòu)建一些高質(zhì)量和大規(guī)模的數(shù)據(jù)和資源,以便于對(duì)LLMs中的幻覺進(jìn)行有效的研究和開發(fā)。

幻覺的原因和機(jī)制:沒有一個(gè)深入和全面的原因和機(jī)制的分析,來(lái)揭示和解釋LLMs為什么會(huì)產(chǎn)生幻覺,以及幻覺是如何在LLMs中形成和傳播的。例如,不清楚LLMs中的參數(shù)知識(shí)、非參數(shù)知識(shí)和生成策略是如何相互影響和作用的,以及它們是如何導(dǎo)致不同類型、程度和影響的幻覺的。因此,需要進(jìn)行一些深入和全面的原因和機(jī)制的分析,以便于對(duì)LLMs中的幻覺進(jìn)行有效的預(yù)防和控制。

幻覺的解決和優(yōu)化:沒有一個(gè)完善和通用的解決和優(yōu)化的方案,來(lái)消除或減少LLMs生成的文本中的幻覺,以及提高LLMs生成的文本的質(zhì)量和效果。例如,不清楚如何在不損失LLMs的泛化能力和創(chuàng)造力的前提下,提高LLMs的忠實(shí)度和準(zhǔn)確度。因此,需要設(shè)計(jì)一些完善和通用的解決和優(yōu)化的方案,以便于提高LLMs生成的文本的質(zhì)量和效果。

責(zé)任編輯:華軒 來(lái)源: 大噬元獸
相關(guān)推薦

2024-02-20 08:17:55

2024-01-12 10:29:26

2024-01-02 13:19:00

AI模型

2009-07-08 09:24:54

綜合布線銅纜管理

2024-09-19 08:11:28

2023-09-14 12:35:59

2024-01-09 14:05:15

大型語(yǔ)言模型RAG向量數(shù)據(jù)庫(kù)

2024-08-05 09:14:14

2023-09-27 10:23:06

人工智能語(yǔ)言模型

2023-11-18 09:30:42

模型AI

2024-07-29 08:47:00

2024-06-17 14:07:41

2013-11-29 09:26:40

綜合布線萬(wàn)兆銅纜智能管理

2021-10-18 10:56:22

云計(jì)算AIOps人工智能

2012-03-28 15:20:37

BMC云計(jì)算云戰(zhàn)略

2024-05-27 13:46:16

2014-11-07 13:53:43

綜合布線光纖
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)