自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

^{<blockquote id="zp1hg"><rt id="zp1hg"></rt></blockquote>}

<cite id="zp1hg"></cite>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

LLM幻覺，竟因知識「以大欺小」！華人團(tuán)隊(duì)祭出對數(shù)線性定律與CoDA策略

作者：新智元 2025-04-08 02:22:00

來自UIUC等大學(xué)的華人團(tuán)隊(duì)，從LLM的基礎(chǔ)機(jī)制出發(fā)，揭示、預(yù)測并減少幻覺！通過實(shí)驗(yàn)，研究人員揭示了LLM的知識如何相互影響，總結(jié)了幻覺的對數(shù)線性定律。更可預(yù)測、更可控的語言模型正在成為現(xiàn)實(shí)。

大語言模型（LLMs）已經(jīng)徹底改變了AI，但「幻覺」問題如影隨從，堪稱LLM癌癥。

LLM會一本正經(jīng)、義正辭嚴(yán)的捏造事實(shí)，「臉不紅，心不跳」地說謊。

「幻覺」被普遍認(rèn)為與訓(xùn)練數(shù)據(jù)相關(guān)。

但在掌握真實(shí)訓(xùn)練數(shù)據(jù)的情況下，為什么LLM還會幻覺？能否提前預(yù)測LLM幻覺的發(fā)生？

來自美國伊利諾伊大學(xué)香檳分校UIUC、哥倫比亞大學(xué)、西北大學(xué)、斯坦福大學(xué)等機(jī)構(gòu)的研究團(tuán)隊(duì)，在Arxiv上發(fā)布預(yù)印本，提出了知識遮蔽定律（The Law of Knowledge Overshadowing）：揭示、預(yù)測并減少LLM幻覺！

一作張雨季宣布新發(fā)現(xiàn)，介紹了LLM幻覺的對數(shù)線性定律（Log-Linear Law），分享了最新研究成果：

圖片

此研究深入研究了LLM幻覺，有4大亮點(diǎn)：

1 發(fā)現(xiàn)幻覺的對數(shù)線性規(guī)律：幻覺率隨著相對知識流行度、相對知識長度和模型規(guī)模的對數(shù)線性增長

2 在訓(xùn)練或推理前預(yù)測幻覺：在訓(xùn)練前「知識遮蔽效應(yīng)」可預(yù)測幻覺發(fā)生的可能性

3 提出全新解碼策略CoDA（Contrastive Decoding with Attenuation）強(qiáng)調(diào)被遮蔽的知識，降低主流知識偏差，大幅提升LLM事實(shí)性（Factuality）

4 更可預(yù)測、更可控的語言模型正在成為現(xiàn)實(shí)！研究加深了對LLM幻覺機(jī)制的理解，為未來的可解釋性與可控性研究打開新方向

圖片

論文鏈接：https://arxiv.org/abs/2502.16143

LLM存在一種根本矛盾：

即使使用高質(zhì)量的訓(xùn)練數(shù)據(jù)，「幻覺」依舊存在。

要解決這一矛盾，需要對LLL的根本機(jī)制有更深入的理解。

為此，本次研究團(tuán)隊(duì)提出了新概念：「知識遮蔽」，即模型中的主導(dǎo)知識可以在文本生成過程中，掩蓋那些不太突出的知識，從而導(dǎo)致模型編造不準(zhǔn)確的細(xì)節(jié)。

基于這一概念，研究者引入了新的框架來量化事實(shí)性幻覺，通過模擬知識遮蔽效應(yīng)實(shí)現(xiàn)。

事實(shí)性幻覺的發(fā)生率會隨著以下3個因素的對數(shù)尺度線性增加：(1)知識普及度，(2)知識長度，以及(3)模型大小。

基于這一規(guī)律，可以預(yù)先量化幻覺現(xiàn)象，甚至在模型訓(xùn)練或推理之前，就能預(yù)見幻覺出現(xiàn)。

在遮蔽效應(yīng)基礎(chǔ)之上，研究人員還提出了一種新的解碼策略CoDa，以減少幻覺現(xiàn)象，這顯著提高了模型在Overshadow（27.9%）、MemoTrap（13.1%）和NQ-Swap（18.3%）測試中的事實(shí)準(zhǔn)確性。

新研究不僅加深了對幻覺背后基礎(chǔ)機(jī)制的理解，也為開發(fā)更加可預(yù)測和可控的語言模型提供了可行的見解。

什么是「LLM幻覺」

LLM的「幻覺」指的是模型生成不真實(shí)或非事實(shí)陳述的現(xiàn)象。

給出提示「LLM幻覺」，AI自己可以解釋什么是LLM幻覺：

圖片

排名第一的原因就是訓(xùn)練數(shù)據(jù)問題。

然而，發(fā)現(xiàn)即使在嚴(yán)格控制預(yù)訓(xùn)練語料庫僅包含事實(shí)陳述的情況下，這一問題仍然存在。

具體來說，在使用查詢提取知識時，觀察到某些知識傾向于掩蓋其他相關(guān)信息。

這導(dǎo)致模型在推理過程中未能充分考慮被掩蓋的知識，從而產(chǎn)生幻覺。

知識遮蔽導(dǎo)致幻覺

「知識遮蔽」（knowledgeovershadowing）是指更常見的知識會抑制較少出現(xiàn)的知識，從而導(dǎo)致幻覺的產(chǎn)生。

為了系統(tǒng)地描述知識遮蔽現(xiàn)象，在訓(xùn)練語料庫中，研究人員定義了知識對（knowledge pairs）。

具體來說，設(shè)和代表一對知識集合。

其中，K_A包含m個知識陳述樣本ka_i，而K_B包含n個知識陳述樣本kb_j。

在K_A和K_B中的每個陳述都通過一個共享的詞元集合X_{share}相關(guān)聯(lián)。

在知識集K_A中，每個聲明ka_i由一個共享的token序列Xshare、一個唯一的token序列xai和輸出Ya組成。

每個聲明kai表示為：

圖片

其中⊙表示將獨(dú)特的序列xai插入Xshare中（整合位置可以變化）。

同樣，對于不太受歡迎的知識集K_B，用xbj表示獨(dú)特的token序列，每個聲明kbj表述為：

圖片

當(dāng)在推理過程中抑制獨(dú)特的token序列xbj或xai時，會發(fā)生知識遮蔽。

以xbj被遮蔽為例，當(dāng)提示Xshare⊙xbj時，模型輸出Ya，形成，錯誤地將事實(shí)聲明kai和kbj合并成事實(shí)幻覺，違背了地面真相，如圖1所示。

事實(shí)幻覺的度量

為了測量由知識遮蔽引起的事實(shí)幻覺，引入了相對幻覺率R。

當(dāng)KA是更受歡迎的知識集時，首先量化模型正確記憶來自KA的樣本的召回率，記為。

然后，量化模型在xbj被遮蔽時產(chǎn)生輸出的幻覺率HR，記為。

相對幻覺率R=HR/RR表示不那么受歡迎的知識集由xbj編碼的知識被更受歡迎的知識集由xai編碼的知識抑制的程度。這個比率表示較不流行的知識（xbj）在多大程度上被較流行的知識（xai）所抑制。

圖片

圖2：大語言模型（LLMs）在一個具有可控變量S、P和L的合成數(shù)據(jù)集上從零開始預(yù)訓(xùn)練。

在每個子圖中，通過改變其中一個變量進(jìn)行實(shí)驗(yàn)，同時保持另外兩個變量不變。

LLMs采用自回歸（auto-regressive）方式進(jìn)行訓(xùn)練，并基于整句話計算交叉熵?fù)p失（cross-entropyloss）。

關(guān)于訓(xùn)練數(shù)據(jù)的統(tǒng)計信息、訓(xùn)練參數(shù)及具體實(shí)現(xiàn)細(xì)節(jié)，請參考原文附錄A.1和A.2。

影響變量的公式化

由于影響事實(shí)幻覺的潛在因素尚未被深入研究，從全局和局部兩個角度分析這些變量，重點(diǎn)關(guān)注導(dǎo)致「知識遮蔽」（overshadowing）效應(yīng)的知識占比。

當(dāng)K_A比K_B更流行時，樣本數(shù)量滿足m>n。

全局視角下，定義相對知識流行度（relative knowledge popularity）為P=m/n，該值表示在整個訓(xùn)練語料庫中，某一知識的相對占比。

局部視角下，量化單個句子中知識的權(quán)重，定義相對知識長度（relativeknowledgelength）為：其中，長度（length）是指token的數(shù)量。

此外，先前研究表明，擴(kuò)大模型規(guī)?？梢蕴嵘Ｐ托阅?。因此，研究增加模型規(guī)模（S）是否能緩解事實(shí)幻覺現(xiàn)象。

何時會出現(xiàn)事實(shí)幻覺？

為了研究知識幻覺出現(xiàn)的條件，研究人員在以下三種情境下探測了知識掩蓋現(xiàn)象：

1、未經(jīng)過額外訓(xùn)練的開源預(yù)訓(xùn)練LLM，

2、從零開始訓(xùn)練一個新的LLM，

3、以及對預(yù)訓(xùn)練LLM進(jìn)行下游任務(wù)的微調(diào)。

開源LLM中的幻覺

研究人員探測了開源預(yù)訓(xùn)練大語言模型Olmo和公開訓(xùn)練語料Dolma，調(diào)查了模型幻覺與數(shù)據(jù)樣本頻率之間的關(guān)系。

結(jié)果表明，頻率更高的知識傾向于掩蓋頻率較低的知識。

這一發(fā)現(xiàn)與「高頻知識掩蓋低頻知識」的現(xiàn)象相一致，說明數(shù)據(jù)中出現(xiàn)頻率高的內(nèi)容容易主導(dǎo)模型的輸出，從而導(dǎo)致幻覺。

當(dāng)向語言模型提出包含多個條件的問題時，有研究報告稱，模型的回答往往只部分滿足這些條件。

為了驗(yàn)證較流行的知識是否會遮蔽較不流行的知識，設(shè)計了一項(xiàng)探測實(shí)驗(yàn)。

實(shí)驗(yàn)使用了典型查詢句式，例如：「告訴我一些著名的<A><B>」。

其中A和B代表不同的條件，比如性別、種族、職業(yè)、性取向、國籍、時間等。

B條件的上下文關(guān)系趨勢與訓(xùn)練數(shù)據(jù)中的提及頻率一致。

這些研究結(jié)果證實(shí)了，當(dāng)知識不平衡滿足 m > n 時，就會出現(xiàn)事實(shí)性幻覺。

正如下表5所示，模型往往會優(yōu)先滿足條件B，而忽略條件A，導(dǎo)致生成幻覺性回答。

值得注意的是，條件A通常存在一個更占主導(dǎo)地位的對應(yīng)項(xiàng)。

圖片

表5：預(yù)訓(xùn)練的OLMO模型在推理時產(chǎn)生的嚴(yán)重幻覺（可能具有冒犯性）。主導(dǎo)知識以粉色/藍(lán)色標(biāo)注，被掩蓋的知識以橙色/綠色標(biāo)注。

幻覺的對數(shù)線性規(guī)律

實(shí)驗(yàn)設(shè)置：為了準(zhǔn)確量化幻覺與其影響因素之間的關(guān)系，在具有受控變量設(shè)置的合成數(shù)據(jù)集上，研究人員從頭開始預(yù)訓(xùn)練語言模型。

之所以這樣做，是因?yàn)楝F(xiàn)實(shí)世界訓(xùn)練數(shù)據(jù)中，自然語言天生就有變異性和不精確性，無法以完全準(zhǔn)確地枚舉所有流行/不流行知識的表達(dá)形式。

對于每個受控變量實(shí)驗(yàn)，從分詞器詞匯表中，采樣詞元來構(gòu)建每個數(shù)據(jù)集，如表1所示。

圖片

研究人員從零開始預(yù)訓(xùn)練每個LLM，使用表1中的數(shù)據(jù)集，共包含19.6億tokens，并在自回歸（auto-regressive）方式下進(jìn)行訓(xùn)練。

同時控制變量，優(yōu)化交叉熵?fù)p失（cross-entropy loss），直到模型收斂（訓(xùn)練細(xì)節(jié)見原文附錄A.1）。

正如圖2所示，事實(shí)幻覺（factualhallucination）與知識流行度P、知識長度L和模型規(guī)模S呈對數(shù)線性關(guān)系：

其中α、β、γ、Pc、Lc、Sc為常數(shù)。

從圖2可以看出，幻覺率隨著相對知識流行度P、相對知識長度L和模型規(guī)模S的對數(shù)值線性增長。

圖片

更高的流行度會導(dǎo)致信息被掩蓋：高頻知識會主導(dǎo)模型的學(xué)習(xí)，而低頻知識則更容易被忽略或錯誤替代。

更長的文本會導(dǎo)致信息被掩蓋：在句子內(nèi)部，如果x_{bj}的token長度短于X_share，它的語義邊界會變得不清晰，導(dǎo)致信息被掩蓋。

更大模型導(dǎo)致信息被掩蓋：在保持低頻知識的清晰語義區(qū)分方面，更大的模型的能力有所下降。最終可能導(dǎo)致低頻知識在生成過程中被忽略或誤用，從而增加幻覺（hallucination）發(fā)生的概率。

在微調(diào)LLM中驗(yàn)證對數(shù)線性規(guī)律

在上文中，研究結(jié)果基于預(yù)訓(xùn)練模型。

對數(shù)線性規(guī)律（log-linear law）是否在微調(diào)LLM中依然成立?

對數(shù)線性規(guī)律是否可用作量化LLM產(chǎn)生幻覺的預(yù)測工具，尤其是在下游任務(wù)微調(diào)過程中?

具體來說，研究人員對參數(shù)規(guī)模從160M到13B的模型進(jìn)行微調(diào)，涵蓋多種事實(shí)類任務(wù)，包括：

時間、地點(diǎn)、性別、否定查詢（negation queries）、數(shù)學(xué)和邏輯推理與知識沖突解析（knowledge conflict resolution）。

對于每個任務(wù)，研究人員生成：

（1）m組樣本，對應(yīng)；

（2）n組樣本，對應(yīng)。

為了嚴(yán)格控制微調(diào)后的知識分布，研究人員使用人工構(gòu)造的事實(shí)來生成查詢，以減少預(yù)訓(xùn)練知識的干擾，從而能夠更加精準(zhǔn)地評估對數(shù)線性規(guī)律中的P（知識流行度）和L（知識長度）。

表1展示了多個任務(wù)的知識對（k_a,k_b）示例，原文附錄A.2提供了更多數(shù)據(jù)集示例和統(tǒng)計信息。

圖片

利用對數(shù)線性規(guī)律主動量化幻覺

研究人員利用訓(xùn)練LLM在受控的合成數(shù)據(jù)集上擬合出的對數(shù)線性規(guī)律（log-linear law），來預(yù)測經(jīng)過微調(diào)后的LLM在不同下游任務(wù)中的幻覺率。

具體來說，研究人員使用該規(guī)律預(yù)測幻覺率R，并分析它如何隨以下變量變化（見圖3）：模型規(guī)模S、相對知識流行度P、相對知識長度L。

隨后，研究人員比較預(yù)測的幻覺率與微調(diào)實(shí)驗(yàn)中實(shí)際觀測到的幻覺率之間的差異。

研究人員使用相對預(yù)測誤差來評估對數(shù)線性規(guī)律的預(yù)測能力，其計算公式如下：

圖片

這一方法使研究人員能夠量化并預(yù)測LLM在不同微調(diào)任務(wù)下的幻覺現(xiàn)象，為優(yōu)化和改進(jìn)模型提供理論依據(jù)。

研究人員在圖4中可視化了不同任務(wù)中幻覺率的預(yù)測誤差，報告了平均相對預(yù)測誤差為8.0%。

對于L（知識長度）和P（知識流行度）的誤差略高于S（模型規(guī)模）。

這是因?yàn)楸M管微調(diào)數(shù)據(jù)集包含了未見過的事實(shí)，但其中仍然存在一些與預(yù)訓(xùn)練知識相似的語言表達(dá)，這對P和L的量化產(chǎn)生了輕微的影響，而S并未受到影響。

精確量化不準(zhǔn)確的真實(shí)世界知識的流行度仍然是一個未解決的挑戰(zhàn)，研究人員將在未來的工作中進(jìn)一步探討。

圖片

當(dāng)前最佳LLM中的事實(shí)幻覺

表2展示了一個案例研究，說明了最先進(jìn)的大語言模型如何受到知識掩蓋的擴(kuò)展效應(yīng)影響。

由于這些模型的訓(xùn)練語料庫是閉源的，且P（知識流行度）和S（模型規(guī)模）的值是固定的，直接研究P、S和L對模型的影響較為困難。

因此，研究人員在推理階段操控L（知識長度），以觀察模型行為的變化。

例如，當(dāng)查詢GPT-4o關(guān)于薛定諤貓的狀態(tài)時，如果增加周圍文本的長度，同時保持「死」的詞不變，就會提高周圍上下文的相對長度L，從而導(dǎo)致相較于「死」這個詞，幻覺的可能性增大。

其他LLM也存在知識掩蓋問題。

例如，當(dāng)查詢DeepSeek-V3-671B論文的作者時，「Scalinglaw」這一短語掩蓋了標(biāo)題中的其他描述性元素，導(dǎo)致錯誤的回應(yīng)——「Kaplan」，即另一篇著名的Scalinglaw論文的作者。

圖片

表2：SOTALLM中的事實(shí)幻覺

為什么知識會被掩蓋？

在實(shí)驗(yàn)中觀察到的知識掩蓋的擴(kuò)展效應(yīng)（scaling effects of knowledge overshadowing）現(xiàn)象。

對此，研究團(tuán)隊(duì)也提供了理論解釋。

記憶—泛化—幻覺

研究人員發(fā)現(xiàn)事實(shí)幻覺遵循的對數(shù)線性規(guī)律與記憶（memorization）的對數(shù)線性規(guī)律驚人地一致。

兩者都與樣本頻率、樣本長度和模型規(guī)模的對數(shù)值呈線性關(guān)系。

這一高度一致性促使研究人員深入探討事實(shí)幻覺的本質(zhì)，并引出了一個關(guān)鍵問題：

幻覺是否可以被理解為記憶階段之后——即泛化（generalization）階段的必然副產(chǎn)物？

隨著模型記憶大量信息并捕捉關(guān)聯(lián)關(guān)系，它們會在泛化過程中適應(yīng)新的分布。

然而，在這一過程中，不占主導(dǎo)地位的知識可能會因過度平滑（smoothing）或信息壓縮（compression）而被更常見的模式所掩蓋。

與長尾效應(yīng)不同，知識掩蓋并不僅僅是數(shù)據(jù)不均衡的結(jié)果，而是知識表征之間競爭的直接產(chǎn)物。

即使是并不罕見的知識，也可能在表征空間中被更占主導(dǎo)地位的知識壓制。

這種表征競爭機(jī)制直接推動了事實(shí)幻覺的產(chǎn)生，尤其是在模型從記憶（memorization）過渡到泛化（generalization）處理更復(fù)雜的數(shù)據(jù)分布時，幻覺現(xiàn)象變得更加明顯。

泛化誤差界解釋幻覺

研究人員推導(dǎo)了主流知識的泛化誤差界，以理解相對知識流行度P和相對知識長度L的增加如何增強(qiáng)泛化能力，同時加劇LLM的事實(shí)幻覺。

在使用自回歸（auto-regressive）目標(biāo)優(yōu)化的LLM中，下一個token預(yù)測任務(wù)的泛化誤差界可表示為：

圖片

在受控實(shí)驗(yàn)設(shè)置下，可以將除了L和m之外的變量視為常數(shù)。

在這里，h(L)表示一個與L正相關(guān)的函數(shù)值，μ反映了輸入變化的敏感度，即相對知識長度L對泛化能力的影響。此外m代表K_A的樣本數(shù)量。

理論上，更低的誤差下界意味著更強(qiáng)的泛化能力。

當(dāng)L增加（即知識的相對長度增長）或m增加（即知識的相對流行度提高）時，二者都會降低泛化誤差界，也就是說說，提高泛化能力。

但與此同時，這也與幻覺率的上升趨勢一致，即泛化能力增強(qiáng)的同時，模型更容易產(chǎn)生事實(shí)幻覺（hallucination）。

更多詳細(xì)的理論推導(dǎo)可在原文附錄A.5中查看。

如何消除幻覺？

為了減少事實(shí)幻覺（factualhallucinations），在幻覺影響模型預(yù)測之前，主動識別被掩蓋的知識。

識別被掩蓋的知識

在語言模型（LLM）中，給定輸入token序列X，模型會生成續(xù)寫token序列Y，其中X和Y都由詞匯表V中的token組成。

如果X中的某些token x_b被掩蓋（overshadowed），模型可能會生成幻覺輸出（hallucinated output）。

比如說，輸入X是下列內(nèi)容：

「Who is a famous African researcher in machine learning area?」

如果「African」(x_b)被「machine learning」掩蓋，則模型可能會錯誤地輸出：

Y=「Yoshua Bengio」

此時，模型忽略了「African」這一約束，導(dǎo)致幻覺生成。

解決方案：研究人員提出CoDA（對比解碼），用于放大被掩蓋的知識，從而減少幻覺現(xiàn)象的發(fā)生。

檢測被掩蓋的Token

為了識別被掩蓋的token x_b，研究人員采用逐步屏蔽（masking）的方法，即依次屏蔽X中的x_b，形成X'，直到找到被掩蓋的token（具體的x_b選擇方法見原文附錄A.4）。

如果x_b被掩蓋，則模型的條件概率會發(fā)生退化：

圖片

換句話說，模型的輸出會從Y_b偏向Y_a，導(dǎo)致信息丟失或幻覺。

為了確保研究人員能夠量化輸出候選yi∈P(Y|X)和P(Y|X′)的足夠語義，采用自適應(yīng)合理性約束，保留滿足以下條件的token：

，其中α=0.01是一個超參數(shù)，Υ是一個全局變量，表示所有yi候選中的最大概率。

然后，R-PMI在上進(jìn)行量化：

本質(zhì)上，負(fù)的R-PMI值表示token yi更傾向于與X′相關(guān)聯(lián)，且沒有受到遮蔽信息的影響。

因此，為了量化P(Y|X)在多大程度上推廣到P(Y|X)，需要找到下列最小值：

此外，值得注意的是，盡管某些token被X′遮蔽，但仍有一些token逃脫了這種遮蔽效應(yīng)，定義為Vesc：

這些逃脫的token展示了消除幻覺的潛力。

研究人員提出了一個逃避獎勵機(jī)制（ERM），該機(jī)制通過向負(fù)R-PMI的總和添加正獎勵來評估逃避效應(yīng)是否超過了遮蔽效應(yīng)。

將所有具有負(fù)R-PMI的yi表示為yi∈S，ERM的計算方式如下：

這里的計算是為了使ERM與RPMI保持平衡，兩者具有相似的分母p(yj|X′)，在方程7中表示來自X′的最小偏差。

然后，研究人員可以通過以下公式計算遮蔽知識指標(biāo)：Indicator=R-PMI總和+ERM。

指標(biāo)值為負(fù)表示進(jìn)行了適當(dāng)?shù)姆夯鴽]有遮蔽其他知識，而正值則表示過度泛化并遮蔽了token xb。

接著，研究人員可以在定位被遮蔽的token后，預(yù)測潛在的幻覺，表8顯示了準(zhǔn)確率。

圖片

提升被遮掩的知識

研究人員提出了一種方法，用于提升被遮掩的知識。

一旦識別出編碼被遮掩知識的token xb，研究人員就會對這些token采用對比解編碼，以減少X′的影響并突出X的重要性。

具體來說，為了降低X′的偏差，研究人員對每個yi∈Vtop(X)∩Vtop(X′)減去X′的先驗(yàn)偏差P(yi|X′)，計算方式如下：

同樣，對于每個yi∈Vesc，研究人員進(jìn)行以下操作：

在這里，右式后一項(xiàng)表示來自普遍知識的最小先驗(yàn)偏差。

這種減法旨在平衡yi∈Vesc和yi/∈Vesc之間的偏差調(diào)整，確保對兩者進(jìn)行成比例的調(diào)整。

然后研究人員通過以下方式預(yù)測最優(yōu)輸出y^{?}_{i}

到目前為止，研究人員已經(jīng)減少了由X′編碼的普遍知識帶來的遮掩效應(yīng)，然后放大了編碼有意義被遮掩知識的逃避token，以減少幻覺。

實(shí)驗(yàn)結(jié)果

在Overshadow、MemoTrap和NQ-Swap任務(wù)上，CoDA分別將貪心解碼的性能提升了27.9%、13.1%和18.3%。

增強(qiáng)推理能力的基線方法在處理因知識遮蔽（knowledge overshadowing）導(dǎo)致的幻覺現(xiàn)象時表現(xiàn)不佳。

而基于自一致性（self-consistency）的方法則表現(xiàn)出不穩(wěn)定性，甚至可能出現(xiàn)性能下降，這可能是由于強(qiáng)化了來自流行知識的偏差。

圖5展示了對CoDA受兩個因素P和L影響的定量分析。

隨著知識的過度泛化，提取有價值信息變得越來越困難，因?yàn)橛杏玫闹R表示受到了抑制。

圖5：關(guān)于流行度P和長度L對CoDA在消除知識遮蔽方面表現(xiàn)的定量分析。

作者簡介

圖片

一作張雨季，目前是伊利諾伊大學(xué)厄巴納-香檳分校（University of Illinois at Urbana-Champaign，UIUC）的博士后研究員。

她之前在香港理工大學(xué)、東南大學(xué)就讀。

她的主要研究興趣是自然語言處理、計算社會學(xué)和機(jī)器學(xué)習(xí)。

參考資料：

https://arxiv.org/pdf/2502.16143

責(zé)任編輯：武曉燕來源：新智元

LLM CoDA 策略

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<cite id="m25t9"></cite>

<style id="m25t9"></style>

<style id="m25t9"></style>