AAAI2025|小紅書搜索廣告團(tuán)隊(duì)提出幻覺檢測新方法:基于語義圖增強(qiáng)的不確定建模
大型語言模型(LLMs)在生成文本時(shí)容易出現(xiàn)“幻覺”,即生成不真實(shí)或不忠實(shí)的內(nèi)容,這限制了其在實(shí)際場景中的應(yīng)用?,F(xiàn)有的研究主要基于不確定性進(jìn)行幻覺檢測,利用 LLMs 的輸出概率計(jì)算不確定性,無需依賴外部知識或頻繁采樣。然而,這些方法通常只關(guān)注單個(gè) Token 的不確定性,忽略了 Token 和句子之間復(fù)雜的語義關(guān)系,導(dǎo)致在多 Token 和跨句子的幻覺檢測中存在不足。
在 AAAI2025 上,小紅書搜索廣告算法團(tuán)隊(duì)提出了一種基于語義圖增強(qiáng)不確定性建模的幻覺檢測方法。首先構(gòu)建語義圖,捕捉實(shí)體和句子之間的關(guān)系;然后通過實(shí)體間的關(guān)系進(jìn)行不確定性傳播,提升句子級別的幻覺檢測;最后,基于句子與其鄰居句子在語義圖中的矛盾概率,提出一種圖不確定性校準(zhǔn)方法,用于不確定性計(jì)算。在 WikiBio 和 NoteSum 兩個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)表明,該方法在段落級別幻覺檢測中取得了顯著提升,性能提高了 19.78%。
論文標(biāo)題:Enhancing Uncertainty Modeling with Semantic Graph for Hallucination Detection
論文地址:https://arxiv.org/abs/2501.02020
01、背景
大型語言模型憑借其龐大的參數(shù)量和先進(jìn)的訓(xùn)練方式,在互聯(lián)網(wǎng)行業(yè)的各大業(yè)務(wù)中得到了廣泛應(yīng)用。然而,由于現(xiàn)有技術(shù)的局限性,大語言模型的“幻覺”問題依然無法完全避免。幻覺問題指的是模型生成不真實(shí)或忠實(shí)性低的內(nèi)容,這嚴(yán)重影響了模型在實(shí)際應(yīng)用中的可靠性。例如,在小紅書的廣告創(chuàng)意文本生成中(標(biāo)題生成、封面二創(chuàng)、筆記輔助創(chuàng)作等業(yè)務(wù)中),幻覺問題可能導(dǎo)致用戶體驗(yàn)下降。因此,幻覺檢測成為了一項(xiàng)至關(guān)重要的工作。
目前,業(yè)內(nèi)的幻覺檢測方法主要分為三類:
1. 基于檢索增強(qiáng)的方法:依賴外部知識源,且需要復(fù)雜的驗(yàn)證步驟。
2. 基于多次采樣的方法:需要多次調(diào)用語言模型API進(jìn)行改寫,資源消耗巨大。
3. 基于不確定性的方法:利用文本中每個(gè) Token 的輸出概率,通過不確定性度量計(jì)算幻覺得分。該方法只需模型執(zhí)行一次推理,相對高效,因此備受關(guān)注。
然而,現(xiàn)有的不確定性方法仍存在兩個(gè)主要問題:
1. Token 間依賴關(guān)系未被充分建模:現(xiàn)有方法通常只關(guān)注單個(gè) Token 的不確定性,忽略了 Token 之間復(fù)雜的語義關(guān)系。
2. 篇章級別不確定性計(jì)算不足:現(xiàn)有方法通常通過簡單平均句子不確定性來計(jì)算篇章級別的不確定性,忽略了句子之間的復(fù)雜關(guān)系。
02、方法
我們的方法從 Token、句子和篇章三個(gè)粒度依次進(jìn)行不確定性建模,結(jié)合語義圖技術(shù),顯著提升了幻覺檢測的準(zhǔn)確性。
Token:受幻覺隨序列長度增加而累積的啟發(fā),我們結(jié)合基于 LLMs 的條件概率分布統(tǒng)計(jì)與序列衰減,進(jìn)行 Token 級別的不確定性計(jì)算。
句子:考慮到大部分幻覺由句子和段落中的實(shí)體及關(guān)系引發(fā),我們進(jìn)一步構(gòu)建語義圖,用于句子和段落級不確定性計(jì)算。在句子級別,語義圖捕捉實(shí)體間的語義關(guān)系,支持幻覺傳播與計(jì)算,實(shí)體不確定性沿依賴關(guān)系傳播至相關(guān)實(shí)體。
篇章:在段落級別的幻覺檢測中,我們結(jié)合句子在語義圖中的鄰居節(jié)點(diǎn)進(jìn)行不確定性校準(zhǔn)與匯總。
2.1 Token 級別不確定性
受幻覺隨序列長度增加而累積的啟發(fā),我們結(jié)合基于LLMs的條件概率分布統(tǒng)計(jì)與序列衰減,進(jìn)行 Token 級不確定性計(jì)算。具體公式如下:
其中,我們抽取當(dāng)前 Token 位置的所有詞表 Token 中的 Top-K 概率值,計(jì)算其最大值和方差。最大值和方差越大,表明模型對該 Token 的置信度越高,幻覺概率越低。同時(shí),我們還引入了序列衰減項(xiàng),隨著序列長度的增加,模型的不確定性也會相應(yīng)增加。
2.2 句子級別不確定性
考慮到大部分幻覺由句子和段落中的實(shí)體及關(guān)系引發(fā),我們構(gòu)建了語義圖,用于句子和段落級不確定性計(jì)算。在句子級別,語義圖捕捉實(shí)體間的語義關(guān)系,支持不確定性傳播與計(jì)算。具體公式如下:
其中,實(shí)體不確定性通過語義路徑進(jìn)行傳播,路徑強(qiáng)度由頭實(shí)體到謂詞的注意力分?jǐn)?shù)和謂詞到尾實(shí)體的注意力分?jǐn)?shù)求平均得到。全局不確定性則通過句子概率的分位點(diǎn)進(jìn)行計(jì)算:
最后,我們將實(shí)體不確定性和全局不確定性進(jìn)行加權(quán)求和,得到句子級別的不確定性,如下所示:
2.3 篇章級別不確定性
在篇章級別,我們通過指代消解和實(shí)體鏈接,構(gòu)建篇章級別的語義圖。圖中每個(gè)節(jié)點(diǎn)代表一個(gè)句子,邊表示句子之間的語義關(guān)聯(lián)強(qiáng)度。我們使用自然語言推理(NLI)模型計(jì)算句子之間的沖突概率,并結(jié)合句子不確定性進(jìn)行篇章級別的幻覺檢測。具體公式如下:
03、實(shí)驗(yàn)
我們在 WikiBio 和 NoteSum 兩個(gè)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。WikiBio 是目前最廣泛使用的幻覺檢測公開數(shù)據(jù)集,而 NoteSum 是小紅書構(gòu)建的中文筆記數(shù)據(jù)集,專門用于驗(yàn)證我們方法的有效性和泛化能力。
3.1 數(shù)據(jù)集構(gòu)建
NoteSum 數(shù)據(jù)集的構(gòu)建過程分為三個(gè)步驟:
- 搜集熱門筆記:我們首先收集站內(nèi)各行業(yè)熱門的廣告筆記素材,并對可能涉及用戶隱私的信息進(jìn)行過濾。
- 生成筆記摘要:利用 LLM 從這些長筆記中生成較短的摘要用于研究,采用了與 WikiBio 相同的標(biāo)注方法,即也包含事實(shí)性和忠實(shí)性幻覺。
- 標(biāo)注幻覺程度:依據(jù) WikiBio 數(shù)據(jù)集的標(biāo)注方式,我們對每一條筆記中的每個(gè)句子和整個(gè)篇章進(jìn)行了詳細(xì)標(biāo)注。每個(gè)句子被標(biāo)注為 Factual(無幻覺)、Non-Factual*(部分幻覺)或 Non-Factual(嚴(yán)重幻覺),而每個(gè)篇章則被標(biāo)注為一個(gè)介于 0 到 1 之間的連續(xù)性分?jǐn)?shù),表示整個(gè)篇章的幻覺程度。
3.2 評估指標(biāo)
句子級別:我們使用傳統(tǒng)的分類AUC指標(biāo),分別評估模型對 Factual、Non-Factual* 和 Non-Factual 三個(gè)類別的分類能力。
篇章級別:由于篇章級別的幻覺分?jǐn)?shù)是連續(xù)值,我們使用皮爾森相關(guān)系數(shù)和斯皮爾曼相關(guān)系數(shù)來評估模型預(yù)測的幻覺分?jǐn)?shù)與人工標(biāo)注的一致性。
3.3 基線方法
我們選擇了以下最新的幻覺檢測方法作為基線進(jìn)行對比:
- GPT-3 Uncertainty:該方法使用 GPT-3 模型輸出每個(gè) Token 的概率,然后計(jì)算各種傳統(tǒng)的不確定性分?jǐn)?shù)(如負(fù)對數(shù)概率和熵)作為幻覺的程度。
- SelfCheckGPT:這是一種基于多次采樣的方法,依賴于LLM頻繁采樣進(jìn)行一致性檢查。我們使用 Gpt-3.5-turbo 進(jìn)行采樣,并應(yīng)用四種方法來測量一致性,包括 BertScore、QA、Unigram 及它們的組合。
- FOCUS:這是 SelfCheckGPT 的不確定性改良版本,是目前性能最優(yōu)的基于不確定性的檢測方法。我們使用 LLaMA-13B 和 LLaMA-30B 作為其方法的基座模型。
3.4 實(shí)驗(yàn)結(jié)果
我們的方法在 WikiBio 和 NoteSum 數(shù)據(jù)集上均取得了最佳性能,尤其在篇章級別幻覺檢測中,性能提升了 19.78%,顯著優(yōu)于現(xiàn)有方法。具體實(shí)驗(yàn)結(jié)果如下:
句子級別:我們的方法在 Factual、Non-Factual* 和 Non-Factual 三個(gè)類別上的AUC指標(biāo)均優(yōu)于基線方法,尤其是在 Non-Factual 類別上,AUC提升了 12.85%。
篇章級別:我們的方法在皮爾森相關(guān)系數(shù)和斯皮爾曼相關(guān)系數(shù)上均取得了最高分,分別達(dá)到了 77.60 和 74.44 ,顯著優(yōu)于其他基線方法。
我們還從 Token、句子、篇章三個(gè)維度進(jìn)行了消融實(shí)驗(yàn),驗(yàn)證了各個(gè)模塊的有效性:
Token 級別不確定性:移除最大值、方差或序列衰減項(xiàng)后,性能顯著下降,表明這些項(xiàng)對 Token 級別不確定性建模至關(guān)重要。
句子級別不確定性:移除實(shí)體不確定性或全局不確定性后,性能均有所下降,尤其是實(shí)體不確定性對篇章級別幻覺檢測的影響更大。
篇章級別不確定性:移除語義圖中的鄰居句子矛盾概率后,性能下降了約 2 個(gè)百分點(diǎn),表明圖不確定性校準(zhǔn)對篇章級別幻覺檢測的有效性。
我們進(jìn)一步對句子級別中的基于語義關(guān)系的不確定傳播方法、實(shí)體和全局不確定性方法和篇章級別中的基于語義圖的不確定性檢測方法分別進(jìn)行了可視化分析。
1. 基于語義關(guān)系的不確定性傳播
與基線方法 FOCUS(所有前置關(guān)鍵詞傳播到后置關(guān)鍵詞)對比,兩者對于NonFact(嚴(yán)重幻覺)樣本都能有效識別嚴(yán)重幻覺,對于 NonFact*(中等幻覺)和 Factual(無幻覺)樣本,F(xiàn)OCUS方法傾向于高估不確定性,導(dǎo)致與真實(shí)標(biāo)簽之間存在較大差距。且FOCUS方法的三種不確定性得分非常接近,難以區(qū)分不同程度的幻覺。
本文提出的方法通過捕捉語義關(guān)系,減少了不確定性高估,能夠更精確地檢測不同程度的幻覺。
2. 實(shí)體和全局不確定性
隨著幻覺程度的增加(Factual → NonFact* → NonFact),實(shí)體不確定性和全局不確定性的得分均顯著上升,且基于兩者的分?jǐn)?shù),三種樣本類型之間的重疊較少,能夠被較好地區(qū)分。進(jìn)一步驗(yàn)證了實(shí)體不確定性和全局不確定性在句子級別幻覺檢測中的有效性,能夠有效區(qū)分不同程度的幻覺。
3. 基于語義圖的句子間不確定性檢測
與 Adjacent(僅考慮當(dāng)前句子與前后相鄰句子的關(guān)系)和 Average(簡單平均所有句子的不確定性)兩種基線方法相對比,本文提出的基于語義圖的句子間不確定性檢測在 Pearson 和 Spearman 相關(guān)系數(shù)上均優(yōu)于前者,更能有效捕捉長距離語義關(guān)系,顯著提升了段落級別幻覺檢測的性能。
04、結(jié)語
本文首次探索了語義圖在捕捉 Token 與句子之間復(fù)雜關(guān)系方面的潛力,提出了一種基于語義圖增強(qiáng)不確定性建模的幻覺檢測方法。通過對 Token、句子和篇章三個(gè)粒度的不確定性建模,我們顯著提升了幻覺檢測的準(zhǔn)確性。實(shí)驗(yàn)結(jié)果表明,該方法在多個(gè)數(shù)據(jù)集上均取得了顯著效果,尤其在篇章級別幻覺檢測中表現(xiàn)突出。未來,我們將進(jìn)一步探索如何將現(xiàn)有知識圖與 AMR 圖結(jié)合,用于事實(shí)核查和幻覺檢測。
05、作者簡介
陳可迪
現(xiàn)碩士就讀于華東師范大學(xué),小紅書搜索廣告團(tuán)隊(duì)實(shí)習(xí)生。在 EMNLP、NAACL、COLING、AAAI 等機(jī)器學(xué)習(xí)、自然語言處理領(lǐng)域頂級會議上發(fā)表數(shù)篇一作論文,主要研究方向?yàn)榇笳Z言模型幻覺,大語言模型推理能力增強(qiáng)。
一帆(陶鑫琪)
小紅書 NLP 算法工程師(廣告創(chuàng)意生成方向),主要研究方向:大模型算法研究、文本可控式生成。
法明(丁博文)
小紅書 NLP 算法工程師(廣告創(chuàng)意生成方向),主要研究方向:大模型算法研究、文本可控式生成。
清良(謝靜文)
小紅書 NLP 算法工程師(廣告創(chuàng)意生成方向),主要研究方向:大模型算法研究、文本可控式生成。
神宗(謝明宸)
小紅書算法工程師(搜索廣告方向),主要研究方向:創(chuàng)意生成、模型預(yù)估、廣告冷啟動。