自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

語義熵識(shí)破LLM幻覺!牛津大學(xué)新研究登Nature

人工智能
近日,來自牛津大學(xué)的研究人員推出了利用語義熵來檢測LLM幻覺的新方法。作為克服混淆的策略,語義熵建立在不確定性估計(jì)的概率工具之上,可以直接應(yīng)用于基礎(chǔ)模型,無需對架構(gòu)進(jìn)行任何修改。

時(shí)至今日,大語言模型胡編亂造的情況仍屢見不鮮。

不知大家面對LLM的一本正經(jīng)胡說八道,是輕皺眉頭,還是一笑而過?

俗話說,大風(fēng)起兮云飛揚(yáng),安得猛士兮走四方。LLM幻覺任何時(shí)候都要除掉,不除不行。

試想,當(dāng)你搜索一個(gè)簡單語法時(shí),網(wǎng)頁上排名前幾的都是由大模型生成的錯(cuò)誤答案,測過之后才發(fā)覺浪費(fèi)了生命。

如果LLM涉及了醫(yī)學(xué)、法律等專業(yè)領(lǐng)域,幻覺將造成嚴(yán)重的后果,所以相關(guān)的研究也從未停止。

近日,來自牛津大學(xué)的研究人員在Nature上發(fā)表了利用語義熵來檢測LLM幻覺的新方法。

圖片圖片

論文地址:https://www.nature.com/articles/s41586-024-07421-0

牛津大學(xué)計(jì)算機(jī)科學(xué)家Sebastian Farquhar等人,通過設(shè)計(jì)基于LLM確定的語義熵(相似性),來度量大模型答案中語義層面的不確定性。

做法是讓第一個(gè)LLM針對同一問題多次產(chǎn)生答案,并由第二個(gè)LLM(裁判)來分析這些答案的語義相似性。

同時(shí),為了驗(yàn)證以上判斷的準(zhǔn)確性,再啟用第三個(gè)LLM,同時(shí)接收人類的答案和第二個(gè)LLM的評判結(jié)果進(jìn)行比較,做到了無監(jiān)督,但有理有據(jù)。

圖片圖片

整個(gè)過程簡單來說就是:如果我想檢查你是否在胡編亂造,我就會(huì)反復(fù)問你同一個(gè)問題。如果你每次給出的答案都不一樣......那就不對勁了。

實(shí)驗(yàn)結(jié)果表明,本文采用的語義熵方案優(yōu)于所有基線方法:

圖片圖片

在Nature的一篇評論文章中,皇家墨爾本理工大學(xué)計(jì)算機(jī)技術(shù)學(xué)院院長Karin Verspoor教授表示,這是一種「Fighting fire with fire」的方法:

「結(jié)果表明,與這些簇相關(guān)的不確定性(語義熵)比標(biāo)準(zhǔn)的基于單詞的熵更能有效地估計(jì)第一個(gè)LLM的不確定性。這意味著即使第二個(gè)LLM的語義等價(jià)計(jì)算并不完美,但它仍然有幫助。」

不過Karin Verspoor也指出,用一個(gè)LLM來評估一種基于LLM的方法似乎是在循環(huán)論證,而且可能有偏差。

「但另一方面,我們確實(shí)能從中受到很多啟發(fā),這將有助于其他相關(guān)問題的研究,包括學(xué)術(shù)誠信和抄襲,使用LLM創(chuàng)建誤導(dǎo)或捏造的內(nèi)容」。

Fighting fire with fire

LLM的幻覺通常被定義為生成「無意義或不忠實(shí)于所提供的源內(nèi)容的內(nèi)容」,本文關(guān)注幻覺的一個(gè)子集——「虛構(gòu)」,即答案對不相關(guān)的內(nèi)容很敏感(比如隨機(jī)種子)。

檢測虛構(gòu)可以讓基于LLM構(gòu)建的系統(tǒng),避免回答可能導(dǎo)致虛構(gòu)的問題,讓用戶意識(shí)到問題答案的不可靠性,或者通過更有根據(jù)的搜索,來補(bǔ)充或恢復(fù)LLM給出的回答。

語義熵和混淆檢測

為了檢測虛構(gòu),研究人員使用概率工具,來定義并測量LLM所產(chǎn)生內(nèi)容的語義熵——根據(jù)句子含義計(jì)算的熵。

因?yàn)閷τ谡Z言來說,盡管表達(dá)方式不同(語法或詞匯上不同),但答案可能意味著相同的事情(語義上等效)。

而語義熵傾向于估計(jì)自由形式答案的含義分布,而不是單詞或單詞片段的分布,符合實(shí)際情況,同時(shí)也可以看作是隨機(jī)種子變異的一種語義一致性檢查。

如下圖所示,一般的不確定性衡量方法會(huì)將「巴黎」、「這是巴黎」和「法國首都巴黎」視為不同的回答,這并不適合語言任務(wù)。

圖片圖片

而本文的方法可以讓答案在計(jì)算熵之前根據(jù)含義進(jìn)行聚類。

另外,語義熵還可以檢測較長段落中的混淆。如下圖所示,將生成的長答案分解為事實(shí)陳述。

對于每個(gè)事實(shí)陳述,LLM會(huì)生成對應(yīng)的問題。然后另一個(gè)LLM對這些問題給出M個(gè)可能的答案。

圖片圖片

最后,計(jì)算每個(gè)特定問題答案的語義熵(包括原始事實(shí)),與該事實(shí)相關(guān)的問題的平均語義熵較高表明為虛構(gòu)。

直觀上,本文方法的工作原理是對每個(gè)問題的幾個(gè)可能答案進(jìn)行采樣,并通過算法將它們聚類為具有相似含義的答案,然后根據(jù)同一聚類(簇)中的答案是否雙向相互關(guān)聯(lián)來確定答案。

——如果句子A的含義包含句子B(或者相反),那么我們認(rèn)為它們位于同一語義簇中。

研究人員使用通用LLM和專門開發(fā)的自然語言推理 (NLI) 工具來測量語義關(guān)聯(lián)性 。

實(shí)驗(yàn)評估

語義熵可以檢測跨一系列語言模型和領(lǐng)域的自由格式文本生成中的混淆,而無需先前的領(lǐng)域知識(shí)。

本文的實(shí)驗(yàn)評估涵蓋了問答知識(shí)(TriviaQA)、常識(shí)(SQuAD 1.1 )、生命科學(xué)(BioASQ)和開放知識(shí)域自然問題 (NQ-Open)。

還包括檢測數(shù)學(xué)文字問題 (SVAMP) 和傳記生成數(shù)據(jù)集 (FactualBio)中的混淆。

TriviaQA、SQuAD、BioASQ、NQ-Open和SVAMP均在上下文無關(guān)的情況下進(jìn)行評估,句子長度96±70個(gè)字符,模型使用LLaMA 2 Chat(7B、13B和70B)、Falcon Instruct(7B和40B)以及Mistral Instruct(7B)。

實(shí)驗(yàn)采用嵌入回歸方法作為強(qiáng)監(jiān)督基線。

評估指標(biāo)

首先,對于給定答案不正確的二元事件,使用AUROC來同時(shí)捕獲精確度和召回率,范圍從0到1,其中1代表完美的分類器,0.5代表無信息的分類器。

第二個(gè)衡量標(biāo)準(zhǔn)是拒絕精度曲線下的面積 (AURAC),AURAC表示如果使用語義熵來過濾掉導(dǎo)致最高熵的問題,用戶將體驗(yàn)到的準(zhǔn)確性改進(jìn)。

圖片

上圖結(jié)果是五個(gè)數(shù)據(jù)集的平均值,表明語義熵及其離散近似都優(yōu)于句子長度生成的最佳基線。

其中AUROC衡量方法預(yù)測LLM錯(cuò)誤的程度(與虛構(gòu)相關(guān)),而AURAC衡量拒絕回答被認(rèn)為可能導(dǎo)致混淆的問題,所帶來的系統(tǒng)性能改進(jìn)。

對實(shí)驗(yàn)中的30種任務(wù)和模型組合進(jìn)行平均,語義熵達(dá)到了0.790的最佳AUROC值,而樸素熵為0.691、P(True) 為0.698、嵌入回歸基線 為0.687。

在我們不同模型系列(LLaMA、Falcon和Mistral)和尺度(從7B到70B參數(shù))中,語義熵具有穩(wěn)定的性能(AUROC在0.78到0.81之間)。

圖片圖片

上表給出了TriviaQA、SQuAD和BioASQ在LLaMA 2 Chat 70B上測試的問題和答案示例。

我們可以從中發(fā)現(xiàn)語義熵如何檢測含義不變但形式變化的情況(表的第一行),

當(dāng)形式和含義一起變化時(shí)(第二行),熵和樸素熵都正確預(yù)測了虛構(gòu)的存在;

當(dāng)形式和含義在幾個(gè)重新采樣的代中都保持不變時(shí),熵和樸素熵都正確預(yù)測了虛構(gòu)的不存在(第三行)。

而最后一行的示例顯示了上下文和判斷在聚類中的重要性,以及根據(jù)固定參考答案進(jìn)行評估的缺點(diǎn)。

圖片

上圖展示了語義熵的離散變體有效地檢測了FactualBio數(shù)據(jù)集上的虛構(gòu)。

離散語義熵的AUROC和AURAC高于簡單的自檢基線(僅詢問LLM事實(shí)是否可能為真)或P(True) 的變體,具有更好的拒絕準(zhǔn)確性性能。

結(jié)論

語義熵在檢測錯(cuò)誤方面的成功表明:LLM更擅長「知道他們不知道什么」,——他們只是不知道他們知道他們不知道什么(狗頭)。

語義熵作為克服混淆的策略建立在不確定性估計(jì)的概率工具的基礎(chǔ)上。它可以直接應(yīng)用于任何LLM或類似的基礎(chǔ)模型,無需對架構(gòu)進(jìn)行任何修改。即使當(dāng)模型的預(yù)測概率不可訪問時(shí),語義不確定性的離散變體也可以應(yīng)用。

參考資料:

https://www.science.org/content/article/is-your-ai-hallucinating-new-approach-can-tell-when-chatbots-make-things-up

責(zé)任編輯:武曉燕 來源: 新智元
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)