自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

谷歌蘋果曝出LLM驚人內(nèi)幕,自主識(shí)別錯(cuò)誤卻裝糊涂!AI幻覺背后藏著更大秘密

人工智能 新聞
大模型幻覺,究竟是怎么來的?谷歌、蘋果等機(jī)構(gòu)研究人員發(fā)現(xiàn),大模型知道的遠(yuǎn)比表現(xiàn)的要多。它們能夠在內(nèi)部編碼正確答案,卻依舊輸出了錯(cuò)誤內(nèi)容。

到現(xiàn)在為止,我們?nèi)耘f對(duì)大模型「幻覺」如何、為何產(chǎn)生,知之甚少。

圖片

最近,來自Technion、谷歌和蘋果的研究人員發(fā)現(xiàn),LLM「真實(shí)性」的信息集中在特定的token,而且并得均勻分布。

正如論文標(biāo)題所示,「LLM知道的往往要比表現(xiàn)出來的更多」。

圖片

論文地址:https://arxiv.org/pdf/2410.02707

不僅如此,他們還發(fā)現(xiàn),內(nèi)部表征可以用來預(yù)測(cè)LLM可能會(huì)犯錯(cuò)的錯(cuò)誤類型。

它的優(yōu)勢(shì)在于,未來有助于開發(fā)出針對(duì)性的解決方案。

最后,研究團(tuán)隊(duì)還解釋了,大模型內(nèi)部編碼和外部行為之間存在的差異:

它們可能在內(nèi)部編碼了正確答案,卻持續(xù)生成錯(cuò)誤答案。

幻覺,如何定義?

事實(shí)錯(cuò)誤、偏見,以及推理失誤,這些統(tǒng)稱為「幻覺」。

以往,大多數(shù)關(guān)于幻覺的研究,都集中在分析大模型的外部行為,并檢查用戶如何感知這些錯(cuò)誤。

然而,這些方法對(duì)模型本身如何編碼、處理錯(cuò)誤提供了有限的見解。

近期另有一些研究表明,LLM內(nèi)部狀態(tài)其實(shí)「知道」那些輸出可能是錯(cuò)誤的,而且這種「知識(shí)」被編碼在模型內(nèi)部狀態(tài)中。

這一發(fā)現(xiàn)可以幫助提高錯(cuò)誤檢測(cè)的性能,并進(jìn)一步緩解這些問題。

不過其中一個(gè)缺陷是,這些研究主要集中了檢驗(yàn)?zāi)P蜕勺詈笠粋€(gè)token、或提示符中最后一個(gè)token。

由于LLM通常會(huì)生成長篇的相應(yīng),因此這一做法可能會(huì)錯(cuò)過關(guān)鍵細(xì)節(jié)。

在最新研究中,研究團(tuán)隊(duì)采取了不同的方法:

不只是看最終的輸出,而是分析「確切的答案token」,如若修改,將會(huì)改變答案的正確性的相應(yīng)token。

最終證明了,LLM內(nèi)部表征所包含的真實(shí)性信息,比以往要多得多。

但這種錯(cuò)誤檢測(cè)器難以在不同數(shù)據(jù)集之間泛化,這說明真實(shí)性編碼并非統(tǒng)一的,而是多方面的。

更好的錯(cuò)誤檢測(cè)

給定一個(gè)大模型M,輸入提示p、模型生成的響應(yīng)?,任務(wù)預(yù)測(cè)?是正確還是錯(cuò)誤的。

假設(shè)可以訪問LLM內(nèi)部狀態(tài)(即白盒設(shè)置),但不能訪問任何外部資源(如搜索引擎或其他LLM)。

數(shù)據(jù)集使用的是圖片,包含N個(gè)問題-標(biāo)簽對(duì),圖片代表著一系列問題,圖片代表著對(duì)應(yīng)的真實(shí)答案。

對(duì)于每個(gè)問題q_i,作者讓模型M生成響應(yīng)y_i,得到預(yù)測(cè)答案集圖片

接下來, 研究人員構(gòu)建了錯(cuò)誤檢測(cè)數(shù)據(jù)集,通過將每個(gè)生成的響應(yīng)?_i與真實(shí)標(biāo)簽y_i比較,以評(píng)估其正確性。

比較結(jié)果會(huì)產(chǎn)生出一個(gè)正確的標(biāo)簽z_i ∈ {0, 1}(1表示正確,0表示錯(cuò)誤)。

這種比較可以通過自動(dòng)啟發(fā)式方法,在指令型LLM的協(xié)助下完成。

最終的錯(cuò)誤檢測(cè)數(shù)據(jù)集為圖片。其排除了LLM拒絕回答的情況,因?yàn)檫@些可以輕易地被分類為錯(cuò)誤。

接下來,研究人員在Mistral 7B和Llama 2模型的四個(gè)變體上進(jìn)行了實(shí)驗(yàn)。

這些模型跨越了十個(gè)數(shù)據(jù)集,涵蓋了各種任務(wù)。

其中包括問答、自然語言推理、數(shù)學(xué)問題解決、情感分析。

他們?cè)试S模型生成不受限制的響應(yīng),來模擬真實(shí)世界的使用情況。

這里,一共用到了三種錯(cuò)誤檢測(cè)方法:Aggregated probabilities / logits、P(True)、Probing。

精確答案token

現(xiàn)有的方法經(jīng)常忽略一個(gè)關(guān)鍵的細(xì)微差別:用于錯(cuò)誤檢測(cè)的token選擇,通常關(guān)注最后生成的token或取平均值。

然而,由于大模型通常會(huì)生成長篇回復(fù),這種做法可能會(huì)錯(cuò)過關(guān)鍵細(xì)節(jié)。

還有一些方法使用提示最后的一個(gè)token,但本質(zhì)上是不正確的,因?yàn)榇竽P偷膯蜗蛐?,未能考慮生成響應(yīng)和丟失的情況,其中同一模型的不同采樣答案在不同情況下,有所不同正確性。

對(duì)此,研究人員檢查了以往未經(jīng)檢查的token位置:確切的答案token,代表生成響應(yīng)中最有意義的部分。

他們將精確答案token定義為那些修改會(huì)改變答案的正確性token,而忽略了后續(xù)生成的內(nèi)容。

如下圖圖1,說明了不同的token位置。

圖片

實(shí)驗(yàn)結(jié)果

真實(shí)性編碼模式

研究人員首先專注于探索分類器,以了解LLM的內(nèi)部表征。

具體來說,廣泛分析了層和token選擇對(duì)這些分類器激活提取的影響。這是通過系統(tǒng)地探測(cè)模型的所有層來完成的,從最后一個(gè)問題token開始,一直到最終生成的token。

下圖2顯示了Mistral-7b-Instruct各個(gè)層和token中經(jīng)過訓(xùn)練的探測(cè)器的AUC指標(biāo)。

雖然,某些數(shù)據(jù)似乎更容易進(jìn)行錯(cuò)誤預(yù)測(cè),但所有數(shù)據(jù)集都表現(xiàn)出一致的真實(shí)性編碼模式。

圖片

對(duì)于token來說,提示后立即出現(xiàn)了強(qiáng)烈的真實(shí)性信號(hào),表明這種表征編碼了有關(guān)模型正確回答問題的一般能力的信息。

對(duì)著文本生成的進(jìn)行,該信號(hào)會(huì)減弱,但在確切的答案token處,再次達(dá)到峰值。

再生成過程即將結(jié)束時(shí),信號(hào)強(qiáng)度再次上升,表明了該表征編碼了整個(gè)生成過程的特征,盡管它仍弱于確切答案token。

錯(cuò)誤檢測(cè)結(jié)果

接下來,研究人員通過比較使用、不使用精確答案token的性能,來評(píng)估各種錯(cuò)誤檢測(cè)方法。

表1比較了三個(gè)代表性數(shù)據(jù)集的AUC。

在這里,他們展示了最后一個(gè)精確答案token的結(jié)果,它的性能優(yōu)于第一個(gè)精確答案token及其前面的token,而最后一個(gè)精確答案token之后的token性能類似。

合并精確答案token,有助于改進(jìn)幾乎所有數(shù)據(jù)集中的不同錯(cuò)誤檢測(cè)方法。

圖片

任務(wù)之間的泛化

以上,探測(cè)分類器在檢測(cè)錯(cuò)誤方面有效性,表明了大模型對(duì)其輸出的真實(shí)性進(jìn)行了編碼。

但目前仍不清楚的是,它們跨任務(wù)的通用性。

然而,理解這一點(diǎn)對(duì)于實(shí)際應(yīng)用至關(guān)重要,因?yàn)殄e(cuò)誤檢測(cè)器可能會(huì)遇到與訓(xùn)練時(shí)完全不同的示例。

因此,研究人員探討在一個(gè)數(shù)據(jù)集上訓(xùn)練的探測(cè)器,是否可以檢測(cè)其他數(shù)據(jù)集的錯(cuò)誤。

如下圖3顯示了Mistral-7b-Instruct的泛化結(jié)果。在這種情況下,高于0.5的值表明泛化成功。

乍一看,結(jié)果似乎與之前的研究一致:大多數(shù)熱圖值超過0.5,這意味著跨任務(wù)具有一定程度的泛化性。

然而,再仔細(xì)檢查,發(fā)現(xiàn)大部分性能可以通過基于logit的真實(shí)性檢測(cè)來實(shí)現(xiàn),該檢測(cè)僅觀察輸出logits。

圖片

圖3b顯示了從最強(qiáng)的基于Logit的基線(Logit-min-exact)中減去結(jié)果后的相同熱圖。

這張 調(diào)整后的熱圖揭示了探測(cè)器的泛化能力很少超過單獨(dú)檢查 logits所能達(dá)到的效果。

這意味著明顯的概括并非源于真實(shí)性的普遍內(nèi)部編碼,而是反映了已經(jīng)可以通過邏 輯等外部特征獲取的信息。

調(diào)查錯(cuò)誤類型

在確定了錯(cuò)誤檢測(cè)的局限性后,研究人員轉(zhuǎn)向錯(cuò)誤分析。

錯(cuò)誤分類

圖4說明了,三種代表性的錯(cuò)誤類型。

在其中一個(gè)(圖4a)中,模型通常會(huì)給出正確的答案,但偶爾會(huì)出錯(cuò),這意味著存在正確的信息,但采樣可能會(huì)導(dǎo)致錯(cuò)誤。

在第二種類型中(圖4b),模型經(jīng)常做出錯(cuò)誤的響應(yīng),盡管它能夠提供正確的答案,這表明盡管不斷犯同樣的錯(cuò)誤,但仍然保留了一些知識(shí)。

在第三種類型中(圖4c),模型生成了大多數(shù)答案都是錯(cuò)誤的,反映出對(duì)任何生成的答案的信心較低。

圖片

研究人員通過記錄每個(gè)示例的三個(gè)特定特征來對(duì)錯(cuò)誤進(jìn)行分類:(a)生成的不同答案的數(shù)量;(b) 正確答案的頻率;(c) 最常見的錯(cuò)誤答案的頻率。

預(yù)測(cè)錯(cuò)誤類型

表2列出了所有模型的測(cè)試集結(jié)果。

圖片

檢測(cè)正確答案

最后,在確定模型編碼各種與真實(shí)性相關(guān)的信息后,作者又研究了這種內(nèi)部真實(shí)性,如何在響應(yīng)生成過程中,與外部行為保持一致。

為此,他們使用了探測(cè)器(5個(gè)經(jīng)過錯(cuò)誤檢測(cè)訓(xùn)練),從針對(duì)同一問題生成的30個(gè)響應(yīng)中,選擇一個(gè)答案。

然后,根據(jù)所選答案來衡量模型的準(zhǔn)確性。

Mistral-7b-instruct的結(jié)果如下圖5所示,總體而言,使用探測(cè)器選擇答案可以提高大模型在所有檢查任務(wù)中的準(zhǔn)確性。

圖片

總之,這項(xiàng)研究的發(fā)現(xiàn),可以幫助未來研究人員去設(shè)計(jì)更好的幻覺環(huán)節(jié)系統(tǒng)。

遺憾的是,它使用的技術(shù)需要訪問內(nèi)部LLM表征,這也主要適用于開源模型的使用。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2015-06-23 11:04:44

京東物流

2024-09-02 09:15:00

英特爾半導(dǎo)體

2024-12-27 13:40:00

2023-09-26 11:39:07

2023-11-28 13:31:40

2017-04-24 15:06:32

今目標(biāo)

2014-11-04 14:48:09

普元

2023-03-06 16:12:59

ChatGPT人工智能

2009-08-12 09:51:56

李開復(fù)跳槽

2024-08-15 13:40:00

模型訓(xùn)練

2024-06-11 00:04:00

GPT-4PNASLLM

2024-01-15 11:45:27

2009-12-04 10:20:53

2021-03-18 11:09:13

比特幣加密貨幣區(qū)塊鏈

2024-07-29 09:47:00

2023-11-27 13:19:54

模型訓(xùn)練

2014-07-10 15:02:37

蘋果谷歌隱私安全

2022-01-24 11:36:52

周鴻祎中年危機(jī)程序員

2009-11-26 10:57:27

2025-02-21 13:45:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)