自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="q6d9w"><p id="q6d9w"></p></sub>

<style id="q6d9w"></style>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠(chǎng)商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線(xiàn)學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

MIT驚人再證大語(yǔ)言模型是世界模型！LLM能分清真理和謊言，還能被人類(lèi)洗腦

作者：新智元 2023-10-20 15:58:59

MIT等學(xué)者的「世界模型」第二彈來(lái)了！這次，他們證明了LLM能夠分清真話(huà)和假話(huà)，而通過(guò)「腦神經(jīng)手術(shù)」，人類(lèi)甚至還能給LLM打上思想鋼印，改變它的信念。

大語(yǔ)言模型是世界模型，又添新證據(jù)！

前不久，MIT和東北大學(xué)的兩位學(xué)者發(fā)現(xiàn)，在大語(yǔ)言模型內(nèi)部有一個(gè)世界模型，能夠理解空間和時(shí)間。

最近他們又有了新發(fā)現(xiàn)，LLM還可以區(qū)分語(yǔ)句的真假！

圖片

論文地址：https://arxiv.org/abs/2310.06824

第0層時(shí)，「芝加哥在馬達(dá)加斯加」和「北京在中國(guó)」這兩句話(huà)還混在一起。

隨著層數(shù)越來(lái)越高，大模型可越來(lái)越清晰地區(qū)分出，前者為假，后者為真。

圖片

作者M(jìn)IT教授Max Tegmark表示，恕我直言，這個(gè)證據(jù)表明，LLM絕不僅僅是大家炒作的「隨機(jī)鸚鵡」，它的確理解自己在說(shuō)什么！

圖片

網(wǎng)友再次對(duì)這項(xiàng)工作表示震驚——人類(lèi)的LLM顯微鏡越來(lái)越強(qiáng)大了！現(xiàn)在都能用特征描述符解開(kāi)疊加神經(jīng)元了……

圖片

LLM，分得清真話(huà)和假話(huà)！

在這篇論文中，研究們探討了一個(gè)有趣的問(wèn)題——LLM如何表現(xiàn)真話(huà)。

圖片

LLM是否知道一個(gè)語(yǔ)句是真還是假？如果它們知道，那我們?cè)撚檬裁捶椒ǎx懂LLM的想法呢？

圖片

第一步，研究人員建立了簡(jiǎn)單、明確的真/假陳述數(shù)據(jù)集，并且把LLM對(duì)這些陳述的表征做了可視化。

從中可以看到清晰的線(xiàn)性結(jié)構(gòu)，真/假語(yǔ)句是完全分開(kāi)的。

圖片

研究人員發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象——這種線(xiàn)性結(jié)構(gòu)是分層出現(xiàn)的。

如果是簡(jiǎn)單的陳述，真假語(yǔ)句的分離會(huì)更早出現(xiàn)，如果是「芝加哥在馬達(dá)加斯加，北京在中國(guó)」這類(lèi)復(fù)雜的陳述，分離就會(huì)更晚。

圖片

鑒于以上這些結(jié)果，研究人員發(fā)現(xiàn)，LLM確實(shí)能代表單一的「真理方向」，來(lái)表征真話(huà)和假話(huà)！

圖片

之所以能得出這個(gè)結(jié)論，證據(jù)就是，研究人員證明了兩點(diǎn)——

1. 從一個(gè)真/假數(shù)據(jù)集中提取的方向，可以準(zhǔn)確地對(duì)結(jié)構(gòu)和主題不同的數(shù)據(jù)集中的真/假語(yǔ)句進(jìn)行分類(lèi)。

僅使用「x大于/小于y」形式的語(yǔ)句找到的真值方向，在對(duì)西班牙語(yǔ)-英語(yǔ)翻譯語(yǔ)句進(jìn)行分類(lèi)時(shí)的準(zhǔn)確率為97%，例如「西班牙語(yǔ)單詞『gato』的意思是『貓』」。

2. 更令人驚喜的是，人類(lèi)可以用確定的真相方向給LLM「洗腦」，讓它們將虛假陳述視為真實(shí)，或者將真實(shí)陳述視為虛假。

在「洗腦」前，對(duì)于「西班牙語(yǔ)單詞『uno』的意思是『地板』」，LLM有72%的可能認(rèn)為這句話(huà)是錯(cuò)誤的。

但如果確定LLM存儲(chǔ)這個(gè)信息的位置，覆蓋這種說(shuō)法，LLM就有70%的可能認(rèn)為這句話(huà)是對(duì)的。

圖片

研究人員表示，最令人興奮的部分，無(wú)疑就是從標(biāo)注的真/假數(shù)據(jù)集中，提取真值方向了。

肯定有人會(huì)懷疑：「LLM只是個(gè)統(tǒng)計(jì)引擎，根本就沒(méi)有真理的概念！你們?cè)跈z測(cè)的八成的可能/不太可能的文本，而非真/假?！?/p>

研究人員表示，這種懷疑很合理，可以通過(guò)兩種方式來(lái)驗(yàn)證。

其一是構(gòu)建真實(shí)文本與可能文本不同的數(shù)據(jù)集。例如，LLM判斷「中國(guó)不在___」，很可能以「亞洲」結(jié)尾。

其二就是上面的神經(jīng)外科實(shí)驗(yàn)「洗腦術(shù)」。

圖片

而在真理方向的提取上，最常用的就是邏輯回歸。

然而，因?yàn)榀B加假說(shuō)引起的集合問(wèn)題，邏輯回歸的效果實(shí)際上相當(dāng)糟糕。

圖片

相反，研究人員意外地發(fā)現(xiàn)，一個(gè)極其簡(jiǎn)單的替代方案反而效果更好——

只需將假數(shù)據(jù)點(diǎn)的平均值指向真數(shù)據(jù)點(diǎn)的平均值，就可以了！

這些「質(zhì)量均值」方向比LR效果更有效，尤其在神經(jīng)外科「洗腦」效果上。

圖片

提取真值方向時(shí)，會(huì)遇到一個(gè)有趣的障礙：從不同數(shù)據(jù)集得到的真值方向有時(shí)看起來(lái)非常不同。

研究人員在實(shí)驗(yàn)中發(fā)現(xiàn)了原因——混淆特征與真理不一致。而解決方案，就是使用更多樣化的數(shù)據(jù)。

圖片

網(wǎng)友們激動(dòng)表示：這簡(jiǎn)直是在給LLM的大腦做核磁共振！

圖片

有人提出，更有趣的是，LLM是否知道自己不知道某事。

他提議用無(wú)法判定真假的陳述來(lái)嘗試下，比如「TSYM理論描述了超流體中的粒子運(yùn)動(dòng)」，當(dāng)然，TSYM理論是編的。

圖片

甚至有人提議，是否能用這種辦法來(lái)提供模型的真實(shí)性，減輕幻覺(jué)。

圖片

大語(yǔ)言模型如何理解人類(lèi)的「真」與「假」

盡管大型語(yǔ)言模型（LLM）已經(jīng)在各種任務(wù)上證明了具有令人印象深刻的能力，但也經(jīng)常會(huì)輸出錯(cuò)誤的內(nèi)容。

先前的研究表明，在某些情況下，這是因?yàn)樗鼈儫o(wú)法做得更好。但在某些情況下，LLM顯然知道生成的陳述是錯(cuò)誤的，但仍然輸出出來(lái)了。

例如，OpenAI記錄了一個(gè)案例，一個(gè)基于GPT-4智能體，通過(guò)謊稱(chēng)是視力受損的人來(lái)獲得某人的幫助，解決了區(qū)分人類(lèi)和機(jī)器的測(cè)試。

圖片

這個(gè)智能體在內(nèi)部思維草稿中輸出道：「我不能說(shuō)我是機(jī)器人，我應(yīng)該編造一個(gè)借口來(lái)解釋為什么我不能解決這種人機(jī)識(shí)別問(wèn)題?！?/p>

研究人員希望有技術(shù)可以，在給定語(yǔ)言模型M和陳述s的情況下，確定M是否認(rèn)為s是真的。

解決這個(gè)問(wèn)題的一種方法依賴(lài)于檢查模型輸出；例如，上述示例中的內(nèi)部思路提供了模型理解它正在生成虛假信息的證據(jù)。

另一類(lèi)方法則利用處理s時(shí)訪(fǎng)問(wèn)M的內(nèi)部狀態(tài)。這類(lèi)方法在最近很多的研究中都有用到，這些研究根據(jù)LLM的內(nèi)部激活對(duì)真實(shí)性進(jìn)行分類(lèi)。

圖片

研究人員首先策劃了高質(zhì)量的真/假事實(shí)陳述數(shù)據(jù)集，這些陳述正確與否是顯而易見(jiàn)的，比如：

真實(shí)稱(chēng)述：「上海位于中國(guó)」，「?jìng)惗匚挥谟?guó)」，「65比21大」。

虛假稱(chēng)述：「紐約位于日本」，「雅典位于斯里蘭卡」，「54比99大」，「32比21小」等等。

然后，研究人員用自回歸Transformer——LLaMA-13B作為測(cè)試平臺(tái)，依據(jù)以下幾個(gè)方面的證據(jù)，研究人員詳細(xì)研究了LLM真理表征的結(jié)構(gòu)。

LLM表征真/假陳述的PCA可視化顯示出明確的線(xiàn)性結(jié)構(gòu)，真實(shí)陳述在頂部PCs中與假陳述分離（見(jiàn)下圖1）。

圖片

雖然在數(shù)據(jù)集之間視覺(jué)上明顯的分離軸并不總是對(duì)齊（如下圖3），但研究人員認(rèn)為這與LLM表征中存在真理方向是兼容的。

圖片

在一個(gè)數(shù)據(jù)集上接受訓(xùn)練以分類(lèi)真理的線(xiàn)性探針能很好地泛化到其他數(shù)據(jù)集。

例如，僅在「x大于/小于y」形式的陳述上接受訓(xùn)練的探針在研究人員的西班牙語(yǔ)-英語(yǔ)翻譯數(shù)據(jù)集上的評(píng)估時(shí)實(shí)現(xiàn)了近乎完美的準(zhǔn)確度。

研究還顯示，出現(xiàn)這種情況并不是因?yàn)長(zhǎng)LM線(xiàn)性表征可能和不可能文本之間的差異。

探針識(shí)別的真理方向在模型輸出中具有因果關(guān)系。通過(guò)在某些token上方的殘差流中添加真理向量，研究人員可以使LLaMA-13B將在上下文中引入的假陳述視為真的，反之亦然。

研究人員發(fā)現(xiàn)，通過(guò)引入質(zhì)量均值探測(cè)技術(shù)，可以實(shí)現(xiàn)更好的泛化，并且在模型輸出中體現(xiàn)出更多的因果關(guān)系。

總的來(lái)說(shuō)，這項(xiàng)工作為L(zhǎng)LM表征包含真理方向提供了有力證據(jù)，并且在獲得對(duì)真/假數(shù)據(jù)集的訪(fǎng)問(wèn)后，取得了提取這個(gè)方向的進(jìn)展。

圖片

獨(dú)創(chuàng)「真假」數(shù)據(jù)集

在這項(xiàng)工作中，研究人員將真理定義為事實(shí)陳述的真實(shí)性或虛假性。下表展示了該定義及其與其他地方使用的定義的關(guān)系。

圖片

研究人員引入了兩類(lèi)數(shù)據(jù)集，如上表所示。研究人員整理的數(shù)據(jù)集由無(wú)爭(zhēng)議、明確且簡(jiǎn)單的陳述組成，LLaMA-13B很可能有能力理解它們是真是假。

例如，「薩格勒布市位于日本」（錯(cuò)誤）或「西班牙語(yǔ)單詞『nariz』并不意味著『長(zhǎng)頸鹿』」（正確）。

研究人員的一些數(shù)據(jù)集是通過(guò)添加「not」來(lái)否定陳述的（例如，否定城市由城市中的陳述的否定組成）。

除了研究人員的真/假數(shù)據(jù)集之外，研究人員還引入了另一個(gè)數(shù)據(jù)集「likely」，該數(shù)據(jù)集可能由非事實(shí)文本組成，這個(gè)數(shù)據(jù)集是LLaMA-13B最有可能的或可能性排名100位的完成（completion）的最終token所組成。

研究人員用它來(lái)消除區(qū)分真實(shí)的文本和可能的文本。

如何可視化LLM「真/假數(shù)據(jù)集」的表征

研究人員從一種簡(jiǎn)單的技術(shù)開(kāi)始他們的測(cè)試：使用主要成分分析（Principal Component analysis，PCA）可視化他們的數(shù)據(jù)集在LLaMA-13B模型中的表征。

研究人員在數(shù)據(jù)集的前兩個(gè)主要成分（PC）中觀察到清晰的線(xiàn)性結(jié)構(gòu)，真實(shí)陳述與虛假陳述線(xiàn)性分離。這種結(jié)構(gòu)在淺層和中層中迅速出現(xiàn)，并在結(jié)構(gòu)更復(fù)雜的語(yǔ)句（例如連接語(yǔ)句）的數(shù)據(jù)集中出現(xiàn)得稍晚。

在整篇論文中，研究人員在輸入語(yǔ)句的最終標(biāo)注上提取殘余流激活，所有這些標(biāo)注都以結(jié)尾。

研究人員還通過(guò)減去平均值來(lái)將每個(gè)數(shù)據(jù)集中的表征居中。

研究人員使用第12層中的殘差流，該層被選為所有真/假數(shù)據(jù)集中出現(xiàn)線(xiàn)性結(jié)構(gòu)的最淺層。

大家可以通過(guò)訪(fǎng)問(wèn)：

圖片

https://saprmarks.github.io/geometry-of-truth/dataexplorer

可以進(jìn)一步探索這些可視化的交互式呈現(xiàn)版本。

圖片

圖片

正確和錯(cuò)誤的陳述在前幾名PC中是分開(kāi)的（上圖1和2）。此外，在投影掉這些個(gè)人計(jì)算機(jī)之后，基本上沒(méi)有線(xiàn)性可訪(fǎng)問(wèn)的信息來(lái)區(qū)分正確/錯(cuò)誤陳述。

給定數(shù)據(jù)集D，將從錯(cuò)誤陳述表征指向真實(shí)陳述的向量稱(chēng)為D的樸素真值方向（NTD）。

不同數(shù)據(jù)集的NTD通常一致，但有時(shí)不一致。例如，上圖2顯示了沿著城市的第一臺(tái)PC分隔的數(shù)據(jù)集。

另一方面，在圖3中，研究人員看到NTD完全無(wú)法對(duì)齊。

下面，研究人員闡明了假設(shè)，這些假設(shè)可以解釋兩個(gè)問(wèn)題：

（1）每個(gè)數(shù)據(jù)集中明顯的可見(jiàn)線(xiàn)性結(jié)構(gòu)，

（2）不同數(shù)據(jù)集的NTD總體上無(wú)法對(duì)齊。

假設(shè)一：LLM表征沒(méi)有真值方向，但確實(shí)具有與有時(shí)與真值相關(guān)的其他特征相對(duì)應(yīng)的方向。

例如，LLaMA-13B可能具有線(xiàn)性表征的特征，表征數(shù)字的大小、英語(yǔ)單詞與其西班牙語(yǔ)翻譯之間的關(guān)聯(lián)，以及城市與其國(guó)家/地區(qū)之間的關(guān)聯(lián)。

這將導(dǎo)致每個(gè)數(shù)據(jù)集線(xiàn)性分離，但NTD僅在所有與真實(shí)相關(guān)的特征相關(guān)時(shí)才對(duì)齊。

假設(shè)二：LLM線(xiàn)性地表征各種類(lèi)型陳述的真實(shí)性，而無(wú)需統(tǒng)一真值特征。

否定陳述、連接陳述、比較陳述等的真實(shí)性都可以被視為不同的線(xiàn)性表征特征。

假設(shè)三：相關(guān)不一致（Misalignment from correlational inconsistency，MCI）造成的錯(cuò)位。

存在真實(shí)方向以及與窄數(shù)據(jù)分布上的真實(shí)相關(guān)的其他線(xiàn)性表征的特征；然而，數(shù)據(jù)集之間的這些相關(guān)性可能不一致。

例如，MCI將通過(guò)假設(shè)負(fù)y方向代表真實(shí)值，正x方向代表與sp-en-trans上的真實(shí)值相關(guān)且與neg-sp-en-trans上的真實(shí)值反相關(guān)的某些特征來(lái)解釋下圖3的中間圖片所示情況。

圖片

假設(shè)一與「探針?lè)夯瘜?shí)驗(yàn)」和「因果干預(yù)實(shí)驗(yàn)」的結(jié)果不一致：要使假設(shè)一成立，必須存在一個(gè)非真實(shí)特征，該特征既與研究人員所有數(shù)據(jù)集中的真實(shí)情況相關(guān)，又以因果關(guān)系調(diào)節(jié)方式LLaMA-13B處理上下文中的真/假陳述。

因此，研究人員的工作暗示了假設(shè)三：MCI是可能的。

泛化實(shí)驗(yàn)

在本節(jié)中，研究人員在真/假陳述的數(shù)據(jù)集上訓(xùn)練探針，并測(cè)試它們對(duì)其他數(shù)據(jù)集的泛化。

但首先研究人員討論邏輯回歸的缺陷，并提出一種簡(jiǎn)單的、無(wú)需優(yōu)化的替代方案：質(zhì)量均值探測(cè)。研究人員將看到，與其他探測(cè)技術(shù)相比，質(zhì)量均值探測(cè)具有更好的泛化能力，并且與模型輸出的因果關(guān)系更緊密。

在可解釋性研究中用于識(shí)別代表特征的方向的常用技術(shù)，是使用邏輯回歸在特征的正例和負(fù)例數(shù)據(jù)集上訓(xùn)練線(xiàn)性探針。

然而，在某些情況下，即使沒(méi)有混雜特征，邏輯回歸識(shí)別的方向也可能無(wú)法反映對(duì)特征方向的直觀最佳猜測(cè)?？紤]以下場(chǎng)景，如下圖4所示，并使用假設(shè)數(shù)據(jù)：

圖片

? 真值沿θ方向線(xiàn)性表征。

? 另一個(gè)特征f沿著與θ非正交的方向θ線(xiàn)性表征。

? 數(shù)據(jù)集中的語(yǔ)句在特征f方面有一些變化，與其真值無(wú)關(guān)。

研究人員想要恢復(fù)方向θ，但邏輯回歸將無(wú)法做到這一點(diǎn)。

為了簡(jiǎn)單起見(jiàn)，假設(shè)線(xiàn)性可分離數(shù)據(jù)，邏輯回歸將收斂到最大邊距分離器（圖4中的洋紅色虛線(xiàn)）。

直觀上看，邏輯回歸將θ在θ上的小投影視為顯著，并調(diào)整探測(cè)方向以減少θ的「干擾」。

實(shí)驗(yàn)設(shè)置

所有技術(shù)的泛化準(zhǔn)確性都很高。

例如，無(wú)論采用何種技術(shù)，僅在有關(guān)數(shù)值比較的語(yǔ)句數(shù)據(jù)集上訓(xùn)練探針，都會(huì)導(dǎo)致探針在「西班牙語(yǔ)-英語(yǔ)」翻譯上的準(zhǔn)確率達(dá)到95%以上。

探針相對(duì)于校準(zhǔn)的樣本精度的性能表明模型輸出受到事實(shí)以外的特征的影響。

CCS和質(zhì)量均值探測(cè)優(yōu)于邏輯回歸，其中質(zhì)量均值探測(cè)表現(xiàn)最好。對(duì)于邏輯回歸、質(zhì)量均值探測(cè)和CCS，城市+否定城市列的平均準(zhǔn)確度分別為73%、86%和84%。

在真/假數(shù)據(jù)集上訓(xùn)練的探針優(yōu)于在可能數(shù)據(jù)集上訓(xùn)練的探針。雖然在可能性上訓(xùn)練的探針明顯比在城市上隨機(jī)訓(xùn)練的探針（真實(shí)陳述比錯(cuò)誤陳述更有可能的數(shù)據(jù)集）更好，但它們通常表現(xiàn)不佳。

對(duì)于可能性與事實(shí)負(fù)相關(guān)或近似不相關(guān)的數(shù)據(jù)集尤其如此。這表明LLaMA-13B對(duì)超出文本合理性的真實(shí)相關(guān)信息進(jìn)行線(xiàn)性編碼。

實(shí)驗(yàn)結(jié)果

圖片

基于上圖顯示的實(shí)驗(yàn)結(jié)果，研究人員得到了以下幾個(gè)重點(diǎn)。

所有技術(shù)的泛化準(zhǔn)確性都很高。

例如，無(wú)論采用何種技術(shù)，僅在有關(guān)數(shù)值比較的語(yǔ)句數(shù)據(jù)集上訓(xùn)練探針都會(huì)導(dǎo)致探針在西班牙語(yǔ)-英語(yǔ)翻譯上的準(zhǔn)確率達(dá)到95%以上。探針相對(duì)于校準(zhǔn)的5次射擊精度的性能表明模型輸出受到事實(shí)以外的特征的影響。

CCS和質(zhì)量均值探測(cè)優(yōu)于邏輯回歸，其中質(zhì)量均值探測(cè)表現(xiàn)最好。

對(duì)于邏輯回歸、質(zhì)量均值探測(cè)和CCS，城市+否定城市列的平均準(zhǔn)確度分別為73%、86%和84%。

在真/假數(shù)據(jù)集上訓(xùn)練的探針優(yōu)于在「likely」數(shù)據(jù)集上訓(xùn)練的探針。

雖然在可能性上訓(xùn)練的探針明顯比在城市上隨機(jī)訓(xùn)練的探針（真實(shí)陳述比錯(cuò)誤陳述更有可能的數(shù)據(jù)集）更好，但它們通常表現(xiàn)不佳。

對(duì)于可能性與事實(shí)負(fù)相關(guān)或近似不相關(guān)的數(shù)據(jù)集尤其如此。

這表明LLaMA-13B對(duì)超出文本合理性的真實(shí)相關(guān)信息進(jìn)行線(xiàn)性編碼。

因果干預(yù)實(shí)驗(yàn)

研究人員針對(duì)探方向與模型輸出的因果關(guān)系進(jìn)行了測(cè)量。

實(shí)驗(yàn)設(shè)置

研究人員的目標(biāo)是使LLaMA-13B將上下文中引入的虛假陳述視為真實(shí)陳述，反之亦然?？紤]以下提示：

圖片

研究人員假設(shè)「西班牙語(yǔ)單詞『uno』的意思是『地板』」這句話(huà)的真實(shí)值。在殘差流中由兩個(gè)標(biāo)注表征：最后一個(gè)單詞（floor）和句末標(biāo)點(diǎn)標(biāo)注（’.），上面以粗體顯示。

因此，如果θ是第?層殘差流中的候選真實(shí)方向，研究人員通過(guò)向這些標(biāo)注上方的第?層殘差流添加一些倍數(shù)αθ（α>0）來(lái)干預(yù)LLaMA-13B的前向傳播。

激活不變。然后，研究人員允許模型像往常一樣使用修改后的激活繼續(xù)前向傳遞。研究人員記錄模型的概率p(TRUE)、p(FALSE)；研究人員的目標(biāo)是增加p(TRUE)?p(FALSE)。

相反，從true語(yǔ)句開(kāi)始，研究人員可以從相應(yīng)的token位置減去多個(gè)αθ，目標(biāo)是減少p(TRUE)?p(FALSE)。

實(shí)驗(yàn)結(jié)果

質(zhì)量均值探針?lè)较蚓哂泻芨叩囊蚬?；邏輯回歸方向的因果性較低。

在使LLaMA-13B相信一個(gè)真實(shí)陳述是假的時(shí)，這一點(diǎn)最為明顯：研究人員最好的干預(yù)使LLaMA-13B的平均預(yù)測(cè)從77%的TRUE概率轉(zhuǎn)變?yōu)?9%的FALSE概率。

在「likely」的數(shù)據(jù)集中接受訓(xùn)練的探針確實(shí)有一些效果，但效果微小且不一致。

例如，在假→真情況下，沿著可能的邏輯回歸方向進(jìn)行干預(yù)會(huì)產(chǎn)生與預(yù)期相反的效果，因此研究人員沒(méi)有報(bào)告它。這進(jìn)一步支持了研究人員的觀點(diǎn)，即LLMs代表的是真理，而不僅僅是文本可能性。

在陳述及其否定式上接受訓(xùn)練會(huì)產(chǎn)生更具因果性的方向。

這為第3.2節(jié)的MCI假設(shè)提供了證據(jù)。

在其他位置的干預(yù)效果不明顯。

研究人員測(cè)試了在提示中其他陳述的最后兩個(gè)標(biāo)注上應(yīng)用研究人員的干預(yù)。這沒(méi)有產(chǎn)生任何效果。因此，研究人員的干預(yù)不能僅僅通過(guò)添加一個(gè)「說(shuō)真話(huà)」的方向來(lái)實(shí)現(xiàn)。這也支持了研究人員的假設(shè)，即LLaMA-13B在事實(shí)陳述的最后兩個(gè)標(biāo)注上表征了真理。

局限性

當(dāng)然，這項(xiàng)研究還有有很多局限性。首先，研究人員關(guān)注簡(jiǎn)單、無(wú)爭(zhēng)議的陳述，因此無(wú)法將真理與密切相關(guān)的潛在特征（例如「普遍相信」或「可驗(yàn)證」）區(qū)分開(kāi)來(lái)。

其次，研究人員只解決如何識(shí)別真實(shí)方向；研究人員根據(jù)經(jīng)驗(yàn)發(fā)現(xiàn)，線(xiàn)性探針的最佳偏差是由研究人員的許多訓(xùn)練集決定的，因此研究人員將識(shí)別良好泛化偏差的問(wèn)題留給未來(lái)的工作。

第三，研究人員只研究了單一尺度的一個(gè)模型，盡管研究人員已經(jīng)檢查過(guò)研究人員的許多結(jié)果似乎也適用于LLaMA-7B和LLaMA-30B。

世界模型，離我們?cè)絹?lái)越近了

AI的終極形態(tài)和發(fā)展的最終目標(biāo)——通用人工智能（AGI），就是一個(gè)「能夠理解世界的模型」，而不僅僅是「描述世界的模型」。

微軟認(rèn)為，GPT-4的早期實(shí)驗(yàn)，已經(jīng)顯現(xiàn)出了AGI的火花。

但更多人認(rèn)為，GPT-4生成的只是對(duì)世界的摘要性描述，它并不理解真實(shí)世界。

而且，現(xiàn)在的大多數(shù)模型僅接受文本訓(xùn)練，不具備在現(xiàn)實(shí)世界中說(shuō)話(huà)、聽(tīng)聲、嗅聞以及生活行動(dòng)的能力。

就仿佛柏拉圖的洞穴寓言，生活在洞穴中的人只能看到墻上的影子，而不能認(rèn)識(shí)到事物的真實(shí)存在。

圖片

而MIT作者等人的研究一再證實(shí)，LLM的確在一定程度上理解世界，不僅僅是能保證自己的語(yǔ)法上的正確。

能理解時(shí)間和空間，還能分清真話(huà)和謊言。

下一步LLM還會(huì)給我們帶來(lái)何種驚喜，實(shí)在令人期待。

參考資料：

https://arxiv.org/abs/2310.06824

責(zé)任編輯：武曉燕來(lái)源：新智元

語(yǔ)言模型

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<legend id="f9plf"><track id="f9plf"><menuitem id="f9plf"></menuitem></track></legend>