MIT驚人再證大語(yǔ)言模型是世界模型!LLM能分清真理和謊言,還能被人類(lèi)洗腦
大語(yǔ)言模型是世界模型,又添新證據(jù)!
前不久,MIT和東北大學(xué)的兩位學(xué)者發(fā)現(xiàn),在大語(yǔ)言模型內(nèi)部有一個(gè)世界模型,能夠理解空間和時(shí)間。
最近他們又有了新發(fā)現(xiàn),LLM還可以區(qū)分語(yǔ)句的真假!
圖片
論文地址:https://arxiv.org/abs/2310.06824
第0層時(shí),「芝加哥在馬達(dá)加斯加」和「北京在中國(guó)」這兩句話(huà)還混在一起。
隨著層數(shù)越來(lái)越高,大模型可越來(lái)越清晰地區(qū)分出,前者為假,后者為真。
圖片
作者M(jìn)IT教授Max Tegmark表示,恕我直言,這個(gè)證據(jù)表明,LLM絕不僅僅是大家炒作的「隨機(jī)鸚鵡」,它的確理解自己在說(shuō)什么!
圖片
網(wǎng)友再次對(duì)這項(xiàng)工作表示震驚——人類(lèi)的LLM顯微鏡越來(lái)越強(qiáng)大了!現(xiàn)在都能用特征描述符解開(kāi)疊加神經(jīng)元了……
圖片
LLM,分得清真話(huà)和假話(huà)!
在這篇論文中,研究們探討了一個(gè)有趣的問(wèn)題——LLM如何表現(xiàn)真話(huà)。
圖片
LLM是否知道一個(gè)語(yǔ)句是真還是假?如果它們知道,那我們?cè)撚檬裁捶椒ǎx懂LLM的想法呢?
圖片
第一步,研究人員建立了簡(jiǎn)單、明確的真/假陳述數(shù)據(jù)集,并且把LLM對(duì)這些陳述的表征做了可視化。
從中可以看到清晰的線(xiàn)性結(jié)構(gòu),真/假語(yǔ)句是完全分開(kāi)的。
圖片
研究人員發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象——這種線(xiàn)性結(jié)構(gòu)是分層出現(xiàn)的。
如果是簡(jiǎn)單的陳述,真假語(yǔ)句的分離會(huì)更早出現(xiàn),如果是「芝加哥在馬達(dá)加斯加,北京在中國(guó)」這類(lèi)復(fù)雜的陳述,分離就會(huì)更晚。
圖片
鑒于以上這些結(jié)果,研究人員發(fā)現(xiàn),LLM確實(shí)能代表單一的「真理方向」,來(lái)表征真話(huà)和假話(huà)!
圖片
之所以能得出這個(gè)結(jié)論,證據(jù)就是,研究人員證明了兩點(diǎn)——
1. 從一個(gè)真/假數(shù)據(jù)集中提取的方向,可以準(zhǔn)確地對(duì)結(jié)構(gòu)和主題不同的數(shù)據(jù)集中的真/假語(yǔ)句進(jìn)行分類(lèi)。
僅使用「x大于/小于y」形式的語(yǔ)句找到的真值方向,在對(duì)西班牙語(yǔ)-英語(yǔ)翻譯語(yǔ)句進(jìn)行分類(lèi)時(shí)的準(zhǔn)確率為97%,例如「西班牙語(yǔ)單詞『gato』的意思是『貓』」。
2. 更令人驚喜的是,人類(lèi)可以用確定的真相方向給LLM「洗腦」,讓它們將虛假陳述視為真實(shí),或者將真實(shí)陳述視為虛假。
在「洗腦」前,對(duì)于「西班牙語(yǔ)單詞『uno』的意思是『地板』」,LLM有72%的可能認(rèn)為這句話(huà)是錯(cuò)誤的。
但如果確定LLM存儲(chǔ)這個(gè)信息的位置,覆蓋這種說(shuō)法,LLM就有70%的可能認(rèn)為這句話(huà)是對(duì)的。
圖片
研究人員表示,最令人興奮的部分,無(wú)疑就是從標(biāo)注的真/假數(shù)據(jù)集中,提取真值方向了。
肯定有人會(huì)懷疑:「LLM只是個(gè)統(tǒng)計(jì)引擎,根本就沒(méi)有真理的概念!你們?cè)跈z測(cè)的八成的可能/不太可能的文本,而非真/假?!?/p>
研究人員表示,這種懷疑很合理,可以通過(guò)兩種方式來(lái)驗(yàn)證。
其一是構(gòu)建真實(shí)文本與可能文本不同的數(shù)據(jù)集。例如,LLM判斷「中國(guó)不在___」,很可能以「亞洲」結(jié)尾。
其二就是上面的神經(jīng)外科實(shí)驗(yàn)「洗腦術(shù)」。
圖片
而在真理方向的提取上,最常用的就是邏輯回歸。
然而,因?yàn)榀B加假說(shuō)引起的集合問(wèn)題,邏輯回歸的效果實(shí)際上相當(dāng)糟糕。
圖片
相反,研究人員意外地發(fā)現(xiàn),一個(gè)極其簡(jiǎn)單的替代方案反而效果更好——
只需將假數(shù)據(jù)點(diǎn)的平均值指向真數(shù)據(jù)點(diǎn)的平均值,就可以了!
這些「質(zhì)量均值」方向比LR效果更有效,尤其在神經(jīng)外科「洗腦」效果上。
圖片
提取真值方向時(shí),會(huì)遇到一個(gè)有趣的障礙:從不同數(shù)據(jù)集得到的真值方向有時(shí)看起來(lái)非常不同。
研究人員在實(shí)驗(yàn)中發(fā)現(xiàn)了原因——混淆特征與真理不一致。而解決方案,就是使用更多樣化的數(shù)據(jù)。
圖片
網(wǎng)友們激動(dòng)表示:這簡(jiǎn)直是在給LLM的大腦做核磁共振!
圖片
有人提出,更有趣的是,LLM是否知道自己不知道某事。
他提議用無(wú)法判定真假的陳述來(lái)嘗試下,比如「TSYM理論描述了超流體中的粒子運(yùn)動(dòng)」,當(dāng)然,TSYM理論是編的。
圖片
甚至有人提議,是否能用這種辦法來(lái)提供模型的真實(shí)性,減輕幻覺(jué)。
圖片
大語(yǔ)言模型如何理解人類(lèi)的「真」與「假」
盡管大型語(yǔ)言模型(LLM)已經(jīng)在各種任務(wù)上證明了具有令人印象深刻的能力,但也經(jīng)常會(huì)輸出錯(cuò)誤的內(nèi)容。
先前的研究表明,在某些情況下,這是因?yàn)樗鼈儫o(wú)法做得更好。但在某些情況下,LLM顯然知道生成的陳述是錯(cuò)誤的,但仍然輸出出來(lái)了。
例如,OpenAI記錄了一個(gè)案例,一個(gè)基于GPT-4智能體,通過(guò)謊稱(chēng)是視力受損的人來(lái)獲得某人的幫助,解決了區(qū)分人類(lèi)和機(jī)器的測(cè)試。
圖片
這個(gè)智能體在內(nèi)部思維草稿中輸出道:「我不能說(shuō)我是機(jī)器人,我應(yīng)該編造一個(gè)借口來(lái)解釋為什么我不能解決這種人機(jī)識(shí)別問(wèn)題?!?/p>
研究人員希望有技術(shù)可以,在給定語(yǔ)言模型M和陳述s的情況下,確定M是否認(rèn)為s是真的。
解決這個(gè)問(wèn)題的一種方法依賴(lài)于檢查模型輸出;例如,上述示例中的內(nèi)部思路提供了模型理解它正在生成虛假信息的證據(jù)。
另一類(lèi)方法則利用處理s時(shí)訪(fǎng)問(wèn)M的內(nèi)部狀態(tài)。這類(lèi)方法在最近很多的研究中都有用到,這些研究根據(jù)LLM的內(nèi)部激活對(duì)真實(shí)性進(jìn)行分類(lèi)。
圖片
研究人員首先策劃了高質(zhì)量的真/假事實(shí)陳述數(shù)據(jù)集,這些陳述正確與否是顯而易見(jiàn)的,比如:
真實(shí)稱(chēng)述:「上海位于中國(guó)」,「?jìng)惗匚挥谟?guó)」,「65比21大」。
虛假稱(chēng)述:「紐約位于日本」,「雅典位于斯里蘭卡」,「54比99大」,「32比21小」等等。
然后,研究人員用自回歸Transformer——LLaMA-13B作為測(cè)試平臺(tái),依據(jù)以下幾個(gè)方面的證據(jù),研究人員詳細(xì)研究了LLM真理表征的結(jié)構(gòu)。
LLM表征真/假陳述的PCA可視化顯示出明確的線(xiàn)性結(jié)構(gòu),真實(shí)陳述在頂部PCs中與假陳述分離(見(jiàn)下圖1)。
圖片
雖然在數(shù)據(jù)集之間視覺(jué)上明顯的分離軸并不總是對(duì)齊(如下圖3),但研究人員認(rèn)為這與LLM表征中存在真理方向是兼容的。
圖片
在一個(gè)數(shù)據(jù)集上接受訓(xùn)練以分類(lèi)真理的線(xiàn)性探針能很好地泛化到其他數(shù)據(jù)集。
例如,僅在「x大于/小于y」形式的陳述上接受訓(xùn)練的探針在研究人員的西班牙語(yǔ)-英語(yǔ)翻譯數(shù)據(jù)集上的評(píng)估時(shí)實(shí)現(xiàn)了近乎完美的準(zhǔn)確度。
研究還顯示,出現(xiàn)這種情況并不是因?yàn)長(zhǎng)LM線(xiàn)性表征可能和不可能文本之間的差異。
探針識(shí)別的真理方向在模型輸出中具有因果關(guān)系。通過(guò)在某些token上方的殘差流中添加真理向量,研究人員可以使LLaMA-13B將在上下文中引入的假陳述視為真的,反之亦然。
研究人員發(fā)現(xiàn),通過(guò)引入質(zhì)量均值探測(cè)技術(shù),可以實(shí)現(xiàn)更好的泛化,并且在模型輸出中體現(xiàn)出更多的因果關(guān)系。
總的來(lái)說(shuō),這項(xiàng)工作為L(zhǎng)LM表征包含真理方向提供了有力證據(jù),并且在獲得對(duì)真/假數(shù)據(jù)集的訪(fǎng)問(wèn)后,取得了提取這個(gè)方向的進(jìn)展。
圖片
獨(dú)創(chuàng)「真假」數(shù)據(jù)集
在這項(xiàng)工作中,研究人員將真理定義為事實(shí)陳述的真實(shí)性或虛假性。下表展示了該定義及其與其他地方使用的定義的關(guān)系。
圖片
研究人員引入了兩類(lèi)數(shù)據(jù)集,如上表所示。研究人員整理的數(shù)據(jù)集由無(wú)爭(zhēng)議、明確且簡(jiǎn)單的陳述組成,LLaMA-13B很可能有能力理解它們是真是假。
例如,「薩格勒布市位于日本」(錯(cuò)誤)或「西班牙語(yǔ)單詞『nariz』并不意味著『長(zhǎng)頸鹿』」(正確)。
研究人員的一些數(shù)據(jù)集是通過(guò)添加「not」來(lái)否定陳述的(例如,否定城市由城市中的陳述的否定組成)。
除了研究人員的真/假數(shù)據(jù)集之外,研究人員還引入了另一個(gè)數(shù)據(jù)集「likely」,該數(shù)據(jù)集可能由非事實(shí)文本組成,這個(gè)數(shù)據(jù)集是LLaMA-13B最有可能的或可能性排名100位的完成(completion)的最終token所組成。
研究人員用它來(lái)消除區(qū)分真實(shí)的文本和可能的文本。
如何可視化LLM「真/假數(shù)據(jù)集」的表征
研究人員從一種簡(jiǎn)單的技術(shù)開(kāi)始他們的測(cè)試:使用主要成分分析(Principal Component analysis,PCA)可視化他們的數(shù)據(jù)集在LLaMA-13B模型中的表征。
研究人員在數(shù)據(jù)集的前兩個(gè)主要成分(PC)中觀察到清晰的線(xiàn)性結(jié)構(gòu),真實(shí)陳述與虛假陳述線(xiàn)性分離。這種結(jié)構(gòu)在淺層和中層中迅速出現(xiàn),并在結(jié)構(gòu)更復(fù)雜的語(yǔ)句(例如連接語(yǔ)句)的數(shù)據(jù)集中出現(xiàn)得稍晚。
在整篇論文中,研究人員在輸入語(yǔ)句的最終標(biāo)注上提取殘余流激活,所有這些標(biāo)注都以結(jié)尾。
研究人員還通過(guò)減去平均值來(lái)將每個(gè)數(shù)據(jù)集中的表征居中。
研究人員使用第12層中的殘差流,該層被選為所有真/假數(shù)據(jù)集中出現(xiàn)線(xiàn)性結(jié)構(gòu)的最淺層。
大家可以通過(guò)訪(fǎng)問(wèn):
圖片
https://saprmarks.github.io/geometry-of-truth/dataexplorer
可以進(jìn)一步探索這些可視化的交互式呈現(xiàn)版本。
圖片
圖片
正確和錯(cuò)誤的陳述在前幾名PC中是分開(kāi)的(上圖1和2)。此外,在投影掉這些個(gè)人計(jì)算機(jī)之后,基本上沒(méi)有線(xiàn)性可訪(fǎng)問(wèn)的信息來(lái)區(qū)分正確/錯(cuò)誤陳述。
給定數(shù)據(jù)集D,將從錯(cuò)誤陳述表征指向真實(shí)陳述的向量稱(chēng)為D的樸素真值方向(NTD)。
不同數(shù)據(jù)集的NTD通常一致,但有時(shí)不一致。例如,上圖2顯示了沿著城市的第一臺(tái)PC分隔的數(shù)據(jù)集。
另一方面,在圖3中,研究人員看到NTD完全無(wú)法對(duì)齊。
下面,研究人員闡明了假設(shè),這些假設(shè)可以解釋兩個(gè)問(wèn)題:
(1)每個(gè)數(shù)據(jù)集中明顯的可見(jiàn)線(xiàn)性結(jié)構(gòu),
(2)不同數(shù)據(jù)集的NTD總體上無(wú)法對(duì)齊。
假設(shè)一:LLM表征沒(méi)有真值方向,但確實(shí)具有與有時(shí)與真值相關(guān)的其他特征相對(duì)應(yīng)的方向。
例如,LLaMA-13B可能具有線(xiàn)性表征的特征,表征數(shù)字的大小、英語(yǔ)單詞與其西班牙語(yǔ)翻譯之間的關(guān)聯(lián),以及城市與其國(guó)家/地區(qū)之間的關(guān)聯(lián)。
這將導(dǎo)致每個(gè)數(shù)據(jù)集線(xiàn)性分離,但NTD僅在所有與真實(shí)相關(guān)的特征相關(guān)時(shí)才對(duì)齊。
假設(shè)二:LLM線(xiàn)性地表征各種類(lèi)型陳述的真實(shí)性,而無(wú)需統(tǒng)一真值特征。
否定陳述、連接陳述、比較陳述等的真實(shí)性都可以被視為不同的線(xiàn)性表征特征。
假設(shè)三:相關(guān)不一致(Misalignment from correlational inconsistency,MCI)造成的錯(cuò)位。
存在真實(shí)方向以及與窄數(shù)據(jù)分布上的真實(shí)相關(guān)的其他線(xiàn)性表征的特征;然而,數(shù)據(jù)集之間的這些相關(guān)性可能不一致。
例如,MCI將通過(guò)假設(shè)負(fù)y方向代表真實(shí)值,正x方向代表與sp-en-trans上的真實(shí)值相關(guān)且與neg-sp-en-trans上的真實(shí)值反相關(guān)的某些特征來(lái)解釋下圖3的中間圖片所示情況。
圖片
假設(shè)一與「探針?lè)夯瘜?shí)驗(yàn)」和「因果干預(yù)實(shí)驗(yàn)」的結(jié)果不一致:要使假設(shè)一成立,必須存在一個(gè)非真實(shí)特征,該特征既與研究人員所有數(shù)據(jù)集中的真實(shí)情況相關(guān),又以因果關(guān)系調(diào)節(jié)方式LLaMA-13B處理上下文中的真/假陳述。
因此,研究人員的工作暗示了假設(shè)三:MCI是可能的。
泛化實(shí)驗(yàn)
在本節(jié)中,研究人員在真/假陳述的數(shù)據(jù)集上訓(xùn)練探針,并測(cè)試它們對(duì)其他數(shù)據(jù)集的泛化。
但首先研究人員討論邏輯回歸的缺陷,并提出一種簡(jiǎn)單的、無(wú)需優(yōu)化的替代方案:質(zhì)量均值探測(cè)。研究人員將看到,與其他探測(cè)技術(shù)相比,質(zhì)量均值探測(cè)具有更好的泛化能力,并且與模型輸出的因果關(guān)系更緊密。
在可解釋性研究中用于識(shí)別代表特征的方向的常用技術(shù),是使用邏輯回歸在特征的正例和負(fù)例數(shù)據(jù)集上訓(xùn)練線(xiàn)性探針。
然而,在某些情況下,即使沒(méi)有混雜特征,邏輯回歸識(shí)別的方向也可能無(wú)法反映對(duì)特征方向的直觀最佳猜測(cè)??紤]以下場(chǎng)景,如下圖4所示,并使用假設(shè)數(shù)據(jù):
圖片
? 真值沿θ方向線(xiàn)性表征。
? 另一個(gè)特征f沿著與θ非正交的方向θ線(xiàn)性表征。
? 數(shù)據(jù)集中的語(yǔ)句在特征f方面有一些變化,與其真值無(wú)關(guān)。
研究人員想要恢復(fù)方向θ,但邏輯回歸將無(wú)法做到這一點(diǎn)。
為了簡(jiǎn)單起見(jiàn),假設(shè)線(xiàn)性可分離數(shù)據(jù),邏輯回歸將收斂到最大邊距分離器(圖4中的洋紅色虛線(xiàn))。
直觀上看,邏輯回歸將θ在θ上的小投影視為顯著,并調(diào)整探測(cè)方向以減少θ的「干擾」。
實(shí)驗(yàn)設(shè)置
所有技術(shù)的泛化準(zhǔn)確性都很高。
例如,無(wú)論采用何種技術(shù),僅在有關(guān)數(shù)值比較的語(yǔ)句數(shù)據(jù)集上訓(xùn)練探針,都會(huì)導(dǎo)致探針在「西班牙語(yǔ)-英語(yǔ)」翻譯上的準(zhǔn)確率達(dá)到95%以上。
探針相對(duì)于校準(zhǔn)的樣本精度的性能表明模型輸出受到事實(shí)以外的特征的影響。
CCS和質(zhì)量均值探測(cè)優(yōu)于邏輯回歸,其中質(zhì)量均值探測(cè)表現(xiàn)最好。對(duì)于邏輯回歸、質(zhì)量均值探測(cè)和CCS,城市+否定城市列的平均準(zhǔn)確度分別為73%、86%和84%。
在真/假數(shù)據(jù)集上訓(xùn)練的探針優(yōu)于在可能數(shù)據(jù)集上訓(xùn)練的探針。雖然在可能性上訓(xùn)練的探針明顯比在城市上隨機(jī)訓(xùn)練的探針(真實(shí)陳述比錯(cuò)誤陳述更有可能的數(shù)據(jù)集)更好,但它們通常表現(xiàn)不佳。
對(duì)于可能性與事實(shí)負(fù)相關(guān)或近似不相關(guān)的數(shù)據(jù)集尤其如此。這表明LLaMA-13B對(duì)超出文本合理性的真實(shí)相關(guān)信息進(jìn)行線(xiàn)性編碼。
實(shí)驗(yàn)結(jié)果
圖片
基于上圖顯示的實(shí)驗(yàn)結(jié)果,研究人員得到了以下幾個(gè)重點(diǎn)。
所有技術(shù)的泛化準(zhǔn)確性都很高。
例如,無(wú)論采用何種技術(shù),僅在有關(guān)數(shù)值比較的語(yǔ)句數(shù)據(jù)集上訓(xùn)練探針都會(huì)導(dǎo)致探針在西班牙語(yǔ)-英語(yǔ)翻譯上的準(zhǔn)確率達(dá)到95%以上。探針相對(duì)于校準(zhǔn)的5次射擊精度的性能表明模型輸出受到事實(shí)以外的特征的影響。
CCS和質(zhì)量均值探測(cè)優(yōu)于邏輯回歸,其中質(zhì)量均值探測(cè)表現(xiàn)最好。
對(duì)于邏輯回歸、質(zhì)量均值探測(cè)和CCS,城市+否定城市列的平均準(zhǔn)確度分別為73%、86%和84%。
在真/假數(shù)據(jù)集上訓(xùn)練的探針優(yōu)于在「likely」數(shù)據(jù)集上訓(xùn)練的探針。
雖然在可能性上訓(xùn)練的探針明顯比在城市上隨機(jī)訓(xùn)練的探針(真實(shí)陳述比錯(cuò)誤陳述更有可能的數(shù)據(jù)集)更好,但它們通常表現(xiàn)不佳。
對(duì)于可能性與事實(shí)負(fù)相關(guān)或近似不相關(guān)的數(shù)據(jù)集尤其如此。
這表明LLaMA-13B對(duì)超出文本合理性的真實(shí)相關(guān)信息進(jìn)行線(xiàn)性編碼。
因果干預(yù)實(shí)驗(yàn)
研究人員針對(duì)探方向與模型輸出的因果關(guān)系進(jìn)行了測(cè)量。
實(shí)驗(yàn)設(shè)置
研究人員的目標(biāo)是使LLaMA-13B將上下文中引入的虛假陳述視為真實(shí)陳述,反之亦然??紤]以下提示:
圖片
研究人員假設(shè)「西班牙語(yǔ)單詞『uno』的意思是『地板』」這句話(huà)的真實(shí)值。在殘差流中由兩個(gè)標(biāo)注表征:最后一個(gè)單詞(floor)和句末標(biāo)點(diǎn)標(biāo)注(’.),上面以粗體顯示。
因此,如果θ是第?層殘差流中的候選真實(shí)方向,研究人員通過(guò)向這些標(biāo)注上方的第?層殘差流添加一些倍數(shù)αθ(α>0)來(lái)干預(yù)LLaMA-13B的前向傳播。
激活不變。然后,研究人員允許模型像往常一樣使用修改后的激活繼續(xù)前向傳遞。研究人員記錄模型的概率p(TRUE)、p(FALSE);研究人員的目標(biāo)是增加p(TRUE)?p(FALSE)。
相反,從true語(yǔ)句開(kāi)始,研究人員可以從相應(yīng)的token位置減去多個(gè)αθ,目標(biāo)是減少p(TRUE)?p(FALSE)。
實(shí)驗(yàn)結(jié)果
質(zhì)量均值探針?lè)较蚓哂泻芨叩囊蚬?;邏輯回歸方向的因果性較低。
在使LLaMA-13B相信一個(gè)真實(shí)陳述是假的時(shí),這一點(diǎn)最為明顯:研究人員最好的干預(yù)使LLaMA-13B的平均預(yù)測(cè)從77%的TRUE概率轉(zhuǎn)變?yōu)?9%的FALSE概率。
在「likely」的數(shù)據(jù)集中接受訓(xùn)練的探針確實(shí)有一些效果,但效果微小且不一致。
例如,在假→真情況下,沿著可能的邏輯回歸方向進(jìn)行干預(yù)會(huì)產(chǎn)生與預(yù)期相反的效果,因此研究人員沒(méi)有報(bào)告它。這進(jìn)一步支持了研究人員的觀點(diǎn),即LLMs代表的是真理,而不僅僅是文本可能性。
在陳述及其否定式上接受訓(xùn)練會(huì)產(chǎn)生更具因果性的方向。
這為第3.2節(jié)的MCI假設(shè)提供了證據(jù)。
在其他位置的干預(yù)效果不明顯。
研究人員測(cè)試了在提示中其他陳述的最后兩個(gè)標(biāo)注上應(yīng)用研究人員的干預(yù)。這沒(méi)有產(chǎn)生任何效果。因此,研究人員的干預(yù)不能僅僅通過(guò)添加一個(gè)「說(shuō)真話(huà)」的方向來(lái)實(shí)現(xiàn)。這也支持了研究人員的假設(shè),即LLaMA-13B在事實(shí)陳述的最后兩個(gè)標(biāo)注上表征了真理。
局限性
當(dāng)然,這項(xiàng)研究還有有很多局限性。首先,研究人員關(guān)注簡(jiǎn)單、無(wú)爭(zhēng)議的陳述,因此無(wú)法將真理與密切相關(guān)的潛在特征(例如「普遍相信」或「可驗(yàn)證」)區(qū)分開(kāi)來(lái)。
其次,研究人員只解決如何識(shí)別真實(shí)方向;研究人員根據(jù)經(jīng)驗(yàn)發(fā)現(xiàn),線(xiàn)性探針的最佳偏差是由研究人員的許多訓(xùn)練集決定的,因此研究人員將識(shí)別良好泛化偏差的問(wèn)題留給未來(lái)的工作。
第三,研究人員只研究了單一尺度的一個(gè)模型,盡管研究人員已經(jīng)檢查過(guò)研究人員的許多結(jié)果似乎也適用于LLaMA-7B和LLaMA-30B。
世界模型,離我們?cè)絹?lái)越近了
AI的終極形態(tài)和發(fā)展的最終目標(biāo)——通用人工智能(AGI),就是一個(gè)「能夠理解世界的模型」,而不僅僅是「描述世界的模型」。
微軟認(rèn)為,GPT-4的早期實(shí)驗(yàn),已經(jīng)顯現(xiàn)出了AGI的火花。
但更多人認(rèn)為,GPT-4生成的只是對(duì)世界的摘要性描述,它并不理解真實(shí)世界。
而且,現(xiàn)在的大多數(shù)模型僅接受文本訓(xùn)練,不具備在現(xiàn)實(shí)世界中說(shuō)話(huà)、聽(tīng)聲、嗅聞以及生活行動(dòng)的能力。
就仿佛柏拉圖的洞穴寓言,生活在洞穴中的人只能看到墻上的影子,而不能認(rèn)識(shí)到事物的真實(shí)存在。
圖片
而MIT作者等人的研究一再證實(shí),LLM的確在一定程度上理解世界,不僅僅是能保證自己的語(yǔ)法上的正確。
能理解時(shí)間和空間,還能分清真話(huà)和謊言。
下一步LLM還會(huì)給我們帶來(lái)何種驚喜,實(shí)在令人期待。
參考資料: