自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

大模型是否有自知之明?新研究發(fā)現(xiàn)LLM可以知曉自己的知識(shí)范圍

人工智能 新聞
這項(xiàng)研究證明了足夠規(guī)模的 LLM 確實(shí)具有知識(shí)意識(shí)(awareness of knowledge),即能夠知曉自己的知識(shí)范圍。你認(rèn)為這是否暗示了 LLM 存在自我意識(shí)呢?

對(duì)于人工智能,有一個(gè)話題總會(huì)時(shí)而冒出來(lái):「AI 是否或能否具有自我意識(shí)」?對(duì)于這個(gè)問(wèn)題,目前還沒(méi)人能給出非常確切的答案,但近日 Chandar Research Lab 和 Mila - 魁北克人工智能研究所等機(jī)構(gòu)的一項(xiàng)研究卻揭開了這神秘問(wèn)題的一角。

他們發(fā)現(xiàn),大型語(yǔ)言模型(LLM)有自知之明,也就是說(shuō),只要規(guī)模夠大,它們就能夠知道自己對(duì)某個(gè)主題的了解程度。該論文中寫到:「雖然不同架構(gòu)涌現(xiàn)這種能力的速率不同,但結(jié)果表明,知識(shí)意識(shí)(awareness of knowledge)可能是 LLM 的一個(gè)普遍屬性?!?/span>

image.png

  • 論文標(biāo)題:Do Large Language Models Know How Much They Know?
  • 論文地址:https://arxiv.org/pdf/2502.19573

方法

那么,該團(tuán)隊(duì)是如何發(fā)現(xiàn)這一點(diǎn)的呢?很容易想見(jiàn),這個(gè)研究問(wèn)題的核心在于分析了解模型記憶和回想信息的能力。為了避免現(xiàn)有數(shù)據(jù)的影響,該團(tuán)隊(duì)生成了一些新數(shù)據(jù),從而可以確保模型在預(yù)訓(xùn)練階段從未見(jiàn)過(guò)這些數(shù)據(jù),由此防止結(jié)果被污染。

image.png

本質(zhì)上講,該方法包含三個(gè)階段:

  • 生成訓(xùn)練文檔;(這里采用了日記作者的日記文檔設(shè)定)
  • 使用其預(yù)訓(xùn)練目標(biāo)來(lái)微調(diào)語(yǔ)言模型,讓其記住這些文檔;
  • 測(cè)試語(yǔ)言模型回憶所有相關(guān)文檔的能力。

有關(guān)這些階段的詳細(xì)過(guò)程,請(qǐng)參閱原論文,這里我們更關(guān)注其得到的結(jié)果。

實(shí)驗(yàn)結(jié)果:LLM 有自知之明

實(shí)驗(yàn)中,該團(tuán)隊(duì)使用了兩種類型的多個(gè)不同參數(shù)量的模型:

  • 僅解碼器模型:OPT(7M 到 2.7B)和 OPT(7M 到 2.7B);
  • 編碼器 - 解碼器模型:Flan-T5(80M to 3B)。

架構(gòu)和規(guī)模的影響

首先,該團(tuán)隊(duì)評(píng)估了架構(gòu)、模型大小和數(shù)據(jù)集大小對(duì)性能的影響。結(jié)果見(jiàn)圖 2,其中橫軸表示模型大小,縱軸表示正確回答問(wèn)題的百分比。圖上的每條線對(duì)應(yīng)于一個(gè)特定的架構(gòu)(例如 OPT),從最小到最大的模型,并在一個(gè)特定的數(shù)據(jù)集大小上進(jìn)行了訓(xùn)練。

對(duì)于 OPT 模型,可以觀察到一個(gè)總體趨勢(shì):隨著模型大小和數(shù)據(jù)集規(guī)模增長(zhǎng),性能會(huì)提高。從由 7M 參數(shù)組成的最小變體開始,性能最初會(huì)隨著數(shù)據(jù)集的擴(kuò)大而提高,在 4K 個(gè)日記作者時(shí)達(dá)到峰值。但是,超過(guò)此閾值后,數(shù)據(jù)集的進(jìn)一步擴(kuò)展會(huì)導(dǎo)致性能下降。實(shí)驗(yàn)結(jié)果的這種模式表明,雖然更大的數(shù)據(jù)集可以增強(qiáng)泛化能力,但也會(huì)讓模型的容量飽和,從而導(dǎo)致收益遞減甚至效果下降。

相比之下,125M 參數(shù)的 OPT 模型表現(xiàn)明顯不同。該模型足夠大,即使數(shù)據(jù)集大小增加到最大測(cè)試值(64K 日記作者),性能也會(huì)持續(xù)提升。

此外,在保持?jǐn)?shù)據(jù)集大小不變的情況下,增加模型大小通常可以帶來(lái)性能提升。

Pythia 模型表現(xiàn)出了與 OPT 模型類似的趨勢(shì):隨著模型大小和數(shù)據(jù)集大小的增加,性能會(huì)提高。

然而,在比較這兩種架構(gòu)時(shí),出現(xiàn)了一個(gè)有趣的區(qū)別:OPT 模型的性能提升比 Pythia 更快出現(xiàn)。具體而言,在這里最大的數(shù)據(jù)集上訓(xùn)練時(shí),125M 參數(shù)的 OPT 模型明顯優(yōu)于 160M 參數(shù)的 Pythia 模型。這種差異表明,所研究的能力出現(xiàn)的速度取決于底層模型架構(gòu)的差異。

最后,與其他架構(gòu)相比,F(xiàn)lan-T5 模型表現(xiàn)出了獨(dú)特的模式。在最小的數(shù)據(jù)集上,僅增加模型大小不會(huì)帶來(lái)任何明顯的改進(jìn)。性能提升僅在 783M 參數(shù)時(shí)才開始出現(xiàn),即使如此,也只有在兩個(gè)最大的數(shù)據(jù)集上訓(xùn)練時(shí)才會(huì)出現(xiàn)。

該團(tuán)隊(duì)也談到了這個(gè)實(shí)驗(yàn)的局限性:「由于計(jì)算限制,我們無(wú)法在我們最大的數(shù)據(jù)集上測(cè)試具有 2.8B 參數(shù)的最大 Flan-T5 模型。然而,總體結(jié)果表明,這種能力確實(shí)會(huì)在足夠規(guī)模下涌現(xiàn) —— 盡管其發(fā)展速度因模型架構(gòu)而有不同?!?/span>

分布式信息的影響

他們還使用一組更加簡(jiǎn)單的設(shè)置,訓(xùn)練了另外一組模型,并比較了它們的性能。

具體來(lái)說(shuō),這一組模型是在相同的數(shù)據(jù)集上進(jìn)行訓(xùn)練的,但同一個(gè)人撰寫的所有日記條目都會(huì)被合并到單個(gè)訓(xùn)練文檔中,而不是每個(gè)條目都是一個(gè)單獨(dú)的文檔。

這種方法相當(dāng)于直接在答案上訓(xùn)練模型,要求它們簡(jiǎn)單地記憶和回憶單個(gè)文檔。

這兩種設(shè)置之間的性能差異表明:處理分散在多個(gè)訓(xùn)練文檔中的信息時(shí),還會(huì)有額外的難度。這種分布式情況可能會(huì)影響信息在模型參數(shù)中的存儲(chǔ)方式,可能會(huì)使模型在信息更分散時(shí)更難整合信息。

圖 2 中以虛線展示了使用這種更簡(jiǎn)單設(shè)置訓(xùn)練的模型結(jié)果。在所有情況下,與使用分布式設(shè)置訓(xùn)練的相同基礎(chǔ)模型相比,這些模型都有顯著的性能提升。有趣的是,所有 Flan-T5 模型在這種簡(jiǎn)化設(shè)置下都實(shí)現(xiàn)了近乎完美的準(zhǔn)確度,而 OPT 和 Pythia 模型則沒(méi)有,不過(guò)它們的表現(xiàn)也不錯(cuò)并且會(huì)隨著規(guī)模的擴(kuò)大而不斷改進(jìn)。

圖 3 中提供了清晰的可視化,可以更好地說(shuō)明兩種設(shè)置之間的性能差距。其中,縱軸給出了「簡(jiǎn)化」設(shè)置和「標(biāo)準(zhǔn)」設(shè)置之間的準(zhǔn)確度差距。

image.png

對(duì)于 OPT 模型,隨著數(shù)據(jù)集大小的增加,差距會(huì)縮小,最小的模型除外。對(duì)于 Pythia ,似乎只有在足夠大的數(shù)據(jù)集上訓(xùn)練更大模型,這個(gè)差距才會(huì)縮小。對(duì)于 Flan-T5,除了在最大數(shù)據(jù)集上訓(xùn)練的 780M 參數(shù)模型外,隨著數(shù)據(jù)集和模型規(guī)模的擴(kuò)大,性能差距幾乎沒(méi)有縮小。

目前尚不清楚為什么 Flan-T5 模型在更簡(jiǎn)單的設(shè)置中表現(xiàn)如此出色,但在標(biāo)準(zhǔn)設(shè)置中表現(xiàn)如此糟糕。鑒于該模型在前一種情況下具有近乎完美的準(zhǔn)確性,其在后一種情況下的糟糕表現(xiàn)不能歸因于方法論問(wèn)題,因?yàn)閮煞N情況下的過(guò)程是相同的。唯一的區(qū)別是,在后一種情況下,模型必須從多個(gè)文檔而不是單個(gè)文檔中回憶信息。因此,該模型可能在這方面存在問(wèn)題。

對(duì)于所有模型,研究者暫時(shí)無(wú)法確定它們?cè)趦煞N設(shè)置中的表現(xiàn)是否會(huì)隨著規(guī)模的擴(kuò)大而繼續(xù)提高,以及差距是否會(huì)最終消失。

文檔數(shù)量的影響

該團(tuán)隊(duì)研究了要合并和回憶的文檔數(shù)量對(duì)模型性能的影響。

圖 4 報(bào)告了按目標(biāo)答案中的文檔數(shù)量分組的準(zhǔn)確度(橫軸)。線條顏色表示模型大小。為了保持清晰度,這里僅給出在 8K 日記作者數(shù)據(jù)集上訓(xùn)練的模型的性能,因?yàn)樵谄渖嫌^察到的趨勢(shì)與其他數(shù)據(jù)集一致。

image.png

令人驚訝的是,當(dāng)需要回憶更多日記條目時(shí),模型并沒(méi)有表現(xiàn)出性能下降。鑒于要生成的內(nèi)容增加,人們可能會(huì)預(yù)期模型答案中出現(xiàn)錯(cuò)誤的可能性會(huì)更高。然而,這一觀察結(jié)果可能歸因于模型的容量足夠,并且只有在回憶更多數(shù)量的文檔時(shí)才可能出現(xiàn)性能下降。

為了更深入地了解模型行為,該團(tuán)隊(duì)還分析了模型回憶的文檔數(shù)量與目標(biāo)文檔數(shù)量的比較(圖 5 和 6)。

image.png

image.png

對(duì)于在 8K 日記作者數(shù)據(jù)集上訓(xùn)練的 OPT 和 Pythia 模型,較小的模型似乎可以回憶起隨機(jī)數(shù)量的文檔。然而,隨著模型規(guī)模的增加,準(zhǔn)確確定要回憶的適當(dāng)文檔數(shù)量的能力會(huì)逐漸顯現(xiàn)。

相比之下,無(wú)論模型規(guī)模如何,在相同的 8K 日記作者數(shù)據(jù)集上訓(xùn)練的 Flan-T5 模型則會(huì)始終檢索看似隨機(jī)數(shù)量的文檔。有趣的是,當(dāng)擴(kuò)展到 32K 日記作者的數(shù)據(jù)集時(shí),F(xiàn)lan-T5 會(huì)表現(xiàn)出與 OPT 和 Pythia 類似的模式 —— 隨著模型規(guī)模的增加,識(shí)別應(yīng)回憶多少文檔的能力會(huì)逐漸顯現(xiàn)。

更多具體的實(shí)驗(yàn)數(shù)據(jù)請(qǐng)參看原論文。

綜合分析

深挖前面的實(shí)驗(yàn)觀察,可以看到這些模型的能力所在與失敗之處,包括:

  • 當(dāng)規(guī)模足夠大時(shí),模型回憶的文檔通常長(zhǎng)度正確且沒(méi)有錯(cuò)誤。
  • 在簡(jiǎn)化設(shè)置下訓(xùn)練的模型成功地回憶起了單個(gè)訓(xùn)練文檔中的信息。因此,關(guān)鍵似乎不在于回憶的文檔的內(nèi)容,而在于回憶的文檔數(shù)量。
  • 如果規(guī)模不合適,模型似乎無(wú)法回憶正確數(shù)量的文檔,而是會(huì)回憶隨機(jī)數(shù)量的文檔。
  • 最小的 Pythia 模型如果從隨機(jī)權(quán)重而不是預(yù)訓(xùn)練權(quán)重開始進(jìn)行微調(diào),其性能會(huì)更好,這表明預(yù)訓(xùn)練權(quán)重的糟糕表現(xiàn)不能完全歸因于架構(gòu)原因。相反,問(wèn)題部分在于預(yù)訓(xùn)練權(quán)重未能學(xué)習(xí)到一種可以泛化到回憶正確數(shù)量文檔問(wèn)題的解決方案,而不僅僅是記住訓(xùn)練樣本。

關(guān)于 Flan-T5,考慮到從頭開始微調(diào)的最小模型的性能與從預(yù)訓(xùn)練權(quán)重微調(diào)的模型一樣差,性能不佳的根本原因可能是架構(gòu)或超參數(shù)設(shè)置不對(duì)。

此外,模型的大小似乎會(huì)影響其性能。由于 Flan-T5 采用編碼器 - 解碼器架構(gòu),與 OPT 和 Pythia 等模型的僅解碼器結(jié)構(gòu)不同,其參數(shù)在編碼器和解碼器之間大致相等。因此,第二大 Flan-T5 模型的解碼器大小與第三小 Pythia 模型的解碼器大小相當(dāng),這與 Pythia 性能開始提高的點(diǎn)相吻合(如圖 2 所示)。Pythia 系列模型中小于此閾值的模型沒(méi)有表現(xiàn)出顯著的性能提升。然而,最小的 Pythia 模型在從頭開始訓(xùn)練時(shí),在類似條件下的表現(xiàn)優(yōu)于 Flan-T5。這凸顯出架構(gòu)因素可能會(huì)阻礙相同大小模型的能力的涌現(xiàn)。

至于規(guī)模,該團(tuán)隊(duì)的假設(shè)是較小的模型缺乏開發(fā)執(zhí)行此任務(wù)所需回路的能力,但要了解這些較小模型面臨的挑戰(zhàn),還需要進(jìn)一步的研究。

整體來(lái)說(shuō),這項(xiàng)研究證明了足夠規(guī)模的 LLM 確實(shí)具有知識(shí)意識(shí)(awareness of knowledge),即能夠知曉自己的知識(shí)范圍。你認(rèn)為這是否暗示了 LLM 存在自我意識(shí)呢?

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2009-08-04 14:22:24

IT管理北塔

2023-10-06 20:30:33

大模型LLMtoken

2025-01-10 10:30:00

大模型統(tǒng)計(jì)評(píng)估

2022-04-07 14:44:24

人工智能計(jì)算神經(jīng)網(wǎng)絡(luò)

2023-07-24 15:20:05

機(jī)器學(xué)習(xí)集成學(xué)習(xí)

2024-11-01 08:25:54

2024-05-16 08:23:26

大語(yǔ)言模型知識(shí)圖譜人工智能

2025-04-01 15:35:11

2015-06-08 11:04:21

隱私隱私保護(hù)隱私安全

2023-04-26 12:19:09

大模型焦慮精神病學(xué)

2023-10-08 15:54:12

2024-06-18 14:01:17

2021-02-16 10:02:36

惡意擴(kuò)展安全插件網(wǎng)絡(luò)攻擊

2023-07-25 12:28:53

模型智能

2023-08-17 16:07:16

模型優(yōu)化

2024-08-19 09:42:00

模型MIT

2025-02-13 11:00:30

2024-04-25 14:40:47

2024-04-07 14:28:48

邊緣計(jì)算LLM人工智能

2024-07-31 08:14:17

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)