自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<ruby id="ijcj5"><form id="ijcj5"><nav id="ijcj5"></nav></form></ruby>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

大模型是否有自知之明？新研究發(fā)現(xiàn)LLM可以知曉自己的知識(shí)范圍

作者：機(jī)器之心 2025-03-03 08:46:00

人工智能新聞

這項(xiàng)研究證明了足夠規(guī)模的 LLM 確實(shí)具有知識(shí)意識(shí)（awareness of knowledge），即能夠知曉自己的知識(shí)范圍。你認(rèn)為這是否暗示了 LLM 存在自我意識(shí)呢？

對(duì)于人工智能，有一個(gè)話題總會(huì)時(shí)而冒出來(lái)：「AI 是否或能否具有自我意識(shí)」？對(duì)于這個(gè)問(wèn)題，目前還沒(méi)人能給出非常確切的答案，但近日 Chandar Research Lab 和 Mila - 魁北克人工智能研究所等機(jī)構(gòu)的一項(xiàng)研究卻揭開了這神秘問(wèn)題的一角。

他們發(fā)現(xiàn)，大型語(yǔ)言模型（LLM）有自知之明，也就是說(shuō)，只要規(guī)模夠大，它們就能夠知道自己對(duì)某個(gè)主題的了解程度。該論文中寫到：「雖然不同架構(gòu)涌現(xiàn)這種能力的速率不同，但結(jié)果表明，知識(shí)意識(shí)（awareness of knowledge）可能是 LLM 的一個(gè)普遍屬性?！?/span>

論文標(biāo)題：Do Large Language Models Know How Much They Know?
論文地址：https://arxiv.org/pdf/2502.19573

方法

那么，該團(tuán)隊(duì)是如何發(fā)現(xiàn)這一點(diǎn)的呢？很容易想見(jiàn)，這個(gè)研究問(wèn)題的核心在于分析了解模型記憶和回想信息的能力。為了避免現(xiàn)有數(shù)據(jù)的影響，該團(tuán)隊(duì)生成了一些新數(shù)據(jù)，從而可以確保模型在預(yù)訓(xùn)練階段從未見(jiàn)過(guò)這些數(shù)據(jù)，由此防止結(jié)果被污染。

本質(zhì)上講，該方法包含三個(gè)階段：

生成訓(xùn)練文檔；（這里采用了日記作者的日記文檔設(shè)定）
使用其預(yù)訓(xùn)練目標(biāo)來(lái)微調(diào)語(yǔ)言模型，讓其記住這些文檔；
測(cè)試語(yǔ)言模型回憶所有相關(guān)文檔的能力。

有關(guān)這些階段的詳細(xì)過(guò)程，請(qǐng)參閱原論文，這里我們更關(guān)注其得到的結(jié)果。

實(shí)驗(yàn)結(jié)果：LLM 有自知之明

實(shí)驗(yàn)中，該團(tuán)隊(duì)使用了兩種類型的多個(gè)不同參數(shù)量的模型：

僅解碼器模型：OPT（7M 到 2.7B）和 OPT（7M 到 2.7B）；
編碼器 - 解碼器模型：Flan-T5（80M to 3B）。

架構(gòu)和規(guī)模的影響

首先，該團(tuán)隊(duì)評(píng)估了架構(gòu)、模型大小和數(shù)據(jù)集大小對(duì)性能的影響。結(jié)果見(jiàn)圖 2，其中橫軸表示模型大小，縱軸表示正確回答問(wèn)題的百分比。圖上的每條線對(duì)應(yīng)于一個(gè)特定的架構(gòu)（例如 OPT），從最小到最大的模型，并在一個(gè)特定的數(shù)據(jù)集大小上進(jìn)行了訓(xùn)練。

對(duì)于 OPT 模型，可以觀察到一個(gè)總體趨勢(shì)：隨著模型大小和數(shù)據(jù)集規(guī)模增長(zhǎng)，性能會(huì)提高。從由 7M 參數(shù)組成的最小變體開始，性能最初會(huì)隨著數(shù)據(jù)集的擴(kuò)大而提高，在 4K 個(gè)日記作者時(shí)達(dá)到峰值。但是，超過(guò)此閾值后，數(shù)據(jù)集的進(jìn)一步擴(kuò)展會(huì)導(dǎo)致性能下降。實(shí)驗(yàn)結(jié)果的這種模式表明，雖然更大的數(shù)據(jù)集可以增強(qiáng)泛化能力，但也會(huì)讓模型的容量飽和，從而導(dǎo)致收益遞減甚至效果下降。

相比之下，125M 參數(shù)的 OPT 模型表現(xiàn)明顯不同。該模型足夠大，即使數(shù)據(jù)集大小增加到最大測(cè)試值（64K 日記作者），性能也會(huì)持續(xù)提升。

此外，在保持?jǐn)?shù)據(jù)集大小不變的情況下，增加模型大小通常可以帶來(lái)性能提升。

Pythia 模型表現(xiàn)出了與 OPT 模型類似的趨勢(shì)：隨著模型大小和數(shù)據(jù)集大小的增加，性能會(huì)提高。

然而，在比較這兩種架構(gòu)時(shí)，出現(xiàn)了一個(gè)有趣的區(qū)別：OPT 模型的性能提升比 Pythia 更快出現(xiàn)。具體而言，在這里最大的數(shù)據(jù)集上訓(xùn)練時(shí)，125M 參數(shù)的 OPT 模型明顯優(yōu)于 160M 參數(shù)的 Pythia 模型。這種差異表明，所研究的能力出現(xiàn)的速度取決于底層模型架構(gòu)的差異。

最后，與其他架構(gòu)相比，F(xiàn)lan-T5 模型表現(xiàn)出了獨(dú)特的模式。在最小的數(shù)據(jù)集上，僅增加模型大小不會(huì)帶來(lái)任何明顯的改進(jìn)。性能提升僅在 783M 參數(shù)時(shí)才開始出現(xiàn)，即使如此，也只有在兩個(gè)最大的數(shù)據(jù)集上訓(xùn)練時(shí)才會(huì)出現(xiàn)。

該團(tuán)隊(duì)也談到了這個(gè)實(shí)驗(yàn)的局限性：「由于計(jì)算限制，我們無(wú)法在我們最大的數(shù)據(jù)集上測(cè)試具有 2.8B 參數(shù)的最大 Flan-T5 模型。然而，總體結(jié)果表明，這種能力確實(shí)會(huì)在足夠規(guī)模下涌現(xiàn) —— 盡管其發(fā)展速度因模型架構(gòu)而有不同?！?/span>

分布式信息的影響

他們還使用一組更加簡(jiǎn)單的設(shè)置，訓(xùn)練了另外一組模型，并比較了它們的性能。

具體來(lái)說(shuō)，這一組模型是在相同的數(shù)據(jù)集上進(jìn)行訓(xùn)練的，但同一個(gè)人撰寫的所有日記條目都會(huì)被合并到單個(gè)訓(xùn)練文檔中，而不是每個(gè)條目都是一個(gè)單獨(dú)的文檔。

這種方法相當(dāng)于直接在答案上訓(xùn)練模型，要求它們簡(jiǎn)單地記憶和回憶單個(gè)文檔。

這兩種設(shè)置之間的性能差異表明：處理分散在多個(gè)訓(xùn)練文檔中的信息時(shí)，還會(huì)有額外的難度。這種分布式情況可能會(huì)影響信息在模型參數(shù)中的存儲(chǔ)方式，可能會(huì)使模型在信息更分散時(shí)更難整合信息。

圖 2 中以虛線展示了使用這種更簡(jiǎn)單設(shè)置訓(xùn)練的模型結(jié)果。在所有情況下，與使用分布式設(shè)置訓(xùn)練的相同基礎(chǔ)模型相比，這些模型都有顯著的性能提升。有趣的是，所有 Flan-T5 模型在這種簡(jiǎn)化設(shè)置下都實(shí)現(xiàn)了近乎完美的準(zhǔn)確度，而 OPT 和 Pythia 模型則沒(méi)有，不過(guò)它們的表現(xiàn)也不錯(cuò)并且會(huì)隨著規(guī)模的擴(kuò)大而不斷改進(jìn)。

圖 3 中提供了清晰的可視化，可以更好地說(shuō)明兩種設(shè)置之間的性能差距。其中，縱軸給出了「簡(jiǎn)化」設(shè)置和「標(biāo)準(zhǔn)」設(shè)置之間的準(zhǔn)確度差距。

對(duì)于 OPT 模型，隨著數(shù)據(jù)集大小的增加，差距會(huì)縮小，最小的模型除外。對(duì)于 Pythia ，似乎只有在足夠大的數(shù)據(jù)集上訓(xùn)練更大模型，這個(gè)差距才會(huì)縮小。對(duì)于 Flan-T5，除了在最大數(shù)據(jù)集上訓(xùn)練的 780M 參數(shù)模型外，隨著數(shù)據(jù)集和模型規(guī)模的擴(kuò)大，性能差距幾乎沒(méi)有縮小。

目前尚不清楚為什么 Flan-T5 模型在更簡(jiǎn)單的設(shè)置中表現(xiàn)如此出色，但在標(biāo)準(zhǔn)設(shè)置中表現(xiàn)如此糟糕。鑒于該模型在前一種情況下具有近乎完美的準(zhǔn)確性，其在后一種情況下的糟糕表現(xiàn)不能歸因于方法論問(wèn)題，因?yàn)閮煞N情況下的過(guò)程是相同的。唯一的區(qū)別是，在后一種情況下，模型必須從多個(gè)文檔而不是單個(gè)文檔中回憶信息。因此，該模型可能在這方面存在問(wèn)題。

對(duì)于所有模型，研究者暫時(shí)無(wú)法確定它們?cè)趦煞N設(shè)置中的表現(xiàn)是否會(huì)隨著規(guī)模的擴(kuò)大而繼續(xù)提高，以及差距是否會(huì)最終消失。

文檔數(shù)量的影響

該團(tuán)隊(duì)研究了要合并和回憶的文檔數(shù)量對(duì)模型性能的影響。

圖 4 報(bào)告了按目標(biāo)答案中的文檔數(shù)量分組的準(zhǔn)確度（橫軸）。線條顏色表示模型大小。為了保持清晰度，這里僅給出在 8K 日記作者數(shù)據(jù)集上訓(xùn)練的模型的性能，因?yàn)樵谄渖嫌^察到的趨勢(shì)與其他數(shù)據(jù)集一致。

令人驚訝的是，當(dāng)需要回憶更多日記條目時(shí)，模型并沒(méi)有表現(xiàn)出性能下降。鑒于要生成的內(nèi)容增加，人們可能會(huì)預(yù)期模型答案中出現(xiàn)錯(cuò)誤的可能性會(huì)更高。然而，這一觀察結(jié)果可能歸因于模型的容量足夠，并且只有在回憶更多數(shù)量的文檔時(shí)才可能出現(xiàn)性能下降。

為了更深入地了解模型行為，該團(tuán)隊(duì)還分析了模型回憶的文檔數(shù)量與目標(biāo)文檔數(shù)量的比較（圖 5 和 6）。

對(duì)于在 8K 日記作者數(shù)據(jù)集上訓(xùn)練的 OPT 和 Pythia 模型，較小的模型似乎可以回憶起隨機(jī)數(shù)量的文檔。然而，隨著模型規(guī)模的增加，準(zhǔn)確確定要回憶的適當(dāng)文檔數(shù)量的能力會(huì)逐漸顯現(xiàn)。

相比之下，無(wú)論模型規(guī)模如何，在相同的 8K 日記作者數(shù)據(jù)集上訓(xùn)練的 Flan-T5 模型則會(huì)始終檢索看似隨機(jī)數(shù)量的文檔。有趣的是，當(dāng)擴(kuò)展到 32K 日記作者的數(shù)據(jù)集時(shí)，F(xiàn)lan-T5 會(huì)表現(xiàn)出與 OPT 和 Pythia 類似的模式 —— 隨著模型規(guī)模的增加，識(shí)別應(yīng)回憶多少文檔的能力會(huì)逐漸顯現(xiàn)。

更多具體的實(shí)驗(yàn)數(shù)據(jù)請(qǐng)參看原論文。

綜合分析

深挖前面的實(shí)驗(yàn)觀察，可以看到這些模型的能力所在與失敗之處，包括：

當(dāng)規(guī)模足夠大時(shí)，模型回憶的文檔通常長(zhǎng)度正確且沒(méi)有錯(cuò)誤。
在簡(jiǎn)化設(shè)置下訓(xùn)練的模型成功地回憶起了單個(gè)訓(xùn)練文檔中的信息。因此，關(guān)鍵似乎不在于回憶的文檔的內(nèi)容，而在于回憶的文檔數(shù)量。
如果規(guī)模不合適，模型似乎無(wú)法回憶正確數(shù)量的文檔，而是會(huì)回憶隨機(jī)數(shù)量的文檔。
最小的 Pythia 模型如果從隨機(jī)權(quán)重而不是預(yù)訓(xùn)練權(quán)重開始進(jìn)行微調(diào)，其性能會(huì)更好，這表明預(yù)訓(xùn)練權(quán)重的糟糕表現(xiàn)不能完全歸因于架構(gòu)原因。相反，問(wèn)題部分在于預(yù)訓(xùn)練權(quán)重未能學(xué)習(xí)到一種可以泛化到回憶正確數(shù)量文檔問(wèn)題的解決方案，而不僅僅是記住訓(xùn)練樣本。

關(guān)于 Flan-T5，考慮到從頭開始微調(diào)的最小模型的性能與從預(yù)訓(xùn)練權(quán)重微調(diào)的模型一樣差，性能不佳的根本原因可能是架構(gòu)或超參數(shù)設(shè)置不對(duì)。

此外，模型的大小似乎會(huì)影響其性能。由于 Flan-T5 采用編碼器 - 解碼器架構(gòu)，與 OPT 和 Pythia 等模型的僅解碼器結(jié)構(gòu)不同，其參數(shù)在編碼器和解碼器之間大致相等。因此，第二大 Flan-T5 模型的解碼器大小與第三小 Pythia 模型的解碼器大小相當(dāng)，這與 Pythia 性能開始提高的點(diǎn)相吻合（如圖 2 所示）。Pythia 系列模型中小于此閾值的模型沒(méi)有表現(xiàn)出顯著的性能提升。然而，最小的 Pythia 模型在從頭開始訓(xùn)練時(shí)，在類似條件下的表現(xiàn)優(yōu)于 Flan-T5。這凸顯出架構(gòu)因素可能會(huì)阻礙相同大小模型的能力的涌現(xiàn)。

至于規(guī)模，該團(tuán)隊(duì)的假設(shè)是較小的模型缺乏開發(fā)執(zhí)行此任務(wù)所需回路的能力，但要了解這些較小模型面臨的挑戰(zhàn)，還需要進(jìn)一步的研究。

整體來(lái)說(shuō)，這項(xiàng)研究證明了足夠規(guī)模的 LLM 確實(shí)具有知識(shí)意識(shí)（awareness of knowledge），即能夠知曉自己的知識(shí)范圍。你認(rèn)為這是否暗示了 LLM 存在自我意識(shí)呢？

責(zé)任編輯：張燕妮來(lái)源：機(jī)器之心

模型 AI 訓(xùn)練

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<em id="5lf06"></em>