自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

ACL 2024論文蓋棺定論：大語言模型≠世界模擬器，Yann LeCun：太對了

作者：機器之心 2024-06-17 09:00:00

人工智能新聞

如果 GPT-4 在模擬基于常識任務的狀態(tài)變化時準確率都只有約 60%，那么我們還要考慮將大語言模型作為世界模擬器來使用嗎？

最近兩天，一篇入選 ACL 2024 的論文《Can Language Models Serve as Text-Based World Simulators?》在社交媒體 X 上引發(fā)了熱議，就連圖靈獎得主 Yann LeCun 也參與了進來。

這篇論文探討的問題是：當前語言模型本身是否可以充當世界模擬器，并正確預測動作如何改變不同的世界狀態(tài)，從而避免大量手動編碼的需要呢？

針對這一問題，來自亞利桑那大學、紐約大學、約翰斯?霍普金斯大學、微軟研究院、艾倫人工智能研究所等機構(gòu)的研究者在「基于文本的模擬器」上下文中給出了他們的答案。

他們認為：語言模型并不能作為世界模擬器使用。比如，GPT-4 在模擬基于常識任務（如燒開水）的狀態(tài)變化時，準確率僅為約 60%。

x 地址：https://x.com/peterjansen_ai/status/1801687501557665841

Yann LeCun 對這篇論文的發(fā)現(xiàn)表示了認同，并認為「沒有世界模型，也就沒有規(guī)劃?！?/span>

X 地址：https://x.com/ylecun/status/1801978192950927511

不過也有人表達了不同的觀點：當前 LLM（沒有進行針對性任務訓練）的準確率可以達到 60％，這不就說明了它們至少是「一定程度上的世界模型」嗎？并且會隨著 LLM 的迭代而持續(xù)改進。LeCun 又表示，世界模型不會是 LLM。

回到論文中，研究者構(gòu)建并使用了一個全新的基準，他們稱為「ByteSized32-State-Prediction」，包含了一個文本游戲狀態(tài)轉(zhuǎn)換和隨附游戲任務組成的數(shù)據(jù)集。他們首次使用該基準來直接量化大語言模型（LLM）作為基于文本的世界模擬器的性能。

通過在這個數(shù)據(jù)集上測試 GPT-4，研究者發(fā)現(xiàn)：盡管它的性能令人印象深刻，但如果沒有進一步的創(chuàng)新，它仍然是一個不可靠的世界模擬器。

因此，研究者認為，他們的工作既為當前 LLM 的能力和弱點提供了新的見解，也為跟蹤新模型出現(xiàn)時的未來進展提供了一個新的基準。

論文地址：https://arxiv.org/pdf/2406.06485

方法概覽

研究者探究了 LLM 在基于文本的虛擬環(huán)境中充當世界模擬器的能力，在這種環(huán)境中，智能體接收觀察結(jié)果并以自然語言提出操作以完成某些目標。

每個文本環(huán)境都可以正式表示為具有 7 元組 (S,A,T,O,R,C,D) 的目標條件部分可觀察馬爾可夫決策過程 (POMDP)，S 表示狀態(tài)空間，A 表示動作空間，T : S×A→S 表示轉(zhuǎn)換函數(shù)，O 表示觀察函數(shù)，R : S×A→R 表示獎勵函數(shù)，C 表示描述目標和動作語義的自然語言「上下文消息」，D : S×A→{0,1} 表示二元完成指示函數(shù)。

大模型模擬器（LLM-Sim）任務

研究者提出了一個預測任務，稱它為 LLM as-a-Simulator (LLM-Sim)，用來定量評估語言模型作為可靠模擬器的能力。

LLM-Sim 任務是將一個函數(shù) F : C×S×A→S×R×{0,1} 作為世界模擬器來實現(xiàn)。在實踐中，完整狀態(tài)轉(zhuǎn)換模擬器 F 應該考慮兩種類型的狀態(tài)轉(zhuǎn)換：動作驅(qū)動轉(zhuǎn)換和環(huán)境驅(qū)動轉(zhuǎn)換。

圖 1 為使用 LLM 作為文本游戲模擬器的示例：打開水槽后，水槽中的杯子被水填滿的過程。動作驅(qū)動轉(zhuǎn)換是采取打開水槽的動作后，水槽被打開（isOn=true）；而環(huán)境驅(qū)動轉(zhuǎn)換是在水槽打開時，水填滿水槽中的杯子。

為了更好地理解 LLM 對每個轉(zhuǎn)換進行建模的能力，研究者進一步將模擬器函數(shù) F 分解為三個步驟：

動作驅(qū)動轉(zhuǎn)換模擬器：給定 c、s_t 和 a_t， F_act：C×S×A→S 預測 s^act_t+1，其中 s^act_t+1 表示動作引起的直接狀態(tài)變化。
環(huán)境驅(qū)動轉(zhuǎn)換模擬器：給定 c 和 s^act_t+1，F(xiàn)_env：C×S→S 預測 s_t+1，其中 s_t+1 是任何環(huán)境驅(qū)動轉(zhuǎn)換后產(chǎn)生的狀態(tài)。
游戲進度模擬器：給定 c、s_t+1 和 a_t， F_R：C×S×A→R×{0,1} 預測獎勵 r_t+1 和游戲完成狀態(tài) d_t+1。

此外，研究者考慮了 LLM-Sim 任務的兩種變體

完整狀態(tài)預測：LLM 輸出完整狀態(tài)。
狀態(tài)差異預測：LLM 僅輸出輸入和輸出狀態(tài)之間的差異。

數(shù)據(jù)和評估

為了完成這一任務，研究者引入了一個新的文本游戲狀態(tài)轉(zhuǎn)換數(shù)據(jù)集。該數(shù)據(jù)集為「BYTESIZED32-State-Prediction (BYTESIZED32-SP) 」，它包含 76,369 個轉(zhuǎn)換，表示為 (c,s_t,rt,d_t,a_t,s^act_t+1,s_t+1,r_t+1,d_t+1) 元組。這些轉(zhuǎn)換是從 31 個不同的文本游戲中收集的。

下表 1 總結(jié)了額外語料庫統(tǒng)計數(shù)據(jù)。

LLM-Sim 上的性能由模型相對于測試樣本數(shù)據(jù)集上的真實標簽的預測準確性來決定。根據(jù)實驗條件，LLM 必須模擬對象屬性（模擬 F_act、F_env 或 F）和 / 或游戲進度（模擬 F_R 或 F），定義如下：

對象屬性：游戲中所有對象、每個對象的屬性（如溫度、大?。?，以及與其他對象的關系（如在另一個對象內(nèi)或之上）。
游戲進度：智能體相對于總體目標的狀態(tài)，包括當前累積的獎勵、游戲是否已終止以及總體目標是否已實現(xiàn)。

研究者注意到，在每種情況下，LLM 都提供了 ground truth 先前狀態(tài)（當函數(shù)為 F_env 時，先前狀態(tài)為 s^act_t+1 ）以及整體任務上下文。也就是說，LLM 始終執(zhí)行單步預測。

實驗結(jié)果

上圖 1 演示了研究者使用上下文學習評估 LLM-Sim 任務中模型的性能。他們評估了 GPT-4 在完整狀態(tài)和狀態(tài)差異預測機制中的準確性。該模型接收先前狀態(tài)（編碼為 JSON 對象）、先前操作和上下文消息，并生成后續(xù)狀態(tài)（作為完整的 JSON 對象或差異）。

下表 2 展示了 GPT-4 模擬完整狀態(tài)轉(zhuǎn)換的準確性，以及單獨模擬動作驅(qū)動轉(zhuǎn)換和環(huán)境驅(qū)動轉(zhuǎn)換的準確性。

研究者得出了以下幾項重要發(fā)現(xiàn)：

預測動作驅(qū)動轉(zhuǎn)換比預測環(huán)境驅(qū)動轉(zhuǎn)換更容易。在最好的情況下，GPT-4 能夠正確模擬 77.1% 的動態(tài)動作驅(qū)動轉(zhuǎn)換。相比之下，GPT-4 最多只能正確模擬 49.7% 的動態(tài)環(huán)境驅(qū)動轉(zhuǎn)換。

預測靜態(tài)轉(zhuǎn)換比動態(tài)轉(zhuǎn)換更容易。不出所料，在大多數(shù)情況下，對靜態(tài)轉(zhuǎn)換進行建模比對動態(tài)轉(zhuǎn)換進行建模要容易得多。

對于動態(tài)狀態(tài)，預測完整游戲狀態(tài)更容易；而對于靜態(tài)狀態(tài)，預測狀態(tài)差異更容易。預測動態(tài)狀態(tài)的狀態(tài)差異可以顯著提高模擬靜態(tài)轉(zhuǎn)換的性能（>10%），而模擬動態(tài)轉(zhuǎn)換時的性能會降低。

游戲規(guī)則很重要，LLM 能夠生成足夠好的游戲規(guī)則。當上下文消息中未提供游戲規(guī)則時，GPT-4 在所有三個模擬任務上的性能在大多數(shù)情況下都會下降。

GPT-4 在大多數(shù)情況下都能預測游戲進度。下表 3 展示了 GPT-4 預測游戲進度的結(jié)果。在上下文中加入了游戲規(guī)則信息后，GPT-4 可以在 92.1% 的測試用例中正確預測游戲進度。這些規(guī)則的存在在上下文中至關重要：如果沒有它們，GPT-4 的預測準確率會下降到 61.5%。

人類在 LLM-Sim 任務中的表現(xiàn)優(yōu)于 GPT-4。研究者對 LLM-Sim 任務進行了初步的人類研究。結(jié)果見下表 4。

結(jié)果發(fā)現(xiàn)，人類的整體準確率為 80%，而采樣的 LLM 的準確率為 50%，并且不同注釋者之間的差異很小。這表明，雖然任務對于人類來說總體上是直觀且相對容易的，但對于 LLM 來說仍有很大的改進空間。

GPT-4 在需要算術(shù)、常識或科學知識時更容易出錯。下圖 2 展示了在整體狀態(tài)轉(zhuǎn)換、動作驅(qū)動轉(zhuǎn)換和環(huán)境驅(qū)動轉(zhuǎn)換中，預測結(jié)果的正確比例、將屬性設置為不正確值的比例或未能更改屬性值的比例。

我們可以觀察到，GPT-4 能夠很好地處理大多數(shù)簡單的布爾值屬性。錯誤集中出現(xiàn)在需要算術(shù)（如溫度、timeAboveMaxTemp）、常識（如 current_aperture、current_focus）或科學知識（如 on）的非平凡屬性上。

更多技術(shù)細節(jié)和實驗結(jié)果請參閱原論文。

責任編輯：張燕妮來源：機器之心

51CTO技術(shù)棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

^{<sub id="5kxo5"></sub>}