自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<ruby id="1vpbh"></ruby>

<legend id="1vpbh"><track id="1vpbh"></track></legend>

<sub id="1vpbh"><p id="1vpbh"></p></sub>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

讓大模型自主探索開放世界，北大&智源提出訓(xùn)練框架LLaMA-Rider

作者：機器之心 2023-11-07 11:50:14

人工智能新聞

北京大學(xué)和北京智源人工智能研究院的團隊針對這個問題提出了 LLaMA-Rider，該方法賦予了大模型在開放世界中探索任務(wù)、收集數(shù)據(jù)、學(xué)習(xí)策略的能力，助力智能體在《我的世界》（Minecraft）中自主探索獲取知識并學(xué)習(xí)解決各種任務(wù)，提升智能體自主能力和通用性。

大語言模型因其強大而通用的語言生成、理解能力，展現(xiàn)出了成為通用智能體的潛力。與此同時，在開放式的環(huán)境中探索、學(xué)習(xí)則是通用智能體的重要能力之一。因此，大語言模型如何適配開放世界是一個重要的研究問題。

北京大學(xué)和北京智源人工智能研究院的團隊針對這個問題提出了 LLaMA-Rider，該方法賦予了大模型在開放世界中探索任務(wù)、收集數(shù)據(jù)、學(xué)習(xí)策略的能力，助力智能體在《我的世界》（Minecraft）中自主探索獲取知識并學(xué)習(xí)解決各種任務(wù)，提升智能體自主能力和通用性。

自主探索開放世界

論文鏈接：https://arxiv.org/abs/2310.08922
代碼鏈接：https://github.com/PKU-RL/LLaMA-Rider

1、環(huán)境反饋驅(qū)動的探索與學(xué)習(xí)

LLaMA-Rider 著眼于讓大語言模型 (LLM) 適應(yīng)環(huán)境從而提高在環(huán)境中解決多任務(wù)的能力。LLM 在預(yù)訓(xùn)練階段獲得的知識與實際環(huán)境很可能存在不一致，這常常導(dǎo)致決策錯誤。為了解決這個問題，現(xiàn)有的方法有些利用提示工程，通過和 LLM 頻繁交互讓其獲取環(huán)境信息，不過并不更新 LLM；有些使用強化學(xué)習(xí)在線微調(diào) LLM，不過其計算代價高且難以擴展到多任務(wù)和復(fù)雜任務(wù)。

LLaMA-Rider 對此提出了新的思路。它首先利用環(huán)境的反饋信息，靠 LLM 自身的能力在環(huán)境中探索，收集成功經(jīng)驗。之后，LLaMA-Rider 將經(jīng)驗整合成監(jiān)督數(shù)據(jù)集進行學(xué)習(xí)，更新自身的知識。這樣一個兩階段的訓(xùn)練框架讓 LLaMA-Rider 能夠在 Minecraft 環(huán)境中的 30 個任務(wù)上取得超過 ChatGPT 任務(wù)規(guī)劃器的平均表現(xiàn)，并展現(xiàn)出對新任務(wù)的泛化能力。

在探索階段，LLaMA-Rider 利用反饋 - 修改機制來進行主動探索。在每個時間步上，LLaMA-Rider 接收文本化的環(huán)境信息和任務(wù)信息，并給出下一步的決策。由于與環(huán)境的知識差距，該決策可能無法在環(huán)境中執(zhí)行并觸發(fā)環(huán)境的反饋信息，而該反饋信息會再次輸入給 LLaMA-Rider，引導(dǎo)其修改決策。憑借 LLM 自身的上下文理解能力和環(huán)境反饋信息，LLaMA-Rider 可高效探索開放世界。

為了將 LLM 的文本輸出匹配到環(huán)境的動作空間，LLaMA-Rider 使用了一組預(yù)訓(xùn)練的技能作為技能庫，并使用技能檢索模塊將 LLM 的輸出文本和技能庫中的技能描述進行匹配，檢索最接近的技能。由于技能描述和環(huán)境中的動作相比具有更多的語義，這種方式可以更大程度利用 LLM 的能力。

此外，LLaMA-Rider 使用了子任務(wù)重標記的方法，在探索過程中用當前正在完成的子任務(wù)信息替換輸入中的原始任務(wù)信息，讓 LLM 在探索過程中能關(guān)注當下的子目標，提高任務(wù)成功率。

在學(xué)習(xí)階段，探索時收集到的經(jīng)驗將會整合成監(jiān)督數(shù)據(jù)集，用以對 LLM 進行監(jiān)督微調(diào) (SFT)。數(shù)據(jù)集中同樣采用子任務(wù)重標記的方法讓 LLaMA-Rider 學(xué)習(xí)到任務(wù)之間的子任務(wù)組合性，提高策略的泛化能力。

2、實驗效果

LLaMA-Rider 使用的大語言模型為近期推出的 LLaMA-2-70B-chat。在 Minecraft 的三類共 30 個任務(wù)中，LLaMA-Rider 的表現(xiàn)超過了基于 ChatGPT 的任務(wù)規(guī)劃器，并且經(jīng)過學(xué)習(xí)后的 LLaMA-Rider 所能完成的任務(wù)數(shù)量也超過了它在探索階段能成功的數(shù)量，展現(xiàn)出 LLaMA-Rider 對于開放世界中持續(xù)學(xué)習(xí)和多任務(wù)解決的能力。

與強化學(xué)習(xí) (RL) 方法相比，LLaMA-Rider 則展現(xiàn)出了高采樣效率和低訓(xùn)練代價的優(yōu)勢。即使在難度較簡單、完成步數(shù)較短的木材相關(guān)任務(wù)上，RL 方法也難以取得訓(xùn)練成效，表明強化學(xué)習(xí)的訓(xùn)練方法難以擴展到大動作空間以及復(fù)雜的場景中。而 LLaMA-Rider 在探索階段只采用了 5-10 次的任務(wù)探索便完成數(shù)據(jù)收集，在學(xué)習(xí)階段也只在包含 1.3k 樣本量的數(shù)據(jù)集上進行訓(xùn)練就取得了效果提升。

作者進而發(fā)現(xiàn)，在對上述的 30 個任務(wù)進行探索學(xué)習(xí)后，LLaMA-Rider 在測試時對于學(xué)習(xí)過程中未探索過的更困難的鐵礦相關(guān)任務(wù)，也能取得效果的提升。這進一步體現(xiàn)了 LLaMA-Rider 學(xué)習(xí)到的決策能力的泛化性。

在消融實驗中，作者利用包含更多子任務(wù)的石頭相關(guān)任務(wù)，驗證了子任務(wù)重標記的方法對于任務(wù)成功率和任務(wù)泛化能力的關(guān)鍵作用。

除此之外，盡管 LLaMA-Rider 只學(xué)習(xí)了任務(wù)決策相關(guān)的數(shù)據(jù)，當作者使用任務(wù)相關(guān)的問題進行提問時，LLaMA-Rider 也給出了更準確的回答，表明它在訓(xùn)練過程中同樣學(xué)習(xí)到了環(huán)境知識，證明 LLaMA-Rider 起到了與環(huán)境知識對齊的作用。

3、總結(jié)

作者提出了 LLaMA-Rider 的大語言模型訓(xùn)練框架，讓大語言模型根據(jù)環(huán)境反饋結(jié)合自身能力自主探索開放世界，并根據(jù)收集到的經(jīng)驗完成高效學(xué)習(xí)，在 Minecraft 環(huán)境中取得了比包括 ChatGPT 任務(wù)規(guī)劃器在內(nèi)的其他方法更好的解決多任務(wù)的能力，讓大語言模型獲得了對開放世界的適應(yīng)性。此外，LLaMA-Rider 能利用過去任務(wù)的經(jīng)驗解決新任務(wù)的泛化能力表明了該方法應(yīng)用于大模型終身探索學(xué)習(xí)的前景。

責任編輯：張燕妮來源：機器之心

AI 訓(xùn)練

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<legend id="uxnre"></legend>

<cite id="uxnre"><track id="uxnre"></track></cite>