自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

讓AI模型成為GTA五星玩家,基于視覺的可編程智能體Octopus來了

人工智能 新聞
為了解決如何使大模型具身智能化的問題,創(chuàng)建能夠準(zhǔn)確制定計(jì)劃并執(zhí)行命令的自主和情境感知系統(tǒng),來自新加坡南洋理工大學(xué),清華大學(xué)等的學(xué)者提出了 Octopus。

圖片

電子游戲已經(jīng)成為如今現(xiàn)實(shí)世界的模擬舞臺,展現(xiàn)出無限可能。以游戲《俠盜獵車手》(GTA)為例,在 GTA 的世界里,玩家可以以第一人稱視角,在洛圣都(游戲虛擬城市)當(dāng)中經(jīng)歷豐富多彩的生活。然而,既然人類玩家能夠在洛圣都里盡情遨游完成若干任務(wù),我們是否也能有一個(gè) AI 視覺模型,操控 GTA 中的角色,成為執(zhí)行任務(wù)的 “玩家” 呢?GTA 的 AI 玩家又是否能夠扮演一個(gè)五星好市民,遵守交通規(guī)則,幫助警方抓捕罪犯,甚至做個(gè)熱心腸的路人,幫助流浪漢找到合適的住所?

目前的視覺 - 語言模型(VLMs)在多模態(tài)感知和推理方面取得了實(shí)質(zhì)性的進(jìn)步,但它們往往基于較為簡單的視覺問答(VQA)或者視覺標(biāo)注(Caption)任務(wù)。這些任務(wù)設(shè)定顯然無法使 VLM 真正完成現(xiàn)實(shí)世界當(dāng)中的任務(wù)。因?yàn)閷?shí)際任務(wù)不僅需要對于視覺信息的理解,更需要模型具有規(guī)劃推理以及根據(jù)實(shí)時(shí)更新的環(huán)境信息做出反饋的能力。同時(shí)生成的規(guī)劃也需要能夠操縱環(huán)境中的實(shí)體來真實(shí)地完成任務(wù)。

盡管已有的語言模型(LLMs)能夠根據(jù)所提供的信息進(jìn)行任務(wù)規(guī)劃,但其無法理解視覺輸入,極大的限制了語言模型在執(zhí)行現(xiàn)實(shí)世界的具體任務(wù)時(shí)的應(yīng)用范圍,尤其是對于一些具身智能任務(wù),基于文本的輸入往往很難詳盡或過于復(fù)雜,從而使得語言模型無法從中高效地提取信息從而完成任務(wù)。而當(dāng)前的語言模型對于程序生成已經(jīng)進(jìn)行了若干探索,但是根據(jù)視覺輸入來生成結(jié)構(gòu)化,可執(zhí)行,且穩(wěn)健的代碼的探索還尚未深入。

為了解決如何使大模型具身智能化的問題,創(chuàng)建能夠準(zhǔn)確制定計(jì)劃并執(zhí)行命令的自主和情境感知系統(tǒng),來自新加坡南洋理工大學(xué),清華大學(xué)等的學(xué)者提出了 Octopus。Octopus 是一種基于視覺的可編程智能體,它的目的是通過視覺輸入學(xué)習(xí),理解真實(shí)世界,并以生成可執(zhí)行代碼的方式完成各種實(shí)際任務(wù)。通過在大量視覺輸入和可執(zhí)行代碼的數(shù)據(jù)對的訓(xùn)練,Octopus學(xué)會(huì)了如何操控電子游戲的角色完成游戲任務(wù),或者完成復(fù)雜的家務(wù)活動(dòng)。

圖片

  • 論文地址:https://arxiv.org/abs/2310.08588
  • 項(xiàng)目網(wǎng)頁:https://choiszt.github.io/Octopus/
  • 開源代碼:https://github.com/dongyh20/Octopus

數(shù)據(jù)采集與訓(xùn)練

為了訓(xùn)練能夠完成具身智能化任務(wù)的視覺 - 語言模型,研究者們還開發(fā)了 OctoVerse,其包含兩個(gè)仿真系統(tǒng)用于為 Octopus 的訓(xùn)練提供訓(xùn)練數(shù)據(jù)以及測試環(huán)境。這兩個(gè)仿真環(huán)境為 VLM 的具身智能化提供了可用 的訓(xùn)練以及測試場景,對模型的推理和任務(wù)規(guī)劃能力都提出了更高的要求。具體如下:

1.OctoGibson:基于斯坦福大學(xué)開發(fā)的 OmniGibson 進(jìn)行開發(fā),一共包括了 476 個(gè)符合現(xiàn)實(shí)生活的家 務(wù)活動(dòng)。整個(gè)仿真環(huán)境中包括 16 種不同類別的家庭場景,涵蓋 155 個(gè)實(shí)際的家庭環(huán)境實(shí)例。模型可 以操作其中存在的大量可交互物體來完成最終的任務(wù)。

2.OctoGTA:基于《俠盜獵車手》(GTA)游戲進(jìn)行開發(fā),一共構(gòu)建了 20 個(gè)任務(wù)并將其泛化到五個(gè)不 同的場景當(dāng)中。通過預(yù)先設(shè)定好的程序?qū)⑼婕以O(shè)定在固定的位置,提供完成任務(wù)必須的物品和 NPC,以保證任務(wù)能夠順利進(jìn)行。

下圖展示了 OctoGibson 的任務(wù)分類以及 OctoGibson 和 OctoGTA 的一些統(tǒng)計(jì)結(jié)果。

圖片

為了在構(gòu)建的兩個(gè)仿真環(huán)境中高效的收集訓(xùn)練數(shù)據(jù),研究者構(gòu)建了一套完整的數(shù)據(jù)收集系統(tǒng)。通過引入 GPT-4 作為任務(wù)的執(zhí)行者,研究者們使用預(yù)先實(shí)現(xiàn)的函數(shù)將在仿真環(huán)境當(dāng)中采集到的視覺輸入處理為文本信息提供給 GPT-4,在 GPT-4 返回當(dāng)前一步的任務(wù)規(guī)劃和可執(zhí)行代碼后,再在仿真環(huán)境當(dāng)中執(zhí)行代碼,并 判斷當(dāng)前一步的任務(wù)是否完成。如果成功,則繼續(xù)采集下一步的視覺輸入;如果失敗,則回到上一步的起始位置,重新采集數(shù)據(jù)。

圖片

上圖以 OctoGibson 環(huán)境當(dāng)中的 Cook a Bacon 任務(wù)為例,展示了收集數(shù)據(jù)的完整流程。需要指出的是,在收集數(shù)據(jù)的過程中,研究者不僅記錄了任務(wù)執(zhí)行過程中的視覺信息,GPT-4 返回的可執(zhí)行代碼等,還記錄了每一個(gè)子任務(wù)的成功情況,這些將作為后續(xù)引入強(qiáng)化學(xué)習(xí)來構(gòu)建更高效的 VLM 的基礎(chǔ)。GPT-4 的功能雖然強(qiáng)大,但并非無懈可擊。錯(cuò)誤可以以多種方式顯現(xiàn),包括語法錯(cuò)誤和模擬器中的物理挑戰(zhàn)。例如,如圖 3 所示,在狀態(tài) #5 和 #6 之間,由于 agent 拿著的培根與平底鍋之間的距離過遠(yuǎn),導(dǎo)致 “把培根放到平底鍋” 的行動(dòng)失敗。此類挫折會(huì)將任務(wù)重置到之前的狀態(tài)。如果一個(gè)任務(wù)在 10 步之后仍未完成,則被認(rèn)定為不成功,我們會(huì)因預(yù)算問題而終止這個(gè)任務(wù),而這個(gè)任務(wù)的所有子任務(wù)的數(shù)據(jù)對都會(huì)認(rèn)為執(zhí)行失敗。

圖片

在收集一定規(guī)模的訓(xùn)練數(shù)據(jù)后,研究者利用這些數(shù)據(jù)訓(xùn)練出了一個(gè)具身智能化的視覺 - 語言模型 Octopus。上圖展現(xiàn)了完整的數(shù)據(jù)采集和訓(xùn)練流程。在第一階段,通過使用采集的數(shù)據(jù)進(jìn)行監(jiān)督式微調(diào),研究者構(gòu)建出了一個(gè)能夠以視覺信息作為輸入,遵從固定格式進(jìn)行輸出的 VLM 模型。在這一階段, 模型能夠完成視覺輸入信息到任務(wù)計(jì)劃以及可執(zhí)行代碼的映射。而在第二階段,研究者引入了 RLEF

(Reinforcement Learning with Environmental Feedback),通過利用先前采集的子任務(wù)的成功情況作為獎(jiǎng)勵(lì)信號,采用強(qiáng)化學(xué)習(xí)的算法更進(jìn)一步的提升 VLM 的任務(wù)規(guī)劃能力,從而提高整體任務(wù)的成功率。

實(shí)驗(yàn)結(jié)果

研究者在構(gòu)建的 OctoGibson 環(huán)境中,對于當(dāng)前主流的 VLM 和 LLM 進(jìn)行了測試,下表展示了主要實(shí)驗(yàn)結(jié)    果。對于不同的測試模型,Vision    Model 列舉了不同模型所使用的視覺模型,對于 LLM 來說,研究者將視覺信息處理為文本作為 LLM 的輸入。其中 O 代表提供了場景中可交互物體的信息,R 代表提供了場景中 物體相對關(guān)系的信息,GT 代表使用真實(shí)準(zhǔn)確的信息,而不引入額外的視覺模型來進(jìn)行檢測。

對于所有的測試任務(wù),研究者報(bào)告了完整的測試集成功率,并進(jìn)一步將其分為四個(gè)類別,分別記錄在訓(xùn) 練集中存在的場景中完成新任務(wù),在訓(xùn)練集中不存在的場景中完成新任務(wù)的泛化能力,以及對于簡單的 跟隨任務(wù)以及復(fù)雜的推理任務(wù)的泛化能力。對于每一種類別的統(tǒng)計(jì),研究者報(bào)告了兩種評價(jià)指標(biāo),其中 第一個(gè)為任務(wù)的完成率,以衡量模型完成具身智能任務(wù)的成功率;第二個(gè)為任務(wù)規(guī)劃準(zhǔn)確率,用于體現(xiàn) 模型進(jìn)行任務(wù)規(guī)劃的能力。

圖片

此外,研究者還展示了不同模型對于 OctoGibson 仿真環(huán)境中采集的視覺數(shù)據(jù)的響應(yīng)實(shí)例。下圖展示了 TAPA+CodeLLaMA,Octopus 以及 GPT-4V 對于 OctoGibson 當(dāng)中視覺輸入生成的回復(fù)??梢钥吹剑噍^ 于 TAPA+CodeLLaMA 以及只進(jìn)行了監(jiān)督式微調(diào)的 Octopus 模型,使用 RLEF 進(jìn)行訓(xùn)練之后的 Octopus 模型 的任務(wù)規(guī)劃更加合理,即使是對于較為模糊的任務(wù)指令(find a carboy)也能提供更加完善的計(jì)劃。這些表現(xiàn)都更進(jìn)一步說明了 RLEF 訓(xùn)練策略對于提升模型的任務(wù)規(guī)劃能力以及推理能力的有效性。

圖片

總體來說,現(xiàn)有的模型在仿真環(huán)境中表現(xiàn)出的實(shí)際任務(wù)完成度和任務(wù)規(guī)劃能力依舊有很大的提升空間。研究者們總結(jié)了一些較為關(guān)鍵的發(fā)現(xiàn):

1.CodeLLaMA 能夠提升模型的代碼生成能力,但不能提升任務(wù)規(guī)劃能力。

研究者指出,通過實(shí)驗(yàn)結(jié)果可以看出,CodeLLaMA 能夠顯著的提升模型的代碼生成能力。與傳統(tǒng)的 LLM 相比,使用 CodeLLaMA 能夠獲得更好的,可執(zhí)行率更高的代碼。然而,盡管一些模型使用了 CodeLLaMA 進(jìn)行代碼生成,但整體任務(wù)的成功率依然會(huì)受到任務(wù)規(guī)劃能力的限制。任務(wù)規(guī)劃能力較弱的模型,及時(shí)生成的代碼可執(zhí)行率較高,最終的任務(wù)成功率依然較低;而反觀 Octopus,盡管未使用 CodeLLaMA,代碼的可執(zhí)行率有所下降,但得益于其強(qiáng)大的任務(wù)規(guī)劃能力,整體任務(wù)成功率依舊優(yōu)于其他模型。

2.LLM 在面對大量的文本信息輸入時(shí),處理較為困難。

在實(shí)際的測試過程中,研究者通過對比 TAPA 和 CodeLLaMA 的實(shí)驗(yàn)結(jié)果得出了一個(gè)結(jié)論,即語言模型很難較好地處理長文本輸入。研究者們遵從 TAPA 的方法,使用真實(shí)的物體信息來進(jìn)行任務(wù)規(guī)劃,而 CodeLLaMA 使用物體和物體之間的相對位置關(guān)系,以期提供較為完整的信息。但在實(shí)驗(yàn)過程中,研究者 發(fā)現(xiàn)由于環(huán)境當(dāng)中存在大量的冗余信息,因此當(dāng)環(huán)境較為復(fù)雜時(shí),文本輸入顯著增加,LLM 難以從大量 的冗余信息當(dāng)中提取有價(jià)值的線索,從而降低了任務(wù)的成功率。這也體現(xiàn)了 LLM 的局限性,即如果使用 文本信息來表示復(fù)雜的場景,將會(huì)產(chǎn)生大量冗余且無價(jià)值的輸入信息。

3.Octopus 表現(xiàn)出了較好的任務(wù)泛化能力。

通過實(shí)驗(yàn)結(jié)果可以得出,Octopus 具有較強(qiáng)的任務(wù)泛化能力。其在訓(xùn)練集當(dāng)中未出現(xiàn)的新場景中完成任 務(wù)的成功率和任務(wù)規(guī)劃的成功率均優(yōu)于已有的模型。這也展現(xiàn)出了視覺 - 語言模型的一些內(nèi)在優(yōu)勢,針對 同一類別的任務(wù),其泛化性優(yōu)于傳統(tǒng)的 LLM。

4.RLEF 能夠增強(qiáng)模型的任務(wù)規(guī)劃能力。

在實(shí)驗(yàn)結(jié)果中,研究者們提供了只經(jīng)過第一階段監(jiān)督式微調(diào)的模型以及經(jīng)過 RLEF 訓(xùn)練之后模型的性能比 較。可以看出,在經(jīng)過 RLEF 訓(xùn)練之后,模型在需要較強(qiáng)的推理能力和任務(wù)規(guī)劃能力的任務(wù)上,整體成功 率和規(guī)劃能力有了顯著提升。與已有的 VLM 訓(xùn)練策略相比,RLEF 也更加的高效。上圖所展示的示例也能夠體現(xiàn) RLEF 訓(xùn)練之后模型在任務(wù)規(guī)劃能力上的提升。經(jīng)過 RLEF 訓(xùn)練之后的模型能夠懂得在面對較為復(fù)雜的任務(wù)時(shí),如何在環(huán)境當(dāng)中進(jìn)行探索;此外,模型在任務(wù)規(guī)劃上能夠更加遵從仿真環(huán)境中的實(shí)際要求(如,模型需要先移動(dòng)到要交互的物體,才能開始交互),從而降低任務(wù)規(guī)劃的失敗比率。

討論

消融實(shí)驗(yàn)

在對模型的實(shí)際能力進(jìn)行評估之后,研究者們更進(jìn)一步探究了一些影響模型性能的可能因素。如下圖所示,研究者從三個(gè)方面開展了實(shí)驗(yàn)。

1. 訓(xùn)練參數(shù)的比重

研究者對比了只訓(xùn)練視覺模型與語言模型的連接層,訓(xùn)練連接層和語言模型,以及完整訓(xùn)練的模型的性能??梢钥闯觯S著訓(xùn)練參數(shù)的增加,模型的性能逐漸獲得了提升。這說明,訓(xùn)練參數(shù)的多少對于模型是否能夠在一些固定的場景當(dāng)中完成任務(wù)至關(guān)重要。

2. 模型的大小

研究者們比較了較小的 3B 參數(shù)模型與基線 7B 模型在兩個(gè)訓(xùn)練階段的性能差異。通過比較可以看出,當(dāng)模型整體參數(shù)量較大時(shí),模型的性能也會(huì)得到明顯的提升。如何選定合適的模型訓(xùn)練參數(shù),使得模型能夠 擁有完成對應(yīng)任務(wù)的能力,同時(shí)也能夠保證模型的輕量化和較快的推理速度,將是未來 VLM 領(lǐng)域研究中較為關(guān)鍵的一點(diǎn)。

3. 視覺輸入的連續(xù)性

為了探究不同的視覺輸入對于實(shí)際 VLM 性能的影響,研究者對視覺信息的輸入順序進(jìn)行了實(shí)驗(yàn)。在測試 的過程中,模型會(huì)在仿真環(huán)境當(dāng)中順序轉(zhuǎn)動(dòng),采集第一視角圖像,并采集兩張鳥瞰圖,之后這些視覺圖 像會(huì)按順序輸入 VLM 當(dāng)中。而在實(shí)驗(yàn)中,當(dāng)研究者隨機(jī)打亂視覺圖像順序再輸入 VLM 中時(shí),VLM 產(chǎn)生了 較大的性能損失。這一方面說明了完整且結(jié)構(gòu)化的視覺信息對于 VLM 的重要性,另一方面也從某種程度上反映了 VLM 在對視覺輸入進(jìn)行響應(yīng)時(shí)需要依靠視覺圖像的內(nèi)在聯(lián)系,而一旦這種視覺上的聯(lián)系被破壞,將會(huì)極大的影響 VLM 的表現(xiàn)。

圖片

GPT-4

此外,研究者還對 GPT-4 以及 GPT-4V 在仿真環(huán)境當(dāng)中的性能進(jìn)行了測試和統(tǒng)計(jì)。

1.GPT-4

針對 GPT-4,在測試過程中研究者提供與使用其采集訓(xùn)練數(shù)據(jù)時(shí)完全相同的文本信息作為輸入。在測試任務(wù)上,GPT-4 能夠完成一半的任務(wù),這一方面說明現(xiàn)有的 VLM 相對于 GPT-4 這樣的語言模型,從性能上還 有很大的提升空間;另一方面也說明,即使是 GPT-4 這樣性能較強(qiáng)的語言模型,在面對具身智能任務(wù)時(shí), 其任務(wù)規(guī)劃能力和任務(wù)執(zhí)行能力依然需要更進(jìn)一步的提升。

2.GPT-4V

由于 GPT-4V 剛剛發(fā)布可以直接調(diào)用的 API,研究者還沒來得及嘗試,但是研究者們之前也手動(dòng)測試了一些實(shí)例來展現(xiàn) GPT-4V 的性能。通過一些示例,研究者認(rèn)為 GPT-4V 對于仿真環(huán)境當(dāng)中的任務(wù)具有較強(qiáng)的零樣本泛化能力,也能夠根據(jù)視覺輸入生成對應(yīng)的可執(zhí)行的代碼,但其在一些任務(wù)規(guī)劃上稍遜色于在仿真環(huán)境采集的數(shù)據(jù)上微調(diào)之后的模型。

總結(jié)

研究者們指出了目前工作的一些局限性:

1. 當(dāng)前的 Octopus 模型在較為復(fù)雜的任務(wù)上性能并不令人滿意。在面對復(fù)雜任務(wù)時(shí),Octopus 往往會(huì)做出錯(cuò)誤的規(guī)劃,并且嚴(yán)重依賴于環(huán)境給出的反饋信息,最終往往難以完成整體的任務(wù)。

2.Octopus 模型僅在仿真環(huán)境當(dāng)中進(jìn)行訓(xùn)練,而如何將其遷移到真實(shí)世界當(dāng)中將會(huì)面臨一系列的問題。例如,真實(shí)環(huán)境當(dāng)中模型將難以得到較為準(zhǔn)確的物體相對位置信息,如何構(gòu)建起物體對于場景 的理解將變得更加困難。

3.Octopus 目前的視覺輸入為離散的靜態(tài)圖片,如何使其能夠處理連續(xù)的視頻將是未來的挑戰(zhàn)。連續(xù)的視頻可以更進(jìn)一步提高模型完成任務(wù)的性能,但如何高效地處理和理解連續(xù)視覺輸入將成為進(jìn)一步提升 VLM 性能的關(guān)鍵。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2023-11-09 13:00:00

模型訓(xùn)練

2012-06-14 10:17:16

TecTile三星

2019-11-22 09:20:34

編程經(jīng)濟(jì)技術(shù)

2022-09-30 15:02:06

Python國慶紅旗

2009-06-19 18:51:13

ibmdwLotus

2014-03-26 10:49:06

SDN軟件定義網(wǎng)絡(luò)網(wǎng)絡(luò)可編程性

2021-05-31 20:06:57

網(wǎng)元協(xié)議網(wǎng)關(guān)

2013-08-06 14:04:46

網(wǎng)絡(luò)

2013-08-07 09:00:57

軟件定義網(wǎng)絡(luò)SDN

2023-04-04 15:46:16

云計(jì)算

2017-09-26 16:01:11

Wi-Fi五星酒店銳捷網(wǎng)絡(luò)

2018-02-01 04:02:41

數(shù)據(jù)中心網(wǎng)絡(luò)編程

2013-10-31 10:34:18

飛魚星無線云飛魚星路由器飛魚星

2024-08-01 13:46:08

2022-08-18 15:08:16

智能AI

2015-09-14 09:01:13

Android鏡子應(yīng)用

2018-01-02 11:15:27

網(wǎng)絡(luò)芯片應(yīng)用

2023-04-23 10:28:01

2025-03-03 11:16:18

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號