自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

清華、中南開源3D交互實體AI Agent LEGENT

發(fā)布于 2025-2-19 09:56
瀏覽
0收藏

我們常見的AI Agent都是無法看到實體的,例如,RPA、智能按鍵精靈、AutoGPT等。雖然它們可以自動完成一些日常工作,但你是無法看到其真實身體。


清華大學(xué)、中南大學(xué)的研究人員聯(lián)合開源了一款可視化3D交互實體AIAgent模型LEGENT,使用戶可以在3D虛擬空間中與實體AI代理進行互動。


「AIGC開放社區(qū)」通過在線demo體驗了一下這個代理,非常有趣就像是玩一款游戲一樣。只需發(fā)送特定指令就可以讓AI做一些日常動作,例如,把汽車玩具放在書本上;把地上的筆撿起來給你等。

清華、中南開源3D交互實體AI Agent LEGENT-AI.x社區(qū)


清華、中南開源3D交互實體AI Agent LEGENT-AI.x社區(qū)

LEGENT主要由場景、智能體(Agent)和界面三大塊組成,同時融入了大語言模型和多模態(tài)模型,以便更好地理解用戶的文本指令。


LEGENT的場景模塊通過基于游戲引擎的實時物理模擬,為智能體的學(xué)習(xí)和決策提供一個逼真的3D環(huán)境。這包括精確模擬的重力、摩擦力和碰撞動力學(xué),使得智能體能夠更加自然地與環(huán)境互動,為學(xué)習(xí)和決策提供了必要的物理信息。


場景中的3D對象不僅有逼真的視覺效果,還能夠進行復(fù)雜的交互操作。例如,智能體可以抓取、搬運、放置和與這些對象互動,包括動態(tài)結(jié)構(gòu)如門和抽屜的操作。這種高度的交互性為智能體提供了豐富的操作體驗,是學(xué)習(xí)和模擬現(xiàn)實世界任務(wù)的任務(wù)。

清華、中南開源3D交互實體AI Agent LEGENT-AI.x社區(qū)

此外,研究人員還為場景模塊設(shè)計了靈活的可擴展性,允許開發(fā)人員導(dǎo)入自定義的3D對象,包括用戶設(shè)計的模型、現(xiàn)有數(shù)據(jù)集的對象,以及通過生成模型創(chuàng)建的對象,方便應(yīng)用在不同的業(yè)務(wù)場景中。


為了使LEGENT的智能體更具備擬人化的能力,研究人員加入了很多智能化功能。


LEGENT的智能體具備“自我中心視覺”特性,類似于人類通過自己的眼睛觀察世界。這種視覺系統(tǒng)使智能體能夠從第一人稱視角捕捉環(huán)境信息,為執(zhí)行任務(wù)提供了直觀的視覺輸入。

清華、中南開源3D交互實體AI Agent LEGENT-AI.x社區(qū)

在視覺的幫助下,使智能體能夠執(zhí)行一系列預(yù)定義的動作,例如,導(dǎo)航、物體操縱和通信。這些動作可以幫助智能體快速適應(yīng)不同的新環(huán)境,甚至是真實世界的場景中,并且動作是連續(xù)性的操作,例如,移動一定距離或旋轉(zhuǎn)特定角度,而不是簡單的離散動作。


為了幫助用戶更好地操作與智能體交流,研究人員將LEGENT的UI設(shè)計得像視頻小游戲一樣直觀,可以通過鍵盤和鼠標(biāo)直接與智能體和環(huán)境進行指令交互。

清華、中南開源3D交互實體AI Agent LEGENT-AI.x社區(qū)

此外,LEGENT還提供了場景生成和行為軌跡生成的界面。場景生成界面支持程序生成和語言指導(dǎo)生成兩種方式,用戶可以使用JSON格式輕松定制場景。


行為軌跡生成界面則專門為訓(xùn)練大型多模態(tài)模型而設(shè)計,能夠高效生成包括第一人稱視覺觀測和對應(yīng)動作的訓(xùn)練數(shù)據(jù)集。

清華、中南開源3D交互實體AI Agent LEGENT-AI.x社區(qū)

LEGENT的部署非常簡單、高效可以在普通PC上運行,無需特定的硬件要求或復(fù)雜的配置。還支持與遠程服務(wù)器的連接,便于訓(xùn)練和部署增強其可訪問性。


開源地址:https://github.com/thunlp/LEGENT?tab=readme-ov-file

論文地址:https://arxiv.org/abs/2404.18243


本文轉(zhuǎn)自 AIGC開放社區(qū)  ,作者:AIGC開放社區(qū)


原文鏈接:??https://mp.weixin.qq.com/s/vUDlNy4qCIlO7570ipNV5Q??

標(biāo)簽
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦