自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

大模型走向物理世界,TeleAI 發(fā)布大模型驅(qū)動的具身智能綜述,覆蓋300篇文獻

人工智能 新聞
具身智能是人工智能、機器人學(xué)、認知科學(xué)的交叉領(lǐng)域,主要研究如何使機器人具備類似人類的感知、規(guī)劃、決策和行為能力。

近年來,大模型在人工智能領(lǐng)域掀起了一場革命,各種文本、圖像、多模態(tài)大模型層出不窮,已經(jīng)深深地改變了人們的工作和生活方式。另一方面,在國際半導(dǎo)體大會上,英偉達創(chuàng)始人黃仁勛表示,人工智能下一個浪潮將是 “具身智能”,即能理解、推理、并與物理世界互動的智能系統(tǒng)。近年來,國內(nèi)外商業(yè)巨頭也紛紛推出自己的具身機器人發(fā)展計劃。大模型和具身智能,無疑是當(dāng)前人工智能領(lǐng)域最閃耀的雙子星。在光電感知技術(shù)、機器人技術(shù)、大模型技術(shù)的快速發(fā)展下,大模型驅(qū)動的具身智能,不僅有望極大提升機器人的智能水平,更將推動人工智能技術(shù)邁向物理世界,從而產(chǎn)生更加廣泛的應(yīng)用。

在此背景下,中國電信 CTO、首席科學(xué)家李學(xué)龍教授牽頭組建中國電信人工智能研究院 (TeleAI), 并將大模型和具身智能作為重要的研究方向。近期,由 TeleAI 研究科學(xué)家白辰甲、清華大學(xué)助理教授許華哲、TeleAI 院長李學(xué)龍教授共同撰寫的中文綜述《大模型驅(qū)動的具身智能:發(fā)展與挑戰(zhàn)》一文在《中國科學(xué):信息科學(xué)》發(fā)表,綜述通過對 300 篇相關(guān)文獻的分類和解讀,深度剖析大模型驅(qū)動的具身智能的基本概念、技術(shù)框架、現(xiàn)有挑戰(zhàn)和未來展望,梳理這一熱點問題背后的研究脈絡(luò)和技術(shù)體系,進一步推動具身智能領(lǐng)域的發(fā)展,助力國家人工智能發(fā)展戰(zhàn)略。

圖片


  • 論文地址:https://www.sciengine.com/SSI/doi/10.1360/SSI-2024-0076

具身智能是人工智能、機器人學(xué)、認知科學(xué)的交叉領(lǐng)域,主要研究如何使機器人具備類似人類的感知、規(guī)劃、決策和行為能力。具身智能強調(diào)感知 - 運動回路,使用物理實體來感知環(huán)境,根據(jù)任務(wù)目標進行規(guī)劃和決策,使用運動操作能力來完成任務(wù)。大模型具有對物理世界的豐富知識,能夠為智能體提供自然語言交互、環(huán)境感知和任務(wù)規(guī)劃的能力,同時能夠和具身智能的傳統(tǒng)框架相結(jié)合,提升智能體策略學(xué)習(xí)的泛化性。圖 1 展示了該領(lǐng)域的典型進展。

圖片

圖 1 領(lǐng)域典型進展

綜述首先介紹相關(guān)技術(shù)背景,包括具身智能的基本概念,大模型相關(guān)技術(shù),以及強化學(xué)習(xí)、模仿學(xué)習(xí)、模型預(yù)測控制等策略學(xué)習(xí)框架。隨后,從學(xué)習(xí)范式的角度將大模型驅(qū)動的具身智能算法概括了五大類并依次進行了詳細闡述,分別是大模型驅(qū)動的環(huán)境感知、大模型驅(qū)動的任務(wù)規(guī)劃、大模型驅(qū)動的基礎(chǔ)策略、大模型驅(qū)動的獎勵函數(shù)、大模型驅(qū)動的數(shù)據(jù)生成。圖 2 展示了綜述的整體框架。

圖片

圖 2 綜述整體框架

大模型驅(qū)動的具身環(huán)境感知

在具身智能任務(wù)中,智能光電設(shè)備可以為具身智能體提供周圍環(huán)境的視覺信號,隨后大模型感知技術(shù)為具身決策提供基礎(chǔ)。1)相比于傳統(tǒng)的特征提取方法,視覺大模型具有較好的泛化性,許多研究通過引入視覺預(yù)訓(xùn)練模型來提高策略的視覺泛化能力和魯棒性。2)機器人 Affordance 是一種對操作任務(wù)更具有解釋性的通用特性,通過預(yù)訓(xùn)練 Affordance 模型能夠為具身操作提供更詳細的指導(dǎo),例如物體的交互位置 (如門把手,茶壺手柄等),物體的交互軌跡 (如向內(nèi)推、向上提等),如圖 3 所示。3)復(fù)雜任務(wù)需要獲取操作物體的 3D 場景特征,許多方法設(shè)計從點云和多視角圖像中提取目標位置、方向、遮擋、物體之間的堆疊關(guān)系等。該領(lǐng)域典型方法如表 1 所示。

圖片

圖 3 典型的 Affordance 提取方式

圖片

表 1 大模型驅(qū)動的具身感知算法總結(jié)

大模型驅(qū)動的具身任務(wù)規(guī)劃

在大規(guī)模語言數(shù)據(jù)中訓(xùn)練得到的大模型對現(xiàn)實世界有著豐富的先驗知識,可以用來作為具身智能任務(wù)的規(guī)劃器。然而,大模型的知識與具身環(huán)境存在不匹配的現(xiàn)象,可能會導(dǎo)致大模型的規(guī)劃無法執(zhí)行。1)現(xiàn)有研究通過構(gòu)建閉環(huán)反饋的方法來解決開環(huán)規(guī)劃中存在的問題,包括大模型自我反饋、外部環(huán)境反饋、強化學(xué)習(xí)反饋等,對大模型等規(guī)劃進行糾錯,如圖 4 所示。2)通過規(guī)劃搜索算法能夠提升大模型在長周期任務(wù)規(guī)劃中的最優(yōu)性,這一領(lǐng)域包含蒙特卡洛樹搜索、世界模型、規(guī)劃領(lǐng)域定義語言搜索等。該領(lǐng)域典型方法如表 2 所示。

圖片

圖 4 大模型規(guī)劃等閉環(huán)反饋方法

圖片

表 2 大模型驅(qū)動的具身規(guī)劃算法總結(jié)

大模型驅(qū)動的具身基礎(chǔ)策略

大模型任務(wù)規(guī)劃依賴于能夠執(zhí)行規(guī)劃對底層技能庫。為了減輕底層技能庫定義的依賴,提升決策效率,1)許多研究考慮將大模型參數(shù)作為具身基礎(chǔ)策略,并利用具身數(shù)據(jù)對大模型參數(shù)進行微調(diào),使大模型能夠更加適應(yīng)于具身決策場景?;A(chǔ)策略可以輸出更具體的任務(wù)規(guī)劃,也可以直接輸出機器人需要執(zhí)行的動作,如圖 5 所示。2)擴散模型由于對長序列數(shù)據(jù)建模中的強大能力,許多研究將其用于建模專家軌跡的多樣化數(shù)據(jù)分布,從而用于長序列任務(wù)的軌跡規(guī)劃或動作規(guī)劃,或作為具身策略結(jié)合強化學(xué)習(xí)算法進行策略優(yōu)化。

圖片

圖 5 大模型驅(qū)動的具身策略微調(diào)

圖片

表 3 大模型具身基礎(chǔ)策略算法總結(jié)

大模型驅(qū)動的具身獎勵函數(shù)

在基于強化學(xué)習(xí)和模型規(guī)劃控制的具身算法中,最優(yōu)策略通過優(yōu)化獎勵函數(shù)產(chǎn)生。傳統(tǒng)方法中獎勵函數(shù)由機器人領(lǐng)域?qū)<以O(shè)計,具有一定的設(shè)計難度。1)大模型對機器人和任務(wù)具有豐富的先驗知識,許多研究提出使用大語言模型 / 視覺語言模型進行獎勵圖或獎勵函數(shù)的生成,隨后通過策略優(yōu)化和環(huán)境反饋進行優(yōu)化。2)其他研究學(xué)習(xí)通過從狀態(tài)視頻預(yù)測、描述 - 軌跡匹配程度、軌跡相似性等方面學(xué)習(xí)參數(shù)化的獎勵模型。3)受大模型偏好學(xué)習(xí)等啟發(fā),許多研究通過人類反饋對軌跡偏好進行打分,使用人類反饋強化學(xué)習(xí)(RLHF)算法進行獎勵模型等訓(xùn)練。典型框架如圖 6 和表 4 所示。

圖片

圖 6 大模型驅(qū)動的獎勵函數(shù)框架

圖片

表 4 大模型驅(qū)動的具身獎勵函數(shù)算法總結(jié)

大模型驅(qū)動的具身數(shù)據(jù)生成

大模型進行具身數(shù)據(jù)生成有望解決機器人數(shù)據(jù)稀缺的難題。1)世界模型(World Model)揭示了物理世界的運行規(guī)律,包括未來視覺觀測如何改變,狀態(tài)如何根據(jù)環(huán)境動力學(xué)進行轉(zhuǎn)移,以及智能體最終達到的狀態(tài)等。構(gòu)建世界模型能夠快速產(chǎn)生大量軌跡來豐富強化學(xué)習(xí)或模仿學(xué)習(xí)的數(shù)據(jù),基本框架包含隱空間世界模型、Transformer 世界模型、擴散世界模型等。2)大模型能夠借助仿真環(huán)境進行自動化的環(huán)境生成和數(shù)據(jù)采集,主要流程包括大模型自動任務(wù)提出、自動環(huán)境構(gòu)造、自動任務(wù)解決、自動數(shù)據(jù)采集、自動技能學(xué)習(xí)等,快速產(chǎn)生針對特定任務(wù)的仿真數(shù)據(jù),進行機器人技能和策略的學(xué)習(xí),如圖 7 所示。該領(lǐng)域典型方法如表 5 所示。

圖片

圖 7 大模型驅(qū)動的仿真環(huán)境和數(shù)據(jù)生成框架

圖片

表 5 大模型驅(qū)動的具身數(shù)據(jù)生成算法總結(jié)

大模型驅(qū)動的具身智能已具備了研究和技術(shù)體系的雛形,有望使 “數(shù)字” 大模型在 “實體” 機器人中生根發(fā)芽。綜述隨后分析了現(xiàn)有研究之間存在的聯(lián)系,并總結(jié)了目前大模型驅(qū)動的具身智能領(lǐng)域面臨的挑戰(zhàn),包括大模型在特定具身場景中的適應(yīng)問題、大模型策略和人類偏好的對齊問題、具身策略的跨域泛化問題、大模型驅(qū)動多智能體協(xié)作問題、具身智能在真實環(huán)境中所面臨的挑戰(zhàn)和大模型具身策略的決策實時性問題等。

雖然目前關(guān)于采取何種路線能夠達到通用具身智能仍很難定論,但大模型的成功切實的推動了具身智能的發(fā)展。綜述對該領(lǐng)域的未來研究進行了展望,包括統(tǒng)一具身數(shù)據(jù)平臺、通用具身數(shù)據(jù)表征、魯棒具身控制策略、可控具身策略生成、人機合作具身智能、異構(gòu)智能體協(xié)同、輕量化具身策略和人形機器人等方面。

責(zé)任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2024-06-04 09:25:51

2025-03-07 10:24:43

2025-04-25 02:30:00

機械臂大模型多模態(tài)

2023-10-19 13:57:00

AI模型

2023-10-07 13:17:44

2025-01-16 17:08:38

2024-01-25 15:48:56

2024-06-19 16:11:22

2024-11-29 18:37:07

2023-12-23 23:16:36

機器人模型

2022-11-10 10:14:12

人工智能

2024-01-10 17:25:00

AI數(shù)據(jù)

2025-02-21 09:37:00

2024-09-27 09:48:28

2024-01-22 13:17:00

AI模型

2025-04-16 02:30:00

點贊
收藏

51CTO技術(shù)棧公眾號