自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Google AI年終總結(jié)第六彈:沒有波士頓動(dòng)力的谷歌機(jī)器人,發(fā)展得怎么樣了?

人工智能 新聞
讓機(jī)器人聽懂人類指令,谷歌都做了什么?

波士頓動(dòng)力的一個(gè)后空翻,讓我們看到了人造機(jī)器人所帶來的無限可能。?

盡管谷歌已于2017年把波士頓動(dòng)力出手了,但谷歌仍然繼續(xù)他們的機(jī)器人開發(fā)之路,不只是在「身體」上逼近人類,在「智力」也追求更好的理解人類指令。

由Jeff Dean領(lǐng)銜的Google Research年終總結(jié)系列「Google Research, 2022 & beyond」已經(jīng)更新到第六期,本期的主題是「機(jī)器人」,作者為高級產(chǎn)品經(jīng)理 Kendra Byrne和谷歌機(jī)器人研究科學(xué)家Jie Tan

?在我們的有生之年,一定能看到機(jī)器人技術(shù)參與到人類的日常生活中,幫助提高人類的生產(chǎn)力和生活質(zhì)量。

在機(jī)器人技術(shù)廣泛應(yīng)用于以人為中心的空間(即為人而設(shè)計(jì)的空間,而不是機(jī)器)中的日常實(shí)際工作之前,需要確保它們能夠安全地為人們提供幫助。

在2022年,谷歌關(guān)注的挑戰(zhàn)是使機(jī)器人更有助于人類:

  1. 讓機(jī)器人和人類更有效和自然地交流;
  2. 使機(jī)器人能夠理解和應(yīng)用現(xiàn)實(shí)世界中的常識(shí)知識(shí);
  3. 擴(kuò)大機(jī)器人在非結(jié)構(gòu)化環(huán)境中有效執(zhí)行任務(wù)所需的低層次技能的數(shù)量。

當(dāng)LLM遇上機(jī)器人

大型語言模型(LLM)的一個(gè)特性是能夠?qū)⒚枋龊蜕舷挛木幋a成「人和機(jī)器都能理解」的格式。

當(dāng)把LLM應(yīng)用到機(jī)器人技術(shù)中時(shí),可以讓用戶僅通過自然語言指令就能給機(jī)器人分配任務(wù);當(dāng)與視覺模型和機(jī)器人學(xué)習(xí)方法相結(jié)合時(shí),LLM 為機(jī)器人提供了一種理解用戶請求的上下文的方法,并能夠?qū)ν瓿烧埱笏扇〉男袆?dòng)進(jìn)行規(guī)劃。

其中一個(gè)基本方法是使用 LLM 來提示其他預(yù)先訓(xùn)練的模型獲取信息,以構(gòu)建場景中正在發(fā)生的事情的上下文,并對多模態(tài)任務(wù)進(jìn)行預(yù)測。整個(gè)過程類似于蘇格拉底式的教學(xué)方法,教師問學(xué)生問題,引導(dǎo)他們通過一個(gè)理性的思維過程來解答。

在「蘇格拉底模型」中,研究人員證明了這種方法可以在zero-shot圖像描述和視頻文本檢索任務(wù)中實(shí)現(xiàn)最先進(jìn)的性能,并且還能支持新的功能,比如回答關(guān)于視頻的free-form問題和預(yù)測未來的活動(dòng),多模態(tài)輔助對話,以及機(jī)器人感知和規(guī)劃。

圖片

論文鏈接:https://arxiv.org/abs/2204.00598

在「邁向有益的機(jī)器人: 機(jī)器人可用性的基礎(chǔ)語言」一文中,研究人員與Everyday Robots合作,在機(jī)器人可用性模型中基于PaLM語言模型規(guī)劃長期任務(wù)。

圖片

博客鏈接:https://ai.googleblog.com/2022/08/towards-helpful-robots-grounding.html

在之前的機(jī)器學(xué)習(xí)方法中,機(jī)器人只能接受諸如「撿起海綿」等簡短的硬編碼命令,并且難以推理完成任務(wù)所需的步驟,如果任務(wù)是一個(gè)抽象的目標(biāo),比如「你能幫忙清理這些灑出來的東西嗎?」,就更難處理了。

圖片

研究人員選擇使用 LLM 來預(yù)測完成長期任務(wù)的步驟順序,以及一個(gè)表示機(jī)器人在給定情況下實(shí)際能夠完成的技能的affordance 模型。

強(qiáng)化學(xué)習(xí)模型中的價(jià)值函數(shù)可以用來建立affordance 模型,即一個(gè)機(jī)器人在不同狀態(tài)下可以執(zhí)行的動(dòng)作的抽象表示,從而將現(xiàn)實(shí)世界中的長期任務(wù),如「整理臥室」與完成任務(wù)所需的短期技能,如正確挑選、放置和安排物品等聯(lián)系起來。

圖片

論文鏈接:https://arxiv.org/abs/2111.03189

同時(shí)擁有 LLM 和affordance 模型并不意味著機(jī)器人能夠成功地完成任務(wù),通過內(nèi)心獨(dú)白( Inner Monologue),可以結(jié)束基于 LLM 的任務(wù)規(guī)劃中的循環(huán);利用其他信息來源,如人工反饋或場景理解,可以檢測機(jī)器人何時(shí)無法正確完成任務(wù)。

圖片

論文鏈接:https://arxiv.org/abs/2207.05608

利用Everyday Robots中的一個(gè)機(jī)器人,研究人員發(fā)現(xiàn) LLM 可以有效地重新規(guī)劃當(dāng)前或以前的失敗計(jì)劃步,機(jī)器人可以從失敗中恢復(fù)并完成復(fù)雜的任務(wù),比如「把一個(gè)可樂放在最上面的抽屜里」。

圖片

在基于 LLM 的任務(wù)規(guī)劃中,其中一個(gè)突出能力就是機(jī)器人可以對高級目標(biāo)中間任務(wù)的變化做出反應(yīng):例如,用戶可以告訴機(jī)器人在發(fā)生的事,通過提供快速糾正或重定向機(jī)器人到另一個(gè)任務(wù),從而可以改變已經(jīng)規(guī)劃好的行動(dòng),對于讓用戶交互式地控制和定制機(jī)器人任務(wù)特別有用。

雖然自然語言使人們更容易指定和修改機(jī)器人的任務(wù),但還有一個(gè)挑戰(zhàn)是對人類描述做出實(shí)時(shí)反應(yīng)。

研究人員提出了一個(gè)大規(guī)模的模仿學(xué)習(xí)框架,用于生產(chǎn)實(shí)時(shí)的、開放詞匯的、以語言為條件的機(jī)器人,能夠處理超過87,000個(gè)獨(dú)特的指令,估計(jì)平均成功率為93.5% ;作為該項(xiàng)目的一部分,谷歌還發(fā)布了當(dāng)下規(guī)模最大的語言標(biāo)注機(jī)器人數(shù)據(jù)集 Language-Table

圖片

論文鏈接:https://arxiv.org/pdf/2210.06407.pdf

并且,用LLM 編寫代碼來控制機(jī)器人動(dòng)作也是一個(gè)有前景的研究方向。

圖片

研究人員開發(fā)的代碼編寫方法展示了增加任務(wù)復(fù)雜性的潛力,機(jī)器人可以通過自主生成新代碼來重新組合 API 調(diào)用,合成新函數(shù),并表達(dá)反饋循環(huán)來在運(yùn)行時(shí)合成為新行為。

圖片

論文鏈接:https://arxiv.org/abs/2209.07753

將機(jī)器人學(xué)習(xí)轉(zhuǎn)化為一個(gè)可擴(kuò)展的數(shù)據(jù)問題

大型語言和多模態(tài)模型可以幫助機(jī)器人理解他們操作的環(huán)境,比如場景中發(fā)生了什么以及機(jī)器人應(yīng)該做什么;但是機(jī)器人也需要低層次的物理技能來完成物理世界中的任務(wù),比如拾起和精確放置物體。

雖然人類經(jīng)常認(rèn)為這些身體技能是理所當(dāng)然的,無需思考的情況下就能完成各種動(dòng)作,但對機(jī)器人來說卻是個(gè)難題。

比如,機(jī)器人在拾取物體時(shí),需要感知和理解環(huán)境,推導(dǎo)出手爪與物體之間的空間關(guān)系和接觸動(dòng)力學(xué),精確地驅(qū)動(dòng)高自由度手臂,并施加適當(dāng)?shù)牧α恳苑€(wěn)定地抓取物體而不破壞物體。

學(xué)習(xí)到這些低層次技能的難題被稱為莫拉維克悖論:推理只需要很少的計(jì)算,但感覺運(yùn)動(dòng)和知覺技能需要大量的計(jì)算資源。

受到 LLM 的成功啟發(fā),研究人員采用一種數(shù)據(jù)驅(qū)動(dòng)的方法,將學(xué)習(xí)低層次物理技能的問題轉(zhuǎn)變?yōu)橐粋€(gè)可擴(kuò)展的數(shù)據(jù)問題:LLM 表明,大型Transformer模型的通用性和性能隨著數(shù)據(jù)量的增加而增加。

圖片

論文鏈接:https://robotics-transformer.github.io/assets/rt1.pdf

研究人員提出機(jī)器人Transformer -1 (RT-1) 模型,訓(xùn)練了一個(gè)機(jī)器人操作策略,用到的訓(xùn)練數(shù)據(jù)為13萬個(gè)episodes的大規(guī)?,F(xiàn)實(shí)世界的機(jī)器人數(shù)據(jù)集,使用了來自Everyday Robots的13個(gè)機(jī)器人,覆蓋了700多個(gè)任務(wù),并顯示了機(jī)器人技術(shù)的相同趨勢,即增加數(shù)據(jù)的規(guī)模和多樣性可以提高模型對新任務(wù)、環(huán)境和對象的泛化。

圖片

在語言模型和機(jī)器人學(xué)習(xí)方法(如 RT-1)的背后,都是 Transformer模型基于互聯(lián)網(wǎng)規(guī)模的數(shù)據(jù)訓(xùn)練得到的;但與 LLM 不同的是,機(jī)器人學(xué)面臨著不斷變化的環(huán)境和有限計(jì)算的多模態(tài)表示的挑戰(zhàn)。

2020年,谷歌提出了一種能夠提高Transformer計(jì)算效率的方法Performers,影響到包括機(jī)器人技術(shù)在內(nèi)的多個(gè)應(yīng)用場景。

最近研究人員擴(kuò)展該方法,引入一類新的隱式控制策略,結(jié)合了模擬學(xué)習(xí)的優(yōu)勢和對系統(tǒng)約束的魯棒處理(模型預(yù)估計(jì)控制的約束)。

圖片

論文鏈接:https://performermpc.github.io/

與標(biāo)準(zhǔn)的 MPC 策略相比,實(shí)驗(yàn)結(jié)果顯示機(jī)器人在實(shí)現(xiàn)目標(biāo)方面有40% 以上的進(jìn)步,在人類周圍導(dǎo)航時(shí),social指標(biāo)上有65% 以上的提升;Performance-MPC 為8.3 M 參數(shù)模型的延遲僅為8毫秒,使得在機(jī)器人上部署Transformer變得可行。

圖片

谷歌的研究團(tuán)隊(duì)還證明,數(shù)據(jù)驅(qū)動(dòng)方法通常適用于不同環(huán)境中的不同機(jī)器人平臺(tái),以學(xué)習(xí)范圍廣泛的任務(wù),包括移動(dòng)操作、導(dǎo)航、運(yùn)動(dòng)和乒乓球等,也為學(xué)習(xí)低層次機(jī)器人技能指明了一條明確的道路:可擴(kuò)展的數(shù)據(jù)收集。

與互聯(lián)網(wǎng)上豐富的視頻和文本數(shù)據(jù)不同,機(jī)器人數(shù)據(jù)極其稀缺,難以獲取,收集和有效使用代表真實(shí)世界交互的豐富數(shù)據(jù)集的方法是數(shù)據(jù)驅(qū)動(dòng)方法的關(guān)鍵。

仿真是一種快速、安全和易于并行化的選擇,但是在仿真中很難復(fù)制完整的環(huán)境,特別是物理環(huán)境和人機(jī)交互環(huán)境。

圖片

論文鏈接:https://arxiv.org/abs/2207.06572

在 i-Sim2Real 中,研究人員展示了一種方法,通過從簡單的人類行為模型中自舉,并在模擬訓(xùn)練和在現(xiàn)實(shí)世界中部署之間交替進(jìn)行,來解決仿真與現(xiàn)實(shí)之間的不匹配問題,并學(xué)習(xí)與人類對手打乒乓球,在每次迭代中,人類行為模型和策略都會(huì)得到細(xì)化。

圖片

雖然模擬可以輔助收集數(shù)據(jù),但是在現(xiàn)實(shí)世界中收集數(shù)據(jù)對于微調(diào)模擬策略或在新環(huán)境中適應(yīng)現(xiàn)有策略至關(guān)重要。

在學(xué)習(xí)過程中,機(jī)器人很容易失敗,并可能會(huì)對它自身和周圍環(huán)境造成損害,特別是在探索如何與世界互動(dòng)的早期學(xué)習(xí)階段,需要安全地收集訓(xùn)練數(shù)據(jù),使得機(jī)器人不僅學(xué)習(xí)技能,還可以從故障中自主恢復(fù)。

圖片

論文鏈接:https://arxiv.org/abs/2110.05457

研究人員提出了一個(gè)安全的 RL 框架,在「學(xué)習(xí)者策略」和「安全恢復(fù)策略」之間進(jìn)行切換,前者優(yōu)化為執(zhí)行所需任務(wù),后者防止機(jī)器人處于不安全狀態(tài);訓(xùn)練了一個(gè)復(fù)位策略,這樣機(jī)器人就能從失敗中恢復(fù)過來,比如在跌倒后學(xué)會(huì)自己站起來。

圖片

雖然機(jī)器人的數(shù)據(jù)很少,但是人類執(zhí)行不同任務(wù)的視頻卻很多,當(dāng)然機(jī)器人和人的構(gòu)造有不同之處,因此讓機(jī)器人向人類學(xué)習(xí)的想法引發(fā)了「 跨不同實(shí)體遷移學(xué)習(xí)」的問題。

圖片

論文鏈接:https://arxiv.org/pdf/2106.03911.pdf

研究人員開發(fā)了交叉具身反向強(qiáng)化學(xué)習(xí)(Cross-Embodiment Inverse Reinforcement Learning),通過觀察人類來學(xué)習(xí)新的任務(wù),并非是試圖像人類那樣精確地復(fù)制任務(wù),而是學(xué)習(xí)高層次的任務(wù)目標(biāo),并以獎(jiǎng)勵(lì)函數(shù)的形式總結(jié)這些知識(shí),示范學(xué)習(xí)可以讓機(jī)器人通過觀看互聯(lián)網(wǎng)上隨時(shí)可用的視頻來學(xué)習(xí)技能。

另一個(gè)方向是提高學(xué)習(xí)算法的數(shù)據(jù)效率,這樣就不再僅僅依賴于擴(kuò)展數(shù)據(jù)收集:通過合并先驗(yàn)信息,包括預(yù)測信息、對抗性動(dòng)作先驗(yàn)和指導(dǎo)策略,提高了 RL 方法的效率。

圖片

論文鏈接:https://arxiv.org/abs/2210.10865

利用一種新的結(jié)構(gòu)化動(dòng)力系統(tǒng)體系結(jié)構(gòu),將 RL 與軌跡優(yōu)化相結(jié)合,在新型求解器的支持下,得到了進(jìn)一步的改進(jìn),先驗(yàn)信息有助于緩解勘探的挑戰(zhàn),更好地規(guī)范數(shù)據(jù),并大大減少了所需的數(shù)據(jù)量。

此外,機(jī)器人團(tuán)隊(duì)還投入了大量的資金在更有效的數(shù)據(jù)模擬學(xué)習(xí)上,實(shí)驗(yàn)證明了一種簡單的模仿學(xué)習(xí)方法 BC-Z 可以對訓(xùn)練中沒有看到的新任務(wù)進(jìn)行zero-shot泛化。

圖片

論文鏈接:https://arxiv.org/pdf/2210.02343.pdf

并且還引入了一個(gè)迭代模仿學(xué)習(xí)算法 GoalsEye,從游戲中學(xué)習(xí)和目標(biāo)條件行為克隆相結(jié)合,用于高速高精度的乒乓球游戲。

圖片

論文鏈接:https://sites.google.com/view/goals-eye

在理論方面,研究人員研究了表征模擬學(xué)習(xí)樣本復(fù)雜性的動(dòng)態(tài)系統(tǒng)穩(wěn)定性,以及捕獲演示數(shù)據(jù)中的失效和恢復(fù)以更好地調(diào)節(jié)小數(shù)據(jù)集離線學(xué)習(xí)的作用。

圖片

論文鏈接:https://proceedings.mlr.press/v168/tu22a.html

總結(jié)

人工智能領(lǐng)域大型模型的進(jìn)步促進(jìn)了機(jī)器人學(xué)習(xí)能力的飛躍。

在過去的一年里,可以看到 LLM 中捕捉到的上下文感覺和事件順序幫助解決機(jī)器人技術(shù)的長期規(guī)劃,并使機(jī)器人更容易與人互動(dòng)和完成任務(wù)。還可以看到用可擴(kuò)展的路徑來學(xué)習(xí)魯棒性和泛化機(jī)器人行為,通過應(yīng)用Transformer模型架構(gòu)的機(jī)器人學(xué)習(xí)。

谷歌承諾將繼續(xù)開放源代碼數(shù)據(jù)集,在新的一年繼續(xù)發(fā)展有用的機(jī)器人。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2024-04-19 09:24:24

機(jī)器人波士頓

2024-04-18 13:17:15

人形機(jī)器人

2017-10-18 08:49:09

機(jī)器人

2019-12-03 09:27:03

機(jī)器人人工智能系統(tǒng)

2021-03-30 12:59:06

波士頓機(jī)器人人工智能

2020-03-04 15:10:16

機(jī)器人人工智能系統(tǒng)

2021-08-25 14:06:57

機(jī)器人人工智能波士頓

2019-09-25 09:53:45

機(jī)器人人工智能系統(tǒng)

2021-09-27 15:41:26

波士頓機(jī)器狗人工智能

2019-11-27 10:42:32

機(jī)器人人工智能系統(tǒng)

2021-06-30 15:25:36

波士頓機(jī)器狗人工智能

2022-06-27 11:33:38

機(jī)器人波士頓技術(shù)

2020-02-18 10:26:58

機(jī)器人人工智能系統(tǒng)

2022-01-11 09:47:10

波士頓機(jī)器狗人工智能

2021-11-04 10:16:51

機(jī)器狗人工智能波士頓

2020-05-21 12:15:35

機(jī)器狗人工智能波士頓

2020-11-18 11:42:36

機(jī)器人人工智能系統(tǒng)

2021-11-01 10:50:26

波士頓機(jī)器人人工智能

2024-09-18 08:42:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號