Sergey Levine教授解讀機(jī)器人AI的演進(jìn)
?“想象一下,有一天我們能夠打造出一個在廚房里執(zhí)行各種任務(wù)的家庭機(jī)器人。那么問題就不僅僅是感知了。你真的需要學(xué)會各種個人操縱技能,以便能夠廣泛地泛化?!?/p>
—— Sergey?
Craig: 嗨,我是Craig Smith,歡迎收聽《AI視界》。今天我和Sergey Levine進(jìn)行了交談,他是加州大學(xué)伯克利分校的副教授,在該校的機(jī)器人人工智能與學(xué)習(xí)實驗室從事研究,并推動著AI控制機(jī)器人的邊界。Sergey談到了他最近在強(qiáng)化學(xué)習(xí)和從世界各地的機(jī)器人中聚合數(shù)據(jù)集方面的一些工作,以幫助訓(xùn)練一個能夠在不同類型的機(jī)器人之間泛化的模型。這是關(guān)于具身AI的激動人心的研究,將這一變革性技術(shù)從計算機(jī)帶到了現(xiàn)實世界。我希望你會像我一樣覺得這次對話很有趣。那么,Sergey,你能先介紹一下自己嗎?
Sergey: 我是加州大學(xué)伯克利分校的副教授,之前在斯坦福大學(xué)獲得了博士學(xué)位,我還每周在谷歌的機(jī)器人部門工作一天,也在那里從事機(jī)器人學(xué)習(xí)方面的工作。我的研究涉及機(jī)器人領(lǐng)域,但也涉及到機(jī)器學(xué)習(xí)、強(qiáng)化學(xué)習(xí)等許多其他相關(guān)技術(shù)。最近,我的團(tuán)隊還在從事與語言模型、計算設(shè)計等相關(guān)的強(qiáng)化學(xué)習(xí)工作,以及決策制定的其他方面。
Craig: 大家都在談?wù)撌澜缒P停麄冋趯⑹澜缒P秃驼Z言模型結(jié)合起來。你有在研究世界模型嗎?你對此持什么看法?
Sergey: 是的,我想我有一些話可以說。通常,如果我們想要控制機(jī)器人系統(tǒng),機(jī)器學(xué)習(xí)有幾種方法可以實現(xiàn)這一目標(biāo)。一種非常簡單的方法是模仿學(xué)習(xí)。模仿學(xué)習(xí)就是利用通常由控制系統(tǒng)的人提供的演示,然后模仿這些演示來嘗試生成一個代理。機(jī)器人也可以為其他很多事情服務(wù)??梢哉f,語言模型只是巨大的模仿學(xué)習(xí)機(jī)器,因為它們在模仿人類生成文本。還有許多其他方法可以做到這一點。
Sergey: 所謂世界模型實質(zhì)上就是一個動態(tài)模型,它表示環(huán)境將如何響應(yīng)代理的行為,我們也可以從數(shù)據(jù)中學(xué)習(xí)到這一點。在強(qiáng)化學(xué)習(xí)中,通常將其稱為基于模型的RL?;谀P偷腞L意味著訓(xùn)練一個模型來模擬環(huán)境行為,然后使用該模型來確定在世界中如何行動。實際上,這是一個非常古老的學(xué)科。事實上,在模型無關(guān)RL變得如此流行之前,最早的學(xué)習(xí)控制方法實際上是基于模型的RL方法。一些最早期的神經(jīng)網(wǎng)絡(luò)控制方法實際上使用了動態(tài)建模。而且,有很多不同的實例化方法。你可以通過采取圖像觀測并進(jìn)行視頻預(yù)測來實例化動態(tài)模型或世界模型。你也可以通過學(xué)習(xí)非重建性表示來實例化它們,或者是大致上捕捉系統(tǒng)狀態(tài)而不一定將其重新映射回像素,然后進(jìn)行預(yù)測。因此,有很多不同的方法來做到這一點。
Craig: 最近我和Wave談到了他們的Gaia模型,并看過了相關(guān)視頻。但他們將該模型內(nèi)置到一個控制器中,連接到一個控制器,用于操作自動駕駛車輛。與您所從事的強(qiáng)化學(xué)習(xí)有什么不同之處,這種結(jié)構(gòu)或架構(gòu)有什么不同?
Sergey: 我覺得我沒法說太多,因為我不知道他們的系統(tǒng)是如何工作的。我看過公開材料,和其他人一樣,但我對細(xì)節(jié)并沒有真正的了解。也許有一點我可以說的是,大多數(shù)基于學(xué)習(xí)的控制方法不一定需要預(yù)測機(jī)器人攝像頭將來會觀察到的原始像素。這是一種方法,可以通過這種方法做很多事情,但我認(rèn)為更重要的區(qū)別實際上是我們能夠多大程度上利用數(shù)據(jù)來產(chǎn)生更優(yōu)化的決策,通過預(yù)測是一種方法,你可以預(yù)測像素,這就是視頻預(yù)測模型所做的。你也可以預(yù)測結(jié)果或獎勵,這是價值函數(shù)所做的。歸根結(jié)底,它們實際上并沒有那么不同,也許更大的區(qū)別是你能否得到一個在真實世界中真正有效的系統(tǒng),是由訓(xùn)練數(shù)據(jù)決定的。例如,如果你想要實際在廣闊的開放世界環(huán)境中工作的機(jī)器人操作系統(tǒng),你需要在廣闊的開放世界環(huán)境中對其進(jìn)行訓(xùn)練。所以我在研究中實際上關(guān)心的很多內(nèi)容是,我們?nèi)绾伍_發(fā)可以使用大量數(shù)據(jù)的基于學(xué)習(xí)的控制技術(shù),以及我們?nèi)绾未_定我們可以獲取什么樣的數(shù)據(jù)集來獲得真正的泛化能力?在我的情況下,通常是機(jī)器人操縱技能,但也包括機(jī)器人導(dǎo)航技能等方面的技能,比如倉儲系統(tǒng)的操縱。
Sergey: 很多時候,這些問題在很大程度上可以歸結(jié)為感知問題。所以如果你以正確的方式構(gòu)建你的環(huán)境,那么只要你能夠檢測到物體在哪里,你就可以使用手工設(shè)計的策略來解決這個問題。這種方式往往效果不太好。如果你想把機(jī)器人系統(tǒng)帶到更開放的環(huán)境中,比如有一天你想象中建造一個家用機(jī)器人,可以在廚房里執(zhí)行各種任務(wù),那么問題就不僅僅是感知了。那時你真的需要學(xué)會各種個人操縱技能,并且需要能夠廣泛地泛化。
Sergey: 所以在這里我可能可以討論一下一個我們最近實際上做的項目,這實際上是谷歌、伯克利和其他幾所大學(xué)之間的合作項目,試圖看看我們?nèi)绾文軌虻玫秸嬲軌蚍夯讲煌瑱C(jī)器人形態(tài)的機(jī)器人控制器。這實際上非常重要,因為如果很多問題都涉及到數(shù)據(jù),那么從一個單一機(jī)器人中獲取到廣度和多樣性的數(shù)據(jù),使得家用機(jī)器人能夠?qū)崿F(xiàn)你所期望的廣泛泛化,是非常困難的。但如果你可以從許多不同的機(jī)器人中匯集數(shù)據(jù),那么也許你就可以真正地獲得這種覆蓋范圍。而且,如果你真的能做到這一點,并且你得到了一個可以在各種機(jī)器人之間泛化的系統(tǒng),那么你就可以得到一些真正酷的東西,原則上,有人可以組裝一些新的機(jī)器人系統(tǒng),然后將這種機(jī)器人大腦插入其中,立即獲得可以控制該機(jī)器人的東西。到目前為止,我們在這方面所做的工作并不是太關(guān)心構(gòu)建更好的模型,而是僅僅是獲取這種多樣化的數(shù)據(jù)集,并應(yīng)用我們之前已經(jīng)開發(fā)的標(biāo)準(zhǔn)技術(shù),而這實際上效果還不錯。這個項目叫做RTX,其想法是我們從最后有34個不同的研究實驗室那里獲得了數(shù)據(jù)。
Sergey: 谷歌是其中之一,伯克利也是。實際上,在伯克利有兩個實驗室參與了這個項目,然后我們在這個數(shù)據(jù)上訓(xùn)練了一個模型,來執(zhí)行基本上是以語言為條件的操縱任務(wù)。
Sergey: 我認(rèn)為你給機(jī)器人一個指令,比如撿起番茄放進(jìn)碗里,機(jī)器人應(yīng)該執(zhí)行這個任務(wù)。然后我們拿這個模型,交給了貢獻(xiàn)數(shù)據(jù)的不同實驗室,并讓他們與他們研究的任何模型進(jìn)行比較,基本上是在他們自己的系統(tǒng)上進(jìn)行訓(xùn)練的,而多機(jī)器人模型實際上在成功率方面,平均提高了約50%,這實際上非常有趣,因為這與每個實驗室的個體系統(tǒng)相競爭,并且可以假設(shè)有優(yōu)秀的研究人員。他們建立了一個相當(dāng)好的工作系統(tǒng)。現(xiàn)在,這實際上是一種模仿學(xué)習(xí)方法,是以語言為條件的模仿學(xué)習(xí)。我認(rèn)為,無論是模仿還是預(yù)測還是世界建模,我認(rèn)為這些技術(shù)中的許多技術(shù)都可以做到。我想要傳達(dá)的更重要的信息是,通過實際獲取這些數(shù)據(jù)集,你實際上可以得到一個可以插入所有這些不同機(jī)器人的系統(tǒng),并且實際上從中獲得良好結(jié)果。
Craig: 嗯,這很有趣。這個模型是通過各個參與實驗室的數(shù)據(jù)集進(jìn)行訓(xùn)練的。
Sergey: 是的,在這些實驗中,我們并沒有測試它是否可以泛化到一個新的機(jī)器人。這對于這個領(lǐng)域來說是一個非常激動人心的前沿,但那仍然是在未來。這只是試圖回答這樣一個問題:如果你包括其他實驗室的數(shù)據(jù),那么一個實驗室的機(jī)器人是否會變得更好?當(dāng)然,如果你處于少數(shù)派,如果你是那些提供相對較少數(shù)據(jù)的團(tuán)隊之一,你會預(yù)期看到相對更多來自其他人的好處。有趣的是,即使是大多數(shù)貢獻(xiàn)者也看到了很多好處。
Sergey: 所以可能最大的數(shù)據(jù)集約有10萬次試驗,來自谷歌自己的機(jī)器人,也就是我們在很多機(jī)器人研究中使用的移動底座。通過這個系統(tǒng),我們實際上能夠在各種測試中對其進(jìn)行測試。我們有一套困難查詢的測試套件。實際上,這些查詢需要從網(wǎng)絡(luò)上合成預(yù)訓(xùn)練的知識以及良好的指令跟隨能力,因此這些需要空間推理等技能,而在最困難的測試中,我們實際上看到了性能提高了三倍,僅使用谷歌數(shù)據(jù)集。現(xiàn)在在我看來,這實際上是非常深刻的,因為谷歌的數(shù)據(jù)集是非常精心策劃的,是由專業(yè)人士收集機(jī)器人數(shù)據(jù)的,而事實上,將所有這些來自長列表的學(xué)術(shù)實驗室的額外數(shù)據(jù)源包括在內(nèi),實際上導(dǎo)致了這么大的改進(jìn),這確實表明了當(dāng)你將足夠多的來自不同來源的數(shù)據(jù)組合在一起時,會發(fā)生一種神奇的事情。是的,所以對于這些實驗,我們實際上是在傳遞模型。好的,數(shù)據(jù)集現(xiàn)在是公開的了。
Sergey: 所以任何人都可以拿到這個數(shù)據(jù)集并下載它,然后訓(xùn)練自己的模型。實際上,我們在加州大學(xué)伯克利分校有一個正在進(jìn)行的項目,我的學(xué)生們都在參與。對于那個最初的實驗,只是模型權(quán)重。嗯,這很有趣。只有模型權(quán)重。
Craig: 那么這個模型的架構(gòu)在每個實驗室都在復(fù)制。他們沒有使用自己的模型。
Sergey: 是的,對的,所以這是完全相同的模型,完全相同的權(quán)重,必須驅(qū)動所有位置的所有機(jī)器人。是的,如果你仔細(xì)想想,這實際上是一件非常不容易的事情,對吧?因為模型只能看到機(jī)器人通過攝像頭接收到的東西,必須解決這個問題?,F(xiàn)在我正在駕駛一個U形機(jī)器人,一個UR-10工業(yè)機(jī)器人,與現(xiàn)在我正在駕駛一個成本低廉的WTOX機(jī)器人相比,或者現(xiàn)在我正在駕駛一個Franca或谷歌機(jī)器人,然后相應(yīng)地調(diào)整控制。
Craig: 我在實驗室時記得,你們的機(jī)器人是網(wǎng)絡(luò)化的,所以從一個機(jī)器人學(xué)到的知識會更新到一個中央大腦,然后控制每個機(jī)器人。你是否進(jìn)行過類似的更廣泛的實驗,就像這個一樣?
Sergey: 是的,是的,我很高興你問到了這個問題。實際上,在過去的五年里,這正是我們一直試圖做的事情,從某種程度上說,這種多機(jī)器人訓(xùn)練的努力部分上是承認(rèn)了這種臂農(nóng)場方法的局限性。所以把很多機(jī)器人放在一個房間里是很好的,如果你想要原型化,比如說,強(qiáng)化學(xué)習(xí)算法,但是如果你真的想要廣泛的泛化,它們不能都在同一個房間里。所以你真的需要更好地覆蓋世界,通過匯集來自許多不同地點的機(jī)器人的數(shù)據(jù),現(xiàn)在你可以得到更好的覆蓋?,F(xiàn)在這仍然是一個可能成為更大系統(tǒng)的原型,因為這些仍然是研究人員收集的數(shù)據(jù)集,本質(zhì)上是在做科學(xué)實驗。所以你可以想象,將來,匯集不會是跨不同的研究實驗室,而是跨不同的部署機(jī)器人。
Sergey: 現(xiàn)在,當(dāng)然,這是一個更復(fù)雜的任務(wù),需要不僅僅是科學(xué),還需要某種組織的努力,公司的共識等等。但我認(rèn)為,這實際上是真正的問題,一旦這一點得以實現(xiàn),你可以想象未來,來自各種不同地點的各種不同部署機(jī)器人的數(shù)據(jù)流將被聚合起來,然后用于訓(xùn)練一個集中式的機(jī)器人大腦,然后將其交給這些機(jī)器人以提高它們的性能。我們想要冒這個項目的風(fēng)險的關(guān)鍵是,即使在任何規(guī)模下進(jìn)行這樣的操作,你知道,即使在學(xué)術(shù)實驗室的規(guī)模下,你是否可以得到一個可以驅(qū)動所有不同機(jī)器人的策略?因為如果這是不可能的,那么聚合異構(gòu)數(shù)據(jù)就行不通,我們需要想辦法進(jìn)行標(biāo)準(zhǔn)化。標(biāo)準(zhǔn)化是困難的,所以現(xiàn)在我們知道的是,我們不必太擔(dān)心標(biāo)準(zhǔn)化。
Craig: 是的,這個模型,然后權(quán)重被傳遞,它們控制著不同形式的功能機(jī)器人,對吧,我是說?或者它們只是變種?
Sergey: 所以在這些實驗中,機(jī)器人都是帶有并行夾持器的手臂。我們現(xiàn)在正在試驗單臂和雙臂系統(tǒng)之間的泛化。將來某個時候,我們還將研究多指系統(tǒng)等等。到目前為止,真相是有點廣告,它只是一個帶有并行夾持器的手臂。它們只是不同品牌的手臂。現(xiàn)在它們確實有很大的不同。所以小規(guī)模的業(yè)余Widow X手臂可能長約50厘米,相對較小,夾持器較弱。而UR-10機(jī)器人是一種用于制造業(yè)的工業(yè)機(jī)器人,相當(dāng)大,更強(qiáng)壯,有更強(qiáng)大的電機(jī),更強(qiáng)的夾持器,等等。所以有很多的變化。但它們?nèi)匀皇峭活愋汀?/span>
Craig: 是的,你在這些聚合數(shù)據(jù)上訓(xùn)練的模型是強(qiáng)化學(xué)習(xí)。你能描述一下這個模型嗎?
Sergey: 我們實際上訓(xùn)練了兩個模型。一個基于去年在谷歌開發(fā)的RT1模型。RT1模型基本上是一個Transformer,它讀入語言指令、命令、圖像,然后輸出離散化的、分詞化的行為。所以它幾乎可以說是基于Transformer的策略的最明顯的設(shè)計方式。第二個模型是RT2模型,這是一個更近期的發(fā)展,它實際上使用了一個來自預(yù)先訓(xùn)練的視覺語言模型的骨干。
Sergey: 所以視覺語言模型是經(jīng)過訓(xùn)練的,可以查看圖像并輸出文本問題的回答。所以你給它一張圖片,然后你說像這張圖片里有一只狗嗎?它會產(chǎn)生一些文本來回答。然后我們拿這個視覺語言預(yù)訓(xùn)練的骨干,然后進(jìn)一步在機(jī)器人數(shù)據(jù)上進(jìn)行微調(diào),以輸出機(jī)器人觀察的機(jī)器人行為。所以你可以想象一下,VLM有很多任務(wù)可以做。它可以回答問題,它可以產(chǎn)生標(biāo)題?,F(xiàn)在還有一項任務(wù),那就是給定一個機(jī)器人指令,輸出機(jī)器人的動作。現(xiàn)在這是一個更強(qiáng)大的模型,因為它有來自視覺語言模型預(yù)訓(xùn)練的互聯(lián)網(wǎng)知識,然后我們用于更復(fù)雜的查詢,如空間關(guān)系等等。
Craig: 你大部分的工作都是在數(shù)據(jù)方面還是在模型方面。
Sergey: 嗯,實際上兩者都是,某種程度上它們也是相輔相成的,因為取決于你的算法能處理什么,這將決定你需要獲得的數(shù)據(jù)類型。例如,我實驗室現(xiàn)在做的更多的算法工作關(guān)注的是離線強(qiáng)化學(xué)習(xí)技術(shù)。
Sergey: 離線強(qiáng)化學(xué)習(xí)基本上是一種利用數(shù)據(jù)產(chǎn)生更優(yōu)策略的方法。因此,模仿學(xué)習(xí)方法。它們接收數(shù)據(jù)并產(chǎn)生重現(xiàn)數(shù)據(jù)中行為的策略。離線RL方法接收數(shù)據(jù)并嘗試產(chǎn)生比數(shù)據(jù)中平均行為更好的行為。因此,直觀地說,你可以將其視為使用數(shù)據(jù)來了解可用的選項,然后在這些選項中選擇最佳的。實際上,像我們之前討論過的使用世界模型的方法,可以看作是離線RL方法,因為它們的工作方式通常是在現(xiàn)有數(shù)據(jù)上訓(xùn)練世界模型,然后使用它來提取比數(shù)據(jù)集中典型的東西更好的控制策略。但也有其他建立離線RL技術(shù)的方式,不依賴于世界模型,而依賴于價值函數(shù)等等。
Craig: 你認(rèn)為研究將朝著什么方向發(fā)展,因為一切都在如此迅速地發(fā)展?對于機(jī)器人控制來說,你認(rèn)為研究將會確定一種架構(gòu),然后會有該架構(gòu)的不同版本,但每個人都會同意這是最好的方式,然后只是一個訓(xùn)練的問題,泛化跨機(jī)器人和網(wǎng)絡(luò)化數(shù)據(jù)?還是你認(rèn)為將會有一系列模型用于各種功能?
Sergey: 是的,好問題,所以我會給你一個答案。這是一個稍微理想化的答案,也許這更像是我希望事情朝著的方向發(fā)展。我不知道這是否一定是事情將會發(fā)展的方式,但我認(rèn)為對于機(jī)器人學(xué)來說,采用一種習(xí)慣性地?fù)碛锌芍赜媚P偷姆妒绞欠浅V匾?,在計算機(jī)視覺和自然語言處理中,如果一個研究人員提出了一個好的模型,其他機(jī)器人研究人員應(yīng)該能夠使用它。
現(xiàn)在,這可能看起來是一個非常明顯的事情,但實際上這并不是機(jī)器人學(xué)今天的工作方式。大多數(shù)機(jī)器人學(xué)習(xí)研究,產(chǎn)生的工件實際上不是模型,而是代碼、論文或見解。這些模型本身幾乎從來不是可移植的,更不用說跨實驗室甚至同一實驗室不同位置,同一實驗室不同時間等等。
Sergey: 我認(rèn)為我們真的需要將這個過程轉(zhuǎn)向一個方向,即我們有了在不同位置和系統(tǒng)、不同對象等等之間進(jìn)行泛化的數(shù)據(jù)集訓(xùn)練的模型,然后我們可以將其提供給其他研究人員、其他從業(yè)者,他們也可以在他們的系統(tǒng)上運行,一旦我們找到了一個這樣做的好方法,也許使用像RTX數(shù)據(jù)集這樣的東西,它有多個機(jī)器人,也許使用其他數(shù)據(jù),但是一些我們可以養(yǎng)成這種習(xí)慣的東西。
Sergey: 那么我們實際上可以作為一個社區(qū)朝著共享的、可泛化的系統(tǒng)的方向取得更多的進(jìn)展?,F(xiàn)在,在這之前,絕對不能質(zhì)疑人們是否會使用相同的架構(gòu)、相同的模型,如果他們甚至不能在之間共享任何東西,那是不可能的。但是一旦我們可以分享一些東西,也許關(guān)鍵是一個數(shù)據(jù)集,它能夠?qū)崿F(xiàn)這一點,那么社區(qū)就可以找到解決辦法,也許到了那時,也許有一個單一的預(yù)訓(xùn)練的骨干,就像自然語言處理中的Lama模型,在機(jī)器人學(xué)中有一個類似的模型,然后人們可以在其上構(gòu)建。或者也許會有幾種這樣的東西。也許會有一些大的、設(shè)備齊全的實驗室生產(chǎn)的東西,其他人就可以在此基礎(chǔ)上構(gòu)建。但在我們達(dá)到任何這些目標(biāo)之前,我們需要養(yǎng)成一個實際上可以運行的模型的習(xí)慣。
Craig: 機(jī)器人學(xué)的另一方面就是硬件,我前幾天和一個人談話,他談到了機(jī)器人控制系統(tǒng)的未來,他非常樂觀,說三到五年內(nèi)將會有家用機(jī)器人,這聽起來對我來說不太可能,因為僅僅硬件方面就不是至少我見過的硬件,它們還沒有能力在充滿隨機(jī)性的非結(jié)構(gòu)化環(huán)境中進(jìn)行釋放。你認(rèn)為硬件與人工智能的發(fā)展步調(diào)一致嗎?還是滯后?
Sergey: 這是個很好的問題。我認(rèn)為這個問題非常重要的一部分就是我們需要什么樣的硬件。我認(rèn)為在很大程度上,學(xué)習(xí)方法實際上應(yīng)該降低硬件的門檻?;旧夏憧梢宰龅囊环N練習(xí)是拿一個類似垃圾拾取器的小設(shè)備,看看你可以在家里做什么樣的任務(wù)。我是說,顯然它非常有限,所以有些事情你可能做不到,但也有很多你可以做的事情。當(dāng)然你可以打掃地板,把東西放在廚房的不同位置。一個相對原始的機(jī)器人系統(tǒng)實際上可以完成很多事情。
Sergey: 切爾西·芬(Chelsea Finn)教授團(tuán)隊的一項非常出色的工作,我也在其中稍微幫了點忙,由一位名叫Tony Zhao的學(xué)生開發(fā)了一個由Trostin Robotics的兩個低成本機(jī)器人組成的雙手臂機(jī)器人系統(tǒng)。所以這些甚至不是高級的工業(yè)機(jī)械臂。它們基本上是非常復(fù)雜的業(yè)余機(jī)器人。所以它們每個大約花費5000美元,他的研究中大部分的聰明之處在于設(shè)計了一個非常方便的遠(yuǎn)程操作系統(tǒng),一個他可以用手持的方式控制這個相當(dāng)便宜的雙手臂系統(tǒng)的遠(yuǎn)程操作裝置,他會展示各種非常復(fù)雜的行為。你可以看到像給腳穿鞋,用膠帶把箱子固定住等等,然后你知道可以產(chǎn)生自主策略的學(xué)習(xí)方法設(shè)計得很好,但并不特別深刻。
Sergey: 它基本上使用了最先進(jìn)的基于Transformer的技術(shù),但并沒有真正具有任何特別驚人的創(chuàng)新。關(guān)鍵在于構(gòu)建一個真正好的遠(yuǎn)程操作系統(tǒng),使他能夠產(chǎn)生這些行為,然后有一個非常高質(zhì)量的工程師將其轉(zhuǎn)化為策略。所以這被稱為阿羅哈系統(tǒng),對于那些正在聽的人,我鼓勵你們?nèi)タ匆豢?,它可能會給你們一些想法,即使是非常原始的硬件,如果配備了正確的數(shù)據(jù),正確類型的遠(yuǎn)程操作裝置來提供數(shù)據(jù)和良好的基礎(chǔ)現(xiàn)代機(jī)器學(xué)習(xí)技術(shù)?,F(xiàn)在這仍然不能完成家務(wù),但我懷疑對于觀看這些阿羅哈視頻的人們來說,這可能會稍微改變他們對于我們每天任務(wù)所需硬件的想法。所以可能仍然存在一些創(chuàng)新,但可能比你想象的要少。
Craig: 這很有趣。控制器方面,人工智能方面,模型方面,這是?我是說,如果那個硬件是足夠的,那控制方面還需要多少進(jìn)步?
Sergey: 這是一個復(fù)雜的問題,因為這可能在很大程度上取決于對穩(wěn)健性和泛化程度的要求。在某種程度上,這有點類似于自動駕駛的故事,如果你想要構(gòu)建一輛能夠在90%的情況下成功的自動駕駛汽車,那么這可能是我們已經(jīng)有了十多年的事情了。但是如果你想要一輛能夠成功避免災(zāi)難性故障的自動駕駛汽車,具有足夠的穩(wěn)健性,可以在任何城市的任何道路上部署,只需處理所有那些邊緣情況,那這仍然是一個懸而未決的問題,我認(rèn)為對于家用機(jī)器人也將是一樣的,如果你想削減大部分的事情和大部分的情況,也許那還沒有完全到位,但我認(rèn)為可以想象我們很快就能達(dá)到那個目標(biāo)。但要完全解決那些邊緣情況需要多長時間,這是一個更加復(fù)雜的問題。
Sergey: 我認(rèn)為一個非常有趣的事情是,在過去的12個月中,視覺語言模型的發(fā)展程度,這對于機(jī)器人來說尤其重要,因為雖然視覺語言模型通常用于更多的感知、傳統(tǒng)感知任務(wù)、問答等等,但是關(guān)于視覺觀察的推理,關(guān)于對象的空間布局的推理,這些事情很可能會轉(zhuǎn)化為更好的機(jī)器人能力,因為泛化是我提到的那些大挑戰(zhàn)之一,邊緣情況問題,我認(rèn)為有很多理由對這些模型最終改善機(jī)器人控制器的穩(wěn)健性感到樂觀。
Sergey: 人們正在談?wù)搶⒄Z言和視覺,或者我應(yīng)該說語言和世界模型,結(jié)合到能夠進(jìn)行推理、規(guī)劃和采取行動的代理中。這聽起來對我來說非常像機(jī)器人控制。
Sergey: 我想問的是,研究和從事機(jī)器人控制的人們,研究走在不同的軌道上,答案有點復(fù)雜,但簡單來說,也許是,是與許多機(jī)器人問題密切相關(guān)的。事實上,在機(jī)器人領(lǐng)域,有很多關(guān)于使用語言模型構(gòu)建計劃,然后將這些計劃連接到某種可以實現(xiàn)它們的控制機(jī)制的工作?,F(xiàn)在,這方面的工作可能大約是在兩年前開始的。在這個領(lǐng)域,可能更為人熟知的一項工作是谷歌的Seikan論文,它使用語言模型為機(jī)器人規(guī)劃了長期行為。最初在這個領(lǐng)域,人們關(guān)注的一個重大挑戰(zhàn)是如何將語言模型與感知和行動連接起來,因為標(biāo)準(zhǔn)的語言模型必須在世界的符號表示上運行,所以你必須將這些符號表示與豐富的感知和復(fù)雜的執(zhí)行聯(lián)系起來。最初這樣做的方法是沿著你描述的方式進(jìn)行的,試圖構(gòu)建一種聯(lián)合規(guī)劃過程,該過程將找出一個概率序列的符號步驟,基本上是語言,以及將導(dǎo)致這一結(jié)果的相應(yīng)行為。實際上,我的一位同事來自Skult,提出了一篇名為“基于地面的解碼”的論文,提出了一種貝葉斯濾波方法來做到這一點。不過,我們在過去的大約六到九個月里看到的一件事是,隨著視覺語言模型變得越來越強(qiáng)大,一種非常吸引人的替代方案是,實際上訓(xùn)練模型來解決整個問題。現(xiàn)在這些模型仍然可以進(jìn)行規(guī)劃。
Sergey: 如果你有一個視覺語言模型,可以輸出文本,也可以輸出行動,你可以進(jìn)行類似于思維鏈提示的操作。你可以說,好的,這里有一個復(fù)雜的問題,然后產(chǎn)生解決該問題的步驟,一旦你產(chǎn)生了這些步驟,然后產(chǎn)生行動,這是可行的。所以你可以告訴一個機(jī)器人,好的,比如,準(zhǔn)備早餐,而要準(zhǔn)備早餐,我需要做這個和這個,然后,對于這個過程的第一步,它會嘗試輸出行動。所以這是使用視覺語言模型的一種可行方式,但這仍然是一個模型。你仍然會得到一個模型,這是非??扇〉?,因為如果你有一個模型,那么你就不需要解決這個問題,試圖將視覺觀察數(shù)據(jù)塞入符號表示,然后傳遞給語言模型?;旧希ㄟ^整體的聯(lián)合訓(xùn)練,這個接口不是通過手工設(shè)計的,而是自然地出現(xiàn)。
Sergey: 這實際上是R2-2模型的原則,其中一個例子是我們詢問它。我們有意構(gòu)建了一個場景,其中正確的行為有點不明顯。所以我們有一個場景,里面有一些常見的家庭用品和一些錯誤類型的工具,所以應(yīng)該用一個石頭釘子。沒有錘子,但有一塊石頭,我們問,“好的,你需要用釘子釘入釘子,你應(yīng)該怎么做?”然后它想出了你應(yīng)該拿起石頭。它實際上說了石頭,然后轉(zhuǎn)到相應(yīng)的行動。所以現(xiàn)在這是非常原始的規(guī)劃,對吧?所以它更像是語義推理而不是規(guī)劃。但這些東西還處于萌芽階段。我認(rèn)為它們在未來幾年里還會取得更大的進(jìn)步。
Craig: 在過去的五年里,我認(rèn)為自從我上次和你交談以來的時間,你們領(lǐng)域的進(jìn)步是否與生成式人工智能的進(jìn)步相一致?
Sergey: 我認(rèn)為機(jī)器人領(lǐng)域的進(jìn)步總是會落后于其他領(lǐng)域,因為當(dāng)我們找到有效的學(xué)習(xí)技術(shù)時,然后從概念上的方法到產(chǎn)品,再到小規(guī)模原型,再到大規(guī)模原型,總是需要更長的時間,因為對于生成模型,嗯,你可以從網(wǎng)絡(luò)上獲取大量數(shù)據(jù),所以從開發(fā)方法到將其擴(kuò)展到互聯(lián)網(wǎng)規(guī)模的數(shù)據(jù)通常的延遲時間比較短。
Sergey: 但對于機(jī)器人來說,通常情況并非如此。所以雖然生成模型的現(xiàn)代進(jìn)展確實對機(jī)器人產(chǎn)生了重大影響,而且這些技術(shù)的特別有趣的適應(yīng)是與強(qiáng)化學(xué)習(xí)、規(guī)劃等相結(jié)合,但我認(rèn)為到目前為止,我們對這些事物的潛力有很多良好的跡象,但我們還沒有像擴(kuò)散模型那樣為圖像生成或語言模型那樣的大規(guī)模原型。我認(rèn)為關(guān)鍵是獲得這些種類的可重用模型,這些模型具有大量且多樣化的數(shù)據(jù),這樣我們就可以生產(chǎn)這些更大的原型。
Craig: 是的,那么你們實驗室接下來會做什么?
Sergey: 我們希望做的一件事是向社區(qū)提供預(yù)訓(xùn)練模型,現(xiàn)在我們實際上有了一個可以輕松適應(yīng)各種下游應(yīng)用的數(shù)據(jù)集。所以不只是一個可以做任何事情的模型,也許這是一個太雄心勃勃的目標(biāo),但至少是一個可以適應(yīng)做任何事情的模型。所以你可以想象,比如說,一個模型被預(yù)先訓(xùn)練,用于接收語言、接收目標(biāo)觀察、其他形式的命令,并為各種不同的機(jī)器人體制輸出結(jié)果,這不一定是解決每個問題,但至少提供了一個很好的初始化。所以如果有人有一個特定的機(jī)器人系統(tǒng),有一個特定的任務(wù)表述,一個特定的目標(biāo),他們可以拿來用這個,用更少的數(shù)據(jù),來適應(yīng)他們的問題。我認(rèn)為現(xiàn)在我們實際上已經(jīng)有了良好的多機(jī)器人數(shù)據(jù)集和相當(dāng)成熟的技術(shù),可以訓(xùn)練具有可變輸入和輸出的模型,我們實際上已經(jīng)準(zhǔn)備好了。所以我們的第一個原型應(yīng)該很快就會推出。但這將是第一步。
Sergey: 接下來,我們需要探究這樣一個系統(tǒng)的生命周期實際上是什么樣的?哪些是有效調(diào)整機(jī)器人基礎(chǔ)模型到特定領(lǐng)域、不同形態(tài)、不同命令等的正確技術(shù)?在那里可能實際上有很多有趣的問題需要解答。例如,機(jī)器人可以自主收集數(shù)據(jù),因此你是否可以基于其中一個這些預(yù)訓(xùn)練模型來進(jìn)行自主微調(diào)程序?你是否可以有一個尊重安全約束的微調(diào)程序等等?所以一旦我們有了基礎(chǔ)模型,就有很多有趣的問題可以解答。
Craig:我一直在和人們討論專有、開源辯論的問題。在生成式人工智能和機(jī)器人領(lǐng)域,是否存在類似的情況,即有著巨大資源的企業(yè)?我的意思是,機(jī)器人并不像你所說的模型那樣計算密集型。是這樣嗎?因此,在產(chǎn)業(yè)和研究中發(fā)生的事情是否更加平等?
Sergey: 是的,這是復(fù)雜的。所以當(dāng)然,計算約束是一個問題,尤其是當(dāng)我們進(jìn)入到視覺語言模型時。最有效的視覺語言模型實際上是最大的模型。例如,R2-2模型的最大版本有500億個參數(shù),非常接近目前最大的模型。當(dāng)然,你可以在小得多的規(guī)模上做很多實驗,這使得它在某種程度上更容易接近。
Sergey: 就數(shù)據(jù)而言,這有點有趣??隙ㄓ幸恍┕静渴鹆舜罅繖C(jī)器人。不過,這些公司的數(shù)據(jù)未必是最有趣的,因為如果它們部署在一個倉庫里,主要是拿取物品,也許在某些方面,研究人員的開放數(shù)據(jù)實際上更有趣。如果是移動性問題,如自動駕駛,情況就有所不同,像是,確實有一些大型工業(yè)公司擁有自己的專有技術(shù),但即使在那里,像是從汽車儀表板安裝的攝像頭構(gòu)建的數(shù)據(jù)集現(xiàn)在也非常龐大。當(dāng)然,它肯定不像特斯拉或Waymo
?擁有的那樣大,但是還是相當(dāng)可觀。所以我認(rèn)為你說得對,一些專有優(yōu)勢可能并不那么大,但這有點?;蛟S更悲觀的看法是,因為沒有人擁有數(shù)據(jù),所以公司也沒有數(shù)據(jù)。
Craig: 自主車輛的控制和機(jī)器人手臂或其他形式因素的控制,它們是不同的領(lǐng)域嗎?我是說,當(dāng)你們在研究這些模型時,你們也在考慮它們在自動駕駛中的應(yīng)用嗎?
Sergey: 傳統(tǒng)上,這些是非常不同的問題,但我們越來越多地看到一種整合的趨勢,因為非常相似的構(gòu)建模塊可以被重用。所以我認(rèn)為實際上的自動駕駛可能是其中最棘手的問題之一,因為有所有的約束和法規(guī)等等。但對于小規(guī)模移動機(jī)器人,比如,無人機(jī)、人行道機(jī)器人等,我們已經(jīng)有研究項目開發(fā)了基于視覺的導(dǎo)航策略。對于這些東西,它們使用的基本上是與我們用于機(jī)器人操縱問題的完全相同的架構(gòu),一個非常自然的下一步是實際上結(jié)合起來,不僅僅是有相同的架構(gòu),而是實際上是相同的模型。
Sergey: 原則上,在這一點上,實際上并沒有任何技術(shù)障礙?,F(xiàn)在,當(dāng)然,開車,比如說,一輛自動駕駛汽車的控制遠(yuǎn)不僅僅是避開障礙物和到達(dá)目的地。你必須加入很多知識、約束等等,這可能是相當(dāng)專業(yè)化的。但我的假設(shè)是,我們可能會看到很多在這些東西的核心感知行動系統(tǒng)上具有相同基本構(gòu)建塊的整合,也許它們的區(qū)別在于位于其上的規(guī)劃層,然后在特定情況下指導(dǎo)它們實際要做什么。
Sergey: 你的工作呢?因為計算約束、資金、工資等等的原因,學(xué)術(shù)界對于產(chǎn)業(yè)的吸引力是否更大,或者你是否在學(xué)術(shù)界和產(chǎn)業(yè)之間工作?你是堅定的嗎?
Sergey: 是的,我有20%的時間在谷歌DeepMind工作。我認(rèn)為,就產(chǎn)業(yè)研究員或?qū)W術(shù)研究員在機(jī)器人領(lǐng)域的吸引力或進(jìn)步程度而言,可能它更傾向于學(xué)術(shù)界,而不是像自然語言處理或視覺領(lǐng)域那樣。也許部分原因是因為在事情真正產(chǎn)生收入之前,還有許多大問題需要解決,你可以構(gòu)建一個提供實際商業(yè)案例的語言模型或視覺系統(tǒng),而類似的機(jī)器人技術(shù)可能還需要幾年的時間。不過,我確實認(rèn)為進(jìn)展迅速,我所帶領(lǐng)的許多學(xué)生對于基于他們正在開發(fā)的技術(shù)創(chuàng)辦公司等事情感到興奮。所以我認(rèn)為在不久的將來我們將會看到這方面的追趕。
Craig: 你認(rèn)為今年AI進(jìn)入公共領(lǐng)域,人們經(jīng)常將機(jī)器人與AI混淆。這一天會到來嗎?我是說,顯然這一天會到來,但你認(rèn)為什么時候會到來,當(dāng)會有一些商業(yè)應(yīng)用或開源應(yīng)用被公眾接受時,人們會突然談?wù)摍C(jī)器人而不是AI嗎?
Sergey: 是的,這是一個復(fù)雜的問題,因為我認(rèn)為如果我必須猜測,我會猜測除了核心技術(shù)之外,還需要相當(dāng)大的前期投資來克服實用化的激活能量。在某種程度上,這并不是前所未有的,因為與語言模型幾乎相同的事情發(fā)生在那里。下一個令牌預(yù)測的核心技術(shù)是相當(dāng)古老的。真正需要的是將大量的精力投入到對它們進(jìn)行工程化和策劃,收集和組裝正確的數(shù)據(jù)集,使它們真正有效,以至于基本上任何人都可以使用。這部分。
Sergey: 那里有一個科學(xué)問題,但很多問題實際上是組織經(jīng)濟(jì)學(xué)的問題,而這些問題很難預(yù)測,因為它們更多地與人們決定何時投入大量資源來使之成為現(xiàn)實相關(guān),而不僅僅是預(yù)測技術(shù)的進(jìn)化。技術(shù)可能會穩(wěn)步發(fā)展,但轉(zhuǎn)折點實際上是資源分配,所以我不能預(yù)測這將會發(fā)生的時間。如果我必須打賭,我會更接近于五年而不是十年,但我不確定。
Craig: 這個爭論已經(jīng)在社區(qū)中引起了很多爭議。你對此有什么看法,還是你的領(lǐng)域足夠獨立,你不會參與其中?
Sergey: 是的,這是一個復(fù)雜的問題。我傾向于不太愿意參與這樣的討論,因為我不太確定事情會如何發(fā)展,我認(rèn)為,也許作為一個機(jī)器人學(xué)家,我可能更傾向于對我們整體AI系統(tǒng)的現(xiàn)狀有些悲觀。很難想象一個無法控制機(jī)器人進(jìn)行人類容易的基本事情的AI系統(tǒng)會有多么能力非凡,但這些東西很難預(yù)測。我認(rèn)為在AI研究中唯一的常數(shù)可能是,人們經(jīng)常被事情的易于想象以及事情的困難程度所驚訝。如果我們回到幾十年前,想到藝術(shù)家和作家會被AI系統(tǒng)威脅到,那是在園丁和清潔工之前,這是非常令人震驚的,但這是我們今天生活的世界。也許這告訴我們要對我們的預(yù)測保持一些謙虛。
Craig: 是的,沒錯。全球各國政府非常關(guān)注對生成式AI
?的監(jiān)管。是否有關(guān)于機(jī)器人或AI和機(jī)器人的監(jiān)管,或者政府是否正在關(guān)注?是否有政府支持?有很多關(guān)于為研究和小型公司提供計算資源,以便這些資源不會被這些大型科技公司控制的討論。在機(jī)器人領(lǐng)域是否有這樣的討論,政府應(yīng)該或可以提供更多資源來加速研究?
Sergey: 是的,肯定有很多關(guān)于這個問題的討論。就我所見,通常情況下,這并不是將機(jī)器人或人工智能與其他事物區(qū)分開來的事情。當(dāng)然有關(guān)于這個的討論。但我還沒有看到很多實際行動,但我想這是一個進(jìn)展緩慢的事情。在這方面,我不認(rèn)為我會和其他任何人工智能研究者說出不同的話。從我目前所見,我認(rèn)為沒有任何特別特殊的事情對待機(jī)器人。但是,這是一個重大問題,我們在美國肯定需要認(rèn)真考慮我們?nèi)绾伪3旨夹g(shù)優(yōu)勢以及如何分配必要的資源。
Craig: 這引出了另一個問題,因為我在中國度過了我生命中的很多時間。在這項研究中,中國處于什么位置?你認(rèn)為他們領(lǐng)先還是落后?
Sergey: 我不太確定。有一件事我可以說,我認(rèn)為來自中國大學(xué)的研究人員在人工智能的各個領(lǐng)域,包括機(jī)器人學(xué),在所有領(lǐng)域都取得了很大的成功,而且肯定有很多非常有趣的研究成果來自中國。例如,當(dāng)我們進(jìn)行很多數(shù)據(jù)集收集工作時,我們實際上非常驚訝地發(fā)現(xiàn),上海的一些研究人員發(fā)布了一個非常驚人的數(shù)據(jù)集,與我們收集的數(shù)據(jù)集在規(guī)模、范圍和多樣性上相當(dāng),這很棒。他們以開源的方式發(fā)布了它。我和他們通過電話交談過。他們對他們想要用它做什么有很有趣的想法,所以我看到了很多質(zhì)量和結(jié)果方面的提高。
Sergey: 另一個有趣的事情是,實際上有相當(dāng)多的硬件進(jìn)步是由中國的公司推動的。例如,四足步行研究中最廣泛使用的平臺之一是來自中國的一個名為Unitary的公司,我認(rèn)為這個平臺之所以如此吸引人的原因是因為它相對簡單,價格實惠,并且設(shè)計得讓研究人員容易進(jìn)入其中的內(nèi)部機(jī)制,我認(rèn)為這實際上也是一件非常好的事情,因為雖然我們可能會擔(dān)心競爭等問題,但最終這實際上是加速了美國的研究進(jìn)程。這是我到目前為止所見到的,我不想對什么是好或壞做出價值判斷。看起來有很多事情在發(fā)生。
Craig: 這一期就到這里了。我要感謝Sergey抽出時間來和我們交談。與此同時,請記住,奇點也許不會很近,但人工智能正在改變你的世界,所以要注意。
本文轉(zhuǎn)載自 ??MoPaaS魔泊云??,作者: Sergey Levine
