自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

與生成模型相比,為何機(jī)器人研究還在用幾年前的老方法?

人工智能 新聞
Eric Jang 表示:「作為一名機(jī)器人專家,在訓(xùn)練 ResNet18 時(shí),很難不對(duì) NLP 研究人員正在訓(xùn)練的大模型產(chǎn)生嫉妒?!?

目前機(jī)器人領(lǐng)域取得了顯著進(jìn)展,這些進(jìn)展預(yù)示著未來機(jī)器人可以做更多事情。但是也有讓人困擾的事情,因?yàn)榕c生成模型相比,機(jī)器人的進(jìn)展還是有點(diǎn)遜色,尤其是 GPT-3 等模型的出現(xiàn),這一差距更加突出。

圖片

生成模型產(chǎn)生的結(jié)果好到令人震驚。如上圖左側(cè)是谷歌推出的 Imagen 的輸出結(jié)果。你可以提供一段文字給它,如「一只倉鼠戴著橙色的小帽,手里拿著我愛 JAX 的紙片」,根據(jù)給定的文字,Imagen 會(huì)渲染出合理的圖像。此外,谷歌還訓(xùn)練了一個(gè)大型語言模型 PaLM,可以用來解釋為什么笑話很有趣等。他們用 TPUv4 等先進(jìn)硬件訓(xùn)練模型,并且在計(jì)算機(jī)視覺領(lǐng)域,研究人員正在開發(fā)一些非常復(fù)雜的架構(gòu),如 Vision Transformers 等。

生成模型發(fā)展如此迅猛,與機(jī)器人技術(shù)相比,兩者之間有什么聯(lián)系呢?

本文中,來自挪威機(jī)器人公司「Halodi Robotics」的 AI 副總裁 Eric Jang 介紹了《我們?nèi)绾巫寵C(jī)器人更像生成模型?》。以下為文章主要內(nèi)容。

作為一名機(jī)器人領(lǐng)域?qū)<遥赡P皖I(lǐng)域的進(jìn)展讓人有點(diǎn)羨慕。因?yàn)樵跈C(jī)器人領(lǐng)域中,大多數(shù)研究者可能仍在使用 ResNet18,這個(gè)已有 7 年歷史的深度學(xué)習(xí)架構(gòu)。我們當(dāng)然不會(huì)像生成模型那樣在巨大的數(shù)據(jù)集上訓(xùn)練模型,所以很少有機(jī)器人方面的研究工作成為「耀眼」的頭條新聞。

我們知道莫拉維克悖論:相較于認(rèn)知型任務(wù),靈活的操縱機(jī)器人很困難,從直覺上看,讓機(jī)器人拿起并運(yùn)送物體這些操作,似乎沒有把文字變成圖像或解釋笑話那么令人印象深刻。?

首先我們給生成模型下一個(gè)定義。生成模型不僅僅是渲染圖片或生成大量的文本。它還是一個(gè)框架,我們可以用它來理解所有的概率機(jī)器學(xué)習(xí)。生成模型有兩個(gè)核心問題:

1、你要建模的數(shù)據(jù)類別有多少 bits?

2、你能把模型建的多好?

2012 年 AlexNet 取得突破,它可以對(duì) 1000 個(gè)類別進(jìn)行預(yù)測(cè),Log2(1000 classes)大約是 10 class bit。你可以把 AlexNet 想象成基于圖像的生成模型,包含 10bits 信息。如果你把建模任務(wù)的難度升級(jí)到 MS-CoCo 字幕任務(wù),這時(shí)模型包含大約 100bits信息。如果你正在進(jìn)行圖像生成,例如使用 DALLE 或 Imagen 從文本到圖像生成,大約包含 1000bits信息。?

通常對(duì)越多的類別進(jìn)行建模,就需要越多的算力來計(jì)算其中蘊(yùn)含的條件概率,這就是為什么隨著類別的增多模型會(huì)變的龐大。當(dāng)我們訓(xùn)練越來越大的模型時(shí),就有可能利用數(shù)據(jù)中的特征,從而可以學(xué)習(xí)更豐富的結(jié)構(gòu)。這就是為什么生成模型和自監(jiān)督學(xué)習(xí)已經(jīng)成為流行的方法,可以在不需要大量人工標(biāo)簽的情況下對(duì)大量的輸入進(jìn)行深度學(xué)習(xí)。?

Rich Sutton 在其文章《The Bitter Lesson》中指出:人工智能的大部分進(jìn)展似乎都是在這股計(jì)算熱潮中取得的,而其他方面幾乎沒有發(fā)展。Vision 算法、NLP 和 Yann LeCun 的 LeCake 等都受益于這股計(jì)算熱潮。

圖片

這種趨勢(shì)給我們什么啟示?如果你有過渡參數(shù)化的模型,其能夠處理更多數(shù)據(jù),并且模型能夠掌握網(wǎng)絡(luò)中的所有特征,加上很強(qiáng)的算力和訓(xùn)練目標(biāo),深度學(xué)習(xí)幾乎總是可行的。?

下面讓 DALL-E 2 生成一副圖像:一頭踏在巨浪上的騾子,這幅圖展示了生成模型是如何借助計(jì)算熱潮取得不凡的成績。你手握強(qiáng)大的算力(transformer、Resnet 等),并且可以選擇 VQVAE、Diffusion、GAN、Autoregressive 等算法來建模。當(dāng)前每種算法細(xì)節(jié)很重要,但未來一旦計(jì)算機(jī)的算力足夠強(qiáng)大,這些細(xì)節(jié)可能就不重要了。但從長遠(yuǎn)來看,模型規(guī)模和良好的架構(gòu)是所有這些進(jìn)步的基礎(chǔ)。

圖片?

相比之下,下圖展示的是機(jī)器人領(lǐng)域泛化研究的現(xiàn)狀。目前很多機(jī)器人研究人員仍在進(jìn)行的是小模型訓(xùn)練,并且還沒有用過 Vision Transformer!圖片

對(duì)于從事機(jī)器人研究的人來說,他們都希望機(jī)器人能更廣泛的應(yīng)用在現(xiàn)實(shí)世界中,并且發(fā)揮更大的作用。在生成模型領(lǐng)域,研究者面臨的問題相對(duì)較少,而在機(jī)器人研究領(lǐng)域,經(jīng)常遇到機(jī)器人部署難、噪聲數(shù)據(jù)等問題,這些從事生成模型的研究者都不會(huì)遇到。

接下來我們從三個(gè)不同的維度比較生成模型和機(jī)器人技術(shù),這三個(gè)方面包括優(yōu)化、評(píng)估和表達(dá)能力。

優(yōu)化?

首先讓我們看一個(gè)簡單的生成模型:PixelRNN。圖片

從第一個(gè)像素的紅色通道開始(紅色通道的先驗(yàn)概率是已知的),模型告訴 canvas(頂行)它要繪制的像素。canvas 將完全按照指令繪制,因此它將像素值復(fù)制到 canvas 上,然后將 canvas 讀回模型中,以預(yù)測(cè)下一個(gè)通道即綠色通道。然后將 R、G canvas 上的值反饋給 RNN,依此類推,最終生成 RGBRGBRGB… 序列。?

在實(shí)際的圖像生成任務(wù)中,可以使用 diffusion 或 transformer。但為了簡單起見,我們僅使用前向執(zhí)行的 RNN。?

現(xiàn)在讓我們將一般控制問題轉(zhuǎn)換為 PixelRNN。與生成圖像不同的是,我們要生成 MDP(馬爾可夫決策過程):狀態(tài)、動(dòng)作和獎(jiǎng)勵(lì)的序列。我們希望生成 MDP,這個(gè) MDP 對(duì)應(yīng)于完成某些任務(wù)的智能體(如機(jī)器人)。這里我們也是從先驗(yàn)知識(shí)開始,模型對(duì)強(qiáng)化學(xué)習(xí) (RL) 環(huán)境的初始狀態(tài)進(jìn)行采樣。這是模型的第一個(gè)輸入,RNN 對(duì)第一個(gè)像素 (A) 進(jìn)行采樣,canvas 完全按照指令的要求生成 A。但是,與生成圖像不同的是,canvas 總是將之前的 RNN 輸出返回,現(xiàn)在的操作是接下來的兩個(gè)像素(R,S)由當(dāng)前環(huán)境決定:即它接受動(dòng)作和所有之前的狀態(tài),并以某種方式計(jì)算 R,S。

圖片

我們可以把 RL 環(huán)境視為繪制對(duì)象(painter object),它執(zhí)行 RNN 動(dòng)作,而不是直接在 canvas 上繪制想要的內(nèi)容,它會(huì)使用任意復(fù)雜的函數(shù)繪制像素。?

如果我們將其與前面繪制圖像的 PixelRNN 進(jìn)行對(duì)比,這個(gè)任務(wù)顯然更具挑戰(zhàn),因?yàn)楫?dāng)你嘗試對(duì)想要的圖像進(jìn)行采樣,會(huì)有一個(gè)黑盒,這個(gè)黑盒會(huì)對(duì)要繪制內(nèi)容造成困難。?

繪制過程中會(huì)碰到一個(gè)典型的問題:如果環(huán)境繪制了一個(gè)非預(yù)期內(nèi)的狀態(tài),就會(huì)有問題,即如何發(fā)出糾正指令,以便可以返回到我們嘗試?yán)L制的圖像。此外,與圖像生成不同,我們實(shí)際上必須按順序生成 MDP 圖像,并且不能回溯進(jìn)行編輯,這也帶來了優(yōu)化挑戰(zhàn)。?

如果想理解 PPO 這樣的 RL 方法是如何泛化的,我們應(yīng)該在非控制環(huán)境下對(duì)其進(jìn)行基準(zhǔn)測(cè)試,將其應(yīng)用于圖像生成技術(shù),并將其與現(xiàn)代生成模型進(jìn)行比較。Hinton 和 Nair 在 2006 年的工作中,他們使用 springs 系統(tǒng)對(duì) MNIST 數(shù)字合成進(jìn)行建模。DeepMind 使用 RL 方法復(fù)現(xiàn)這種圖像合成的部分工作。?

圖像生成是研究優(yōu)化和控制的很好的基準(zhǔn),因?yàn)樗嬲龔?qiáng)調(diào)了在成千上萬個(gè)不同場(chǎng)景中進(jìn)行泛化的必要性。?

近期如 Decision Transformer、Trajectory Transformer 以及 Multi-Game Decision Transformer 表明,upside-down RL 技術(shù)在泛化方面做得很好。那么 upside-down RL 技術(shù)與在線(PPO)或離線 RL 算法(CQL)相比如何?其實(shí)要進(jìn)行評(píng)估也很簡便,我們可以評(píng)估密度(專家完全觀察的似然模型)并驗(yàn)證給定的 RL 算法選擇是否可以在測(cè)量測(cè)試似然度時(shí)泛化到大量圖像。

評(píng)估?

如果想估量機(jī)器人在某些任務(wù)上的成功率,我們可以使用二項(xiàng)分布。

二項(xiàng)分布的方差為 p(1?p)/N,p 為樣本均值(估計(jì)的成功率); N 為試驗(yàn)次數(shù)。在最壞的情況下,如果 p=50%(最大方差),那么需要 3000 個(gè)樣本才能使標(biāo)準(zhǔn)差小于 1%!?

如果我們從計(jì)算機(jī)視覺的角度來看,0.1-1% 范圍內(nèi)的提升是前進(jìn)的重要驅(qū)動(dòng)力。ImageNet 目標(biāo)識(shí)別問題,自 2012 年以來取得了很大進(jìn)步,2012 到 2014 年的錯(cuò)誤率降低了 3%,然后每年大約降低 1%,有很多人在研究如何使這項(xiàng)工作發(fā)揮作用。也許今年 (2022 年) 在基準(zhǔn)提升上已經(jīng)達(dá)到瓶頸,但在 2012-2018 年的這 7 年間,研究人員取得了很多進(jìn)展和成果。

圖片

在生成建模的其他領(lǐng)域,研究人員一直在降低語言模型的復(fù)雜性,以及生成模型在圖像上的每維 bit 數(shù)(bits-per-dimension)。

圖片

圖片

下面大致比較一下通用基準(zhǔn)的評(píng)估速度。2012 年 ImageNet 目標(biāo)識(shí)別測(cè)試集中有 150000 個(gè)圖像。假設(shè)每個(gè)圖像的推理速度為 10ms,并且每次是連續(xù)評(píng)估每個(gè)圖像,這樣評(píng)估每個(gè)測(cè)試示例大約需要 25 分鐘(實(shí)際上評(píng)估速度要快得多,因?yàn)榭梢赃M(jìn)行批量處理)。但這里假設(shè)我們只有單臺(tái)機(jī)器人進(jìn)行評(píng)估操作,并且必須連續(xù)處理圖像。

因?yàn)橛泻A繄D像,所以我們可以得到標(biāo)準(zhǔn)誤差估計(jì)在 0.1% 以內(nèi)。事實(shí)上我們不需要 0.1% 的標(biāo)準(zhǔn)誤差才能在該領(lǐng)域取得進(jìn)展,可能 1% 就夠了。?

在評(píng)估復(fù)雜性方面,端到端的性能也是重要的一塊。下面我們來看看怎樣進(jìn)行神經(jīng)網(wǎng)絡(luò)在模擬任務(wù)中的端到端性能評(píng)估。Habitat Sim 是目前速度最快的模擬器之一,其設(shè)計(jì)目的是最大限度地減少神經(jīng)網(wǎng)絡(luò)推理和環(huán)境步進(jìn)之間的開銷。模擬器可以每秒 10000 step,但由于神經(jīng)網(wǎng)絡(luò)的正向傳遞約為 10ms,該瓶頸導(dǎo)致每個(gè) episode 的評(píng)估時(shí)間為 2 秒(假設(shè)典型的 navigation episode 為 200 step)。這比運(yùn)行真正的機(jī)器人快得多,但比評(píng)估單個(gè)計(jì)算機(jī)視覺樣本慢得多。?

如果要評(píng)估端到端的機(jī)器人系統(tǒng),其多樣性水平與我們使用 ImageNet 所做的相似,普通的評(píng)估需要 1 周時(shí)間來處理數(shù)十萬個(gè)評(píng)估場(chǎng)景。這并不完全是合理的比較,因?yàn)槊總€(gè) episode 實(shí)際上有 200 個(gè)左右的推理過程,但我們不能將單個(gè) episode 內(nèi)的圖像視為獨(dú)立的驗(yàn)證集。如果沒有任何其它 episode 度量,我們只知道任務(wù)是否成功,因此 episode 內(nèi)的所有推理只對(duì)二項(xiàng)式估計(jì)的單個(gè)樣本有貢獻(xiàn)。我們必須根據(jù)數(shù)萬個(gè) episode 而不是圖片來估計(jì)成功率。當(dāng)然,我們可以嘗試使用其他策略評(píng)估方法,但這些算法還不夠可靠,無法開箱即用。?

接下來階段,我們對(duì)真實(shí)機(jī)器人進(jìn)行現(xiàn)場(chǎng)評(píng)估。在現(xiàn)實(shí)世界中每個(gè) episode 大約需要 30 秒的時(shí)間進(jìn)行評(píng)估,如果一個(gè)由 10 名操作員組成的團(tuán)隊(duì)進(jìn)行評(píng)估,每個(gè)操作員每天可以完成 300 個(gè) episode,那么每天可以進(jìn)行大約 3000 次評(píng)估。?

如果評(píng)估模型需要一整天的時(shí)間,這會(huì)對(duì)工作效率造成很大的限制,因?yàn)檫@樣每天只能嘗試一種想法。所以我們不能再研究那些將性能逐步提高 0.1% 的小想法,或者非常極端的想法。我們必須想辦法在性能上實(shí)現(xiàn)大飛躍。雖然這看起來不錯(cuò),但在實(shí)踐中很難做到。?

當(dāng)考慮進(jìn)行機(jī)器人學(xué)習(xí)迭代過程時(shí),很容易讓評(píng)估試驗(yàn)的數(shù)量遠(yuǎn)遠(yuǎn)超過你的訓(xùn)練數(shù)據(jù)!幾個(gè)月的不間斷評(píng)估產(chǎn)生了約數(shù)萬個(gè) episode,這已經(jīng)超過了大多數(shù)機(jī)器人深度學(xué)習(xí)演示數(shù)據(jù)集。

圖片

幾年前,研究人員仍在解決類似讓機(jī)械臂開門的問題,但這些策略不能進(jìn)行很好的泛化。研究人員通常按照 10 個(gè) episode 左右的順序進(jìn)行評(píng)估。但 10-50 次試驗(yàn)實(shí)際上不足以保證統(tǒng)計(jì)魯棒性。為了取得好的效果,實(shí)際可能要進(jìn)行超過 1000 次試驗(yàn)以進(jìn)行最終評(píng)估。?

但當(dāng)進(jìn)一步擴(kuò)展試驗(yàn)時(shí)會(huì)發(fā)生什么呢?假如我們最終需要訓(xùn)練具有 O(100,000)種行為、極其通用的機(jī)器人系統(tǒng),我們需要多少次試驗(yàn)來評(píng)估這樣的通用系統(tǒng)?這里的評(píng)估成本變得極其高昂。

這里再強(qiáng)調(diào)一次:數(shù)據(jù)是足夠的,評(píng)估存在瓶頸!

圖片

如何加速評(píng)估?

下面介紹關(guān)于如何加快通用機(jī)器人系統(tǒng)評(píng)估的想法。?

方法之一是分別對(duì)泛化問題和機(jī)器人進(jìn)行研究。其實(shí)深度學(xué)習(xí)社區(qū)已經(jīng)做到了這一點(diǎn)。大多數(shù)計(jì)算機(jī)視覺和生成建模研究人員并不直接在實(shí)際機(jī)器人上測(cè)試他們的想法,而是期盼一旦他們的模型獲得強(qiáng)大的泛化能力,那么它將快速地遷移到機(jī)器人上。在計(jì)算機(jī)視覺領(lǐng)域開發(fā)的 ResNets 極大地簡化了許多機(jī)器人視覺運(yùn)動(dòng)建模選擇。想象一下,如果一名研究人員每次想嘗試不同的神經(jīng)網(wǎng)絡(luò)架構(gòu)時(shí)都必須在真實(shí)的機(jī)器人上測(cè)試他們的想法!另一個(gè)成功案例是 CLIPort,它將圖像 - 文本模型強(qiáng)大的多模式泛化能力與用于抓取規(guī)劃的基本幾何推理解耦。?

我們可以進(jìn)一步將 RL 的技術(shù)堆棧分為「模擬玩具環(huán)境」、「模擬機(jī)器人」和「真實(shí)機(jī)器人」三層(按評(píng)估難度的增加順序排列)。

圖片

在金字塔的底層,是一般的基準(zhǔn),比如 Kaggle 競(jìng)賽的基準(zhǔn)。往上走,是一組「玩具控制問題」,以「裸機(jī)」的方式研究問題,只有模擬器和神經(jīng)網(wǎng)絡(luò)運(yùn)行,所有與真實(shí)世界機(jī)器人相關(guān)的代碼,如電池管理等都不存在。沿著金字塔再向上走,就來到更特定領(lǐng)域,與你試圖解決的問題更相關(guān)。例如「模擬機(jī)器人」和「真實(shí)機(jī)器人」可能用于相同的任務(wù),并重用相同的底層機(jī)器人代碼。模擬玩具環(huán)境可用于研究一般算法,但與最終機(jī)器人領(lǐng)域重疊的較少。在「評(píng)估金字塔」的頂部,是我們?cè)噲D解決的真實(shí)機(jī)器人任務(wù)。直接迭代這個(gè)過程非常慢,因此我們都希望在這里花費(fèi)盡可能少的時(shí)間。我們希望,在較低層次上訓(xùn)練和評(píng)估的基礎(chǔ)模型能夠幫助了解哪些想法有效,而不必在頂層進(jìn)行每一次評(píng)估。?

同樣,該領(lǐng)域已經(jīng)以這種解藕的方式運(yùn)作。大多數(shù)有興趣為機(jī)器人做出貢獻(xiàn)的人不一定會(huì)操控機(jī)器人。他們可能會(huì)訓(xùn)練最終可能對(duì)機(jī)器人有用的視覺表示和架構(gòu)。當(dāng)然,去耦合的缺點(diǎn)是感知基準(zhǔn)的改進(jìn)并不總是對(duì)應(yīng)于機(jī)器人能力的改進(jìn)。例如正在改進(jìn)語義分割或視頻分類準(zhǔn)確性的 mAP 指標(biāo),甚至是無損壓縮基準(zhǔn)(理論上最終應(yīng)該有所貢獻(xiàn)),我們不知道表示目標(biāo)的改進(jìn)在實(shí)際上如何與下游任務(wù)的改進(jìn)產(chǎn)生映射。所以最終必須在端到端系統(tǒng)上進(jìn)行測(cè)試,以了解真正的瓶頸在哪里。?

Google 曾發(fā)表過一篇很酷的論文《Challenging Common Assumptions in Unsupervised Learning of Disentangled Representations》,他們證明了許多完全無監(jiān)督的表示學(xué)習(xí)方法不會(huì)在下游任務(wù)中帶來顯著的性能改進(jìn),除非我們正在執(zhí)行評(píng)估和選擇模型使用的是自己關(guān)心的最終下游標(biāo)準(zhǔn)。圖片

論文地址:https://arxiv.org/pdf/1811.12359.pdf?

另一種降低評(píng)估成本的方法是確保數(shù)據(jù)收集和評(píng)估過程一致。我們可以同時(shí)收集評(píng)估數(shù)據(jù)和專家操作數(shù)據(jù)。我們可以通過一定的干預(yù)來收集 HG-dagger 數(shù)據(jù),這樣就可以收集有用的訓(xùn)練數(shù)據(jù)。同時(shí),每個(gè) episode 的平均干預(yù)次數(shù)大致可以告訴我們?cè)摬呗允欠駢蚝?。我們還可以觀察標(biāo)量指標(biāo),而不是二項(xiàng)式指標(biāo),因?yàn)檫@些指標(biāo)的每個(gè) episode 產(chǎn)生的信息比單次成功 / 失敗更多。?

使用 RL 算法進(jìn)行自主數(shù)據(jù)收集是將評(píng)估和數(shù)據(jù)收集相結(jié)合的另一種方法,但該方法需要我們對(duì) episode 進(jìn)行人工評(píng)分,或者使用精心設(shè)計(jì)的獎(jiǎng)勵(lì)函數(shù)。所有這些方法都需要在現(xiàn)實(shí)世界中部署大量機(jī)器人,這仍然會(huì)陷入在現(xiàn)實(shí)世界中不斷迭代的泥潭。?

讓評(píng)估算法更快的方法是改進(jìn) sim-to-real 的遷移算法。我們可以并行模擬許多機(jī)器人,這樣就不會(huì)再受約束。Mohi Khansari、Daniel Ho 和 Yuqing Du 等人開發(fā)了一種被稱為「任務(wù)一致性損失(Task Consistency Loss)」的技術(shù),該技術(shù)將來自 sim 和 real 的表示正則化為不變量,因此策略在 sim 和 real 下的行為應(yīng)該類似的。當(dāng)我們將 sim 中評(píng)估的策略遷移到 real 時(shí),我們希望確保 sim 中的較高性能指標(biāo)也確實(shí)對(duì)應(yīng)于 real 中的較高性能指標(biāo)。sim2real 差距越小,就越可信任模擬實(shí)驗(yàn)中的指標(biāo)。

表達(dá)性

讓我們看看現(xiàn)代生成模型可以輸出多少位。每通道 8 位的 64x64x3 RGB 圖像為 36864bits。語言模型可以生成任意數(shù)量的 tokens,但如果我們將輸出窗口固定為 2048 個(gè) tokens,每個(gè) token 有 17bits,總共 36793bits。因此,圖像和文本生成模型都可以合成大約 37kbits。隨著模型的表現(xiàn)力越來越強(qiáng),人們對(duì)這些模型的感知會(huì)發(fā)生質(zhì)的飛躍。甚至有人開始認(rèn)為語言模型是部分有意識(shí)的,因?yàn)樗鼈兊谋磉_(dá)能力太強(qiáng)大!圖片

相比之下,當(dāng)下機(jī)器人的表達(dá)性如何?這里我們?cè)O(shè)計(jì)一個(gè)簡化現(xiàn)實(shí)世界的環(huán)境,桌上有 6 個(gè)物品,機(jī)器人的任務(wù)是必須將一個(gè)物品移動(dòng)到另一個(gè)物品的頂部或運(yùn)送某幾個(gè)物品,總共 100 個(gè)任務(wù)。log2(100)大約是 7 個(gè) bits,也就是說“給定世界的狀態(tài),機(jī)器人能夠?qū)⒃右苿?dòng)到 N 個(gè)狀態(tài)中的一個(gè),其中 N 可以用 7bits 來描述”。谷歌的 SayCan 算法可以用一個(gè)神經(jīng)網(wǎng)絡(luò)完成大約 550 個(gè)操作任務(wù),這在當(dāng)前的機(jī)器人深度學(xué)習(xí)標(biāo)準(zhǔn)中是相當(dāng)令人印象深刻的,總共只有大約 10 個(gè) bits。?

這種比較并不是完美合理的,因?yàn)樾畔⒌亩x在兩者之間是不同的,這里只是提供一個(gè)粗略的直覺,當(dāng)人們衡量一組任務(wù)與另一組任務(wù)的相對(duì)復(fù)雜性時(shí),需要弄明白什么是重要的。?

我們遇到的挑戰(zhàn)之一是機(jī)器人的功能仍然有限。如果你看一下 Ego4D 數(shù)據(jù)集,很多任務(wù)都需要雙手操作,但現(xiàn)在大多數(shù)機(jī)器人仍然使用帶輪底座、單臂的移動(dòng)機(jī)械手。他們無法移動(dòng)不能去任何地方,顯然我們擁有的只是「機(jī)械臂」,這排除了很多有趣的任務(wù)。圖片

我們需要研究更具表達(dá)性的機(jī)器人,但是機(jī)器人學(xué)習(xí)算法的表現(xiàn)力是受硬件限制的。下面是機(jī)器人開門、打包行李箱、拉上拉鏈、給植物澆水以及翻轉(zhuǎn)水瓶瓶蓋的畫面。隨著機(jī)器人硬件越來越接近真實(shí)的人類,在以人類為中心的世界里,你可以做的事情的數(shù)量呈指數(shù)級(jí)增長。圖片

隨著機(jī)器人變得更具表達(dá)性,我們不僅需要互聯(lián)網(wǎng)規(guī)模的訓(xùn)練數(shù)據(jù),還需要互聯(lián)網(wǎng)規(guī)模的評(píng)估過程。如果你看一下大型語言模型 (LLMs) 的進(jìn)展,現(xiàn)在有很多論文研究調(diào)優(yōu)以及現(xiàn)有模型可以做什么和不能做什么。

比如,BigBench 的基準(zhǔn)編譯了一系列任務(wù),并詢問我們可以從這些模型中獲得什么。OpenAI 面向互聯(lián)網(wǎng)用戶評(píng)估他們的 DALLE-2 和 GPT-3 模型。他們的工程和產(chǎn)品團(tuán)隊(duì)可以從用戶參與的人工智能試驗(yàn)中學(xué)習(xí),因?yàn)槿魏我晃谎芯咳藛T都很難掌握 LLMs 模型的細(xì)節(jié)。

最后向讀者提個(gè)問題,機(jī)器人領(lǐng)域中與 GPT-3 或 DALLE-2 API 等價(jià)的技術(shù)是什么?通過這個(gè)等價(jià)技術(shù),互聯(lián)網(wǎng)社區(qū)的研究人員可以對(duì)機(jī)器人研究進(jìn)行質(zhì)疑、并了解它到底可以做什么嗎?

最后用表格總結(jié)優(yōu)化、評(píng)估和表達(dá)性之間的比較:

圖片

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2018-12-11 11:30:09

代碼互聯(lián)網(wǎng)編程語言

2015-05-21 15:46:20

2023-02-19 09:12:23

GNOME指示器

2021-02-07 18:19:44

RabbitMQ客戶端

2021-08-19 15:44:20

機(jī)器人人工智能機(jī)器學(xué)習(xí)

2020-02-18 10:26:58

機(jī)器人人工智能系統(tǒng)

2023-07-01 19:49:04

機(jī)器人

2021-06-07 08:28:26

人工智能AI機(jī)器人

2024-01-12 10:24:07

NVIDIA

2013-08-08 09:46:18

Andorid機(jī)器人

2016-01-08 14:45:40

前端技術(shù)發(fā)展方向

2022-04-19 12:52:45

網(wǎng)絡(luò)安全漏洞網(wǎng)絡(luò)風(fēng)險(xiǎn)

2020-10-15 15:42:00

人工智能

2018-03-28 09:28:16

CITE機(jī)器人智能系統(tǒng)館

2023-12-24 23:00:26

生成式人工智能AI機(jī)器人

2019-01-09 10:00:51

機(jī)器人護(hù)理家政行業(yè)

2018-11-08 15:37:35

機(jī)房建設(shè)

2018-11-12 17:19:48

招商銀行

2025-02-05 10:37:27

2021-10-11 10:12:02

機(jī)器人人工智能系統(tǒng)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)