與生成模型相比，為何機(jī)器人研究還在用幾年前的老方法？

作者：機(jī)器之心 2022-08-15 14:07:29

Eric Jang 表示：「作為一名機(jī)器人專家，在訓(xùn)練 ResNet18 時(shí)，很難不對(duì) NLP 研究人員正在訓(xùn)練的大模型產(chǎn)生嫉妒?！?

目前機(jī)器人領(lǐng)域取得了顯著進(jìn)展，這些進(jìn)展預(yù)示著未來機(jī)器人可以做更多事情。但是也有讓人困擾的事情，因?yàn)榕c生成模型相比，機(jī)器人的進(jìn)展還是有點(diǎn)遜色，尤其是 GPT-3 等模型的出現(xiàn)，這一差距更加突出。

生成模型產(chǎn)生的結(jié)果好到令人震驚。如上圖左側(cè)是谷歌推出的 Imagen 的輸出結(jié)果。你可以提供一段文字給它，如「一只倉鼠戴著橙色的小帽，手里拿著我愛 JAX 的紙片」，根據(jù)給定的文字，Imagen 會(huì)渲染出合理的圖像。此外，谷歌還訓(xùn)練了一個(gè)大型語言模型 PaLM，可以用來解釋為什么笑話很有趣等。他們用 TPUv4 等先進(jìn)硬件訓(xùn)練模型，并且在計(jì)算機(jī)視覺領(lǐng)域，研究人員正在開發(fā)一些非常復(fù)雜的架構(gòu)，如 Vision Transformers 等。

生成模型發(fā)展如此迅猛，與機(jī)器人技術(shù)相比，兩者之間有什么聯(lián)系呢？

本文中，來自挪威機(jī)器人公司「Halodi Robotics」的 AI 副總裁 Eric Jang 介紹了《我們?nèi)绾巫寵C(jī)器人更像生成模型？》。以下為文章主要內(nèi)容。

作為一名機(jī)器人領(lǐng)域?qū)＜遥赡Ｐ皖I(lǐng)域的進(jìn)展讓人有點(diǎn)羨慕。因?yàn)樵跈C(jī)器人領(lǐng)域中，大多數(shù)研究者可能仍在使用 ResNet18，這個(gè)已有 7 年歷史的深度學(xué)習(xí)架構(gòu)。我們當(dāng)然不會(huì)像生成模型那樣在巨大的數(shù)據(jù)集上訓(xùn)練模型，所以很少有機(jī)器人方面的研究工作成為「耀眼」的頭條新聞。

我們知道莫拉維克悖論：相較于認(rèn)知型任務(wù)，靈活的操縱機(jī)器人很困難，從直覺上看，讓機(jī)器人拿起并運(yùn)送物體這些操作，似乎沒有把文字變成圖像或解釋笑話那么令人印象深刻。?

首先我們給生成模型下一個(gè)定義。生成模型不僅僅是渲染圖片或生成大量的文本。它還是一個(gè)框架，我們可以用它來理解所有的概率機(jī)器學(xué)習(xí)。生成模型有兩個(gè)核心問題：

1、你要建模的數(shù)據(jù)類別有多少 bits？

2、你能把模型建的多好？

2012 年 AlexNet 取得突破，它可以對(duì) 1000 個(gè)類別進(jìn)行預(yù)測(cè)，Log2(1000 classes)大約是 10 class bit。你可以把 AlexNet 想象成基于圖像的生成模型，包含 10bits 信息。如果你把建模任務(wù)的難度升級(jí)到 MS-CoCo 字幕任務(wù)，這時(shí)模型包含大約 100bits信息。如果你正在進(jìn)行圖像生成，例如使用 DALLE 或 Imagen 從文本到圖像生成，大約包含 1000bits信息。?

通常對(duì)越多的類別進(jìn)行建模，就需要越多的算力來計(jì)算其中蘊(yùn)含的條件概率，這就是為什么隨著類別的增多模型會(huì)變的龐大。當(dāng)我們訓(xùn)練越來越大的模型時(shí)，就有可能利用數(shù)據(jù)中的特征，從而可以學(xué)習(xí)更豐富的結(jié)構(gòu)。這就是為什么生成模型和自監(jiān)督學(xué)習(xí)已經(jīng)成為流行的方法，可以在不需要大量人工標(biāo)簽的情況下對(duì)大量的輸入進(jìn)行深度學(xué)習(xí)。?

Rich Sutton 在其文章《The Bitter Lesson》中指出：人工智能的大部分進(jìn)展似乎都是在這股計(jì)算熱潮中取得的，而其他方面幾乎沒有發(fā)展。Vision 算法、NLP 和 Yann LeCun 的 LeCake 等都受益于這股計(jì)算熱潮。

這種趨勢(shì)給我們什么啟示？如果你有過渡參數(shù)化的模型，其能夠處理更多數(shù)據(jù)，并且模型能夠掌握網(wǎng)絡(luò)中的所有特征，加上很強(qiáng)的算力和訓(xùn)練目標(biāo)，深度學(xué)習(xí)幾乎總是可行的。?

下面讓 DALL-E 2 生成一副圖像：一頭踏在巨浪上的騾子，這幅圖展示了生成模型是如何借助計(jì)算熱潮取得不凡的成績。你手握強(qiáng)大的算力（transformer、Resnet 等），并且可以選擇 VQVAE、Diffusion、GAN、Autoregressive 等算法來建模。當(dāng)前每種算法細(xì)節(jié)很重要，但未來一旦計(jì)算機(jī)的算力足夠強(qiáng)大，這些細(xì)節(jié)可能就不重要了。但從長遠(yuǎn)來看，模型規(guī)模和良好的架構(gòu)是所有這些進(jìn)步的基礎(chǔ)。

相比之下，下圖展示的是機(jī)器人領(lǐng)域泛化研究的現(xiàn)狀。目前很多機(jī)器人研究人員仍在進(jìn)行的是小模型訓(xùn)練，并且還沒有用過 Vision Transformer！

對(duì)于從事機(jī)器人研究的人來說，他們都希望機(jī)器人能更廣泛的應(yīng)用在現(xiàn)實(shí)世界中，并且發(fā)揮更大的作用。在生成模型領(lǐng)域，研究者面臨的問題相對(duì)較少，而在機(jī)器人研究領(lǐng)域，經(jīng)常遇到機(jī)器人部署難、噪聲數(shù)據(jù)等問題，這些從事生成模型的研究者都不會(huì)遇到。

接下來我們從三個(gè)不同的維度比較生成模型和機(jī)器人技術(shù)，這三個(gè)方面包括優(yōu)化、評(píng)估和表達(dá)能力。

優(yōu)化?

首先讓我們看一個(gè)簡單的生成模型：PixelRNN。

從第一個(gè)像素的紅色通道開始(紅色通道的先驗(yàn)概率是已知的)，模型告訴 canvas（頂行）它要繪制的像素。canvas 將完全按照指令繪制，因此它將像素值復(fù)制到 canvas 上，然后將 canvas 讀回模型中，以預(yù)測(cè)下一個(gè)通道即綠色通道。然后將 R、G canvas 上的值反饋給 RNN，依此類推，最終生成 RGBRGBRGB… 序列。?

在實(shí)際的圖像生成任務(wù)中，可以使用 diffusion 或 transformer。但為了簡單起見，我們僅使用前向執(zhí)行的 RNN。?

現(xiàn)在讓我們將一般控制問題轉(zhuǎn)換為 PixelRNN。與生成圖像不同的是，我們要生成 MDP(馬爾可夫決策過程)：狀態(tài)、動(dòng)作和獎(jiǎng)勵(lì)的序列。我們希望生成 MDP，這個(gè) MDP 對(duì)應(yīng)于完成某些任務(wù)的智能體（如機(jī)器人）。這里我們也是從先驗(yàn)知識(shí)開始，模型對(duì)強(qiáng)化學(xué)習(xí) (RL) 環(huán)境的初始狀態(tài)進(jìn)行采樣。這是模型的第一個(gè)輸入，RNN 對(duì)第一個(gè)像素 (A) 進(jìn)行采樣，canvas 完全按照指令的要求生成 A。但是，與生成圖像不同的是，canvas 總是將之前的 RNN 輸出返回，現(xiàn)在的操作是接下來的兩個(gè)像素（R，S）由當(dāng)前環(huán)境決定：即它接受動(dòng)作和所有之前的狀態(tài)，并以某種方式計(jì)算 R，S。

我們可以把 RL 環(huán)境視為繪制對(duì)象（painter object），它執(zhí)行 RNN 動(dòng)作，而不是直接在 canvas 上繪制想要的內(nèi)容，它會(huì)使用任意復(fù)雜的函數(shù)繪制像素。?

如果我們將其與前面繪制圖像的 PixelRNN 進(jìn)行對(duì)比，這個(gè)任務(wù)顯然更具挑戰(zhàn)，因?yàn)楫?dāng)你嘗試對(duì)想要的圖像進(jìn)行采樣，會(huì)有一個(gè)黑盒，這個(gè)黑盒會(huì)對(duì)要繪制內(nèi)容造成困難。?

繪制過程中會(huì)碰到一個(gè)典型的問題：如果環(huán)境繪制了一個(gè)非預(yù)期內(nèi)的狀態(tài)，就會(huì)有問題，即如何發(fā)出糾正指令，以便可以返回到我們嘗試?yán)L制的圖像。此外，與圖像生成不同，我們實(shí)際上必須按順序生成 MDP 圖像，并且不能回溯進(jìn)行編輯，這也帶來了優(yōu)化挑戰(zhàn)。?

如果想理解 PPO 這樣的 RL 方法是如何泛化的，我們應(yīng)該在非控制環(huán)境下對(duì)其進(jìn)行基準(zhǔn)測(cè)試，將其應(yīng)用于圖像生成技術(shù)，并將其與現(xiàn)代生成模型進(jìn)行比較。Hinton 和 Nair 在 2006 年的工作中，他們使用 springs 系統(tǒng)對(duì) MNIST 數(shù)字合成進(jìn)行建模。DeepMind 使用 RL 方法復(fù)現(xiàn)這種圖像合成的部分工作。?

圖像生成是研究優(yōu)化和控制的很好的基準(zhǔn)，因?yàn)樗嬲龔?qiáng)調(diào)了在成千上萬個(gè)不同場(chǎng)景中進(jìn)行泛化的必要性。?

近期如 Decision Transformer、Trajectory Transformer 以及 Multi-Game Decision Transformer 表明，upside-down RL 技術(shù)在泛化方面做得很好。那么 upside-down RL 技術(shù)與在線（PPO）或離線 RL 算法（CQL）相比如何？其實(shí)要進(jìn)行評(píng)估也很簡便，我們可以評(píng)估密度（專家完全觀察的似然模型）并驗(yàn)證給定的 RL 算法選擇是否可以在測(cè)量測(cè)試似然度時(shí)泛化到大量圖像。

評(píng)估?

如果想估量機(jī)器人在某些任務(wù)上的成功率，我們可以使用二項(xiàng)分布。

二項(xiàng)分布的方差為 p(1?p)/N，p 為樣本均值（估計(jì)的成功率）; N 為試驗(yàn)次數(shù)。在最壞的情況下，如果 p=50%（最大方差），那么需要 3000 個(gè)樣本才能使標(biāo)準(zhǔn)差小于 1%！?

如果我們從計(jì)算機(jī)視覺的角度來看，0.1-1% 范圍內(nèi)的提升是前進(jìn)的重要驅(qū)動(dòng)力。ImageNet 目標(biāo)識(shí)別問題，自 2012 年以來取得了很大進(jìn)步，2012 到 2014 年的錯(cuò)誤率降低了 3%，然后每年大約降低 1%，有很多人在研究如何使這項(xiàng)工作發(fā)揮作用。也許今年 (2022 年) 在基準(zhǔn)提升上已經(jīng)達(dá)到瓶頸，但在 2012-2018 年的這 7 年間，研究人員取得了很多進(jìn)展和成果。

在生成建模的其他領(lǐng)域，研究人員一直在降低語言模型的復(fù)雜性，以及生成模型在圖像上的每維 bit 數(shù)(bits-per-dimension)。

下面大致比較一下通用基準(zhǔn)的評(píng)估速度。2012 年 ImageNet 目標(biāo)識(shí)別測(cè)試集中有 150000 個(gè)圖像。假設(shè)每個(gè)圖像的推理速度為 10ms，并且每次是連續(xù)評(píng)估每個(gè)圖像，這樣評(píng)估每個(gè)測(cè)試示例大約需要 25 分鐘(實(shí)際上評(píng)估速度要快得多，因?yàn)榭梢赃M(jìn)行批量處理)。但這里假設(shè)我們只有單臺(tái)機(jī)器人進(jìn)行評(píng)估操作，并且必須連續(xù)處理圖像。

因?yàn)橛泻Ａ繄D像，所以我們可以得到標(biāo)準(zhǔn)誤差估計(jì)在 0.1% 以內(nèi)。事實(shí)上我們不需要 0.1% 的標(biāo)準(zhǔn)誤差才能在該領(lǐng)域取得進(jìn)展，可能 1% 就夠了。?

在評(píng)估復(fù)雜性方面，端到端的性能也是重要的一塊。下面我們來看看怎樣進(jìn)行神經(jīng)網(wǎng)絡(luò)在模擬任務(wù)中的端到端性能評(píng)估。Habitat Sim 是目前速度最快的模擬器之一，其設(shè)計(jì)目的是最大限度地減少神經(jīng)網(wǎng)絡(luò)推理和環(huán)境步進(jìn)之間的開銷。模擬器可以每秒 10000 step，但由于神經(jīng)網(wǎng)絡(luò)的正向傳遞約為 10ms，該瓶頸導(dǎo)致每個(gè) episode 的評(píng)估時(shí)間為 2 秒（假設(shè)典型的 navigation episode 為 200 step）。這比運(yùn)行真正的機(jī)器人快得多，但比評(píng)估單個(gè)計(jì)算機(jī)視覺樣本慢得多。?

如果要評(píng)估端到端的機(jī)器人系統(tǒng)，其多樣性水平與我們使用 ImageNet 所做的相似，普通的評(píng)估需要 1 周時(shí)間來處理數(shù)十萬個(gè)評(píng)估場(chǎng)景。這并不完全是合理的比較，因?yàn)槊總€(gè) episode 實(shí)際上有 200 個(gè)左右的推理過程，但我們不能將單個(gè) episode 內(nèi)的圖像視為獨(dú)立的驗(yàn)證集。如果沒有任何其它 episode 度量，我們只知道任務(wù)是否成功，因此 episode 內(nèi)的所有推理只對(duì)二項(xiàng)式估計(jì)的單個(gè)樣本有貢獻(xiàn)。我們必須根據(jù)數(shù)萬個(gè) episode 而不是圖片來估計(jì)成功率。當(dāng)然，我們可以嘗試使用其他策略評(píng)估方法，但這些算法還不夠可靠，無法開箱即用。?

接下來階段，我們對(duì)真實(shí)機(jī)器人進(jìn)行現(xiàn)場(chǎng)評(píng)估。在現(xiàn)實(shí)世界中每個(gè) episode 大約需要 30 秒的時(shí)間進(jìn)行評(píng)估，如果一個(gè)由 10 名操作員組成的團(tuán)隊(duì)進(jìn)行評(píng)估，每個(gè)操作員每天可以完成 300 個(gè) episode，那么每天可以進(jìn)行大約 3000 次評(píng)估。?

如果評(píng)估模型需要一整天的時(shí)間，這會(huì)對(duì)工作效率造成很大的限制，因?yàn)檫@樣每天只能嘗試一種想法。所以我們不能再研究那些將性能逐步提高 0.1% 的小想法，或者非常極端的想法。我們必須想辦法在性能上實(shí)現(xiàn)大飛躍。雖然這看起來不錯(cuò)，但在實(shí)踐中很難做到。?

當(dāng)考慮進(jìn)行機(jī)器人學(xué)習(xí)迭代過程時(shí)，很容易讓評(píng)估試驗(yàn)的數(shù)量遠(yuǎn)遠(yuǎn)超過你的訓(xùn)練數(shù)據(jù)！幾個(gè)月的不間斷評(píng)估產(chǎn)生了約數(shù)萬個(gè) episode，這已經(jīng)超過了大多數(shù)機(jī)器人深度學(xué)習(xí)演示數(shù)據(jù)集。

幾年前，研究人員仍在解決類似讓機(jī)械臂開門的問題，但這些策略不能進(jìn)行很好的泛化。研究人員通常按照 10 個(gè) episode 左右的順序進(jìn)行評(píng)估。但 10-50 次試驗(yàn)實(shí)際上不足以保證統(tǒng)計(jì)魯棒性。為了取得好的效果，實(shí)際可能要進(jìn)行超過 1000 次試驗(yàn)以進(jìn)行最終評(píng)估。?

但當(dāng)進(jìn)一步擴(kuò)展試驗(yàn)時(shí)會(huì)發(fā)生什么呢？假如我們最終需要訓(xùn)練具有 O(100,000)種行為、極其通用的機(jī)器人系統(tǒng)，我們需要多少次試驗(yàn)來評(píng)估這樣的通用系統(tǒng)？這里的評(píng)估成本變得極其高昂。

這里再強(qiáng)調(diào)一次：數(shù)據(jù)是足夠的，評(píng)估存在瓶頸！

如何加速評(píng)估？

下面介紹關(guān)于如何加快通用機(jī)器人系統(tǒng)評(píng)估的想法。?

方法之一是分別對(duì)泛化問題和機(jī)器人進(jìn)行研究。其實(shí)深度學(xué)習(xí)社區(qū)已經(jīng)做到了這一點(diǎn)。大多數(shù)計(jì)算機(jī)視覺和生成建模研究人員并不直接在實(shí)際機(jī)器人上測(cè)試他們的想法，而是期盼一旦他們的模型獲得強(qiáng)大的泛化能力，那么它將快速地遷移到機(jī)器人上。在計(jì)算機(jī)視覺領(lǐng)域開發(fā)的 ResNets 極大地簡化了許多機(jī)器人視覺運(yùn)動(dòng)建模選擇。想象一下，如果一名研究人員每次想嘗試不同的神經(jīng)網(wǎng)絡(luò)架構(gòu)時(shí)都必須在真實(shí)的機(jī)器人上測(cè)試他們的想法！另一個(gè)成功案例是 CLIPort，它將圖像 - 文本模型強(qiáng)大的多模式泛化能力與用于抓取規(guī)劃的基本幾何推理解耦。?

我們可以進(jìn)一步將 RL 的技術(shù)堆棧分為「模擬玩具環(huán)境」、「模擬機(jī)器人」和「真實(shí)機(jī)器人」三層(按評(píng)估難度的增加順序排列)。

在金字塔的底層，是一般的基準(zhǔn)，比如 Kaggle 競(jìng)賽的基準(zhǔn)。往上走，是一組「玩具控制問題」，以「裸機(jī)」的方式研究問題，只有模擬器和神經(jīng)網(wǎng)絡(luò)運(yùn)行，所有與真實(shí)世界機(jī)器人相關(guān)的代碼，如電池管理等都不存在。沿著金字塔再向上走，就來到更特定領(lǐng)域，與你試圖解決的問題更相關(guān)。例如「模擬機(jī)器人」和「真實(shí)機(jī)器人」可能用于相同的任務(wù)，并重用相同的底層機(jī)器人代碼。模擬玩具環(huán)境可用于研究一般算法，但與最終機(jī)器人領(lǐng)域重疊的較少。在「評(píng)估金字塔」的頂部，是我們?cè)噲D解決的真實(shí)機(jī)器人任務(wù)。直接迭代這個(gè)過程非常慢，因此我們都希望在這里花費(fèi)盡可能少的時(shí)間。我們希望，在較低層次上訓(xùn)練和評(píng)估的基礎(chǔ)模型能夠幫助了解哪些想法有效，而不必在頂層進(jìn)行每一次評(píng)估。?

同樣，該領(lǐng)域已經(jīng)以這種解藕的方式運(yùn)作。大多數(shù)有興趣為機(jī)器人做出貢獻(xiàn)的人不一定會(huì)操控機(jī)器人。他們可能會(huì)訓(xùn)練最終可能對(duì)機(jī)器人有用的視覺表示和架構(gòu)。當(dāng)然，去耦合的缺點(diǎn)是感知基準(zhǔn)的改進(jìn)并不總是對(duì)應(yīng)于機(jī)器人能力的改進(jìn)。例如正在改進(jìn)語義分割或視頻分類準(zhǔn)確性的 mAP 指標(biāo)，甚至是無損壓縮基準(zhǔn)(理論上最終應(yīng)該有所貢獻(xiàn))，我們不知道表示目標(biāo)的改進(jìn)在實(shí)際上如何與下游任務(wù)的改進(jìn)產(chǎn)生映射。所以最終必須在端到端系統(tǒng)上進(jìn)行測(cè)試，以了解真正的瓶頸在哪里。?

Google 曾發(fā)表過一篇很酷的論文《Challenging Common Assumptions in Unsupervised Learning of Disentangled Representations》，他們證明了許多完全無監(jiān)督的表示學(xué)習(xí)方法不會(huì)在下游任務(wù)中帶來顯著的性能改進(jìn)，除非我們正在執(zhí)行評(píng)估和選擇模型使用的是自己關(guān)心的最終下游標(biāo)準(zhǔn)。

論文地址：https://arxiv.org/pdf/1811.12359.pdf?

另一種降低評(píng)估成本的方法是確保數(shù)據(jù)收集和評(píng)估過程一致。我們可以同時(shí)收集評(píng)估數(shù)據(jù)和專家操作數(shù)據(jù)。我們可以通過一定的干預(yù)來收集 HG-dagger 數(shù)據(jù)，這樣就可以收集有用的訓(xùn)練數(shù)據(jù)。同時(shí)，每個(gè) episode 的平均干預(yù)次數(shù)大致可以告訴我們?cè)摬呗允欠駢蚝?。我們還可以觀察標(biāo)量指標(biāo)，而不是二項(xiàng)式指標(biāo)，因?yàn)檫@些指標(biāo)的每個(gè) episode 產(chǎn)生的信息比單次成功 / 失敗更多。?

使用 RL 算法進(jìn)行自主數(shù)據(jù)收集是將評(píng)估和數(shù)據(jù)收集相結(jié)合的另一種方法，但該方法需要我們對(duì) episode 進(jìn)行人工評(píng)分，或者使用精心設(shè)計(jì)的獎(jiǎng)勵(lì)函數(shù)。所有這些方法都需要在現(xiàn)實(shí)世界中部署大量機(jī)器人，這仍然會(huì)陷入在現(xiàn)實(shí)世界中不斷迭代的泥潭。?

讓評(píng)估算法更快的方法是改進(jìn) sim-to-real 的遷移算法。我們可以并行模擬許多機(jī)器人，這樣就不會(huì)再受約束。Mohi Khansari、Daniel Ho 和 Yuqing Du 等人開發(fā)了一種被稱為「任務(wù)一致性損失(Task Consistency Loss)」的技術(shù)，該技術(shù)將來自 sim 和 real 的表示正則化為不變量，因此策略在 sim 和 real 下的行為應(yīng)該類似的。當(dāng)我們將 sim 中評(píng)估的策略遷移到 real 時(shí)，我們希望確保 sim 中的較高性能指標(biāo)也確實(shí)對(duì)應(yīng)于 real 中的較高性能指標(biāo)。sim2real 差距越小，就越可信任模擬實(shí)驗(yàn)中的指標(biāo)。

表達(dá)性

讓我們看看現(xiàn)代生成模型可以輸出多少位。每通道 8 位的 64x64x3 RGB 圖像為 36864bits。語言模型可以生成任意數(shù)量的 tokens，但如果我們將輸出窗口固定為 2048 個(gè) tokens，每個(gè) token 有 17bits，總共 36793bits。因此，圖像和文本生成模型都可以合成大約 37kbits。隨著模型的表現(xiàn)力越來越強(qiáng)，人們對(duì)這些模型的感知會(huì)發(fā)生質(zhì)的飛躍。甚至有人開始認(rèn)為語言模型是部分有意識(shí)的，因?yàn)樗鼈兊谋磉_(dá)能力太強(qiáng)大！

相比之下，當(dāng)下機(jī)器人的表達(dá)性如何？這里我們?cè)O(shè)計(jì)一個(gè)簡化現(xiàn)實(shí)世界的環(huán)境，桌上有 6 個(gè)物品，機(jī)器人的任務(wù)是必須將一個(gè)物品移動(dòng)到另一個(gè)物品的頂部或運(yùn)送某幾個(gè)物品，總共 100 個(gè)任務(wù)。log2(100)大約是 7 個(gè) bits，也就是說“給定世界的狀態(tài)，機(jī)器人能夠?qū)⒃右苿?dòng)到 N 個(gè)狀態(tài)中的一個(gè)，其中 N 可以用 7bits 來描述”。谷歌的 SayCan 算法可以用一個(gè)神經(jīng)網(wǎng)絡(luò)完成大約 550 個(gè)操作任務(wù)，這在當(dāng)前的機(jī)器人深度學(xué)習(xí)標(biāo)準(zhǔn)中是相當(dāng)令人印象深刻的，總共只有大約 10 個(gè) bits。?

這種比較并不是完美合理的，因?yàn)樾畔⒌亩x在兩者之間是不同的，這里只是提供一個(gè)粗略的直覺，當(dāng)人們衡量一組任務(wù)與另一組任務(wù)的相對(duì)復(fù)雜性時(shí)，需要弄明白什么是重要的。?

我們遇到的挑戰(zhàn)之一是機(jī)器人的功能仍然有限。如果你看一下 Ego4D 數(shù)據(jù)集，很多任務(wù)都需要雙手操作，但現(xiàn)在大多數(shù)機(jī)器人仍然使用帶輪底座、單臂的移動(dòng)機(jī)械手。他們無法移動(dòng)不能去任何地方，顯然我們擁有的只是「機(jī)械臂」，這排除了很多有趣的任務(wù)。

我們需要研究更具表達(dá)性的機(jī)器人，但是機(jī)器人學(xué)習(xí)算法的表現(xiàn)力是受硬件限制的。下面是機(jī)器人開門、打包行李箱、拉上拉鏈、給植物澆水以及翻轉(zhuǎn)水瓶瓶蓋的畫面。隨著機(jī)器人硬件越來越接近真實(shí)的人類，在以人類為中心的世界里，你可以做的事情的數(shù)量呈指數(shù)級(jí)增長。

隨著機(jī)器人變得更具表達(dá)性，我們不僅需要互聯(lián)網(wǎng)規(guī)模的訓(xùn)練數(shù)據(jù)，還需要互聯(lián)網(wǎng)規(guī)模的評(píng)估過程。如果你看一下大型語言模型 (LLMs) 的進(jìn)展，現(xiàn)在有很多論文研究調(diào)優(yōu)以及現(xiàn)有模型可以做什么和不能做什么。

比如，BigBench 的基準(zhǔn)編譯了一系列任務(wù)，并詢問我們可以從這些模型中獲得什么。OpenAI 面向互聯(lián)網(wǎng)用戶評(píng)估他們的 DALLE-2 和 GPT-3 模型。他們的工程和產(chǎn)品團(tuán)隊(duì)可以從用戶參與的人工智能試驗(yàn)中學(xué)習(xí)，因?yàn)槿魏我晃谎芯咳藛T都很難掌握 LLMs 模型的細(xì)節(jié)。

最后向讀者提個(gè)問題，機(jī)器人領(lǐng)域中與 GPT-3 或 DALLE-2 API 等價(jià)的技術(shù)是什么？通過這個(gè)等價(jià)技術(shù)，互聯(lián)網(wǎng)社區(qū)的研究人員可以對(duì)機(jī)器人研究進(jìn)行質(zhì)疑、并了解它到底可以做什么嗎？

最后用表格總結(jié)優(yōu)化、評(píng)估和表達(dá)性之間的比較：