有事您說(shuō)話(huà)!谷歌機(jī)器人「吃了」語(yǔ)言大模型后,會(huì)自學(xué)和思考了
「上得廳堂,下得廚房」,這句對(duì)理想型賢內(nèi)助的贊許,以后很可能要對(duì)谷歌的機(jī)器人說(shuō)了。
自帶大型語(yǔ)言模型,會(huì)自學(xué)的機(jī)器人,見(jiàn)過(guò)嗎?不會(huì)做?可以學(xué)! 現(xiàn)在不會(huì)沒(méi)關(guān)系,過(guò)一會(huì)兒學(xué)完了就會(huì)了。
比起波士頓動(dòng)力炫酷無(wú)比的上刀山,下火海,翻山越嶺,如履平地的「鐵面金剛」,這次谷歌搞的「會(huì)學(xué)習(xí)的機(jī)器人」更像是身邊貼心的小助手。 我說(shuō)什么,你做什么,是一般的機(jī)器人執(zhí)行指令的套路。谷歌這次的新研究,讓機(jī)器人不只會(huì)按指令,自己也能動(dòng)手做。
這是谷歌首次將語(yǔ)言大模型和機(jī)器人相結(jié)合,教機(jī)器人做人類(lèi)一樣的事情。
論文地址:https://arxiv.org/pdf/2204.01691.pdf用谷歌論文的題目說(shuō)就是:「Do as I can,not as I say」。
大概是這個(gè)意思:「你已經(jīng)是個(gè)成熟的機(jī)器人了,我做的,你也能做,不會(huì)的可以學(xué),不熟的可以練!」 谷歌為這個(gè)機(jī)器人取名PaLM-SayCan。 在《華盛頓郵報(bào)》的報(bào)道中,記者就見(jiàn)到了研究人員讓機(jī)器人用塑料玩具原料作漢堡。 看起來(lái)這個(gè)機(jī)械臂知道在放肉之后、放生菜之前,要加點(diǎn)番茄醬,但目前這位廚子認(rèn)為,「加番茄醬」是把整個(gè)裝番茄醬的瓶子放在漢堡里。
雖然目前這個(gè)機(jī)器人大廚還不合格,不過(guò)谷歌相信,在大語(yǔ)言模型的訓(xùn)練下,學(xué)會(huì)做漢堡只是早晚的事。 這個(gè)機(jī)器人還能識(shí)別七喜和可口可樂(lè)的罐子,打開(kāi)抽屜并找到一袋薯片。憑借PaLM的抽象能力,它甚至可以理解黃色、綠色和藍(lán)色的碗可以分別比喻為沙漠、叢林和海洋。
和以前的機(jī)器人不同,過(guò)去也有機(jī)器人做漢堡、做炒面、做披薩,但實(shí)際上完成的是單一動(dòng)作的明確指令的組合,比如「右臂左移三格」、「翻個(gè)面」等。 現(xiàn)在谷歌的目的是,讓機(jī)器人能聽(tīng)懂并執(zhí)行「來(lái)給我做個(gè)漢堡」、「我餓了,去給我買(mǎi)個(gè)面包」、「出去陪我打個(gè)球」這種命令。 就跟和人說(shuō)話(huà)一樣。
比如,當(dāng)谷歌人工智能研究員對(duì)PaLM-SayCan機(jī)器人說(shuō):「我的飲料灑了,你能幫忙嗎?」 它在谷歌辦公大樓的廚房里用輪子滑行,用數(shù)碼相機(jī)的視覺(jué)發(fā)現(xiàn)柜臺(tái)上的海綿,用電動(dòng)臂抓住它,并把它帶回來(lái)。
谷歌的布萊恩·伊克特(Brian Ichter)說(shuō):「這從根本上說(shuō)是一種不同的模式」。他是最近發(fā)布的一篇描述這類(lèi)機(jī)器人新進(jìn)展的論文的作者之一。
目前,機(jī)器人已經(jīng)不算稀罕物了。數(shù)以百萬(wàn)計(jì)的機(jī)器人在世界各地的工廠(chǎng)里工作,但它們遵循特定的指令,通常只專(zhuān)注于一兩項(xiàng)任務(wù)。 而要打造一個(gè)能夠完成一系列任務(wù),還能邊干邊學(xué)的機(jī)器人,則要復(fù)雜得多。多年來(lái),大大小小的科技公司都在努力建造這種「通用型機(jī)器人」。
近幾年大火的大語(yǔ)言模型讓谷歌找到了「通用型機(jī)器人」的研發(fā)靈感。 大型語(yǔ)言模型利用互聯(lián)網(wǎng)上的大量文本,訓(xùn)練AI軟件,以猜測(cè)某些問(wèn)題或評(píng)論之后可能出現(xiàn)的反應(yīng)類(lèi)型。
從BERT到GPT-3,再到后來(lái)的MT-NLP,隨著參數(shù)數(shù)量的突飛猛進(jìn),這些模型已經(jīng)非常善于預(yù)測(cè)正確的反應(yīng),以至于與一個(gè)模型打交道往往感覺(jué)像是在與一個(gè)知識(shí)淵博的人對(duì)話(huà)。 掌握這么多知識(shí),光陪人聊個(gè)天豈不是可惜?能對(duì)話(huà),就能干活,從聊天機(jī)器人,到助手機(jī)器人,谷歌的研究思路可以說(shuō)算是「水到渠成」了。
這個(gè)PaLM-SayCan,厲害在哪?
這次,Google AI與谷歌母公司Alphabet的登月計(jì)劃X團(tuán)隊(duì)推出的Everyday Robot項(xiàng)目合作,提出了一種方法。 即通過(guò)預(yù)訓(xùn)練在大型語(yǔ)言模型(LLM)中提取知識(shí),讓機(jī)器人遵循高級(jí)文本指令完成物理任務(wù)。
Everyday Robot項(xiàng)目已經(jīng)進(jìn)行了多年,許多與谷歌AI合作的團(tuán)隊(duì)成員在2015年或2016年加入了Alphabet。 他們的想法是,讓機(jī)器人利用攝像頭和復(fù)雜的機(jī)器學(xué)習(xí)算法來(lái)查看周?chē)澜绮⑾蛑畬W(xué)習(xí),而無(wú)需教授它們可能遇到的每一種潛在情況。
谷歌的思路是: 大型語(yǔ)言模型可以編碼豐富的關(guān)于世界的語(yǔ)義知識(shí),這些知識(shí)對(duì)于旨在執(zhí)行以自然語(yǔ)言任務(wù)機(jī)器人非常有用。 而LLM的明顯缺點(diǎn)是「缺乏真實(shí)世界的經(jīng)驗(yàn)」,在實(shí)驗(yàn)室里表現(xiàn)完美,到了現(xiàn)實(shí)生活中可能就一無(wú)是處。
?因此研究人員建議「通過(guò)預(yù)訓(xùn)練技能提供現(xiàn)實(shí)世界的基礎(chǔ)」,用于約束模型完成符合環(huán)境的自然語(yǔ)言動(dòng)作。
機(jī)器人可以充當(dāng)語(yǔ)言模型的“手和眼睛”,而語(yǔ)言模型則提供有關(guān)任務(wù)的高級(jí)語(yǔ)義知識(shí)/現(xiàn)實(shí)經(jīng)驗(yàn)。
谷歌使用了一臺(tái)巨大的6144個(gè)處理器的機(jī)器來(lái)訓(xùn)練PaLM(Pathways Language Model)。訓(xùn)練資源包括微軟GitHub網(wǎng)站上發(fā)現(xiàn)的大量多語(yǔ)言網(wǎng)絡(luò)文件、書(shū)籍、維基百科文章、對(duì)話(huà)和編程代碼。 這樣訓(xùn)練出的AI智能體,可以解釋笑話(huà)、完成句子、回答問(wèn)題并按照自己的思維鏈進(jìn)行推理。
接下來(lái)問(wèn)題來(lái)了,如果把這個(gè)智能體用于機(jī)器人,如何提取和利用大型語(yǔ)言模型(LLM)的知識(shí)來(lái)完成物理任務(wù)呢? 比如,我的飲料灑了,GPT-3會(huì)說(shuō)你可以用吸塵器,LaMDA會(huì)說(shuō)你需要我?guī)湍阏仪鍧嵠鲉幔浚ň秃苊裕?nbsp;
大型語(yǔ)言模型由于并未與現(xiàn)實(shí)環(huán)境交互,因此無(wú)法對(duì)這項(xiàng)操作反應(yīng)。 而基于LLM的SayCan通過(guò)預(yù)訓(xùn)練模型形成的價(jià)值判斷能力,可以處理復(fù)雜、真實(shí)環(huán)境下的指令。
受這個(gè)例子的啟發(fā),我們研究了如何在LLM中提取知識(shí)以使機(jī)器人能夠遵循高級(jí)文本指令的問(wèn)題。 該機(jī)器人配備了一系列學(xué)習(xí)技能,用于能夠進(jìn)行低級(jí)視覺(jué)運(yùn)動(dòng)控制的“原子”行為。 除了要求LLM簡(jiǎn)單地解釋指令外,我們還可以使用它來(lái)評(píng)估個(gè)人技能在完成高級(jí)指令方面取得進(jìn)展的可能性。
假設(shè)每個(gè)技能都有一個(gè)可供量函數(shù),那么就可以量化它從當(dāng)前狀態(tài)成功的可能性(例如學(xué)習(xí)價(jià)值函數(shù)),這個(gè)值則可以衡量技能的可能性。 這樣LLM就完成了每個(gè)技能對(duì)完成指令貢獻(xiàn)概率的描述。
研究人員使用兩個(gè)指標(biāo)來(lái)評(píng)估系統(tǒng)的性能:
(1)計(jì)劃成功率,表明機(jī)器人是否為指令選擇了正確的技能;
(2)執(zhí)行成功率,表明它是否成功執(zhí)行了指令。
數(shù)據(jù)顯示,PaLM-SayCan的指令執(zhí)行率在所有模型中也是最高的。
風(fēng)險(xiǎn):機(jī)器人學(xué)壞了咋辦?
想法很頂,不過(guò)這項(xiàng)工作也不是毫無(wú)風(fēng)險(xiǎn)。 大型語(yǔ)言模型的訓(xùn)練語(yǔ)料庫(kù)來(lái)自互聯(lián)網(wǎng),一些語(yǔ)言模型已經(jīng)表現(xiàn)出種族主義或性別歧視等不良傾向,有時(shí)會(huì)被誘導(dǎo)發(fā)表仇恨言論或說(shuō)謊。 這種模型如果用于訓(xùn)練聊天機(jī)器人,結(jié)果也就是出了個(gè)會(huì)罵街、會(huì)嚼舌根的語(yǔ)音助手,但如果是訓(xùn)練機(jī)器人,它有手有腳的,去干壞事怎么辦?
而且,比這更危險(xiǎn)的是,萬(wàn)一這樣訓(xùn)練出的機(jī)器人有了意識(shí),事情可能就會(huì)失控了(類(lèi)似的科幻電影可不少了)。
今年7月,谷歌一名員工聲稱(chēng)軟件是有生命的員工。人工智能專(zhuān)家的共識(shí)是,這些模型不是有生命的,但許多人擔(dān)心它們會(huì)表現(xiàn)出偏見(jiàn),因?yàn)樗鼈兪窃诖罅课唇?jīng)過(guò)濾的、由人類(lèi)產(chǎn)生的文本上訓(xùn)練的。
盡管如此,谷歌仍在不斷努力,現(xiàn)在,研究人員已經(jīng)不需要為機(jī)器人的每項(xiàng)任務(wù)編碼具體的技術(shù)指令,而是可以更簡(jiǎn)單地用日常語(yǔ)言與它們交談。 更重要的是,新軟件可以幫助機(jī)器人自行解析復(fù)雜的多步驟指令。
現(xiàn)在,機(jī)器人可以解釋它們以前從未聽(tīng)過(guò)的指令,并自己想出有意義的反應(yīng)和行動(dòng)。
也許對(duì)于機(jī)器人來(lái)說(shuō),新的大門(mén)才剛剛打開(kāi),未來(lái)可能仍然是一個(gè)漫長(zhǎng)的過(guò)程。多年來(lái),神經(jīng)網(wǎng)絡(luò)和強(qiáng)化學(xué)習(xí)等人工智能技術(shù)已被用于訓(xùn)練機(jī)器人。目前有了一些突破,但進(jìn)展仍然緩慢。
谷歌的機(jī)器人還遠(yuǎn)未準(zhǔn)備好用于現(xiàn)實(shí)世界,研究人員一再表示,目前這個(gè)機(jī)器人還處于實(shí)驗(yàn)室階段,還沒(méi)有推向商業(yè)化的計(jì)劃。