波士頓動(dòng)力機(jī)器狗能開口聊天了!ChatGPT加持,對(duì)話機(jī)智妙語(yǔ)連珠
好家伙,波士頓動(dòng)力機(jī)器狗,現(xiàn)在能直接開口說(shuō)話了。
并且不同于Siri的“人工智障”,ChatGPT加持的狗,聊起天來(lái)那叫一個(gè)妙語(yǔ)連珠。
比如隨口說(shuō)一句:“我口渴了。”
它會(huì)直接給你領(lǐng)到咖啡柜臺(tái)前,并回答:
我們這里有小吃店和咖啡機(jī)。這是我們的人類同事尋找能量靈丹的地方。請(qǐng)隨意補(bǔ)充水分、給自己充能,就像我們機(jī)器人在基站里所做的那樣。
圖片
聲音聽起來(lái)非常有磁性。
如果你讓它帶你見見它的“父母”,它還能在波士頓動(dòng)力的展廳里,指出Spot V1給你看。
圖片
這些功能的實(shí)現(xiàn),都不需要編寫特定代碼,主要是靠ChatGPT的“悟性”和視覺(jué)問(wèn)答(VQA)模型、Whisper等其他一些AI模型輔助完成。
圖片
這一下子真把網(wǎng)友們給驚艷到了:
圖片
如何打造一只聊天機(jī)器狗
具體來(lái)說(shuō),波士頓動(dòng)力的研究人員提供給機(jī)器狗的,只是一個(gè)簡(jiǎn)單腳本。
給出的信息主要是公司里都有哪些房間、設(shè)施。每個(gè)房間、設(shè)施都有對(duì)應(yīng)的一句話描述,比如:充電站,這是機(jī)器人充電的地方。
圖片
接著,他們讓Spot機(jī)器狗四處走動(dòng),通過(guò)攝像頭自己去觀察公司環(huán)境,并利用VQA和ChatGPT的能力為觀察到的事物打上“標(biāo)記”,再把這些信息添加到腳本中。
就像這樣:
圖片
這樣一番調(diào)教之下,機(jī)器狗“導(dǎo)游”就可以正式上崗了。
既能跟游客插科打諢:
△“希望你不會(huì)因?yàn)樗俣忍簧蠙C(jī)器狗的腳步”
正經(jīng)科普起知識(shí)來(lái)也像模像樣。
研究人員還提到,機(jī)器狗可以自如地改變“狗設(shè)”。需要做的只是在腳本里添加一句話,比如:你是一個(gè)1920年代的考古學(xué)家。
像這個(gè)“詩(shī)人”Spot,就能自己作出這樣的詩(shī)句:
發(fā)電機(jī)在沉悶的房間里發(fā)出低沉的嗡嗡聲。很像我的靈魂。Generator hums low in a room devoid of joy. Much like my soul.
圖片
另外,基于Spot 3.3版本自動(dòng)檢測(cè)移動(dòng)物體的能力,機(jī)器狗“導(dǎo)游”能夠感知到最近的人在哪個(gè)方向,從而把機(jī)械臂轉(zhuǎn)過(guò)去,實(shí)現(xiàn)“對(duì)視”交流。
研究人員還用低通濾波器對(duì)生成的語(yǔ)音進(jìn)行了處理,將其轉(zhuǎn)化為機(jī)械臂的運(yùn)動(dòng)軌跡,這樣一來(lái),機(jī)器狗的行動(dòng)就更靈動(dòng)了。
不過(guò),研究人員也提到,ChatGPT加持下的機(jī)器狗難免有胡說(shuō)八道的時(shí)候,只是作為一名“導(dǎo)游”,倒也還無(wú)傷大雅。
他們認(rèn)為:
我們很高興繼續(xù)探索人工智能和機(jī)器人技術(shù)的交叉點(diǎn)。這兩種技術(shù)是絕妙的搭配。
機(jī)器人提供了一種在現(xiàn)實(shí)世界中“落地”大模型的絕佳方法。而大模型對(duì)于許多機(jī)器人任務(wù)來(lái)說(shuō)都是有用的——比如,僅僅通過(guò)對(duì)話就能將任務(wù)分配給機(jī)器人,降低機(jī)器人使用的門檻。
參考鏈接:[1]https://www.youtube.com/watch?v=djzOBZUFzTw[2]https://bostondynamics.com/blog/robots-that-can-chat/