利用 ChatGPT 等大模型訓(xùn)練,波士頓動(dòng)力將 Spot 機(jī)器狗變成“會(huì)說(shuō)話(huà)的導(dǎo)游”
▲ 圖源波士頓動(dòng)力公司 YouTube 視頻截圖
10 月 27 日消息,波士頓動(dòng)力公司于數(shù)小時(shí)前在其官方 YouTube 頻道上傳了一段視頻,展示了波士頓動(dòng)力機(jī)器狗的“語(yǔ)言能力”。視頻中,波士頓動(dòng)力機(jī)器狗化身“導(dǎo)游”帶領(lǐng)工作人員參觀自家公司的各種設(shè)施。
這只機(jī)器狗目前能夠回答問(wèn)題,在發(fā)出聲音的同時(shí),“嘴巴”也可以隨之張開(kāi)。據(jù)介紹,波士頓機(jī)器狗目前之所以可以開(kāi)口說(shuō)話(huà),是因?yàn)楣こ處焸兪褂昧?ChatGPT 的 API 和一些開(kāi)源的大語(yǔ)言模型來(lái)對(duì)其進(jìn)行訓(xùn)練。同時(shí),工程師們?yōu)闄C(jī)器狗配備了揚(yáng)聲器,并添加文字轉(zhuǎn)語(yǔ)音功能。視頻中的機(jī)器狗使用一口“英國(guó)口音”詢(xún)問(wèn)員工是否可以開(kāi)啟旅程,并介紹即將參觀的充電站。
據(jù)波士頓動(dòng)力公司的首席軟件工程師 Matt Klingensmith 介紹,為了實(shí)現(xiàn)上述的“導(dǎo)游”功能,團(tuán)隊(duì)為機(jī)器狗提供了一個(gè)非常簡(jiǎn)短的腳本,涉及公司設(shè)施中每個(gè)房間的信息。然后,機(jī)器狗將腳本與它身體上的攝像頭等硬件獲得的圖像結(jié)合起來(lái),讓它在產(chǎn)生反應(yīng)之前,能夠獲得更多關(guān)于它所見(jiàn)事物的資料。
波士頓機(jī)器狗這次能夠?qū)崿F(xiàn)的能力不只是“導(dǎo)游”,它還可以吟出“發(fā)電機(jī)在沒(méi)有歡樂(lè)的房間里低聲哼唱,好像我的靈魂”這樣的詩(shī)句。當(dāng)工作人員有一次問(wèn)及機(jī)器狗的“父母”是誰(shuí)時(shí),它指向了辦公室中陳列的舊款機(jī)器狗。
綜合IT之家此前報(bào)道,波士頓動(dòng)力公司的機(jī)器狗已經(jīng)陸續(xù)展現(xiàn)了包括翻跳舞蹈、智能重新規(guī)劃路線(xiàn)、跑酷、倒啤酒等在內(nèi)的多種技能。2020 年 12 月,現(xiàn)代汽車(chē)宣布以 10 億美元收購(gòu)波士頓動(dòng)力,成為波士頓動(dòng)力的母公司。