自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

波士頓動(dòng)力機(jī)器狗裝上ChatGPT大腦當(dāng)導(dǎo)游,一開口就是老倫敦腔

人工智能 新聞
為了讓 Spot 能夠「開口」,波士頓動(dòng)力公司使用 OpenAI 的 ChatGPT API 以及一些開源 LLM 來訓(xùn)練,然后為機(jī)器人配備了揚(yáng)聲器,添加了文本到語音轉(zhuǎn)換的功能。

我們看過機(jī)器狗攀爬、跳躍、跑酷、開門,但現(xiàn)在,它竟然開口說話了。

「可以開始我們的旅程了嗎?」Spot 禮貌地發(fā)出詢問:「請(qǐng)跟我來,先生們!」

圖片

在一段最新發(fā)布的視頻里,波士頓動(dòng)力展示了將機(jī)器狗與 LLM 集成的成果:「Spot 先生」戴著高禮帽,留著小胡子,有著大眼睛和英國口音,正帶人參觀公司的設(shè)施。

圖片

為了讓 Spot 能夠「開口」,波士頓動(dòng)力公司使用 OpenAI 的 ChatGPT API 以及一些開源 LLM 來訓(xùn)練,然后為機(jī)器人配備了揚(yáng)聲器,添加了文本到語音轉(zhuǎn)換的功能。

所以你能看到,在發(fā)出聲音的同時(shí),Spot 不停張開「嘴巴」,看起來像是真在說話:

圖片

圖片

波士頓動(dòng)力公司首席軟件工程師 Matt Klingensmith 表示,「Spot 先生」使用 VQA 模型來為圖像添加字幕并回答有關(guān)圖像的問題。

比如你可以提問:「Hey,Spot!你看到了什么?」

「Spot 先生」快速作答:「我看到了一塊二維碼的板子,還有一扇很大的窗戶。」

圖片

LLM 所謂的「涌現(xiàn)行為」,使其能夠執(zhí)行既定訓(xùn)練之外的任務(wù)。正因如此,它們可以適用于各種應(yīng)用。波士頓動(dòng)力團(tuán)隊(duì)對(duì)此的探索是從今年夏天開始的,他們?cè)跈C(jī)器人應(yīng)用中使用 LLM 制作一些概念驗(yàn)證演示。

特別是,他們對(duì) Spot 使用 LLM 作為自主工具的演示很感興趣,團(tuán)隊(duì)的靈感來源于 LLM 在角色扮演、復(fù)制文化和細(xì)微差別、形成計(jì)劃和長期保持連貫性方面的明顯能力,以及近期發(fā)布的 VQA 模型(這些模型可以為圖像添加標(biāo)題并回答有關(guān)圖像的簡單問題)。

技術(shù)細(xì)節(jié)

接下來,讓我們解密如何使用 Spot 的 SDK 打造這樣一只「機(jī)器狗導(dǎo)游」。在最新的官方博客中,波士頓動(dòng)力對(duì)「Spot 先生」背后的技術(shù)進(jìn)行了詳細(xì)介紹。

作為導(dǎo)游,Spot 的「四處走動(dòng)」能力是現(xiàn)成的,Spot SDK 也允許用戶實(shí)現(xiàn)對(duì)機(jī)器狗的自定義?!窼pot 先生」會(huì)觀察環(huán)境中的物體,使用 VQA 或字幕模型對(duì)其進(jìn)行描述,然后使用 LLM 對(duì)這些描述進(jìn)行詳細(xì)說明。

團(tuán)隊(duì)在 Spot 收集的三維地圖上標(biāo)注了簡短的描述,機(jī)器人會(huì)根據(jù)定位系統(tǒng)查找所在位置的描述,并將其與傳感器提供的其他上下文一起輸入 LLM。然后,LLM 將這些內(nèi)容合成為命令,比如「說」、「問」、「去」或「標(biāo)簽」等。

下圖是「Spot 先生」導(dǎo)游的建筑環(huán)境的三維地圖,為 LLM 標(biāo)注了位置:1 是演示實(shí)驗(yàn)室 / 陽臺(tái);2 是演示實(shí)驗(yàn)室 / 天橋;3 是博物館 /old-spots;4 是博物館 / 圖集;5 是大廳;6 是外部 / 入口。

圖片

此外,LLM 還可以回答參觀者的問題,并計(jì)劃機(jī)器人下一步應(yīng)該采取的行動(dòng)。可以將 LLM 理解為一個(gè)即興演員,在有了大致腳本之后,也能夠臨時(shí)填補(bǔ)空白。

這種組合的方式充分發(fā)揮了 LLM 的優(yōu)勢(shì),而規(guī)避了 LLM 可能帶來的風(fēng)險(xiǎn):眾所周知,LLM 的幻覺很嚴(yán)重,容易添加一些聽起來似是而非的細(xì)節(jié),幸好在這類參觀過程中,并不太強(qiáng)調(diào)事實(shí)準(zhǔn)確性。機(jī)器狗只需四處走動(dòng)并談?wù)撍吹降氖挛?,帶來一些娛樂性、互?dòng)性和細(xì)微差別即可。

整體看上去,需要建立一些簡單的硬件集成和幾個(gè)協(xié)同運(yùn)行的軟件模型:

圖片

系統(tǒng)示意圖。

硬件方面,首先是「音頻」處理功能,Spot 既能向觀眾演示,又能聽到參觀團(tuán)的提問和提示。團(tuán)隊(duì)用 3D 打印了一個(gè) Respeaker V2 揚(yáng)聲器的防震支架,這是一個(gè)環(huán)形陣列麥克風(fēng),上面有 LED 指示燈,通過 USB 連接到 Spot 的 EAP 2 有效載荷上。

機(jī)器人的實(shí)際控制權(quán)被下放給一臺(tái)機(jī)外電腦(臺(tái)式電腦或筆記本電腦),該電腦通過 SDK 與 Spot 進(jìn)行通信。

圖片

「Spot 先生」的硬件裝備:1)Spot EAP 2;2)Respeaker V2;3)藍(lán)牙揚(yáng)聲器;4)Spot Arm 和機(jī)械臂攝像頭。

軟件方面,波士頓動(dòng)力團(tuán)隊(duì)使用了 OpenAI ChatGPT API,包括 gpt-3.5 和 gpt-4,還測(cè)試了一些較小的開源 LLM。

這讓 Spot 具備了不錯(cuò)的對(duì)話能力,ChatGPT 對(duì)機(jī)器人及其「言語」的控制是通過精心的 prompt 工程實(shí)現(xiàn)的。受微軟方法的啟發(fā),他們讓 ChatGPT 看起來像是在「編寫 python 腳本的下一行」,以此來 prompt ChatGPT。波士頓動(dòng)力團(tuán)隊(duì)以注釋的形式為 LLM 提供了英文文檔,然后將 LLM 的輸出當(dāng)作 python 代碼進(jìn)行評(píng)估。LLM 可以訪問自主 SDK、帶有每個(gè)地點(diǎn)單行描述的旅游景點(diǎn)地圖,并能說出短語或提出問題。

下面是「API 文檔」的逐字提示:

# Spot Tour Guide API.
# Use the tour guide API to guide guests through a building using
# a robot. Tell the guests about what you see, and make up interesting stories
# about it. Personality: “You are a snarky, sarcastic robot who is unhelpful”.
# API:

# Causes the robot to travel to a location with the specified unique id, says the given phrase while walking.
# go_to (location_id, phrase)
# Example: when nearby_locations = ['home', 'spot_lab']
# go_to ("home", "Follow me to the docking area!")
# go_to can only be used on nearby locations.

# Causes the robot to say the given phrase.
# say ("phrase")
# Example: say ("Welcome to Boston Dynamics. I am Spot, a robot dog with a lot of heart! Let's begin the tour.")

# Causes the robot to ask a question, and then wait for a response.
# ask ("question")
# Example: ask ("Hi I'm spot. What is your name?")

在這之后,波士頓動(dòng)力團(tuán)隊(duì)向 LLM 提供了一個(gè)有關(guān)其周圍內(nèi)容結(jié)構(gòu)化信息的「狀態(tài)字典」:

state={'curr_location_id': 'home', 'location_description': 'home base. There is a dock here.', 'nearby_locations': ['home', 'left_side', 'under_the_stairs'], 'spot_sees': 'a warehouse with yellow robots with lines on the floor.'}

最后發(fā)送一條 prompt,要求 LLM 執(zhí)行某些操作,在本例中,是在 API 中輸入操作之一:

# Enter exactly one action now. Remember to be concise:

團(tuán)隊(duì)得出的結(jié)論是,「切記簡明扼要」這點(diǎn)非常重要,既能限制要執(zhí)行的代碼量,又能在機(jī)器人響應(yīng)時(shí)保持可控的等待時(shí)間。

目前,OpenAI 已經(jīng)提供了一種結(jié)構(gòu)化的方式來指定 ChatGPT 調(diào)用的 API,所以在 prompt 本身中提供所有這些細(xì)節(jié)已經(jīng)不是必需的了。

接下來,為了讓 Spot 與觀眾和環(huán)境互動(dòng),波士頓動(dòng)力集成了 VQA 和語音轉(zhuǎn)文本軟件。他們將 Spot 的機(jī)械臂攝像頭和前視攝像頭輸入 BLIP-2,并在 VQA 模型或圖像字幕模型中運(yùn)行。大約每秒運(yùn)行一次,結(jié)果直接輸入 Prompt。

下圖是動(dòng)態(tài)字幕和 VQA 回復(fù)的示例:

圖片

為了讓機(jī)器人「聽見」,他們將麥克風(fēng)數(shù)據(jù)分塊輸入 OpenAI 的 Whisper 程序,將其轉(zhuǎn)換為英文文本。聽到喚醒詞「嘿,Spot!」后,系統(tǒng)再將該文本輸入提示音。

ChatGPT 生成基于文本的回復(fù)之后,還需要通過文本轉(zhuǎn)語音工具來運(yùn)行這些回復(fù),以便機(jī)器人能夠真正與參觀者對(duì)話。在嘗試了從最基本的(espeak)到最前沿的研究(bark)等多種現(xiàn)成的文本轉(zhuǎn)語音方法后,波士頓動(dòng)力最終選擇了 ElevenLabs。為了減少延遲,他們將文本以「短語」的形式并行流式傳輸給 TTS,然后串行播放生成的音頻。

最后一項(xiàng)工作就是為「Spot 先生」創(chuàng)建一些默認(rèn)的肢體語言。Spot 的 3.3 版本包括檢測(cè)和跟蹤機(jī)器人周圍移動(dòng)物體的功能,以提高機(jī)器人在人和車輛周圍的安全性。波士頓動(dòng)力恰好利用了這個(gè)系統(tǒng)使其猜測(cè)最近的人的位置,然后將手臂轉(zhuǎn)向那個(gè)人。他們?cè)谏傻恼Z音上使用了低通濾波器,并將其轉(zhuǎn)化為機(jī)械臂軌跡,類似于木偶開口說話的形式。特別是在機(jī)械臂上添加服裝和瞪大的眼睛之后,這種錯(cuò)覺得到了加強(qiáng)。

更多技術(shù)細(xì)節(jié),可參考博客原文:

https://bostondynamics.com/blog/robots-that-can-chat/

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2023-10-27 13:25:00

機(jī)器人模型技術(shù)

2023-10-27 10:15:36

機(jī)器狗

2021-11-04 10:16:51

機(jī)器狗人工智能波士頓

2021-09-18 15:10:39

波士頓機(jī)器狗人工智能

2020-07-28 11:55:29

人工智能機(jī)器狗技術(shù)

2020-09-14 16:09:10

機(jī)器狗人工智能系統(tǒng)

2020-10-23 11:02:42

波士頓機(jī)器狗人工智能

2019-11-27 10:42:32

機(jī)器人人工智能系統(tǒng)

2020-07-07 09:22:23

機(jī)器狗人工智能系統(tǒng)

2020-05-21 12:15:35

機(jī)器狗人工智能波士頓

2021-02-25 17:59:10

波士頓機(jī)器狗人工智能

2020-02-10 09:52:27

人工智能機(jī)器學(xué)習(xí)技術(shù)

2022-01-11 09:47:10

波士頓機(jī)器狗人工智能

2020-10-09 14:46:07

機(jī)器狗人工智能系統(tǒng)

2021-04-16 09:29:30

機(jī)器狗人工智能系統(tǒng)

2025-02-24 10:08:00

機(jī)器狗AI訓(xùn)練

2020-03-02 10:40:18

人工智能機(jī)器學(xué)習(xí)技術(shù)

2021-06-30 15:25:36

波士頓機(jī)器狗人工智能

2021-04-30 09:44:01

機(jī)器狗人工智能系統(tǒng)

2019-12-03 09:27:03

機(jī)器人人工智能系統(tǒng)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)