自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<abbr id="npz1d"></abbr>

<style id="npz1d"></style>

<style id="npz1d"><rp id="npz1d"></rp></style>

<sub id="npz1d"></sub>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

波士頓動(dòng)力機(jī)器狗裝上ChatGPT大腦當(dāng)導(dǎo)游，一開口就是老倫敦腔

作者：機(jī)器之心 2023-10-27 13:05:09

人工智能新聞

為了讓 Spot 能夠「開口」，波士頓動(dòng)力公司使用 OpenAI 的 ChatGPT API 以及一些開源 LLM 來訓(xùn)練，然后為機(jī)器人配備了揚(yáng)聲器，添加了文本到語音轉(zhuǎn)換的功能。

我們看過機(jī)器狗攀爬、跳躍、跑酷、開門，但現(xiàn)在，它竟然開口說話了。

「可以開始我們的旅程了嗎？」Spot 禮貌地發(fā)出詢問：「請(qǐng)跟我來，先生們！」

在一段最新發(fā)布的視頻里，波士頓動(dòng)力展示了將機(jī)器狗與 LLM 集成的成果：「Spot 先生」戴著高禮帽，留著小胡子，有著大眼睛和英國口音，正帶人參觀公司的設(shè)施。

為了讓 Spot 能夠「開口」，波士頓動(dòng)力公司使用 OpenAI 的 ChatGPT API 以及一些開源 LLM 來訓(xùn)練，然后為機(jī)器人配備了揚(yáng)聲器，添加了文本到語音轉(zhuǎn)換的功能。

所以你能看到，在發(fā)出聲音的同時(shí)，Spot 不停張開「嘴巴」，看起來像是真在說話：

波士頓動(dòng)力公司首席軟件工程師 Matt Klingensmith 表示，「Spot 先生」使用 VQA 模型來為圖像添加字幕并回答有關(guān)圖像的問題。

比如你可以提問：「Hey，Spot！你看到了什么？」

「Spot 先生」快速作答：「我看到了一塊二維碼的板子，還有一扇很大的窗戶。」

LLM 所謂的「涌現(xiàn)行為」，使其能夠執(zhí)行既定訓(xùn)練之外的任務(wù)。正因如此，它們可以適用于各種應(yīng)用。波士頓動(dòng)力團(tuán)隊(duì)對(duì)此的探索是從今年夏天開始的，他們?cè)跈C(jī)器人應(yīng)用中使用 LLM 制作一些概念驗(yàn)證演示。

特別是，他們對(duì) Spot 使用 LLM 作為自主工具的演示很感興趣，團(tuán)隊(duì)的靈感來源于 LLM 在角色扮演、復(fù)制文化和細(xì)微差別、形成計(jì)劃和長期保持連貫性方面的明顯能力，以及近期發(fā)布的 VQA 模型（這些模型可以為圖像添加標(biāo)題并回答有關(guān)圖像的簡單問題）。

技術(shù)細(xì)節(jié)

接下來，讓我們解密如何使用 Spot 的 SDK 打造這樣一只「機(jī)器狗導(dǎo)游」。在最新的官方博客中，波士頓動(dòng)力對(duì)「Spot 先生」背后的技術(shù)進(jìn)行了詳細(xì)介紹。

作為導(dǎo)游，Spot 的「四處走動(dòng)」能力是現(xiàn)成的，Spot SDK 也允許用戶實(shí)現(xiàn)對(duì)機(jī)器狗的自定義?！窼pot 先生」會(huì)觀察環(huán)境中的物體，使用 VQA 或字幕模型對(duì)其進(jìn)行描述，然后使用 LLM 對(duì)這些描述進(jìn)行詳細(xì)說明。

團(tuán)隊(duì)在 Spot 收集的三維地圖上標(biāo)注了簡短的描述，機(jī)器人會(huì)根據(jù)定位系統(tǒng)查找所在位置的描述，并將其與傳感器提供的其他上下文一起輸入 LLM。然后，LLM 將這些內(nèi)容合成為命令，比如「說」、「問」、「去」或「標(biāo)簽」等。

下圖是「Spot 先生」導(dǎo)游的建筑環(huán)境的三維地圖，為 LLM 標(biāo)注了位置：1 是演示實(shí)驗(yàn)室 / 陽臺(tái)；2 是演示實(shí)驗(yàn)室 / 天橋；3 是博物館 /old-spots；4 是博物館 / 圖集；5 是大廳；6 是外部 / 入口。

此外，LLM 還可以回答參觀者的問題，并計(jì)劃機(jī)器人下一步應(yīng)該采取的行動(dòng)。可以將 LLM 理解為一個(gè)即興演員，在有了大致腳本之后，也能夠臨時(shí)填補(bǔ)空白。

這種組合的方式充分發(fā)揮了 LLM 的優(yōu)勢(shì)，而規(guī)避了 LLM 可能帶來的風(fēng)險(xiǎn)：眾所周知，LLM 的幻覺很嚴(yán)重，容易添加一些聽起來似是而非的細(xì)節(jié)，幸好在這類參觀過程中，并不太強(qiáng)調(diào)事實(shí)準(zhǔn)確性。機(jī)器狗只需四處走動(dòng)并談?wù)撍吹降氖挛?，帶來一些娛樂性、互?dòng)性和細(xì)微差別即可。

整體看上去，需要建立一些簡單的硬件集成和幾個(gè)協(xié)同運(yùn)行的軟件模型：

系統(tǒng)示意圖。

硬件方面，首先是「音頻」處理功能，Spot 既能向觀眾演示，又能聽到參觀團(tuán)的提問和提示。團(tuán)隊(duì)用 3D 打印了一個(gè) Respeaker V2 揚(yáng)聲器的防震支架，這是一個(gè)環(huán)形陣列麥克風(fēng)，上面有 LED 指示燈，通過 USB 連接到 Spot 的 EAP 2 有效載荷上。

機(jī)器人的實(shí)際控制權(quán)被下放給一臺(tái)機(jī)外電腦（臺(tái)式電腦或筆記本電腦），該電腦通過 SDK 與 Spot 進(jìn)行通信。

「Spot 先生」的硬件裝備：1）Spot EAP 2；2）Respeaker V2；3）藍(lán)牙揚(yáng)聲器；4）Spot Arm 和機(jī)械臂攝像頭。

軟件方面，波士頓動(dòng)力團(tuán)隊(duì)使用了 OpenAI ChatGPT API，包括 gpt-3.5 和 gpt-4，還測(cè)試了一些較小的開源 LLM。

這讓 Spot 具備了不錯(cuò)的對(duì)話能力，ChatGPT 對(duì)機(jī)器人及其「言語」的控制是通過精心的 prompt 工程實(shí)現(xiàn)的。受微軟方法的啟發(fā)，他們讓 ChatGPT 看起來像是在「編寫 python 腳本的下一行」，以此來 prompt ChatGPT。波士頓動(dòng)力團(tuán)隊(duì)以注釋的形式為 LLM 提供了英文文檔，然后將 LLM 的輸出當(dāng)作 python 代碼進(jìn)行評(píng)估。LLM 可以訪問自主 SDK、帶有每個(gè)地點(diǎn)單行描述的旅游景點(diǎn)地圖，并能說出短語或提出問題。

下面是「API 文檔」的逐字提示：

# Spot Tour Guide API.
# Use the tour guide API to guide guests through a building using
# a robot. Tell the guests about what you see, and make up interesting stories
# about it. Personality: “You are a snarky, sarcastic robot who is unhelpful”.
# API:

# Causes the robot to travel to a location with the specified unique id, says the given phrase while walking.
# go_to (location_id, phrase)
# Example: when nearby_locations = ['home', 'spot_lab']
# go_to ("home", "Follow me to the docking area!")
# go_to can only be used on nearby locations.

# Causes the robot to say the given phrase.
# say ("phrase")
# Example: say ("Welcome to Boston Dynamics. I am Spot, a robot dog with a lot of heart! Let's begin the tour.")

# Causes the robot to ask a question, and then wait for a response.
# ask ("question")
# Example: ask ("Hi I'm spot. What is your name?")

在這之后，波士頓動(dòng)力團(tuán)隊(duì)向 LLM 提供了一個(gè)有關(guān)其周圍內(nèi)容結(jié)構(gòu)化信息的「狀態(tài)字典」：

state={'curr_location_id': 'home', 'location_description': 'home base. There is a dock here.', 'nearby_locations': ['home', 'left_side', 'under_the_stairs'], 'spot_sees': 'a warehouse with yellow robots with lines on the floor.'}

最后發(fā)送一條 prompt，要求 LLM 執(zhí)行某些操作，在本例中，是在 API 中輸入操作之一：

# Enter exactly one action now. Remember to be concise:

團(tuán)隊(duì)得出的結(jié)論是，「切記簡明扼要」這點(diǎn)非常重要，既能限制要執(zhí)行的代碼量，又能在機(jī)器人響應(yīng)時(shí)保持可控的等待時(shí)間。

目前，OpenAI 已經(jīng)提供了一種結(jié)構(gòu)化的方式來指定 ChatGPT 調(diào)用的 API，所以在 prompt 本身中提供所有這些細(xì)節(jié)已經(jīng)不是必需的了。

接下來，為了讓 Spot 與觀眾和環(huán)境互動(dòng)，波士頓動(dòng)力集成了 VQA 和語音轉(zhuǎn)文本軟件。他們將 Spot 的機(jī)械臂攝像頭和前視攝像頭輸入 BLIP-2，并在 VQA 模型或圖像字幕模型中運(yùn)行。大約每秒運(yùn)行一次，結(jié)果直接輸入 Prompt。

下圖是動(dòng)態(tài)字幕和 VQA 回復(fù)的示例：

為了讓機(jī)器人「聽見」，他們將麥克風(fēng)數(shù)據(jù)分塊輸入 OpenAI 的 Whisper 程序，將其轉(zhuǎn)換為英文文本。聽到喚醒詞「嘿，Spot！」后，系統(tǒng)再將該文本輸入提示音。

ChatGPT 生成基于文本的回復(fù)之后，還需要通過文本轉(zhuǎn)語音工具來運(yùn)行這些回復(fù)，以便機(jī)器人能夠真正與參觀者對(duì)話。在嘗試了從最基本的（espeak）到最前沿的研究（bark）等多種現(xiàn)成的文本轉(zhuǎn)語音方法后，波士頓動(dòng)力最終選擇了 ElevenLabs。為了減少延遲，他們將文本以「短語」的形式并行流式傳輸給 TTS，然后串行播放生成的音頻。

最后一項(xiàng)工作就是為「Spot 先生」創(chuàng)建一些默認(rèn)的肢體語言。Spot 的 3.3 版本包括檢測(cè)和跟蹤機(jī)器人周圍移動(dòng)物體的功能，以提高機(jī)器人在人和車輛周圍的安全性。波士頓動(dòng)力恰好利用了這個(gè)系統(tǒng)使其猜測(cè)最近的人的位置，然后將手臂轉(zhuǎn)向那個(gè)人。他們?cè)谏傻恼Z音上使用了低通濾波器，并將其轉(zhuǎn)化為機(jī)械臂軌跡，類似于木偶開口說話的形式。特別是在機(jī)械臂上添加服裝和瞪大的眼睛之后，這種錯(cuò)覺得到了加強(qiáng)。

更多技術(shù)細(xì)節(jié)，可參考博客原文：

https://bostondynamics.com/blog/robots-that-can-chat/

責(zé)任編輯：張燕妮來源：機(jī)器之心

AI 訓(xùn)練

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<blockquote id="sptp1"><i id="sptp1"><video id="sptp1"></video></i></blockquote>

<sub id="sptp1"></sub>

<center id="sptp1"></center>