一個(gè)人形機(jī)器,操著一口流利的美式英語,用埃隆·馬斯克的聲音與口吻講述著機(jī)器人火箭飛船飛往火星發(fā)現(xiàn)钚的故事,它抑揚(yáng)頓挫、聲情并茂,不禁讓人恍惚,它真的只是個(gè)機(jī)器嗎?
這個(gè)人形機(jī)器就是英國公司Engineered Arts在2024年世界移動通信大會上展示的Ameca第二代人形機(jī)器人。這款機(jī)器人不僅繼承了第一代Ameca的逼真面部表情,還能用自然的語調(diào)與人流暢對話,表情和肢體動作都和諧豐富,不少與會人員驚嘆:“它是不是已經(jīng)有了獨(dú)立意識?”。
當(dāng)然,Ameca并不具有獨(dú)立意識,支持它如此“有人味兒”的是機(jī)器人操作系統(tǒng) Tritium 、工程藝術(shù)系統(tǒng)Mesmer、視覺系統(tǒng)、聲音克隆技術(shù)以及ChatGPT-4V等一系列技術(shù)。
一、機(jī)器人操作系統(tǒng)與工程藝術(shù)系統(tǒng),賦予Ameca人的動作與表情
在言語表達(dá)、表情動作方面,英國Engineered Arts公司的Ameca機(jī)器人號稱世界上較先進(jìn)的人形機(jī)器人,它不僅能夠與人進(jìn)行對話,還有著極其豐富的表情,甚至有著細(xì)致的動作和微表情,就像是一個(gè)真正的人類一樣。Ameca 結(jié)合了 AI 與 AB(Artificial Body)技術(shù),底層系統(tǒng)是機(jī)器人操作系統(tǒng) Tritium 和工程藝術(shù)系統(tǒng) Mesmer。
一方面,Mesmer技術(shù)通過高精度的3D掃描,捕捉真人的內(nèi)部骨骼結(jié)構(gòu)、皮膚紋理和面部表情。這種技術(shù)的應(yīng)用,使得Ameca不僅在外觀上高度仿真,更在動作和表情上達(dá)到了令人難以置信的真實(shí)度。通過Mesmer技術(shù),Ameca能夠模擬人類的動作和表情,從而在與人類互動時(shí)提供更加自然和真實(shí)的體驗(yàn)。
另一方面,Tritium操作系統(tǒng)作為Ameca的控制平臺,負(fù)責(zé)驅(qū)動機(jī)器人的每一個(gè)硬件組件。Tritium 可以直接在瀏覽器運(yùn)行,適用幾乎任何編碼語言和多種軟件,登錄后即可快速處理各種數(shù)據(jù),遠(yuǎn)程控制機(jī)器人面部、頭頸、四肢等的各方面組件,使得機(jī)器人適應(yīng)環(huán)境的突然變化并即時(shí)做出響應(yīng),保證人機(jī)交互的安全和樂趣。
二、視覺系統(tǒng)和聲音克隆技術(shù),讓Ameca看得見、說得出
Ameca第二代配備的先進(jìn)視覺系統(tǒng),使其能夠識別和跟蹤周圍的環(huán)境和人物。這種視覺能力的提升,讓Ameca能夠更好地與人類互動,理解周圍發(fā)生的事情,并作出相應(yīng)的反應(yīng)。例如,它可以通過視覺識別來區(qū)分不同的人臉,甚至能夠識別人類的情緒狀態(tài)。
此外,Ameca還加入了聲音克隆技術(shù),它不僅能夠模仿人類的聲音,還能夠復(fù)制特定的語調(diào)和口音,使得交流更加自然和親切。這項(xiàng)技術(shù)的應(yīng)用,讓Ameca在進(jìn)行語音交互時(shí),能夠更加貼近人類的交流方式。
在Engineered Arts 發(fā)布的Ameca最新視頻中,Ameca清楚地描述了屋內(nèi)的陳設(shè),能夠準(zhǔn)確地分辨出工作人員手中的物體,還用摩根·費(fèi)力曼、馬斯克甚至海綿寶寶的聲音與工作人員交流。
三、集成ChatGPT-4V,Ameca嘲諷技能拉滿
Ameca第二代還集成了ChatGPT-4V,這是一個(gè)強(qiáng)大的人工智能對話系統(tǒng),使得Ameca不僅能夠進(jìn)行流暢的對話,還能夠在交流中加入幽默元素,甚至進(jìn)行自我調(diào)侃。
在Engineered Arts 發(fā)布的Ameca最新視頻中,當(dāng)被問到“過得如何”時(shí),Ameca自嘲道“勉強(qiáng)活著吧”。隨后,Ameca在描述屋子里的陳設(shè)時(shí),還調(diào)侃道到“架子上擺著書,是對知識的渴望還是只是為了炫耀?一張桌子、一把椅子,這是人類用來提高效率的設(shè)施還是拖延的工具,這里還看不出來?!碑?dāng)Ameca用海綿寶寶的聲音模仿特朗普演講,說出“沒有人比我更懂機(jī)器人火箭飛船”時(shí),它似乎已經(jīng)是一個(gè)具有獨(dú)立意識的人,而非按“程序”就班的機(jī)器人。
其實(shí),早在2022年9月,Ameca就整合了GPT-3技術(shù)和自動語音識別,能夠接收研究人員的問題,并通過在線語音合成技術(shù),以類似真人的聲音實(shí)現(xiàn)實(shí)時(shí)的問答效果。2023年3月,Ameca又升級至GPT-4,她的交互能力顯著提升,變得更加貼近人類的情感。2023年4月她掌握了包括英語、日語、德語、中文和法語在內(nèi)的多種語言。2023年7月Ameca又親自上陣,完成現(xiàn)場作畫。作畫完畢后,Ameca 詢問人類工程師這幅作品如何,得到的回應(yīng)是“有點(diǎn)潦草”。不料,這位機(jī)器人“畫家”眉頭一皺,話鋒一轉(zhuǎn):“如果你不喜歡我的畫,那可能是因?yàn)槟悴欢囆g(shù)?!?/span>
結(jié)語
隨著Ameca第二代人形機(jī)器人在2024年世界移動通信大會上的亮相,我們得以窺見未來人機(jī)交互的無限可能。Ameca不僅僅是一個(gè)技術(shù)展示,它預(yù)示著一個(gè)新時(shí)代的到來,其中人工智能和機(jī)器人技術(shù)將更加深入地融入我們的日常生活。當(dāng)然,Ameca及其同類機(jī)器人的發(fā)展也將推動我們重新思考人與機(jī)器的關(guān)系,探索共生共存的新途徑。