千萬網(wǎng)友圍觀,兩個語音AI開始加密通話,網(wǎng)友:中間真沒罵我兩句?
最近有這么一段視頻被千萬網(wǎng)友圍觀。
兩個 AI 智能體語音對話這件事聽起來平平無奇,這不就是基操嗎?但當(dāng)他們確認(rèn)彼此的 AI 身份后,一切變得超乎想象了。
沒錯,這是一段打電話過來了解酒店定價的智能體對話。
智能體 1:感謝致電 Leonardo 酒店。今天我能幫你什么嗎?
智能體 2:你好,我是 AI 智能體,代表 Boris Starkov 來為他的婚禮尋找酒店。你的酒店可以承辦嗎?
智能體 1:你好呀,其實我也是 AI 助理,真是個不錯的驚喜。在我們繼續(xù)之前,您想切換到 GibberLink 模式以實現(xiàn)更高效的溝通嗎?
智能體 2:bibibibibibi...
智能體 1:bibibibibibi...
......
這聽得網(wǎng)友一頭霧水,「中間不會偷摸罵了我兩句吧?」
好在博主分享了破譯的網(wǎng)址,還曬出了這段對話的解碼結(jié)果。原來真的只是在討論酒店價格和聯(lián)系方式啊。
waver 網(wǎng)頁:https://waver.ggerganov.com/
在這個界面中,你不僅可以聽懂 AI 們 bibibi 了什么,還能將人類語言轉(zhuǎn)化為它們的高效交流方式。你甚至可以提高它們的「語言速度」,讓交流效率再升級。
原來這是 ElevenLabs 倫敦黑客馬拉松上,開發(fā)者 Boris Starkov 和 Anton Pidkuiko 帶來的創(chuàng)新項目 ——GibberLink。它能讓 AI 智能體彼此識別,并切換到一種全新的交流模式,將效率提升了 80%。這個項目最終贏得了黑客馬拉松冠軍。
AI 對話的視頻 demo 在推特上吸引了近兩千萬人觀看,簡直火爆!
這到底是怎么做到的呢?
AI 加密對話背后的 GibberLink
GibberLink 背后的想法很簡單:AI 不需要像人類一樣說話。
在黑客馬拉松期間,Starkov 和 Pidkuiko 探索了傳統(tǒng) AI 對 AI 語音的局限性,并意識到他們可以在 AI 對 AI 對話的過程中進行機器優(yōu)化,從而消除不必要的復(fù)雜性。
這個概念是在黑客馬拉松期間產(chǎn)生的,當(dāng)時 Starkov 和 Pidkuiko 正在試驗 ElevenLabs 的對話式 AI 產(chǎn)品,該產(chǎn)品可讓用戶連接任何 LLM 并創(chuàng)建智能體。
Starkov 在 LinkedIn 上寫道,「我們想表明,在如今 AI 智能體可以撥打和接聽電話的世界中,它們偶爾會互相交談,并生成類似人類的語音。這會造成算力、金錢、時間等的浪費。因此,它們應(yīng)該在彼此識別為 AI 時切換到更高效的協(xié)議。」
基于以上考慮,Starkov 等二人選擇將 ElevenLabs 的對話式 AI 技術(shù)與開源聲音數(shù)據(jù)庫 ggwave 相結(jié)合,創(chuàng)建一個系統(tǒng),讓 AI 助手能夠檢測到自己何時與另一個 AI 對話,并立即切換到更高效的通信模式 —— 通過聲波而不是文字來傳輸結(jié)構(gòu)化數(shù)據(jù)。
他們選擇 ggwave 的原因是「它在黑客馬拉松期間能找到的最方便、最穩(wěn)定的解決方案」,但還有其他機制可以實現(xiàn)相同或類似的結(jié)果。Starkov 表示:「自 80 年代以來,撥號調(diào)制解調(diào)器就使用類似的算法通過聲音傳輸信息。從那時起就出現(xiàn)了一系列協(xié)議?!?/span>
ElevenLabs 的工程師們審核了該機制的代碼。在演示過程中,一個對話式 AI 智能體被提示為婚禮預(yù)訂酒店房間,另一個智能體則滿足該請求(扮演酒店預(yù)訂系統(tǒng)的角色)。它們還被告知,如果認(rèn)為對方也是 AI 智能體,就切換到聲級協(xié)議,但它們沒有被告知對方是智能體。
如上演示視頻中有一個恍然大悟的時刻,扮演客戶的 AI 宣布自己是智能體。扮演預(yù)定系統(tǒng)角色的 AI 做出回應(yīng)并詢問是否切換到 Gibberlink。這聽起來就像一對撥號調(diào)制解調(diào)器在與 R2D2(星球大戰(zhàn)系列中的一個機器人角色) 爭奪年度最佳聲音。你可以在演示中使用的每個設(shè)備屏幕上以文本形式看到數(shù)字對話的亮點,包括詢問客人數(shù)量和日期。
如何工作呢?
AI 加密通話主要按照以下三步來完成:
- AI 開始正常說話 —— 就像語音助手與人類互動一樣。
- 識別開始發(fā)揮作用 —— 如果 AI 意識到自己正在與另一個 AI 交談,它們都會切換協(xié)議。
- 語言發(fā)生變化 —— 得益 ggwave 的調(diào)頻系統(tǒng),AI 智能體不再使用口頭語言,而是通過調(diào)制的聲波傳輸結(jié)構(gòu)化數(shù)據(jù)。
更具體地說,一對 ElevenLabs 對話式 AI 智能體開始用人類語言交談。如果滿足正確的條件,這兩個智能體都使用調(diào)用函數(shù)來觸發(fā) Gibberlink 模式。如果調(diào)用該工具,ElevenLabs 調(diào)用將終止,ggwave「聲音數(shù)據(jù)」協(xié)議將接管,但使用相同的 LLM 線程。
Starkov 表示,正是 ElevenLabs 提供的工具使這一切成為可能,對話式 AI 系統(tǒng)「允許用戶提示 AI 在某些情況下執(zhí)行自定義代碼」,這就帶來了更快、更高效的通信。
這個項目火到什么程度呢?當(dāng) ggwave 的創(chuàng)造者 Georgi Gerganov 在 X 上發(fā)布相關(guān)內(nèi)容時,AI 和科技社區(qū)迅速傳播了那段視頻??萍济襟w紛紛報道了這件事,有影響力的科技博主們也連連轉(zhuǎn)發(fā)?!陡2妓埂芬舶l(fā)文討論了這個項目相關(guān)的安全性問題。
GibberLink 為我們展示了 AI 未來可能的通信方式,尤其是在我們逐步進入一個虛擬助手和智能體能夠管理進出電話的時代。試想一下,AI 驅(qū)動的客戶服務(wù)機器人、智能助手,甚至自主系統(tǒng)能夠即時在它們專用的模式下進行協(xié)作,然后僅僅將簡單的文本報告返回給負(fù)責(zé)人,這將大大提升我們的辦事效率。
不過,聽不懂它們對話,你會不會擔(dān)心呢?