自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

海豚語言被谷歌大模型破譯！跨物種交流大門打開，哈薩比斯：下一個是狗

作者：量子位 2025-04-15 09:53:52

人工智能新聞

谷歌CEO皮猜激動官宣：隆重推出DolphinGemma，基于多年積累的海豚聲音數(shù)據(jù)訓(xùn)練而成，有助于實現(xiàn)跨物種交流。

神奇！人類和海豚真的能實現(xiàn)跨物種交流了？！

當(dāng)?shù)貢r間4月14日（也是世界海豚日），谷歌CEO皮猜激動官宣：

隆重推出DolphinGemma，基于多年積累的海豚聲音數(shù)據(jù)訓(xùn)練而成，有助于實現(xiàn)跨物種交流。

劃重點(diǎn)，這個海豚模型參數(shù)僅400M，小到能直接在谷歌Pixel 9手機(jī)上運(yùn)行。

而且皮猜還說了，預(yù)計今年夏天會將其開源以促進(jìn)科學(xué)合作。

這一消息也迅速引來大量網(wǎng)友圍觀，評論區(qū)一整個“哇聲一片”：

更有意思的是，谷歌和OpenAI這對老冤家這一次又雙叒對上了，OpenAI那邊發(fā)布了GPT 4.1。

有網(wǎng)友直接辣評：GPT 4.1很好，但我對DolphinGemma更感興趣。（你是懂拉踩的doge）

谷歌大模型破解海豚叫聲

谷歌這次發(fā)布的AI基礎(chǔ)模型DolphinGemma，經(jīng)過訓(xùn)練可以學(xué)習(xí)海豚的發(fā)聲結(jié)構(gòu)，并生成類似的聲音序列。

這和大語言模型中的預(yù)測下一個token類似，通過識別輸入的海豚音頻，來預(yù)測后續(xù)可能出現(xiàn)的聲音，并最終解鎖這些聲音隱藏的潛在含義。

根據(jù)介紹，這一模型使用了谷歌獨(dú)特的音頻技術(shù)。

其中，SoundStream分詞器能快速把海豚聲音變成計算機(jī)能理解的信號，隨后由適合處理復(fù)雜序列的模型架構(gòu)進(jìn)行處理。

當(dāng)然，除了訓(xùn)練技術(shù)，最重要的環(huán)節(jié)還是在于獲取數(shù)據(jù)。

谷歌這次找了WDP（ Wild Dolphin Project）合作，這家機(jī)構(gòu)研究海豚社會數(shù)十年，擁有極為豐富的數(shù)據(jù)集。

具體而言，自1985年以來，WDP研究了巴哈馬群島中一個跨世代的野生大西洋斑點(diǎn)海豚（Stenella frontalis）群落。

通過這一“世界上持續(xù)時間最長的水下海豚研究項目”，最終積攢了數(shù)十年的水下視頻和音頻，并且每個海豚的身份、生活史和觀察到的行為擁有細(xì)致匹配。

比如下面這些能夠?qū)⒑ｋ嗦曇艉托袨槁?lián)系起來的例子：

標(biāo)志性的口哨聲，一般出現(xiàn)在母子相遇的場景
打斗時經(jīng)常會聽到脈沖“尖叫聲”
求偶或追逐鯊魚時常用“嗡嗡”聲

下圖展示了第一種情形。

左圖：一只斑點(diǎn)海豚媽媽在幼崽覓食時觀察著它，等幼崽覓食完畢后，它會用自己獨(dú)特的口哨聲呼喚它回來。

右圖：聲譜圖顯示的口哨聲。

因此最終，DolphinGemma是基于WDP的野生大西洋斑點(diǎn)海豚聲學(xué)數(shù)據(jù)庫進(jìn)行廣泛訓(xùn)練。

另一方面，除了研究海豚的交流方式，WDP還進(jìn)一步探索了“人機(jī)交互”方式。

該機(jī)構(gòu)與佐治亞理工學(xué)院合作，開發(fā)了CHAT(Cetacean Hearing Augmentation Telemetry) 這款水下應(yīng)用，其設(shè)計目的并非直接解讀海豚復(fù)雜的自然語言，而是建立一套更簡單的共享詞匯。

具體來說，CHAT會將生成的合成哨聲與海豚喜歡的特定物體聯(lián)系起來，比如海藻、海草或研究人員使用的圍巾。

然后通過人類教導(dǎo)，讓天生好奇的海豚學(xué)會模仿這些哨聲來請求這些物品。

最終，隨著對海豚更多自然聲音的理解，這些聲音也可以被加入到系統(tǒng)中。

△CHAT示意圖

概括而言，CHAT設(shè)備通過水下?lián)P聲器和麥克風(fēng)實現(xiàn)聲音的發(fā)送和接收，通過嘗試模仿海豚發(fā)出的哨聲來建立一種基本的溝通橋梁。

谷歌表示，Pixel 6（谷歌2021年10月發(fā)布）已經(jīng)能夠?qū)崟r處理高保真海豚聲音分析，而即將發(fā)布的Pixel 9（計劃于2025年夏季投入使用）將在此基礎(chǔ)上進(jìn)行升級。

Pixel 9將集成揚(yáng)聲器和麥克風(fēng)功能，并利用手機(jī)強(qiáng)大的處理能力同時運(yùn)行深度學(xué)習(xí)模型和模板匹配算法。
這將使研究人員能夠更高效地分析海豚的聲音，并與海豚進(jìn)行更復(fù)雜的互動。

One More Thing

也有人好奇，為什么谷歌選了海豚而非更常見的貓狗來研究？

雖然官方這次未明確提及背后原因，但查閱廣泛研究資料后可以得出一個結(jié)論：

這是因為海豚的“語言”和人類語言高度接近。

一項發(fā)表在《皇家社會生物學(xué)通訊》的研究表明，海豚相互間交流的方式近乎于人類。

當(dāng)一些海豚發(fā)出像吹口哨一樣的聲音時，這些聲音是由特定組織震動發(fā)出的，其運(yùn)作原理類似于人類和許多陸生生物的聲帶振動。

論文一作彼得·麥德森曾表示：

實際上，它們是通過鼻腔中結(jié)締組織的共振頻率來發(fā)聲的，而且它們能隨意調(diào)節(jié)肌肉緊張度和通過的氣流。這和人類用聲帶說話時做的一模一樣。

和海豚類似，事實上谷歌2024年9月還推出了一款鯨魚聲音識別模型，它能夠識別出八種鯨魚的獨(dú)特叫聲，并精細(xì)區(qū)分其中兩種鯨魚的不同發(fā)聲類型。

而鯨魚也和海豚一樣，其語言和人類語言也具有相似性。

今年年初發(fā)表在《科學(xué)》雜志上的一項研究驚奇地發(fā)現(xiàn)，通過模仿兒童學(xué)習(xí)語言的過程，鯨魚的歌聲與人類使用的語言存在統(tǒng)計相似性。

這一發(fā)現(xiàn)不僅揭開了鯨歌的部分秘密，還為理解跨物種交流乃至AI語言模型提供了全新視角。

可以看到，谷歌首先考慮的還是這些與人類語言更接近的物種。

不過別著急，從DeepMind聯(lián)創(chuàng)兼CEO哈薩比斯透露的想法來看，沒準(zhǔn)下一個就是狗了。(doge）

責(zé)任編輯：張燕妮來源：量子位

谷歌大模型訓(xùn)練

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營