自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

海豚語言被谷歌大模型破譯!跨物種交流大門打開,哈薩比斯:下一個是狗

人工智能 新聞
谷歌CEO皮猜激動官宣: 隆重推出DolphinGemma,基于多年積累的海豚聲音數(shù)據(jù)訓(xùn)練而成,有助于實現(xiàn)跨物種交流。

神奇!人類和海豚真的能實現(xiàn)跨物種交流了?!

當(dāng)?shù)貢r間4月14日(也是世界海豚日),谷歌CEO皮猜激動官宣:

隆重推出DolphinGemma,基于多年積累的海豚聲音數(shù)據(jù)訓(xùn)練而成,有助于實現(xiàn)跨物種交流。

圖片

劃重點(diǎn),這個海豚模型參數(shù)僅400M,小到能直接在谷歌Pixel 9手機(jī)上運(yùn)行。

圖片

而且皮猜還說了,預(yù)計今年夏天會將其開源以促進(jìn)科學(xué)合作。

這一消息也迅速引來大量網(wǎng)友圍觀,評論區(qū)一整個“哇聲一片”:

更有意思的是,谷歌和OpenAI這對老冤家這一次又雙叒對上了,OpenAI那邊發(fā)布了GPT 4.1。

有網(wǎng)友直接辣評:GPT 4.1很好,但我對DolphinGemma更感興趣。(你是懂拉踩的doge)

圖片

谷歌大模型破解海豚叫聲

谷歌這次發(fā)布的AI基礎(chǔ)模型DolphinGemma,經(jīng)過訓(xùn)練可以學(xué)習(xí)海豚的發(fā)聲結(jié)構(gòu),并生成類似的聲音序列。

這和大語言模型中的預(yù)測下一個token類似,通過識別輸入的海豚音頻,來預(yù)測后續(xù)可能出現(xiàn)的聲音,并最終解鎖這些聲音隱藏的潛在含義。

根據(jù)介紹,這一模型使用了谷歌獨(dú)特的音頻技術(shù)。

其中,SoundStream分詞器能快速把海豚聲音變成計算機(jī)能理解的信號,隨后由適合處理復(fù)雜序列的模型架構(gòu)進(jìn)行處理。

圖片

當(dāng)然,除了訓(xùn)練技術(shù),最重要的環(huán)節(jié)還是在于獲取數(shù)據(jù)。

谷歌這次找了WDP( Wild Dolphin Project)合作,這家機(jī)構(gòu)研究海豚社會數(shù)十年,擁有極為豐富的數(shù)據(jù)集。

具體而言,自1985年以來,WDP研究了巴哈馬群島中一個跨世代的野生大西洋斑點(diǎn)海豚(Stenella frontalis)群落。

通過這一“世界上持續(xù)時間最長的水下海豚研究項目”,最終積攢了數(shù)十年的水下視頻和音頻,并且每個海豚的身份、生活史和觀察到的行為擁有細(xì)致匹配。

比如下面這些能夠?qū)⒑k嗦曇艉托袨槁?lián)系起來的例子:

  • 標(biāo)志性的口哨聲,一般出現(xiàn)在母子相遇的場景
  • 打斗時經(jīng)常會聽到脈沖“尖叫聲”
  • 求偶或追逐鯊魚時常用“嗡嗡”聲

下圖展示了第一種情形。

左圖:一只斑點(diǎn)海豚媽媽在幼崽覓食時觀察著它,等幼崽覓食完畢后,它會用自己獨(dú)特的口哨聲呼喚它回來。

右圖:聲譜圖顯示的口哨聲。

圖片

因此最終,DolphinGemma是基于WDP的野生大西洋斑點(diǎn)海豚聲學(xué)數(shù)據(jù)庫進(jìn)行廣泛訓(xùn)練。

另一方面,除了研究海豚的交流方式,WDP還進(jìn)一步探索了“人機(jī)交互”方式。

該機(jī)構(gòu)與佐治亞理工學(xué)院合作,開發(fā)了CHAT(Cetacean Hearing Augmentation Telemetry) 這款水下應(yīng)用,其設(shè)計目的并非直接解讀海豚復(fù)雜的自然語言,而是建立一套更簡單的共享詞匯。

具體來說,CHAT會將生成的合成哨聲與海豚喜歡的特定物體聯(lián)系起來,比如海藻、海草或研究人員使用的圍巾。

然后通過人類教導(dǎo),讓天生好奇的海豚學(xué)會模仿這些哨聲來請求這些物品。

最終,隨著對海豚更多自然聲音的理解,這些聲音也可以被加入到系統(tǒng)中。

圖片

△CHAT示意圖

概括而言,CHAT設(shè)備通過水下?lián)P聲器和麥克風(fēng)實現(xiàn)聲音的發(fā)送和接收,通過嘗試模仿海豚發(fā)出的哨聲來建立一種基本的溝通橋梁。

谷歌表示,Pixel 6(谷歌2021年10月發(fā)布)已經(jīng)能夠?qū)崟r處理高保真海豚聲音分析,而即將發(fā)布的Pixel 9(計劃于2025年夏季投入使用)將在此基礎(chǔ)上進(jìn)行升級。

Pixel 9將集成揚(yáng)聲器和麥克風(fēng)功能,并利用手機(jī)強(qiáng)大的處理能力同時運(yùn)行深度學(xué)習(xí)模型和模板匹配算法。

這將使研究人員能夠更高效地分析海豚的聲音,并與海豚進(jìn)行更復(fù)雜的互動。

One More Thing

也有人好奇,為什么谷歌選了海豚而非更常見的貓狗來研究?

雖然官方這次未明確提及背后原因,但查閱廣泛研究資料后可以得出一個結(jié)論:

這是因為海豚的“語言”和人類語言高度接近。

一項發(fā)表在《皇家社會生物學(xué)通訊》的研究表明,海豚相互間交流的方式近乎于人類。

當(dāng)一些海豚發(fā)出像吹口哨一樣的聲音時,這些聲音是由特定組織震動發(fā)出的,其運(yùn)作原理類似于人類和許多陸生生物的聲帶振動。

論文一作彼得·麥德森曾表示:

實際上,它們是通過鼻腔中結(jié)締組織的共振頻率來發(fā)聲的,而且它們能隨意調(diào)節(jié)肌肉緊張度和通過的氣流。這和人類用聲帶說話時做的一模一樣。

和海豚類似,事實上谷歌2024年9月還推出了一款鯨魚聲音識別模型,它能夠識別出八種鯨魚的獨(dú)特叫聲,并精細(xì)區(qū)分其中兩種鯨魚的不同發(fā)聲類型。

而鯨魚也和海豚一樣,其語言和人類語言也具有相似性。

今年年初發(fā)表在《科學(xué)》雜志上的一項研究驚奇地發(fā)現(xiàn),通過模仿兒童學(xué)習(xí)語言的過程,鯨魚的歌聲與人類使用的語言存在統(tǒng)計相似性。

這一發(fā)現(xiàn)不僅揭開了鯨歌的部分秘密,還為理解跨物種交流乃至AI語言模型提供了全新視角。

圖片

可以看到,谷歌首先考慮的還是這些與人類語言更接近的物種。

不過別著急,從DeepMind聯(lián)創(chuàng)兼CEO哈薩比斯透露的想法來看,沒準(zhǔn)下一個就是狗了。(doge)

圖片

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2010-06-21 12:33:42

2025-01-10 14:15:26

2014-06-17 10:57:09

2016-01-22 10:50:19

2024-08-20 13:37:17

2013-04-23 10:04:15

谷歌Google Now

2016-01-05 13:52:05

Kotlin掌握語言

2009-05-12 10:51:22

職場經(jīng)濟(jì)危機(jī)裁員

2022-02-28 00:14:30

人工智能數(shù)據(jù)機(jī)器學(xué)習(xí)

2018-05-13 09:45:53

共享經(jīng)濟(jì)

2009-03-10 19:32:09

Linux桌面虛擬化計世觀點(diǎn)

2015-10-29 09:35:12

BAT趨勢數(shù)據(jù)

2024-10-18 16:30:00

AI生成

2025-02-18 13:00:00

2017-09-04 07:34:11

IT運(yùn)維運(yùn)營

2024-12-31 15:49:54

2010-10-19 10:44:49

李開復(fù)

2018-05-08 14:20:03

騰訊阿里互聯(lián)網(wǎng)

2019-01-10 14:32:02

谷歌Android開發(fā)者

2020-11-30 08:31:14

Windows 10Windows微軟
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號