動物版谷歌翻譯來了?Nature:用AI解碼野性的呼喚!
每一種動物都有其獨特的歷史。
來自加拿大Carleton University的鯨魚生物學家Shane Gero,花了20年時間試圖了解鯨魚是如何交流的。
比如,同一個家族的鯨魚會發(fā)出特定的聲音,而不同區(qū)域的抹香鯨(Physeter macrocephalus)有自己的「方言」。
海豚的口哨聲、大象的隆隆聲、鳥鳴的顫音都有特定的模式和結(jié)構(gòu)。
對于人類來說,這些微妙之處可能難以識別和理解,但尋找模式正是AI所擅長的領(lǐng)域。
在過去的一年里,AI不斷幫助研究者們「解碼」自然界中的這些聲音。
密碼破譯者
鯨魚以氏族的形式聚集在一起,每個氏族都有獨特的飲食、社會行為和棲息地。一個氏族可以包含數(shù)千頭鯨魚,每個家庭以雌性鯨魚為首。
鯨魚們大部分時間都在海洋深處尋找食物,最遠可達海面以下2公里處。陽光照不到那里,它們通過回聲定位尋找獵物。
而在不需要回聲定位的水面上,它們還會使用稱為尾音(codas)的一系列咔嗒聲來與其他鯨魚保持聯(lián)系,每次持續(xù)3到40下。
不同氏族的鯨魚使用尾音的節(jié)奏和停頓不同,這些「方言」標志著氏族之間的「文化界限」。
在加勒比海域,Gero和他的同事們花了幾千小時,收集了居住在附近的30多個鯨魚家庭的數(shù)據(jù)。
為了了解尾音的節(jié)奏和速度,團隊手動創(chuàng)建了鯨魚聲音記錄頻譜圖,將音量和頻率等特征可視化。
Gero表示,這項任務(wù)非常耗時,交給機器學習算法之后大大加快了工作速度,同時還有助于區(qū)分哪種聲音來自哪種動物。
另外,人工智能也讓研究走得更遠。
手動操作基本上只能對單個單詞進行分類,但AI可以處理相當于句子甚至整個對話的尾聲。「機器學習非常擅長發(fā)現(xiàn)標準統(tǒng)計方法難以捕捉的模式」。
研究人員收集了8,719個尾聲的數(shù)據(jù)集,在AI的幫助下發(fā)現(xiàn)了「抹香鯨音標」,作為鯨魚之間共享復(fù)雜信息的基礎(chǔ)。
Call me by my name
抹香鯨并不是唯一使用特定發(fā)聲來識別自己的生物。曾在科羅拉多州立大學工作的行為生態(tài)學家Mickey Pardo,通過AI發(fā)現(xiàn)了野生非洲象有自己的名字。
大象們使用低沉的隆隆聲彼此交流,在不同的情況(遠距離、面對面、或者親子互動)下,聲音會有差別。
Pardo和他的同事們發(fā)現(xiàn),大象會對某些叫聲做出反應(yīng),而忽略其他叫聲。
研究人員訓(xùn)練了AI模型來學習這些「呼叫」的聲學特征,并根據(jù)新呼叫的特征來預(yù)測接收者。
最終,模型以27.5%的準確率匹配了呼叫者——盡管看起來分數(shù)不高,但人家大象也不是每次呼叫都「直呼其名」。
另一種被AI發(fā)現(xiàn)了「真名」的動物是下面這哥們:狨猴(Callithrix jacchus)。
除了預(yù)測名字之外,Pardo還嘗試利用AI解碼其他的「大象詞匯」,比如位置術(shù)語。
當大象招呼同伴向特定地點移動時,會發(fā)出特別的叫聲。模型識別這些叫聲的含義,研究人員播放叫聲并驗證大象們的去向。
在關(guān)于大象的另一項研究中,Pardo發(fā)現(xiàn)肯尼亞兩個種群中大象的叫聲存在明顯差異。
所以,進行瀕危物種保護時,不能簡單將個體與其他同類放到一起,因為「新人」可能面臨語言不通的麻煩。
另外,大象的叫聲還包含了性別、年齡、生理狀況等信息,科學家們可以通過梳理這些信息,使用被動聲學監(jiān)測來了解特定大象的情況。
加州大學的動物行為生態(tài)學家Caroline Casey,在博士論文中證明了象海豹(Mirounga spp)也會給給自己起名字。
Casey認為,使用基于AI的分類器來解釋動物的叫聲,可以減少研究中的人為偏見,但與此同時,人類直覺的價值也不應(yīng)該被忽視。
「人類的大腦能夠整合我們對自己世界的理解和運作方式,并利用它來幫助解釋動物的行為」。
泛化到烏鴉
機器學習專家Olivier Pietquin是地球物種項目(Earth Species Project)的AI研究主管,項目團隊目前正在使用AI解碼動物物種的交流。
Pietquin希望利用神經(jīng)網(wǎng)絡(luò)從一個數(shù)據(jù)集泛化到另一個數(shù)據(jù)集的能力,在訓(xùn)練模型時,不僅能夠使用來自不同動物的大量聲音,還可以使用其他聲學數(shù)據(jù)(包括人類語音和音樂)。
「計算機可以在建立理解以專門識別動物發(fā)聲特征之前,需要先推導(dǎo)出聲音的一些基本特征。這與在人臉圖片上訓(xùn)練的圖像識別算法學習像素的一些基本特征的方式相同。」
像素首先描述橢圓,然后描述眼睛。所以,即使使用人臉作為大部分訓(xùn)練數(shù)據(jù),AI模型依然可以利用這些基礎(chǔ)知識識別貓的面部。
「我們可以想象使用人類語音數(shù)據(jù),并希望它能轉(zhuǎn)移到任何其他具有聲帶的動物身上?!?/span>
以這種方式訓(xùn)練的模型有助于識別哪些聲音傳達了信息,哪些只是噪聲。當然,要弄清楚這些叫聲的具體指向,仍然需要人類觀察動物的行為,為計算機識別出的內(nèi)容添加標簽。
地球物種項目的研究人員已經(jīng)創(chuàng)建了一個名為Voxaboxen的神經(jīng)網(wǎng)絡(luò),他們正在將其應(yīng)用于烏鴉交流的研究。
與歐洲其他地方的同類不同,西班牙北部的腐肉烏鴉種群(Corvus corone)共同承擔著照顧幼崽的責任。一群烏鴉將輪流守衛(wèi)巢穴、清潔巢穴和照顧雛鳥,它們必須通過語音溝通協(xié)調(diào)才能完成這些任務(wù)。
研究人員將標簽貼在烏鴉的尾羽上,其中包含一個微型麥克風,一個加速度計和磁力計,用于測量鳥類的運動和叫聲。標簽?zāi)軌蚴占蠹s六天的數(shù)據(jù),然后掉到地上并發(fā)出一個信號,方便工作人員檢索和研究這些數(shù)據(jù)。
盡管有抹香鯨、非洲大草原象、狨猴、海象、烏鴉這些例子,但是用AI打造「動物版的谷歌翻譯」還為時尚早。
動物是否能夠進行超過基本水平的交流——即有無語言的構(gòu)成,還沒有公認的定義。
Pardo表示,他的主要目標不是能夠與野生動物和寵物交談,而是了解它們的思想以及它們?nèi)绾慰创约汉褪澜纭?/span>
例如,一些動物似乎有名字的事實意味著,它們能夠?qū)⑵渌麄€體視為實體并提出標簽,這表明它們具有復(fù)雜的抽象思維水平。