「汪汪」to Vector!密歇根博士生用AI解碼狗的聲音 | LREC 2024 精華
有沒有想過你的狗狗想要對你說什么?
在科幻或者想象的場景中,人類有時(shí)會編織類似的情節(jié)。
然而在AI風(fēng)行之下,科幻已然到來!
狗的語言也是「自然語言」,人的語言能word to vector,「汪汪」為什么不行?
近日,就有研究人員開發(fā)了一款人工智能工具,可以區(qū)分不同含義的狗叫聲,并識別狗的年齡、性別和品種。
論文地址:?https://arxiv.org/pdf/2404.18739??
而且,研究結(jié)果表明,源自人類語音的聲音和模式,可以作為分析和理解其他聲音(例如動物發(fā)聲)聲學(xué)模式的基礎(chǔ)。
研究者來自密歇根大學(xué),以及墨西哥國家天體物理、光學(xué)和電子研究所(INAOE)。
該篇工作同時(shí)發(fā)表在International Conference on Computational Linguistics, Language Resources and Evaluation上。
這是一作Artem Abzaliev,和他的狗Nova:
——以前是遇事不決,量子力學(xué),以后搞不定的事都喂給AI模型就行了。
大模型:嗯?怎么今天的飯味道怪怪的?
要理解狗狗,首先需要收集狗狗的數(shù)據(jù),二作Humberto Pérez-Espinosa負(fù)責(zé)領(lǐng)導(dǎo)收集數(shù)據(jù)的團(tuán)隊(duì),共記錄了74只不同品種、年齡和性別的狗狗在各種情況下發(fā)出的聲音。
然后是訓(xùn)練模型,研究人員比較了兩種方式的實(shí)現(xiàn)效果:
1. 完全用狗狗的聲音數(shù)據(jù)從頭訓(xùn)練模型;
2. 在人類語音預(yù)訓(xùn)練模型的基礎(chǔ)上,使用狗狗聲音數(shù)據(jù)進(jìn)行微調(diào)。
模型選擇Wav2Vec2,是使用人類語音數(shù)據(jù)訓(xùn)練的SOTA語音表示模型。
通過這個(gè)模型,研究人員能夠生成從狗身上收集的聲學(xué)數(shù)據(jù)的表示,并解釋這些表示。
實(shí)驗(yàn)表明,使用人類語音預(yù)訓(xùn)練的模型,居然表現(xiàn)更好。
看來通用基礎(chǔ)大模型微調(diào)的套路,即使跨物種也能行得通。
最重要的是,研究人員不必時(shí)常被極高的數(shù)據(jù)門檻所阻礙。
畢竟,相比于人類語言,收集動物語言數(shù)據(jù)要難得多,公開的數(shù)據(jù)集更是少之又少。
Artem Abzaliev表示,動物的發(fā)聲在邏輯上更難征求和記錄,要么在野外被動記錄,要么尋找家養(yǎng)寵物,但必須征得主人的許可。
文章的作者之一,密歇根大學(xué)人工智能實(shí)驗(yàn)室主任Rada Mihalcea表示:
「關(guān)于與我們共享這個(gè)世界的動物,我們不知道的還有很多。人工智能的進(jìn)步將徹底改變我們對動物交流的理解,而且我們可以使用以人類語音為基礎(chǔ)的預(yù)訓(xùn)練模型,不必從頭開始?!?/p>
「汪汪」to Vector
要理解動物的交流方式,需要解決三個(gè)主要問題:
(1)動物使用的語音和感知單位是什么?
(2)組合這些單位的規(guī)則是什么?
(3)這些單位是否有意義,如何將聲音單位映射到具體含義?
而這篇工作探討的是第三個(gè)問題,嘗試去理解狗狗發(fā)聲的語義。
數(shù)據(jù)準(zhǔn)備
研究人員使用了一個(gè)由74只狗的叫聲記錄組成的數(shù)據(jù)集,這些記錄是在墨西哥的狗主人家中現(xiàn)場收集的。
使用相機(jī)內(nèi)置麥克風(fēng)獲得錄音,音頻編解碼器為A52立體聲,采樣率48,000Hz,比特率為256kbps。
本研究中使用的狗發(fā)聲協(xié)議,由墨西哥Tlaxcala行為生物學(xué)中心的動物行為專家設(shè)計(jì)和驗(yàn)證。
74只狗狗包括48只母狗和26只公狗,品種分布為:42只吉娃娃、21只法國貴賓犬和11只雪納瑞犬。狗的年齡在5到84個(gè)月之間,平均年齡為35個(gè)月。
狗的叫聲來自于不同的場景,比如:
實(shí)驗(yàn)者反復(fù)按響家庭門鈴并用力敲門;
實(shí)驗(yàn)者模擬對狗狗主人的攻擊;
主人親切地對狗說話;
主人使用狗通常玩的物品與狗玩耍;
主人執(zhí)行散步前的正常例行程序;
主人用皮帶將狗拴在樹上,然后走出視線;
記錄狗狗對這些刺激做出的反應(yīng),根據(jù)不同情景,錄音會持續(xù)10秒到60分鐘。
?
數(shù)據(jù)處理
將錄音會分割成較短的片段,長度在0.3到5秒之間,使用閾值來區(qū)分叫聲和背景噪聲。
使用與刺激相關(guān)的信息手動注釋每個(gè)生成的片段。下表顯示了14種狗的發(fā)聲類型以及相應(yīng)的段數(shù)和持續(xù)時(shí)間:
模型
為了在數(shù)據(jù)集中創(chuàng)建狗狗叫聲的聲學(xué)表示,研究人員以自監(jiān)督語音表示模型Wav2Vec2為基礎(chǔ),來進(jìn)行微調(diào)。
Wav2Vec2使用Librispeech語料庫進(jìn)行預(yù)訓(xùn)練(960小時(shí)未標(biāo)記的人類語音數(shù)據(jù)),來學(xué)習(xí)如何將音頻信號表示為一系列離散標(biāo)記。
這里使用HuggingFace上的Wav2Vec2開源實(shí)現(xiàn),并且比較了用狗狗數(shù)據(jù)從頭訓(xùn)練模型,以及使用預(yù)訓(xùn)練模型微調(diào),兩者的效果差異。
分類任務(wù)
研究人員探索了幾個(gè)基本任務(wù),包括個(gè)體叫聲識別、狗的品種識別、性別識別、以及預(yù)測叫聲關(guān)聯(lián)的場景。
所有實(shí)驗(yàn)都使用十倍交叉驗(yàn)證設(shè)置:將7-8只狗作為測試數(shù)據(jù)集,使用其余狗的發(fā)聲進(jìn)行訓(xùn)練。
叫聲識別
這個(gè)任務(wù)需要將單個(gè)音頻片段,分類為數(shù)據(jù)集中74只狗中的一只。據(jù)說,人類很難區(qū)分單個(gè)狗的吠叫聲,但AI不同,即使是無監(jiān)督的模型也可以表現(xiàn)得相當(dāng)好。
下表顯示了實(shí)驗(yàn)結(jié)果,使用預(yù)訓(xùn)練模型微調(diào)的方案占據(jù)了優(yōu)勢:
品種鑒別
這項(xiàng)任務(wù)的目標(biāo)是預(yù)測狗的品種(吉娃娃、法國貴賓犬和雪納瑞犬)。這里假設(shè)不同的品種有不同的音高,因此聲學(xué)模型應(yīng)該能夠識別這些差異,而與上下文無關(guān)。
這有點(diǎn)類似于人類的口音識別,比如根據(jù)聲音來區(qū)分是美國、英國還是印度人。
實(shí)驗(yàn)結(jié)果如下表所示,預(yù)訓(xùn)練模型表現(xiàn)最好。單個(gè)品種的差異可以通過每個(gè)品種的觀察數(shù)量不平衡來解釋,吉娃娃是數(shù)據(jù)集中最常見的品種(57%),其次是法國貴賓犬(28%)和雪納瑞犬(15%)。
性別預(yù)測
這項(xiàng)任務(wù)的目的是探究是否有可能從發(fā)聲中預(yù)測狗的性別。
結(jié)果如下表所示。這次是從頭開始訓(xùn)練的Wav2Vec2模型表現(xiàn)更好,而預(yù)訓(xùn)練模型對女性類別有一些改進(jìn),可能是因?yàn)楣饭窋?shù)據(jù)集中母狗的數(shù)據(jù)比較多(按總持續(xù)時(shí)間計(jì)算,母狗為67.95%,公狗為32.04%)。
從結(jié)果來看,在所有任務(wù)中,性別識別是最困難的任務(wù)。
作者假設(shè)從頭開始訓(xùn)練的模型專注于學(xué)習(xí)聲學(xué)特征,而預(yù)訓(xùn)練的wav2vec則試圖走捷徑,導(dǎo)致過擬合,因此女性的F1增加,男性的F1降低。
關(guān)聯(lián)場景預(yù)測
最后一項(xiàng)任務(wù)預(yù)測叫聲關(guān)聯(lián)的場景。由于標(biāo)簽分布高度偏斜,這里關(guān)注的是有更多例子的場景:
對陌生人非常具有攻擊性的吠叫(LS2);
對陌生人正常吠叫(L-S1);
負(fù)面尖叫(在陌生人在場的情況下)(CH-N);
消極的咕嚕聲(在陌生人面前)(GR-N)。
實(shí)驗(yàn)結(jié)果如下表所示。與之前的實(shí)驗(yàn)類似,兩種Wav2Vec2模型的表現(xiàn)都優(yōu)于基線(Majority),而預(yù)訓(xùn)練版本獲得了最準(zhǔn)確的結(jié)果。
本文轉(zhuǎn)自 新智元,作者:新智元
