自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

「汪汪」to Vector!密歇根博士生用AI解碼狗的聲音 | LREC 2024 精華

發(fā)布于 2024-6-11 12:43
瀏覽
0收藏

有沒有想過你的狗狗想要對你說什么?


在科幻或者想象的場景中,人類有時(shí)會編織類似的情節(jié)。


然而在AI風(fēng)行之下,科幻已然到來!


狗的語言也是「自然語言」,人的語言能word to vector,「汪汪」為什么不行?

「汪汪」to Vector!密歇根博士生用AI解碼狗的聲音 | LREC 2024-AI.x社區(qū)

近日,就有研究人員開發(fā)了一款人工智能工具,可以區(qū)分不同含義的狗叫聲,并識別狗的年齡、性別和品種。

「汪汪」to Vector!密歇根博士生用AI解碼狗的聲音 | LREC 2024-AI.x社區(qū)

論文地址:?https://arxiv.org/pdf/2404.18739??

而且,研究結(jié)果表明,源自人類語音的聲音和模式,可以作為分析和理解其他聲音(例如動物發(fā)聲)聲學(xué)模式的基礎(chǔ)。


研究者來自密歇根大學(xué),以及墨西哥國家天體物理、光學(xué)和電子研究所(INAOE)。


該篇工作同時(shí)發(fā)表在International Conference on Computational Linguistics, Language Resources and Evaluation上。


這是一作Artem Abzaliev,和他的狗Nova:

「汪汪」to Vector!密歇根博士生用AI解碼狗的聲音 | LREC 2024-AI.x社區(qū)

——以前是遇事不決,量子力學(xué),以后搞不定的事都喂給AI模型就行了。


大模型:嗯?怎么今天的飯味道怪怪的?

「汪汪」to Vector!密歇根博士生用AI解碼狗的聲音 | LREC 2024-AI.x社區(qū)

要理解狗狗,首先需要收集狗狗的數(shù)據(jù),二作Humberto Pérez-Espinosa負(fù)責(zé)領(lǐng)導(dǎo)收集數(shù)據(jù)的團(tuán)隊(duì),共記錄了74只不同品種、年齡和性別的狗狗在各種情況下發(fā)出的聲音。


然后是訓(xùn)練模型,研究人員比較了兩種方式的實(shí)現(xiàn)效果:

1. 完全用狗狗的聲音數(shù)據(jù)從頭訓(xùn)練模型;

2. 在人類語音預(yù)訓(xùn)練模型的基礎(chǔ)上,使用狗狗聲音數(shù)據(jù)進(jìn)行微調(diào)。


模型選擇Wav2Vec2,是使用人類語音數(shù)據(jù)訓(xùn)練的SOTA語音表示模型。


通過這個(gè)模型,研究人員能夠生成從狗身上收集的聲學(xué)數(shù)據(jù)的表示,并解釋這些表示。

實(shí)驗(yàn)表明,使用人類語音預(yù)訓(xùn)練的模型,居然表現(xiàn)更好。


看來通用基礎(chǔ)大模型微調(diào)的套路,即使跨物種也能行得通。

「汪汪」to Vector!密歇根博士生用AI解碼狗的聲音 | LREC 2024-AI.x社區(qū)

最重要的是,研究人員不必時(shí)常被極高的數(shù)據(jù)門檻所阻礙。


畢竟,相比于人類語言,收集動物語言數(shù)據(jù)要難得多,公開的數(shù)據(jù)集更是少之又少。


Artem Abzaliev表示,動物的發(fā)聲在邏輯上更難征求和記錄,要么在野外被動記錄,要么尋找家養(yǎng)寵物,但必須征得主人的許可。


文章的作者之一,密歇根大學(xué)人工智能實(shí)驗(yàn)室主任Rada Mihalcea表示:


「關(guān)于與我們共享這個(gè)世界的動物,我們不知道的還有很多。人工智能的進(jìn)步將徹底改變我們對動物交流的理解,而且我們可以使用以人類語音為基礎(chǔ)的預(yù)訓(xùn)練模型,不必從頭開始?!?/p>

「汪汪」to Vector

要理解動物的交流方式,需要解決三個(gè)主要問題:

(1)動物使用的語音和感知單位是什么?

(2)組合這些單位的規(guī)則是什么?

(3)這些單位是否有意義,如何將聲音單位映射到具體含義?


而這篇工作探討的是第三個(gè)問題,嘗試去理解狗狗發(fā)聲的語義。

數(shù)據(jù)準(zhǔn)備

研究人員使用了一個(gè)由74只狗的叫聲記錄組成的數(shù)據(jù)集,這些記錄是在墨西哥的狗主人家中現(xiàn)場收集的。


使用相機(jī)內(nèi)置麥克風(fēng)獲得錄音,音頻編解碼器為A52立體聲,采樣率48,000Hz,比特率為256kbps。


本研究中使用的狗發(fā)聲協(xié)議,由墨西哥Tlaxcala行為生物學(xué)中心的動物行為專家設(shè)計(jì)和驗(yàn)證。


74只狗狗包括48只母狗和26只公狗,品種分布為:42只吉娃娃、21只法國貴賓犬和11只雪納瑞犬。狗的年齡在5到84個(gè)月之間,平均年齡為35個(gè)月。

「汪汪」to Vector!密歇根博士生用AI解碼狗的聲音 | LREC 2024-AI.x社區(qū)

狗的叫聲來自于不同的場景,比如:

實(shí)驗(yàn)者反復(fù)按響家庭門鈴并用力敲門;

實(shí)驗(yàn)者模擬對狗狗主人的攻擊;

主人親切地對狗說話;

主人使用狗通常玩的物品與狗玩耍;

主人執(zhí)行散步前的正常例行程序;

主人用皮帶將狗拴在樹上,然后走出視線;


記錄狗狗對這些刺激做出的反應(yīng),根據(jù)不同情景,錄音會持續(xù)10秒到60分鐘。

?

數(shù)據(jù)處理


將錄音會分割成較短的片段,長度在0.3到5秒之間,使用閾值來區(qū)分叫聲和背景噪聲。


使用與刺激相關(guān)的信息手動注釋每個(gè)生成的片段。下表顯示了14種狗的發(fā)聲類型以及相應(yīng)的段數(shù)和持續(xù)時(shí)間:

「汪汪」to Vector!密歇根博士生用AI解碼狗的聲音 | LREC 2024-AI.x社區(qū)

模型

為了在數(shù)據(jù)集中創(chuàng)建狗狗叫聲的聲學(xué)表示,研究人員以自監(jiān)督語音表示模型Wav2Vec2為基礎(chǔ),來進(jìn)行微調(diào)。


Wav2Vec2使用Librispeech語料庫進(jìn)行預(yù)訓(xùn)練(960小時(shí)未標(biāo)記的人類語音數(shù)據(jù)),來學(xué)習(xí)如何將音頻信號表示為一系列離散標(biāo)記。

「汪汪」to Vector!密歇根博士生用AI解碼狗的聲音 | LREC 2024-AI.x社區(qū)

這里使用HuggingFace上的Wav2Vec2開源實(shí)現(xiàn),并且比較了用狗狗數(shù)據(jù)從頭訓(xùn)練模型,以及使用預(yù)訓(xùn)練模型微調(diào),兩者的效果差異。

分類任務(wù)

研究人員探索了幾個(gè)基本任務(wù),包括個(gè)體叫聲識別、狗的品種識別、性別識別、以及預(yù)測叫聲關(guān)聯(lián)的場景。


所有實(shí)驗(yàn)都使用十倍交叉驗(yàn)證設(shè)置:將7-8只狗作為測試數(shù)據(jù)集,使用其余狗的發(fā)聲進(jìn)行訓(xùn)練。

叫聲識別

這個(gè)任務(wù)需要將單個(gè)音頻片段,分類為數(shù)據(jù)集中74只狗中的一只。據(jù)說,人類很難區(qū)分單個(gè)狗的吠叫聲,但AI不同,即使是無監(jiān)督的模型也可以表現(xiàn)得相當(dāng)好。


下表顯示了實(shí)驗(yàn)結(jié)果,使用預(yù)訓(xùn)練模型微調(diào)的方案占據(jù)了優(yōu)勢:

「汪汪」to Vector!密歇根博士生用AI解碼狗的聲音 | LREC 2024-AI.x社區(qū)

品種鑒別

這項(xiàng)任務(wù)的目標(biāo)是預(yù)測狗的品種(吉娃娃、法國貴賓犬和雪納瑞犬)。這里假設(shè)不同的品種有不同的音高,因此聲學(xué)模型應(yīng)該能夠識別這些差異,而與上下文無關(guān)。


這有點(diǎn)類似于人類的口音識別,比如根據(jù)聲音來區(qū)分是美國、英國還是印度人。


實(shí)驗(yàn)結(jié)果如下表所示,預(yù)訓(xùn)練模型表現(xiàn)最好。單個(gè)品種的差異可以通過每個(gè)品種的觀察數(shù)量不平衡來解釋,吉娃娃是數(shù)據(jù)集中最常見的品種(57%),其次是法國貴賓犬(28%)和雪納瑞犬(15%)。

「汪汪」to Vector!密歇根博士生用AI解碼狗的聲音 | LREC 2024-AI.x社區(qū)

性別預(yù)測

這項(xiàng)任務(wù)的目的是探究是否有可能從發(fā)聲中預(yù)測狗的性別。


結(jié)果如下表所示。這次是從頭開始訓(xùn)練的Wav2Vec2模型表現(xiàn)更好,而預(yù)訓(xùn)練模型對女性類別有一些改進(jìn),可能是因?yàn)楣饭窋?shù)據(jù)集中母狗的數(shù)據(jù)比較多(按總持續(xù)時(shí)間計(jì)算,母狗為67.95%,公狗為32.04%)。

「汪汪」to Vector!密歇根博士生用AI解碼狗的聲音 | LREC 2024-AI.x社區(qū)

從結(jié)果來看,在所有任務(wù)中,性別識別是最困難的任務(wù)。


作者假設(shè)從頭開始訓(xùn)練的模型專注于學(xué)習(xí)聲學(xué)特征,而預(yù)訓(xùn)練的wav2vec則試圖走捷徑,導(dǎo)致過擬合,因此女性的F1增加,男性的F1降低。

關(guān)聯(lián)場景預(yù)測

最后一項(xiàng)任務(wù)預(yù)測叫聲關(guān)聯(lián)的場景。由于標(biāo)簽分布高度偏斜,這里關(guān)注的是有更多例子的場景:

對陌生人非常具有攻擊性的吠叫(LS2);

對陌生人正常吠叫(L-S1);

負(fù)面尖叫(在陌生人在場的情況下)(CH-N);

消極的咕嚕聲(在陌生人面前)(GR-N)。


實(shí)驗(yàn)結(jié)果如下表所示。與之前的實(shí)驗(yàn)類似,兩種Wav2Vec2模型的表現(xiàn)都優(yōu)于基線(Majority),而預(yù)訓(xùn)練版本獲得了最準(zhǔn)確的結(jié)果。

「汪汪」to Vector!密歇根博士生用AI解碼狗的聲音 | LREC 2024-AI.x社區(qū)

本文轉(zhuǎn)自 新智元,作者:新智元


原文鏈接:??https://mp.weixin.qq.com/s/mfUgzLG6KAd8oDvnpwCP8g??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦