自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

「汪汪」to Vector！密歇根博士生用AI解碼狗的聲音 | LREC 2024 精華

發(fā)布于 2024-6-11 12:43

瀏覽

0收藏

有沒有想過你的狗狗想要對你說什么？

在科幻或者想象的場景中，人類有時(shí)會編織類似的情節(jié)。

然而在AI風(fēng)行之下，科幻已然到來！

狗的語言也是「自然語言」，人的語言能word to vector，「汪汪」為什么不行？

「汪汪」to Vector！密歇根博士生用AI解碼狗的聲音 | LREC 2024-AI.x社區(qū)

近日，就有研究人員開發(fā)了一款人工智能工具，可以區(qū)分不同含義的狗叫聲，并識別狗的年齡、性別和品種。

「汪汪」to Vector！密歇根博士生用AI解碼狗的聲音 | LREC 2024-AI.x社區(qū)

論文地址：?https://arxiv.org/pdf/2404.18739??

而且，研究結(jié)果表明，源自人類語音的聲音和模式，可以作為分析和理解其他聲音（例如動物發(fā)聲）聲學(xué)模式的基礎(chǔ)。

研究者來自密歇根大學(xué)，以及墨西哥國家天體物理、光學(xué)和電子研究所（INAOE）。

該篇工作同時(shí)發(fā)表在International Conference on Computational Linguistics, Language Resources and Evaluation上。

這是一作Artem Abzaliev，和他的狗Nova：

「汪汪」to Vector！密歇根博士生用AI解碼狗的聲音 | LREC 2024-AI.x社區(qū)

——以前是遇事不決，量子力學(xué)，以后搞不定的事都喂給AI模型就行了。

大模型：嗯？怎么今天的飯味道怪怪的？

「汪汪」to Vector！密歇根博士生用AI解碼狗的聲音 | LREC 2024-AI.x社區(qū)

要理解狗狗，首先需要收集狗狗的數(shù)據(jù)，二作Humberto Pérez-Espinosa負(fù)責(zé)領(lǐng)導(dǎo)收集數(shù)據(jù)的團(tuán)隊(duì)，共記錄了74只不同品種、年齡和性別的狗狗在各種情況下發(fā)出的聲音。

然后是訓(xùn)練模型，研究人員比較了兩種方式的實(shí)現(xiàn)效果：

1. 完全用狗狗的聲音數(shù)據(jù)從頭訓(xùn)練模型；
2. 在人類語音預(yù)訓(xùn)練模型的基礎(chǔ)上，使用狗狗聲音數(shù)據(jù)進(jìn)行微調(diào)。

模型選擇Wav2Vec2，是使用人類語音數(shù)據(jù)訓(xùn)練的SOTA語音表示模型。

通過這個(gè)模型，研究人員能夠生成從狗身上收集的聲學(xué)數(shù)據(jù)的表示，并解釋這些表示。

實(shí)驗(yàn)表明，使用人類語音預(yù)訓(xùn)練的模型，居然表現(xiàn)更好。

看來通用基礎(chǔ)大模型微調(diào)的套路，即使跨物種也能行得通。

「汪汪」to Vector！密歇根博士生用AI解碼狗的聲音 | LREC 2024-AI.x社區(qū)

最重要的是，研究人員不必時(shí)常被極高的數(shù)據(jù)門檻所阻礙。

畢竟，相比于人類語言，收集動物語言數(shù)據(jù)要難得多，公開的數(shù)據(jù)集更是少之又少。

Artem Abzaliev表示，動物的發(fā)聲在邏輯上更難征求和記錄，要么在野外被動記錄，要么尋找家養(yǎng)寵物，但必須征得主人的許可。

文章的作者之一，密歇根大學(xué)人工智能實(shí)驗(yàn)室主任Rada Mihalcea表示：

「關(guān)于與我們共享這個(gè)世界的動物，我們不知道的還有很多。人工智能的進(jìn)步將徹底改變我們對動物交流的理解，而且我們可以使用以人類語音為基礎(chǔ)的預(yù)訓(xùn)練模型，不必從頭開始?！?/p>

「汪汪」to Vector

要理解動物的交流方式，需要解決三個(gè)主要問題：

（1）動物使用的語音和感知單位是什么？
（2）組合這些單位的規(guī)則是什么？
（3）這些單位是否有意義，如何將聲音單位映射到具體含義？

而這篇工作探討的是第三個(gè)問題，嘗試去理解狗狗發(fā)聲的語義。

數(shù)據(jù)準(zhǔn)備

研究人員使用了一個(gè)由74只狗的叫聲記錄組成的數(shù)據(jù)集，這些記錄是在墨西哥的狗主人家中現(xiàn)場收集的。

使用相機(jī)內(nèi)置麥克風(fēng)獲得錄音，音頻編解碼器為A52立體聲，采樣率48,000Hz，比特率為256kbps。

本研究中使用的狗發(fā)聲協(xié)議，由墨西哥Tlaxcala行為生物學(xué)中心的動物行為專家設(shè)計(jì)和驗(yàn)證。

74只狗狗包括48只母狗和26只公狗，品種分布為：42只吉娃娃、21只法國貴賓犬和11只雪納瑞犬。狗的年齡在5到84個(gè)月之間，平均年齡為35個(gè)月。

「汪汪」to Vector！密歇根博士生用AI解碼狗的聲音 | LREC 2024-AI.x社區(qū)

狗的叫聲來自于不同的場景，比如：

實(shí)驗(yàn)者反復(fù)按響家庭門鈴并用力敲門；
實(shí)驗(yàn)者模擬對狗狗主人的攻擊；
主人親切地對狗說話；
主人使用狗通常玩的物品與狗玩耍；
主人執(zhí)行散步前的正常例行程序；
主人用皮帶將狗拴在樹上，然后走出視線；

記錄狗狗對這些刺激做出的反應(yīng)，根據(jù)不同情景，錄音會持續(xù)10秒到60分鐘。

?

數(shù)據(jù)處理

將錄音會分割成較短的片段，長度在0.3到5秒之間，使用閾值來區(qū)分叫聲和背景噪聲。

使用與刺激相關(guān)的信息手動注釋每個(gè)生成的片段。下表顯示了14種狗的發(fā)聲類型以及相應(yīng)的段數(shù)和持續(xù)時(shí)間：

「汪汪」to Vector！密歇根博士生用AI解碼狗的聲音 | LREC 2024-AI.x社區(qū)

模型

為了在數(shù)據(jù)集中創(chuàng)建狗狗叫聲的聲學(xué)表示，研究人員以自監(jiān)督語音表示模型Wav2Vec2為基礎(chǔ)，來進(jìn)行微調(diào)。

Wav2Vec2使用Librispeech語料庫進(jìn)行預(yù)訓(xùn)練（960小時(shí)未標(biāo)記的人類語音數(shù)據(jù)），來學(xué)習(xí)如何將音頻信號表示為一系列離散標(biāo)記。

「汪汪」to Vector！密歇根博士生用AI解碼狗的聲音 | LREC 2024-AI.x社區(qū)

這里使用HuggingFace上的Wav2Vec2開源實(shí)現(xiàn)，并且比較了用狗狗數(shù)據(jù)從頭訓(xùn)練模型，以及使用預(yù)訓(xùn)練模型微調(diào)，兩者的效果差異。

分類任務(wù)

研究人員探索了幾個(gè)基本任務(wù)，包括個(gè)體叫聲識別、狗的品種識別、性別識別、以及預(yù)測叫聲關(guān)聯(lián)的場景。

所有實(shí)驗(yàn)都使用十倍交叉驗(yàn)證設(shè)置：將7-8只狗作為測試數(shù)據(jù)集，使用其余狗的發(fā)聲進(jìn)行訓(xùn)練。

叫聲識別

這個(gè)任務(wù)需要將單個(gè)音頻片段，分類為數(shù)據(jù)集中74只狗中的一只。據(jù)說，人類很難區(qū)分單個(gè)狗的吠叫聲，但AI不同，即使是無監(jiān)督的模型也可以表現(xiàn)得相當(dāng)好。

下表顯示了實(shí)驗(yàn)結(jié)果，使用預(yù)訓(xùn)練模型微調(diào)的方案占據(jù)了優(yōu)勢：

「汪汪」to Vector！密歇根博士生用AI解碼狗的聲音 | LREC 2024-AI.x社區(qū)

品種鑒別

這項(xiàng)任務(wù)的目標(biāo)是預(yù)測狗的品種（吉娃娃、法國貴賓犬和雪納瑞犬）。這里假設(shè)不同的品種有不同的音高，因此聲學(xué)模型應(yīng)該能夠識別這些差異，而與上下文無關(guān)。

這有點(diǎn)類似于人類的口音識別，比如根據(jù)聲音來區(qū)分是美國、英國還是印度人。

實(shí)驗(yàn)結(jié)果如下表所示，預(yù)訓(xùn)練模型表現(xiàn)最好。單個(gè)品種的差異可以通過每個(gè)品種的觀察數(shù)量不平衡來解釋，吉娃娃是數(shù)據(jù)集中最常見的品種（57%），其次是法國貴賓犬（28%）和雪納瑞犬（15%）。

「汪汪」to Vector！密歇根博士生用AI解碼狗的聲音 | LREC 2024-AI.x社區(qū)

性別預(yù)測

這項(xiàng)任務(wù)的目的是探究是否有可能從發(fā)聲中預(yù)測狗的性別。

結(jié)果如下表所示。這次是從頭開始訓(xùn)練的Wav2Vec2模型表現(xiàn)更好，而預(yù)訓(xùn)練模型對女性類別有一些改進(jìn)，可能是因?yàn)楣饭窋?shù)據(jù)集中母狗的數(shù)據(jù)比較多（按總持續(xù)時(shí)間計(jì)算，母狗為67.95%，公狗為32.04%）。

「汪汪」to Vector！密歇根博士生用AI解碼狗的聲音 | LREC 2024-AI.x社區(qū)

從結(jié)果來看，在所有任務(wù)中，性別識別是最困難的任務(wù)。

作者假設(shè)從頭開始訓(xùn)練的模型專注于學(xué)習(xí)聲學(xué)特征，而預(yù)訓(xùn)練的wav2vec則試圖走捷徑，導(dǎo)致過擬合，因此女性的F1增加，男性的F1降低。

關(guān)聯(lián)場景預(yù)測

最后一項(xiàng)任務(wù)預(yù)測叫聲關(guān)聯(lián)的場景。由于標(biāo)簽分布高度偏斜，這里關(guān)注的是有更多例子的場景：

對陌生人非常具有攻擊性的吠叫（LS2）;
對陌生人正常吠叫（L-S1）;
負(fù)面尖叫（在陌生人在場的情況下）（CH-N）;
消極的咕嚕聲（在陌生人面前）（GR-N）。

實(shí)驗(yàn)結(jié)果如下表所示。與之前的實(shí)驗(yàn)類似，兩種Wav2Vec2模型的表現(xiàn)都優(yōu)于基線（Majority），而預(yù)訓(xùn)練版本獲得了最準(zhǔn)確的結(jié)果。

「汪汪」to Vector！密歇根博士生用AI解碼狗的聲音 | LREC 2024-AI.x社區(qū)

本文轉(zhuǎn)自新智元，作者：新智元

原文鏈接:??https://mp.weixin.qq.com/s/mfUgzLG6KAd8oDvnpwCP8g??

標(biāo)簽

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

OpenAI首次展示音頻模型Voice Engine，生成的聲音太逼真了！

Aceryt ? 3052瀏覽 ? 0回復(fù)
ICLR 2024 | 雞生蛋蛋生雞？再論生成數(shù)據(jù)能否幫助模型訓(xùn)練

zhangyannni ? 2430瀏覽 ? 0回復(fù)
斯坦福發(fā)布第七個(gè)年度AI Index 報(bào)告，用指數(shù)與圖解揭示2024年AI技術(shù)發(fā)展與未來趨勢

xuxiangda ? 3048瀏覽 ? 0回復(fù)
ICLR 2024 Oral｜用巧妙的「傳送」技巧，讓神經(jīng)網(wǎng)絡(luò)的訓(xùn)練更加高效

輕薄滴假象 ? 2226瀏覽 ? 0回復(fù)
從80個(gè)模型中構(gòu)建Scaling Law：華人博士生新作，思維鏈提出者力薦

輕薄滴假象 ? 2317瀏覽 ? 0回復(fù)
用GPT-3.5生成數(shù)據(jù)集！北大天工等團(tuán)隊(duì)圖像編輯新SOTA，可精準(zhǔn)模擬物理世界場景

Crystalcxt ? 2725瀏覽 ? 0回復(fù)
ICML 2024 Spotlight | 在解碼中重新對齊，讓語言模型更少幻覺、更符合人類偏好

輕薄滴假象 ? 2761瀏覽 ? 0回復(fù)
2024年云中AI工程的三大關(guān)鍵趨勢

51CTO技術(shù)棧 ? 2493瀏覽 ? 0回復(fù)
【智匯金秋創(chuàng)造季】智匯成海，致敬開發(fā)者的“超級碼力”！

AI.x社區(qū)官方賬號 ? 33.0w瀏覽 ? 148回復(fù)
10秒搞定博士級難題！奧特曼重申：AI沒有墻！

51CTO技術(shù)棧 ? 2041瀏覽 ? 0回復(fù)
用有限的預(yù)算構(gòu)建AI應(yīng)用程序

51CTO內(nèi)容精選 ? 1763瀏覽 ? 0回復(fù)
NVIDIA AI 推出 Fugatto：一個(gè) 25 億參數(shù)的音頻模型，可從文本和音頻輸入生成音樂、語音和聲音

Halo咯咯 ? 2103瀏覽 ? 0回復(fù)
解碼通用 AI Agent：七步構(gòu)建你的智能系統(tǒng)

Baihai_IDP ? 2229瀏覽 ? 0回復(fù)
106萬一只騎士狗！國產(chǎn)機(jī)器狗燃爆外網(wǎng)：在懸崖俯沖、水面沖刺，還能給人當(dāng)坐騎！

51CTO技術(shù)棧 ? 2336瀏覽 ? 0回復(fù)
Transformer編碼器與解碼器和神經(jīng)網(wǎng)絡(luò)之間的關(guān)系

AI探索時(shí)代 ? 1912瀏覽 ? 0回復(fù)
人工智能智能體(AI Agent)發(fā)展趨勢2024年總結(jié)與2025年展望

十一月雨_55 ? 8319瀏覽 ? 0回復(fù)
AI 編程必備：用 Cline 的四個(gè)命令實(shí)現(xiàn)無縫上下文管理

凝固的雨_1 ? 5636瀏覽 ? 0回復(fù)
《Science》：用大語言模型模擬5億年生命進(jìn)化

歐米伽未來研究所 ? 1507瀏覽 ? 0回復(fù)
AI犬種識別革命：像專家一樣思考的形態(tài)特征解碼器

51CTO內(nèi)容精選 ? 813瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒有個(gè)人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

DeepSeek第五天開源猛料，3FS并行文件系統(tǒng)榨干SSD！6.6 TiB/s吞吐量堪比光速 2025-02-28 12:53:18發(fā)布
剛剛，DeepSeek開源DeepEP通信庫，千億MoE訓(xùn)推顛覆級創(chuàng)新！FP8狂飆，帶飛GPU 2025-02-25 12:24:42發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點(diǎn)：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計(jì)深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識庫配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

只需5分鐘，教你用Python搭建MCP Server 0回復(fù)

上一篇： GPT-4欺騙人類高達(dá)99.16%驚人率！PNAS重磅研究曝出，LLM推理越強(qiáng)欺騙值越高

下一篇：谷歌開源TimesFM：1000億個(gè)時(shí)間點(diǎn)訓(xùn)練，入選ICML 2024

社區(qū)精華內(nèi)容

目錄

<legend id="wx1iu"><track id="wx1iu"></track></legend><cite id="wx1iu"><rp id="wx1iu"><form id="wx1iu"></form></rp></cite>

<sub id="wx1iu"></sub>

<sub id="wx1iu"><p id="wx1iu"></p></sub>