自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<abbr id="h60yq"><tt id="h60yq"></tt></abbr>

<sub id="h60yq"><input id="h60yq"><tr id="h60yq"></tr></input></sub>

<em id="h60yq"></em>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

ACL 2024 | 引領(lǐng)學(xué)術(shù)視聽(tīng)研究，上海交大、清華大學(xué)、劍橋大學(xué)、上海AILAB聯(lián)合發(fā)布學(xué)術(shù)視聽(tīng)數(shù)據(jù)集M3AV

作者：機(jī)器之心 2024-07-08 06:50:00

人工智能新聞

開(kāi)源學(xué)術(shù)演講錄像是一種普遍流行的在線分享學(xué)術(shù)知識(shí)的方法。這些視頻包含豐富的多模態(tài)信息，包括演講者的語(yǔ)音、面部表情和身體動(dòng)作，幻燈片中的文本和圖片，和對(duì)應(yīng)的論文文本信息。

本文作者來(lái)自上海交通大學(xué)，清華大學(xué)，劍橋大學(xué)和上海人工智能實(shí)驗(yàn)室。一作陳哲為上海交通大學(xué)博一學(xué)生，師從上海交通大學(xué)人工智能學(xué)院王鈺教授。通訊作者為王鈺教授（主頁(yè)：https://yuwangsjtu.github.io/）與清華大學(xué)電子工程系張超教授（主頁(yè)：https://mi.eng.cam.ac.uk/~cz277）。

論文鏈接：https://arxiv.org/abs/2403.14168
項(xiàng)目主頁(yè)：https://jack-zc8.github.io/M3AV-dataset-page/
論文標(biāo)題：M3AV: A Multimodal, Multigenre, and Multipurpose Audio-Visual Academic Lecture Dataset

摘要

開(kāi)源學(xué)術(shù)演講錄像是一種普遍流行的在線分享學(xué)術(shù)知識(shí)的方法。這些視頻包含豐富的多模態(tài)信息，包括演講者的語(yǔ)音、面部表情和身體動(dòng)作，幻燈片中的文本和圖片，和對(duì)應(yīng)的論文文本信息。目前很少有數(shù)據(jù)集能夠同時(shí)支持多模態(tài)內(nèi)容識(shí)別和理解任務(wù)，部分原因是缺乏高質(zhì)量的人工標(biāo)注。

該工作提出了一個(gè)新的多模態(tài)、多類型、多用途的視聽(tīng)學(xué)術(shù)演講數(shù)據(jù)集（M3AV），它包含來(lái)自五個(gè)來(lái)源的近 367 小時(shí)的視頻，涵蓋計(jì)算機(jī)科學(xué)、數(shù)學(xué)、醫(yī)學(xué)和生物學(xué)主題。憑借高質(zhì)量的人工標(biāo)注，特別是高價(jià)值的命名實(shí)體，數(shù)據(jù)集可以用于多種視聽(tīng)識(shí)別和理解任務(wù)。在上下文語(yǔ)音識(shí)別、語(yǔ)音合成以及幻燈片和腳本生成任務(wù)上進(jìn)行的評(píng)估表明，M3AV 的多樣性使其成為一個(gè)具有挑戰(zhàn)性的數(shù)據(jù)集。目前該工作已被 ACL 2024 主會(huì)接收。

數(shù)據(jù)集信息

M3AV 數(shù)據(jù)集主要由以下幾個(gè)部分組成：

1. 帶有復(fù)雜塊的幻燈片，它們將會(huì)被按照空間位置關(guān)系進(jìn)行合并。

2. 口語(yǔ)和書(shū)面形式的，包含特殊詞匯以及單詞級(jí)時(shí)間戳的語(yǔ)音轉(zhuǎn)寫(xiě)文本。

3. 視頻對(duì)應(yīng)的論文文本。

從下表可以看出，M3AV 數(shù)據(jù)集包含最多人工標(biāo)注的幻燈片、語(yǔ)音和論文資源，因此不僅支持多模態(tài)內(nèi)容的識(shí)別任務(wù)，還支持高級(jí)學(xué)術(shù)知識(shí)的理解任務(wù)。

同時(shí)，M3AV 數(shù)據(jù)集在各方面與其他學(xué)術(shù)數(shù)據(jù)集相比，內(nèi)容較為豐富，同時(shí)也是可訪問(wèn)的資源。

實(shí)驗(yàn)任務(wù)

M3AV 數(shù)據(jù)集在多模態(tài)感知與理解方面設(shè)計(jì)了三個(gè)任務(wù)，分別是基于上下文的語(yǔ)音識(shí)別、自發(fā)風(fēng)格的語(yǔ)音合成、幻燈片與腳本生成。

任務(wù)一：基于上下文的語(yǔ)音識(shí)別

一般的端到端模型在稀有詞識(shí)別上存在問(wèn)題。從下表的 AED 和 RNN-T 模型可以看出，稀有詞詞錯(cuò)率（BWER）與全部詞錯(cuò)率（WER）相比，增加了兩倍以上。通過(guò)使用 TCPGen 利用 OCR 信息來(lái)進(jìn)行基于上下文的語(yǔ)音識(shí)別，RNN-T 模型在開(kāi)發(fā)和測(cè)試集上的 BWER 分別有相對(duì) 37.8% 和 34.2% 的降低。

任務(wù)二：自發(fā)風(fēng)格的語(yǔ)音合成

自發(fā)風(fēng)格的語(yǔ)音合成系統(tǒng)迫切地需求真實(shí)場(chǎng)景下的語(yǔ)音數(shù)據(jù)，以產(chǎn)生更接近自然會(huì)話模式的語(yǔ)音。論文作者引入了 MQTTS 作為實(shí)驗(yàn)?zāi)Ｐ?，可以發(fā)現(xiàn)與各個(gè)預(yù)訓(xùn)練模型相比，MQTTS 的各項(xiàng)評(píng)估指標(biāo)最佳。這表明 M3AV 數(shù)據(jù)集中的真實(shí)語(yǔ)音可以驅(qū)動(dòng) AI 系統(tǒng)模擬出更自然的語(yǔ)音。

任務(wù)三：幻燈片與腳本生成

幻燈片和腳本生成（SSG）任務(wù)旨在促進(jìn) AI 模型理解和重建先進(jìn)的學(xué)術(shù)知識(shí)，從而幫助研究人員處理快速更新迭代的學(xué)術(shù)資料，有效地開(kāi)展學(xué)術(shù)研究。

從下表可以看出，開(kāi)源模型（LLaMA-2， InstructBLIP）在從 7B 提升到 13B 時(shí)，性能提升有限，落后于閉源模型（GPT-4 和 GPT-4V）。因此，除了提升模型尺寸，論文作者認(rèn)為還需要有高質(zhì)量的多模態(tài)預(yù)訓(xùn)練數(shù)據(jù)。值得注意的是，先進(jìn)的多模態(tài)大模型（GPT-4V）已經(jīng)超過(guò)了由多個(gè)單模態(tài)模型組成的級(jí)聯(lián)模型。

此外，檢索增強(qiáng)生成（RAG）有效提升了模型性能：下表顯示，引入的論文文本同時(shí)提升了生成的幻燈片與腳本的質(zhì)量。

結(jié)論

這篇工作發(fā)布了涵蓋多個(gè)學(xué)術(shù)領(lǐng)域的多模態(tài)、多類型、多用途視聽(tīng)數(shù)據(jù)集（M3AV）。該數(shù)據(jù)集包含人工標(biāo)注的語(yǔ)音轉(zhuǎn)錄、幻燈片和額外提取的論文文本，為評(píng)估 AI 模型識(shí)別多模態(tài)內(nèi)容和理解學(xué)術(shù)知識(shí)的能力提供了基礎(chǔ)。論文作者詳細(xì)介紹了創(chuàng)建流程，并對(duì)該數(shù)據(jù)集進(jìn)行了各種分析。此外，他們構(gòu)建了基準(zhǔn)并圍繞數(shù)據(jù)集進(jìn)行了多項(xiàng)實(shí)驗(yàn)。最終，論文作者發(fā)現(xiàn)現(xiàn)有的模型在感知和理解學(xué)術(shù)演講視頻方面仍有較大的提升空間。

部分標(biāo)注界面

責(zé)任編輯：張燕妮來(lái)源：機(jī)器之心

學(xué)術(shù)視聽(tīng)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<cite id="mjdep"></cite>

<center id="mjdep"></center>