自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<legend id="uutlj"><track id="uutlj"></track></legend>

^{<blockquote id="uutlj"></blockquote>}<sub id="uutlj"></sub>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

Meta開(kāi)源像語(yǔ)言識(shí)別系統(tǒng)，模型識(shí)別唇語(yǔ)翻譯6種語(yǔ)言，本地部署人人可用

作者：新智元 2023-08-28 00:33:48

人工智能新聞

Meta開(kāi)源視聽(tīng)語(yǔ)音識(shí)別系統(tǒng)MuAViC，大幅刷新SOTA，直接下載本地可用！

不知道大家是否還記得年初火爆全網(wǎng)的反黑大劇《狂飆》中，最后幾集因?yàn)閷?dǎo)演刪改劇情，演員嘴型和臺(tái)詞完全對(duì)不上的事嗎？

后邊有懂唇語(yǔ)的硬核劇迷，為了看到原版劇情，直接開(kāi)始翻譯。

來(lái)源：娛樂(lè)寡姐

Meta最近開(kāi)源了一個(gè)AI語(yǔ)音-視頻識(shí)別系統(tǒng)：MuAViC，讓大家動(dòng)一動(dòng)手指頭，就能看懂沒(méi)有聲音的人物講了啥，還能精確識(shí)別嘈雜背景當(dāng)中特定人物的語(yǔ)音。

Meta利用TED/TEDx的視頻語(yǔ)音素材，制作了MuAViC中的數(shù)據(jù)集。其中包含了1200小時(shí)，9種語(yǔ)言的文本語(yǔ)音視頻素材，還有英語(yǔ)與6種語(yǔ)言之間的雙向翻譯。

語(yǔ)音識(shí)別數(shù)據(jù)的詳細(xì)內(nèi)容：

英語(yǔ)到6種語(yǔ)言翻譯的素材具體包括：

6種語(yǔ)言到英語(yǔ)的翻譯素材具體包括：

論文

針對(duì)這個(gè)系統(tǒng)，Mate的研究人員也發(fā)布了論文介紹它與現(xiàn)有SOTA的對(duì)比。

https://arxiv.org/pdf/2303.00628.pdf

視聽(tīng)語(yǔ)料庫(kù)的收集

英語(yǔ)語(yǔ)料收集

對(duì)于英語(yǔ)語(yǔ)料，研究人員重新使用了LRS3-TED中的視聽(tīng)數(shù)據(jù)，并按照原始數(shù)據(jù)進(jìn)行了拆分。

通過(guò)匹配LRS3-TED中的轉(zhuǎn)錄和TED2020中的源句，研究人員從機(jī)器翻譯語(yǔ)料庫(kù)TED2020中找到了這些會(huì)談的人工翻譯。

然后將匹配的LRS3-TED示例與TED2020中相應(yīng)的目標(biāo)句子配對(duì)，以獲得翻譯標(biāo)簽。

研究人員對(duì)開(kāi)發(fā)集和測(cè)試集示例采用精確文本匹配，以確保最佳準(zhǔn)確性。

為了提高訓(xùn)練集的匹配召回率，研究人員開(kāi)發(fā)了一種模糊文本匹配策略：如果句對(duì)雙方包含相同數(shù)量的句段，他們首先用標(biāo)點(diǎn)符號(hào)分割TED2020源句和目標(biāo)句。

然后，通過(guò)去除標(biāo)點(diǎn)符號(hào)和小寫(xiě)來(lái)規(guī)范TED2020和LRS3-TED文本。

最后，在兩個(gè)語(yǔ)料庫(kù)之間進(jìn)行精確文本匹配。

對(duì)于TED2020中沒(méi)有匹配的LRS3-TED訓(xùn)練集示例，研究人員從機(jī)器翻譯模型M2M-100 418M中獲取偽翻譯標(biāo)簽，該模型采用默認(rèn)的解碼超參數(shù)法。

非英語(yǔ)語(yǔ)料的收集

對(duì)于非英語(yǔ)語(yǔ)料，研究人員重新使用了之前研究中的mTEDx收集的純音頻數(shù)據(jù)、轉(zhuǎn)錄和文本翻譯。他們也按照mTEDx來(lái)進(jìn)行數(shù)據(jù)拆分。

他們獲取原始錄音的視頻軌跡，并將處理過(guò)的視頻數(shù)據(jù)與音頻數(shù)據(jù)對(duì)齊，形成視聽(tīng)數(shù)據(jù)，與LRS3-TED類似。

雖然mTEDx中的所有音頻數(shù)據(jù)都已轉(zhuǎn)錄，但其中只有一個(gè)子集進(jìn)行了翻譯。

研究人員從M2M-100 418M中獲取偽翻譯標(biāo)簽，用于使用默認(rèn)解碼超參數(shù)的未翻譯訓(xùn)練集示例。

實(shí)驗(yàn)

實(shí)驗(yàn)設(shè)置

對(duì)于視聽(tīng)語(yǔ)音識(shí)別（AVSR）和視聽(tīng)語(yǔ)音翻譯（AVST），研究人員使用英語(yǔ)AV-HuBERT大型預(yù)訓(xùn)練模型，該模型結(jié)合LRS3-TED和 VoxCeleb2的英語(yǔ)部分進(jìn)行訓(xùn)練。

研究人員按照AV-HuBERT論文中的方式來(lái)微調(diào)超參數(shù)，不同之處在于他們將雙語(yǔ)模型微調(diào)為30K更新，將多語(yǔ)言 AVSR 模型微調(diào)為90K更新。研究人員分別凍結(jié)X-En AVST和En-X AVST模型的第一個(gè)4K和24K更新的預(yù)訓(xùn)練編碼器。

AVSR測(cè)試

安靜環(huán)境中

研究人員在純音頻（"A"）和視聽(tīng)（"AV"）模式下對(duì) AVSR 模型進(jìn)行了評(píng)估，前者在微調(diào)和推理中僅利用音頻模式，而后者則同時(shí)利用音頻和視覺(jué)模式。

如下表1所示，英語(yǔ) AVSR 模型的測(cè)試誤碼率分別為 2.5 和 2.3。

對(duì)于非英語(yǔ) AVSR，研究人員對(duì)預(yù)先訓(xùn)練好的英語(yǔ)AVHuBERT模型進(jìn)行了微調(diào)，微調(diào)方式可以是對(duì)每種語(yǔ)言分別進(jìn)行微調(diào)（8 種單語(yǔ)模型），也可以是對(duì)所有8種非英語(yǔ)語(yǔ)言聯(lián)合進(jìn)行微調(diào)（多語(yǔ)模型）。

其測(cè)試誤碼率見(jiàn)下表2。

研究人員發(fā)現(xiàn)，在視聽(tīng)模式下，研究人員的單語(yǔ)AVSR模型的WER平均降低了52%，優(yōu)于同類ASR基線（Transformer，單語(yǔ)）。

表1

表2

表3

噪音環(huán)境中

表3的第一部分顯示了研究人員的 AVSR 模型在高噪音環(huán)境下的測(cè)試誤碼率。

研究人員注意到，SOTA多語(yǔ)種ASR模型Whisper在這一具有挑戰(zhàn)性的設(shè)置中表現(xiàn)糟糕，種語(yǔ)言的平均誤碼率為174.3。

相比之下，研究人員的單語(yǔ)言AVSR模型在純音頻模式下的平均誤碼率分別為70.2和66.7。

在視聽(tīng)模式下，研究人員模型的平均誤碼率大幅下降了32%，這表明它們有效地利用了視覺(jué)信息來(lái)減輕嘈雜環(huán)境的干擾。

在純音頻和視聽(tīng)模式下，研究人員的多語(yǔ)言AVSR模型在每種非英語(yǔ)語(yǔ)言（除El語(yǔ)外）上的表現(xiàn)都優(yōu)于單語(yǔ)言模型。

責(zé)任編輯：張燕妮來(lái)源：新職員

開(kāi)源語(yǔ)音識(shí)別

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<cite id="epve5"><rp id="epve5"></rp></cite>