自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Meta開(kāi)源像語(yǔ)言識(shí)別系統(tǒng),模型識(shí)別唇語(yǔ)翻譯6種語(yǔ)言,本地部署人人可用

人工智能 新聞
Meta開(kāi)源視聽(tīng)語(yǔ)音識(shí)別系統(tǒng)MuAViC,大幅刷新SOTA,直接下載本地可用!

不知道大家是否還記得年初火爆全網(wǎng)的反黑大劇《狂飆》中,最后幾集因?yàn)閷?dǎo)演刪改劇情,演員嘴型和臺(tái)詞完全對(duì)不上的事嗎?

后邊有懂唇語(yǔ)的硬核劇迷,為了看到原版劇情,直接開(kāi)始翻譯。

來(lái)源:娛樂(lè)寡姐

Meta最近開(kāi)源了一個(gè)AI語(yǔ)音-視頻識(shí)別系統(tǒng):MuAViC,讓大家動(dòng)一動(dòng)手指頭,就能看懂沒(méi)有聲音的人物講了啥,還能精確識(shí)別嘈雜背景當(dāng)中特定人物的語(yǔ)音。

Meta利用TED/TEDx的視頻語(yǔ)音素材,制作了MuAViC中的數(shù)據(jù)集。其中包含了1200小時(shí),9種語(yǔ)言的文本語(yǔ)音視頻素材,還有英語(yǔ)與6種語(yǔ)言之間的雙向翻譯。

語(yǔ)音識(shí)別數(shù)據(jù)的詳細(xì)內(nèi)容:

英語(yǔ)到6種語(yǔ)言翻譯的素材具體包括:

6種語(yǔ)言到英語(yǔ)的翻譯素材具體包括:

論文

針對(duì)這個(gè)系統(tǒng),Mate的研究人員也發(fā)布了論文介紹它與現(xiàn)有SOTA的對(duì)比。

https://arxiv.org/pdf/2303.00628.pdf

視聽(tīng)語(yǔ)料庫(kù)的收集

英語(yǔ)語(yǔ)料收集

對(duì)于英語(yǔ)語(yǔ)料,研究人員重新使用了LRS3-TED中的視聽(tīng)數(shù)據(jù),并按照原始數(shù)據(jù)進(jìn)行了拆分。

通過(guò)匹配LRS3-TED中的轉(zhuǎn)錄和TED2020中的源句,研究人員從機(jī)器翻譯語(yǔ)料庫(kù)TED2020中找到了這些會(huì)談的人工翻譯。

然后將匹配的LRS3-TED示例與TED2020中相應(yīng)的目標(biāo)句子配對(duì),以獲得翻譯標(biāo)簽。

研究人員對(duì)開(kāi)發(fā)集和測(cè)試集示例采用精確文本匹配,以確保最佳準(zhǔn)確性。

為了提高訓(xùn)練集的匹配召回率,研究人員開(kāi)發(fā)了一種模糊文本匹配策略:如果句對(duì)雙方包含相同數(shù)量的句段,他們首先用標(biāo)點(diǎn)符號(hào)分割TED2020源句和目標(biāo)句。

然后,通過(guò)去除標(biāo)點(diǎn)符號(hào)和小寫(xiě)來(lái)規(guī)范TED2020和LRS3-TED文本。

最后,在兩個(gè)語(yǔ)料庫(kù)之間進(jìn)行精確文本匹配。

對(duì)于TED2020中沒(méi)有匹配的LRS3-TED訓(xùn)練集示例,研究人員從機(jī)器翻譯模型M2M-100 418M中獲取偽翻譯標(biāo)簽,該模型采用默認(rèn)的解碼超參數(shù)法。

非英語(yǔ)語(yǔ)料的收集

對(duì)于非英語(yǔ)語(yǔ)料,研究人員重新使用了之前研究中的mTEDx收集的純音頻數(shù)據(jù)、轉(zhuǎn)錄和文本翻譯。他們也按照mTEDx來(lái)進(jìn)行數(shù)據(jù)拆分。

他們獲取原始錄音的視頻軌跡,并將處理過(guò)的視頻數(shù)據(jù)與音頻數(shù)據(jù)對(duì)齊,形成視聽(tīng)數(shù)據(jù),與LRS3-TED類似。

雖然mTEDx中的所有音頻數(shù)據(jù)都已轉(zhuǎn)錄,但其中只有一個(gè)子集進(jìn)行了翻譯。

研究人員從M2M-100 418M中獲取偽翻譯標(biāo)簽,用于使用默認(rèn)解碼超參數(shù)的未翻譯訓(xùn)練集示例。

實(shí)驗(yàn)

實(shí)驗(yàn)設(shè)置

對(duì)于視聽(tīng)語(yǔ)音識(shí)別(AVSR)和視聽(tīng)語(yǔ)音翻譯(AVST),研究人員使用英語(yǔ)AV-HuBERT大型預(yù)訓(xùn)練模型,該模型結(jié)合LRS3-TED和 VoxCeleb2的英語(yǔ)部分進(jìn)行訓(xùn)練。

研究人員按照AV-HuBERT論文中的方式來(lái)微調(diào)超參數(shù),不同之處在于他們將雙語(yǔ)模型微調(diào)為30K更新,將多語(yǔ)言 AVSR 模型微調(diào)為90K更新。研究人員分別凍結(jié)X-En AVST和En-X AVST模型的第一個(gè)4K和24K更新的預(yù)訓(xùn)練編碼器。

AVSR測(cè)試

安靜環(huán)境中

研究人員在純音頻("A")和視聽(tīng)("AV")模式下對(duì) AVSR 模型進(jìn)行了評(píng)估,前者在微調(diào)和推理中僅利用音頻模式,而后者則同時(shí)利用音頻和視覺(jué)模式。

如下表1所示,英語(yǔ) AVSR 模型的測(cè)試誤碼率分別為 2.5 和 2.3。

對(duì)于非英語(yǔ) AVSR,研究人員對(duì)預(yù)先訓(xùn)練好的英語(yǔ)AVHuBERT模型進(jìn)行了微調(diào),微調(diào)方式可以是對(duì)每種語(yǔ)言分別進(jìn)行微調(diào)(8 種單語(yǔ)模型),也可以是對(duì)所有8種非英語(yǔ)語(yǔ)言聯(lián)合進(jìn)行微調(diào)(多語(yǔ)模型)。

其測(cè)試誤碼率見(jiàn)下表2。

研究人員發(fā)現(xiàn),在視聽(tīng)模式下,研究人員的單語(yǔ)AVSR模型的WER平均降低了52%,優(yōu)于同類ASR基線(Transformer,單語(yǔ))。

圖片表1

圖片表2

圖片表3

噪音環(huán)境中

表3的第一部分顯示了研究人員的 AVSR 模型在高噪音環(huán)境下的測(cè)試誤碼率。

研究人員注意到,SOTA多語(yǔ)種ASR模型Whisper在這一具有挑戰(zhàn)性的設(shè)置中表現(xiàn)糟糕,種語(yǔ)言的平均誤碼率為174.3。

相比之下,研究人員的單語(yǔ)言AVSR模型在純音頻模式下的平均誤碼率分別為70.2和66.7。

在視聽(tīng)模式下,研究人員模型的平均誤碼率大幅下降了32%,這表明它們有效地利用了視覺(jué)信息來(lái)減輕嘈雜環(huán)境的干擾。

在純音頻和視聽(tīng)模式下,研究人員的多語(yǔ)言AVSR模型在每種非英語(yǔ)語(yǔ)言(除El語(yǔ)外)上的表現(xiàn)都優(yōu)于單語(yǔ)言模型。

責(zé)任編輯:張燕妮 來(lái)源: 新職員
相關(guān)推薦

2023-05-23 14:14:14

技術(shù)模型

2021-06-28 10:06:21

開(kāi)源文本識(shí)別pyWhat

2022-05-06 10:21:22

Python人臉識(shí)別

2024-06-06 08:06:19

鴻蒙大語(yǔ)言模型LLM模型

2024-06-17 08:49:00

模型語(yǔ)言

2009-03-08 19:10:57

Windows 7多語(yǔ)言

2021-06-24 13:15:35

開(kāi)源技術(shù) 圖像識(shí)別

2022-01-10 23:57:36

人工智能語(yǔ)音識(shí)別技術(shù)

2024-03-18 13:36:36

大型語(yǔ)言模型個(gè)人可識(shí)別信息

2019-06-25 13:47:50

人臉識(shí)別AI人工智能

2021-11-03 10:49:33

人臉識(shí)別人工智能技術(shù)

2021-11-03 13:32:28

MetaFacebook人臉識(shí)別

2023-05-23 14:01:29

模型開(kāi)源

2023-11-01 07:34:04

大語(yǔ)言模型應(yīng)用協(xié)議識(shí)別

2021-10-12 16:29:16

微軟翻譯服務(wù)人工智能

2023-05-25 16:24:13

2024-03-04 15:37:39

2018-05-02 11:38:14

語(yǔ)音識(shí)別法院

2018-05-11 14:10:17

Python人臉識(shí)別

2023-08-29 13:54:00

AI技術(shù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)