自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AVFormer:將視覺注入凍結(jié)的語音模型,實現(xiàn)零樣本AV-ASR

譯文 精選
人工智能
Google Research的研究科學(xué)家Arsha Nagrani和Paul Hongsuck Seo介紹了一種名為AVFormer的新技術(shù),該技術(shù)將視覺理解能力注入現(xiàn)有的僅音頻ASR模型中,以提高其在各種領(lǐng)域的泛化性能。

譯者 | 崔皓

審校 | 重樓

摘要

Google Research的研究科學(xué)家Arsha Nagrani和Paul Hongsuck Seo介紹了一種名為AVFormer的新技術(shù),該技術(shù)將視覺理解能力注入現(xiàn)有的音頻ASR模型中,以提高其在各種領(lǐng)域的泛化性能。AVFormer通過使用輕量級的可訓(xùn)練適配器,將視覺嵌入注入凍結(jié)的ASR模型中,這些適配器可以在少量弱標(biāo)簽視頻數(shù)據(jù)上進行訓(xùn)練,額外的訓(xùn)練時間和參數(shù)最少。這種方法實現(xiàn)了零樣本性能,即在未經(jīng)手動注釋的AV-ASR數(shù)據(jù)集上進行訓(xùn)練的情況下,實現(xiàn)了最先進的性能。

【編者:在機器學(xué)習(xí)和深度學(xué)習(xí)中,"凍結(jié)"一般指的是在訓(xùn)練過程中保持模型的某些部分或參數(shù)不變。這通常是通過禁止反向傳播過程中對這些參數(shù)的更新來實現(xiàn)的。"凍結(jié)的語音模型"意味著這個語音識別模型在被用于新的視覺任務(wù)時,其參數(shù)保持不變,不會被進一步訓(xùn)練或調(diào)整。

開篇

自動語音識別(ASR)是一項成熟的技術(shù),廣泛應(yīng)用于各種應(yīng)用,如電話會議、視頻轉(zhuǎn)錄和語音命令。雖然這項技術(shù)的挑戰(zhàn)主要集中在嘈雜的音頻輸入上,但多模態(tài)視頻(例如,電視,在線編輯的視頻)中的視覺流可以為提高ASR系統(tǒng)的魯棒性提供強有力的線索,這就是所謂的音頻視覺ASR(AV-ASR)。

【編者:"Zero-shot"是機器學(xué)習(xí)中的一個術(shù)語,通常用于描述一種特殊的訓(xùn)練和測試情況。在這種情況下,模型在沒有看過任何特定類別的訓(xùn)練樣本的情況下,被要求識別該類別的實例。這通常通過訓(xùn)練模型來理解和利用類別之間的某種結(jié)構(gòu)或關(guān)系來實現(xiàn)。

例如,如果你有一個模型,它已經(jīng)學(xué)會了識別貓和狗,然后你要求它識別一只兔子,盡管它從未在訓(xùn)練數(shù)據(jù)中見過兔子。如果模型能夠正確地識別出兔子,那么我們就說它具有"零樣本/零射擊"的能力。

在這篇文章中,"Zero-Shot"是指模型在未經(jīng)手動注釋的AV-ASR數(shù)據(jù)集上進行訓(xùn)練的情況下,實現(xiàn)了最先進的性能。換句話說,模型能夠處理和理解它在訓(xùn)練階段從未見過的數(shù)據(jù)類型或情況?!?/span>

盡管唇動可以為語音識別提供強烈的信號,并且是AV-ASR最常關(guān)注的區(qū)域,但在野外的視頻中,口部往往不直接可見(例如,由于以自我為中心的視點,面部覆蓋物和低分辨率),因此,一個新興的研究領(lǐng)域是無約束的AV-ASR(例如,AVATAR),它研究整個視覺幀的貢獻,而不僅僅是口部區(qū)域。

然而,構(gòu)建用于訓(xùn)練AV-ASR模型的音頻視覺數(shù)據(jù)集是具有挑戰(zhàn)性的。如How2和VisSpeech這樣的數(shù)據(jù)集已經(jīng)從在線教學(xué)視頻中創(chuàng)建,但它們的規(guī)模較小。相比之下,模型本身通常很大,包含視覺和音頻編碼器,因此它們傾向于在這些小數(shù)據(jù)集上過度擬合。盡管如此,最近發(fā)布了一些大規(guī)模的僅音頻模型,這些模型通過大規(guī)模訓(xùn)練在大量僅音頻數(shù)據(jù)上進行了大量優(yōu)化,這些數(shù)據(jù)來自音頻書籍,如LibriLight和LibriSpeech。這些模型包含數(shù)十億個參數(shù),隨時可用,并在各個領(lǐng)域顯示出強大的泛化能力。

考慮到上述挑戰(zhàn),在“AVFormer:將視覺注入凍結(jié)的語音模型,實現(xiàn)零樣本AV-ASR”中,我們提出了一種簡單的方法,用視覺信息增強現(xiàn)有的大規(guī)模僅音頻模型,同時進行輕量級的領(lǐng)域適應(yīng)。AVFormer將視覺嵌入注入凍結(jié)的ASR模型(類似于Flamingo如何將視覺信息注入大型語言模型進行視覺-文本任務(wù)),使用輕量級可訓(xùn)練的適配器,這些適配器可以在少量弱標(biāo)簽視頻數(shù)據(jù)上進行訓(xùn)練,額外的訓(xùn)練時間和參數(shù)最少。我們還引入了一個簡單的課程方案,在訓(xùn)練過程中,我們發(fā)現(xiàn)使模型能夠有效地處理音頻和視覺信息至關(guān)重要。最終的AVFormer模型在三個不同的AV-ASR基準測試(How2,VisSpeech和Ego4D)上實現(xiàn)了最先進的零樣本性能,同時也保持了在傳統(tǒng)的僅音頻語音識別基準測試(即LibriSpeech)上的良好性能。

"無約束的音頻視覺語音識別。我們通過輕量級模塊將視覺注入凍結(jié)的語音模型(BEST-RQ,以灰色表示)中,實現(xiàn)零樣本音頻視覺ASR,創(chuàng)建了一個參數(shù)和數(shù)據(jù)高效的模型,稱為AVFormer(藍色)。視覺上下文可以為魯棒的語音識別提供有用的線索,特別是當(dāng)音頻信號嘈雜時(視覺上的面包片有助于糾正生成的轉(zhuǎn)錄中僅音頻的錯誤,“clove”被糾正為“l(fā)oaf”)

使用輕量級模塊注入視覺"

我們的目標(biāo)是將視覺理解能力添加到現(xiàn)有的僅音頻ASR模型中,同時保持其對各種領(lǐng)域(包括AV和僅音頻領(lǐng)域)的泛化性能。

為了實現(xiàn)這一目標(biāo),我們將現(xiàn)有的最先進的ASR模型(Best-RQ)增強了以下兩個組件:(i)線性視覺投影器和(ii)輕量級適配器。前者將視覺特征投影到音頻令牌嵌入空間。這個過程使模型能夠正確地連接單獨預(yù)訓(xùn)練的視覺特征和音頻輸入令牌表示。然后,后者最小化地修改模型,以增加對來自視頻的多模態(tài)輸入的理解。然后,我們在HowTo100M數(shù)據(jù)集的未標(biāo)記網(wǎng)絡(luò)視頻上,以及ASR模型的輸出作為偽真實值,訓(xùn)練這些額外的模塊,同時保持Best-RQ模型的其余部分凍結(jié)。這樣的輕量級模塊使得數(shù)據(jù)效率和性能的強大泛化成為可能。

我們在零樣本設(shè)置中,在AV-ASR基準測試上評估了我們的擴展模型,其中模型從未在手動注釋的AV-ASR數(shù)據(jù)集上進行過訓(xùn)練。

為視覺注入設(shè)置課程學(xué)習(xí)

在初步評估之后,我們經(jīng)驗性地發(fā)現(xiàn),通過一輪簡單的聯(lián)合訓(xùn)練,模型很難一次性學(xué)習(xí)適配器和視覺投影器。為了解決這個問題,我們引入了一個兩階段的課程學(xué)習(xí)策略,該策略解耦了這兩個因素——領(lǐng)域適應(yīng)和視覺特征集成——并以順序的方式訓(xùn)練網(wǎng)絡(luò)。在第一階段,優(yōu)化適配器參數(shù),完全不需要輸入視覺令牌。一旦適配器被訓(xùn)練,我們在第二階段添加視覺令牌,并單獨訓(xùn)練視覺投影層,同時保持訓(xùn)練過的適配器凍結(jié)。

第一階段專注于音頻領(lǐng)域的適應(yīng)。到了第二階段,適配器完全凍結(jié),視覺投影器只需學(xué)習(xí)生成視覺提示,將視覺令牌投影到音頻空間。通過這種方式,我們的課程學(xué)習(xí)策略允許模型同時接納視覺輸入和適應(yīng)AV-ASR基準測試中的新音頻領(lǐng)域。我們只應(yīng)用每個階段一次,因為交替階段的迭代應(yīng)用會導(dǎo)致性能下降。

AVFormer的總體架構(gòu)和訓(xùn)練過程。該架構(gòu)由一個凍結(jié)的Conformer編碼器-解碼器模型和一個凍結(jié)的CLIP編碼器組成(凍結(jié)的層以灰色顯示,有一個鎖定符號),并配合兩個輕量級的可訓(xùn)練模塊 - (i) 視覺投影層(橙色)和瓶頸適配器(藍色)以實現(xiàn)多模態(tài)領(lǐng)域適應(yīng)。我們提出了一種兩階段的課程學(xué)習(xí)策略:首先在沒有任何視覺令牌的情況下訓(xùn)練適配器(藍色),然后在所有其他部分保持凍結(jié)的情況下調(diào)整視覺投影層(橙色)。

【編者:在第一階段,他們優(yōu)化了模型的"適配器"參數(shù)。適配器是模型的一部分,它的任務(wù)是幫助模型適應(yīng)新的領(lǐng)域或任務(wù)。在這個階段,他們并沒有使用任何視覺信息,只是讓模型更好地處理音頻信息。

一旦適配器被訓(xùn)練好,他們進入了第二階段。在這個階段,他們開始添加視覺信息,并訓(xùn)練模型的"視覺投影器"部分。視覺投影器的任務(wù)是將視覺信息轉(zhuǎn)換成模型可以理解的形式。在這個階段,他們保持適配器的參數(shù)不變,只訓(xùn)練視覺投影器。

這種分階段的訓(xùn)練策略允許模型逐步學(xué)習(xí)如何處理視覺和音頻信息,而不是一次性地學(xué)習(xí)所有的東西。這樣做的好處是,它可以防止模型在訓(xùn)練過程中出現(xiàn)性能下降的問題?!?/span>

以下的圖表顯示,如果沒有課程學(xué)習(xí),我們的AV-ASR模型在所有數(shù)據(jù)集上都比僅音頻的基線模型差,隨著添加更多的視覺令牌,差距增大。相比之下,當(dāng)應(yīng)用了我們提出的兩階段課程時,我們的AV-ASR模型的性能明顯優(yōu)于基線的僅音頻模型。

"課程學(xué)習(xí)的效果。紅線和藍線代表音頻視覺模型,并在零樣本設(shè)置的3個數(shù)據(jù)集上顯示(WER%越低越好)。使得訓(xùn)練課程在所有3個數(shù)據(jù)集上有明顯幫助(對于How2(a)和Ego4D(c),這對于超越僅音頻的性能至關(guān)重要)。性能在視覺令牌達到4個時有所提高,此時它達到飽和。"

零樣本AV-ASR的結(jié)果

我們將AVFormer與BEST-RQ(我們模型的音頻版本)和AVATAR(AV-ASR的最新技術(shù))進行比較,對三個AV-ASR基準測試:How2,VisSpeech和Ego4D的零樣本性能進行比較。AVFormer在所有方面都超過了AVATAR和BEST-RQ,甚至在LibriSpeech和完整的HowTo100M集合上進行訓(xùn)練時,也超過了AVATAR和BEST-RQ。值得注意的是,對于BEST-RQ而言訓(xùn)練參數(shù)為600M,而AVFormer的訓(xùn)練參數(shù)是4M,因此只需要訓(xùn)練數(shù)據(jù)集的一小部分(HowTo100M的5%)就可以達到效果。此外,我們還在LibriSpeech上評估了性能,僅音頻這一項,AVFormer就超過了兩個基線。

與不同AV-ASR數(shù)據(jù)集的零樣本性能的最新方法進行比較。展示了在僅音頻的LibriSpeech上的性能。結(jié)果顯示W(wǎng)ER%(越低越好)的報告。AVATAR和BEST-RQ在HowTo100M上進行了端到端的微調(diào)(所有參數(shù)),而AVFormer即使只使用了數(shù)據(jù)集的5%,也能有效工作,這得益于微調(diào)參數(shù)的小集合

結(jié)論

我們介紹了AVFormer,這是一種輕量級的方法,用于將現(xiàn)有的,凍結(jié)的最先進的ASR模型適應(yīng)AV-ASR。我們的方法實用且高效,實現(xiàn)了令人印象深刻的零樣本性能。隨著ASR模型越來越大,調(diào)整預(yù)訓(xùn)練模型的整個參數(shù)集變得不切實際(對于不同的領(lǐng)域更是如此)。我們的方法無縫地實現(xiàn)了,在同一個參數(shù)有效的模型中進行領(lǐng)域轉(zhuǎn)移和視覺輸入混合。

譯者介紹

崔皓,51CTO社區(qū)編輯,資深架構(gòu)師,擁有18年的軟件開發(fā)和架構(gòu)經(jīng)驗,10年分布式架構(gòu)經(jīng)驗。

原文標(biāo)題:AVFormer: Injecting vision into frozen speech models for zero-shot AV-ASR,作者:Arsha Nagrani,Paul Hongsuck Seo


責(zé)任編輯:華軒 來源: 51CTO
相關(guān)推薦

2025-02-06 11:25:50

2025-02-07 10:10:05

MusicMagus擴散模型音樂編輯

2024-06-25 09:35:04

模型訓(xùn)練

2023-02-24 10:22:15

2024-11-18 08:40:00

2025-04-21 08:26:00

模型強化學(xué)習(xí)AI

2025-02-08 11:12:34

ZAPS影像模型

2024-11-20 16:51:00

目標(biāo)檢測模型

2024-03-15 12:49:40

AI訓(xùn)練

2024-09-12 08:00:00

2025-03-24 13:32:43

2021-07-24 10:19:14

AI 數(shù)據(jù)克隆

2021-10-25 09:06:29

模型人工智能計算

2023-02-03 16:31:02

模型

2025-01-26 10:50:00

模型視頻生成

2024-07-31 14:06:00

2023-07-27 16:51:05

微軟語音模型人工智能

2025-02-07 15:20:00

AI數(shù)據(jù)訓(xùn)練

2024-11-06 16:00:00

AI訓(xùn)練

2021-09-08 17:23:33

谷歌模型開發(fā)
點贊
收藏

51CTO技術(shù)棧公眾號