自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

多模態(tài)大模型不夠靈活,谷歌DeepMind創(chuàng)新架構(gòu)Zipper:分開訓(xùn)練再「壓縮」

人工智能
多模態(tài)預(yù)訓(xùn)練方法具有很強的性能優(yōu)勢(例如,一個模型可以原生理解多種模態(tài)),但也有缺點。例如,無法解決如何在預(yù)訓(xùn)練后添加新模態(tài)的問題,也缺乏靈活性,因為添加另一種模態(tài)需要從頭開始訓(xùn)練一個新的模型,并進行超參數(shù)搜索,以獲得模態(tài)之間的最佳訓(xùn)練數(shù)據(jù)混合比。

最近的一系列研究表明,純解碼器生成模型可以通過訓(xùn)練利用下一個 token 預(yù)測生成有用的表征,從而成功地生成多種模態(tài)(如音頻、圖像或狀態(tài) - 動作序列)的新序列,從文本、蛋白質(zhì)、音頻到圖像,甚至是狀態(tài)序列。

能夠同時生成多種模態(tài)輸出的多模態(tài)模型一般是通過某種形式的詞匯擴展(將多模態(tài)表征轉(zhuǎn)換為離散 token 并添加到模型的基本詞匯表中)來實現(xiàn)的,即在預(yù)訓(xùn)練階段或在后期微調(diào)階段進行跨模態(tài)對齊。

多模態(tài)預(yù)訓(xùn)練方法具有很強的性能優(yōu)勢(例如,一個模型可以原生理解多種模態(tài)),但也有缺點。例如,無法解決如何在預(yù)訓(xùn)練后添加新模態(tài)的問題,也缺乏靈活性,因為添加另一種模態(tài)需要從頭開始訓(xùn)練一個新的模型,并進行超參數(shù)搜索,以獲得模態(tài)之間的最佳訓(xùn)練數(shù)據(jù)混合比。因此,這種解決方案不適合小眾模態(tài),特別是 IMU、蛋白質(zhì)序列等。

或者,將詞匯擴展到另一種模態(tài)可以在一個從未見過該模態(tài)的模型上進行預(yù)訓(xùn)練后進行。只在文本模態(tài)下訓(xùn)練的解碼器模型可以在上下文中遵循指令并從樣本中學(xué)習(xí),通常是通過微調(diào)將另一種模態(tài)(如音頻或圖像功能)嫁接到現(xiàn)有的強大文本骨干上,以利用文本模態(tài)的可表達(dá)性和人類用戶的可控性。這樣做的缺點是骨干網(wǎng)絡(luò)的文本到文本功能會被破壞,由此產(chǎn)生的模型只能執(zhí)行其經(jīng)過微調(diào)的跨模態(tài)任務(wù)。

總體來說,無論是預(yù)訓(xùn)練還是微調(diào),都需要大量對齊的跨模態(tài)數(shù)據(jù),因此這兩種方法都不適用于沒有足夠數(shù)量以對齊多模態(tài)數(shù)據(jù)的模態(tài)。

Google DeepMind 近期提出了模塊化設(shè)計的新型架構(gòu) Zipper,它由多個單模態(tài)預(yù)訓(xùn)練解碼器模型組成。利用豐富的無監(jiān)督單模態(tài)數(shù)據(jù),Zipper 可以在單一模態(tài)中預(yù)訓(xùn)練強大的純解碼器模型,然后利用交叉注意力將多個這樣的預(yù)訓(xùn)練解碼器「壓縮」在一起,并利用有限的跨模態(tài)數(shù)據(jù)進行微調(diào),實現(xiàn)多模態(tài)生成能力。預(yù)訓(xùn)練的純解碼器模型可以在新的多模態(tài)組合中靈活地重復(fù)使用和再利用。

  • 論文標(biāo)題:Zipper: A Multi-Tower Decoder Architecture for Fusing Modalities
  • 論文鏈接:https://arxiv.org/pdf/2405.18669

這是第一項研究靈活組合模態(tài)的工作,通過組合單獨預(yù)訓(xùn)練的單模態(tài)解碼器來實現(xiàn)多模態(tài)生成能力。

雖然 Zipper 架構(gòu)可在多種模態(tài)和兩種以上模態(tài)的骨干上通用,但這項工作的重點放在了僅融合兩種骨干(語音和文本)的實驗設(shè)置上。論文展示了 Zipper 在同時跨模態(tài)生成文本(自動語音識別(ASR)任務(wù))和語音(文本到語音任務(wù)(TTS))方面的強大能力。

僅使用部分文本 - 語音對齊數(shù)據(jù)(低至原始數(shù)據(jù)的 1%)進行的實驗表明,首先在無標(biāo)記數(shù)據(jù)上對骨干進行單模態(tài)預(yù)訓(xùn)練,與使用詞匯擴展方法進行微調(diào)相比,Zipper 可以依賴更少的對齊數(shù)據(jù),這為使用解碼器 - 解碼器架構(gòu)融合模態(tài)提供了可能性,對于成對數(shù)據(jù)量有限的生成任務(wù)非常有用。

接下來,讓我們看看論文細(xì)節(jié)。

模型

Zipper 架構(gòu)由兩個自回歸解碼器 tower(或主干)組成,它們通過門控交叉注意力層「壓縮」在一起。每個骨干使用下一個 token 預(yù)測功能分別對單個模態(tài)進行訓(xùn)練。

圖 1 顯示了 Zipper 架構(gòu)的概覽。與 CALM 類似,在解碼器骨干之間的每 i 層都插入了交叉注意力層。在這些有規(guī)律交錯的層中,一種模態(tài)的表征被交叉注意力到另一種模態(tài)中。這與 Flamingo [4] 編碼器 - 解碼器設(shè)置不同,后者只在一個 tower(編碼器)的最后一層定期交叉注意力到另一個 tower(解碼器)的各層。

在交叉注意力過程中,投影層被插入模態(tài)之間。從功能上講,這可以均衡骨干之間的嵌入維度大小差異。從語義上講,它還能實現(xiàn)從一種模態(tài)到另一種模態(tài)的表征轉(zhuǎn)換,尤其是當(dāng)一個或兩個骨干被凍結(jié)時。此外,在每個骨干網(wǎng)的輸入嵌入之后,還直接加入了一個非線性輸入投影層,以便更好地調(diào)整輸入的單模態(tài)表征,用于多模態(tài)任務(wù)。

在第一個 Transformer 塊之前(嵌入層之后),插入兩個可學(xué)習(xí)的多層感知器(MLP)投影,然后對每個骨干進行 ReLU 轉(zhuǎn)換:

圖片

這樣做是為了讓單模態(tài)表征更好地適應(yīng)多模態(tài)設(shè)置。

讓 i_A 和 i_B 分別代表 A 層交叉到 B 層和 B 層交叉到 A 層的間隔。將 k 層單模解碼器 A 的隱藏表征法稱為 圖片,其中 d_A 是 transformer A 的隱藏維度;同樣,將 l 層單模解碼器 B 的隱藏表征法稱為 圖片,其中 d_B 是 transformer B 的相應(yīng)隱藏維度。設(shè) fcross (Q, K, V ) 是來自 [4] 的門控交叉注意力層,其后是前饋層,Q、K、V 分別是查詢、鍵和值。讓 圖片和 圖片分別代表 tower A 和 tower B 的線性前饋投影和全連接投影。


解碼器 A 中第 k 層的新表征圖片

具體如下:

圖片

同樣,解碼器 B 第 l 層的新表征圖片為:

圖片

最后,每個 tower 以一個 softmax 層(與同 tower 嵌入層共享)結(jié)束,以便利用下一個 token 預(yù)測任務(wù)將隱藏表征投射到(特定模態(tài) /tower)token 詞匯的概率分布中。

研究者將交叉注意力機制用于交錯序列的自動回歸訓(xùn)練,具體做法是只交叉關(guān)注原始線性序列中當(dāng)前位置之前的另一種模態(tài)的數(shù)據(jù)。

在解碼過程中,輸出模態(tài)的序列是指定的(例如,[語音]、[文本]、[文本、語音])。模型以序列中的第一種模態(tài)生成輸出,直到遇到特殊的句末 token,這時才會切換到序列中的下一種模態(tài)。該過程一直持續(xù)到序列中的所有模態(tài)都被解碼為止。雖然可以擴展模型自動選擇輸出生成的模態(tài),但這一設(shè)置的通用化還需要后續(xù)的工作。

實驗

雖然 Zipper 可以擴展到任意數(shù)量的模態(tài),研究者率先評估了語音到文本生成和文本到語音(TTS)生成的自動語音識別(ASR)。

值得注意的是,雖然對 TTS 系統(tǒng)(合成語音)的標(biāo)準(zhǔn)評估依賴于人類反饋(平均意見分?jǐn)?shù)),可以捕捉到語音的許多整體方面(如文本保真度和聲音質(zhì)量等),但這里的 TTS 評估只希望捕捉到架構(gòu)選擇對語義 token 建模和預(yù)測能力的影響。

表 1 列出了 ASR 任務(wù)的測試結(jié)果:

將 Zipper 與擴展詞匯量的單解碼器基線進行比較時,可以發(fā)現(xiàn) Zipper 在 test-clean 子集上的性能略好,而在噪音較高的語音 test-other 子集上的性能則略有下降,總體性能相當(dāng)接近。

表 2 列出了在 LibriTTS 數(shù)據(jù)集的 test-clean 分割上進行 TTS 任務(wù)的結(jié)果。

可以看出,Zipper 模型明顯優(yōu)于單解碼器模型,Zipper S/128M unfrozen model 模型提高了 13 個 WER 點(相對誤差減少 40%),Zipper L/1B unfrozen model 模型提高了 12 個 WER 點(相對誤差減少 38%)。

研究者還觀察到,與使用凍結(jié)骨干網(wǎng)絡(luò)相比,在訓(xùn)練過程中解凍語音骨干網(wǎng)絡(luò)可持續(xù)改善所有尺寸 Zipper 模型的性能,這驗證了直覺 —— 微調(diào)語音骨干網(wǎng)絡(luò)的參數(shù)比僅依賴交叉注意力產(chǎn)生的模態(tài)對齊效果更好。

更多研究細(xì)節(jié),可參考原論文。

責(zé)任編輯:姜華 來源: 機器之心
相關(guān)推薦

2025-01-08 08:21:16

2025-04-07 00:00:00

多模態(tài)大模型

2024-12-12 00:25:09

2025-04-28 02:03:00

多模態(tài)大模型EVEv2

2024-12-30 00:01:00

多模態(tài)大模型Python

2024-10-28 08:55:19

2024-11-13 09:39:13

2024-12-18 18:57:58

2024-03-25 12:30:18

AI訓(xùn)練開源

2023-02-27 09:48:30

谷歌模型

2024-09-25 14:53:00

2024-07-23 10:34:57

2021-12-23 10:00:38

谷歌訓(xùn)練技術(shù)

2023-11-15 15:37:21

大模型人工智能

2023-10-17 12:34:04

2023-12-07 11:48:00

2023-09-19 12:45:36

2024-12-12 08:18:50

點贊
收藏

51CTO技術(shù)棧公眾號