蘋果大模型MM1殺入場(chǎng):300億參數(shù)、多模態(tài)、MoE架構(gòu),超半數(shù)作者是華人
今年以來,蘋果顯然已經(jīng)加大了對(duì)生成式人工智能(GenAI)的重視和投入。此前在 2024 蘋果股東大會(huì)上,蘋果 CEO 蒂姆?庫(kù)克表示,今年將在 GenAI 領(lǐng)域?qū)崿F(xiàn)重大進(jìn)展。此外,蘋果宣布放棄 10 年之久的造車項(xiàng)目之后,一部分造車團(tuán)隊(duì)成員也開始轉(zhuǎn)向 GenAI。
如此種種,蘋果向外界傳達(dá)了加注 GenAI 的決心。目前多模態(tài)領(lǐng)域的 GenAI 技術(shù)和產(chǎn)品非常火爆,尤以 OpenAI 的 Sora 為代表,蘋果當(dāng)然也想要在該領(lǐng)域有所建樹。
今日,在一篇由多位作者署名的論文《MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training》中,蘋果正式公布自家的多模態(tài)大模型研究成果 —— 這是一個(gè)具有高達(dá) 30B 參數(shù)的多模態(tài) LLM 系列。
論文地址:https://arxiv.org/pdf/2403.09611.pdf
該團(tuán)隊(duì)在論文中探討了不同架構(gòu)組件和數(shù)據(jù)選擇的重要性。并且,通過對(duì)圖像編碼器、視覺語言連接器和各種預(yù)訓(xùn)練數(shù)據(jù)的選擇,他們總結(jié)出了幾條關(guān)鍵的設(shè)計(jì)準(zhǔn)則。具體來講,本文的貢獻(xiàn)主要體現(xiàn)在以下幾個(gè)方面。
首先,研究者在模型架構(gòu)決策和預(yù)訓(xùn)練數(shù)據(jù)選擇上進(jìn)行小規(guī)模消融實(shí)驗(yàn),并發(fā)現(xiàn)了幾個(gè)有趣的趨勢(shì)。建模設(shè)計(jì)方面的重要性按以下順序排列:圖像分辨率、視覺編碼器損失和容量以及視覺編碼器預(yù)訓(xùn)練數(shù)據(jù)。
其次,研究者使用三種不同類型的預(yù)訓(xùn)練數(shù)據(jù):圖像字幕、交錯(cuò)圖像文本和純文本數(shù)據(jù)。他們發(fā)現(xiàn),當(dāng)涉及少樣本和純文本性能時(shí),交錯(cuò)和純文本訓(xùn)練數(shù)據(jù)非常重要,而對(duì)于零樣本性能,字幕數(shù)據(jù)最重要。這些趨勢(shì)在監(jiān)督微調(diào)(SFT)之后仍然存在,這表明預(yù)訓(xùn)練期間呈現(xiàn)出的性能和建模決策在微調(diào)后得以保留。
最后,研究者構(gòu)建了 MM1,一個(gè)參數(shù)最高可達(dá) 300 億(其他為 30 億、70 億)的多模態(tài)模型系列, 它由密集模型和混合專家(MoE)變體組成,不僅在預(yù)訓(xùn)練指標(biāo)中實(shí)現(xiàn) SOTA,在一系列已有多模態(tài)基準(zhǔn)上監(jiān)督微調(diào)后也能保持有競(jìng)爭(zhēng)力的性能。
具體來講,預(yù)訓(xùn)練模型 MM1 在少樣本設(shè)置下的字幕和問答任務(wù)上,要比 Emu2、Flamingo、IDEFICS 表現(xiàn)更好。監(jiān)督微調(diào)后的 MM1 也在 12 個(gè)多模態(tài)基準(zhǔn)上的結(jié)果也頗有競(jìng)爭(zhēng)力。
得益于大規(guī)模多模態(tài)預(yù)訓(xùn)練,MM1 在上下文預(yù)測(cè)、多圖像和思維鏈推理等方面具有不錯(cuò)的表現(xiàn)。同樣,MM1 在指令調(diào)優(yōu)后展現(xiàn)出了強(qiáng)大的少樣本學(xué)習(xí)能力。
方法概覽:構(gòu)建 MM1 的秘訣
構(gòu)建高性能的 MLLM(Multimodal Large Language Model,多模態(tài)大型語言模型) 是一項(xiàng)實(shí)踐性極高的工作。盡管高層次的架構(gòu)設(shè)計(jì)和訓(xùn)練過程是清晰的,但是具體的實(shí)現(xiàn)方法并不總是一目了然。這項(xiàng)工作中,研究者詳細(xì)介紹了為建立高性能模型而進(jìn)行的消融。他們探討了三個(gè)主要的設(shè)計(jì)決策方向:
- 架構(gòu):研究者研究了不同的預(yù)訓(xùn)練圖像編碼器,并探索了將 LLM 與這些編碼器連接起來的各種方法。
- 數(shù)據(jù):研究者考慮了不同類型的數(shù)據(jù)及其相對(duì)混合權(quán)重。
- 訓(xùn)練程序:研究者探討了如何訓(xùn)練 MLLM,包括超參數(shù)以及在何時(shí)訓(xùn)練模型的哪些部分。
消融設(shè)置
由于訓(xùn)練大型 MLLM 會(huì)耗費(fèi)大量資源,研究者采用了簡(jiǎn)化的消融設(shè)置。消融的基本配置如下:
- 圖像編碼器:在 DFN-5B 和 VeCap-300M 上使用 CLIP loss 訓(xùn)練的 ViT-L/14 模型;圖像大小為 336×336。
- 視覺語言連接器:C-Abstractor ,含 144 個(gè)圖像 token。
- 預(yù)訓(xùn)練數(shù)據(jù):混合字幕圖像(45%)、交錯(cuò)圖像文本文檔(45%)和純文本(10%)數(shù)據(jù)。
- 語言模型:1.2B 變壓器解碼器語言模型。
為了評(píng)估不同的設(shè)計(jì)決策,研究者使用了零樣本和少樣本(4 個(gè)和 8 個(gè)樣本)在多種 VQA 和圖像描述任務(wù)上的性能:COCO Cap tioning 、NoCaps 、TextCaps 、VQAv2 、TextVQA 、VizWiz 、GQA 和 OK-VQA。
模型架構(gòu)消融試驗(yàn)
研究者分析了使 LLM 能夠處理視覺數(shù)據(jù)的組件。具體來說,他們研究了(1)如何以最佳方式預(yù)訓(xùn)練視覺編碼器,以及(2)如何將視覺特征連接到 LLM 的空間(見圖 3 左)。
- 圖像編碼器預(yù)訓(xùn)練。在這一過程中,研究者主要消融了圖像分辨率和圖像編碼器預(yù)訓(xùn)練目標(biāo)的重要性。需要注意的是,與其他消融試驗(yàn)不同的是,研究者本次使用了 2.9B LLM(而不是 1.2B),以確保有足夠的容量來使用一些較大的圖像編碼器。
- 編碼器經(jīng)驗(yàn):圖像分辨率的影響最大,其次是模型大小和訓(xùn)練數(shù)據(jù)組成。如表 1 所示,將圖像分辨率從 224 提高到 336,所有架構(gòu)的所有指標(biāo)都提高了約 3%。將模型大小從 ViT-L 增加到 ViT-H,參數(shù)增加了一倍,但性能提升不大,通常不到 1%。最后,加入 VeCap-300M (一個(gè)合成字幕數(shù)據(jù)集)后,在少樣本場(chǎng)景中性能提升超過了 1%。
- 視覺語言連接器和圖像分辨率。該組件的目標(biāo)是將視覺表征轉(zhuǎn)化為 LLM 空間。由于圖像編碼器是 ViT,因此其輸出要么是單一的嵌入,要么是一組與輸入圖像片段相對(duì)應(yīng)的網(wǎng)格排列嵌入。因此,需要將圖像 token 的空間排列轉(zhuǎn)換為 LLM 的順序排列。與此同時(shí),實(shí)際的圖像 token 表征也要映射到詞嵌入空間。
- VL 連接器經(jīng)驗(yàn):視覺 token 數(shù)量和圖像分辨率最重要,而 VL 連接器的類型影響不大。如圖 4 所示,隨著視覺 token 數(shù)量或 / 和圖像分辨率的增加,零樣本和少樣本的識(shí)別率都會(huì)提高。
預(yù)訓(xùn)練數(shù)據(jù)消融試驗(yàn)
通常,模型的訓(xùn)練分為兩個(gè)階段:預(yù)訓(xùn)練和指令調(diào)優(yōu)。前一階段使用網(wǎng)絡(luò)規(guī)模的數(shù)據(jù),后一階段則使用特定任務(wù)策劃的數(shù)據(jù)。下面重點(diǎn)討論了本文的預(yù)訓(xùn)練階段,并詳細(xì)說明研究者的數(shù)據(jù)選擇(圖 3 右)。
有兩類數(shù)據(jù)常用于訓(xùn)練 MLLM:由圖像和文本對(duì)描述組成的字幕數(shù)據(jù);以及來自網(wǎng)絡(luò)的圖像 - 文本交錯(cuò)文檔。表 2 是數(shù)據(jù)集的完整列表:
- 數(shù)據(jù)經(jīng)驗(yàn) 1:交錯(cuò)數(shù)據(jù)有助于提高少樣本和純文本性能,而字幕數(shù)據(jù)則能提高零樣本性能。圖 5a 展示了交錯(cuò)數(shù)據(jù)和字幕數(shù)據(jù)不同組合的結(jié)果。
- 數(shù)據(jù)經(jīng)驗(yàn) 2:純文本數(shù)據(jù)有助于提高少樣本和純文本性能。如圖 5b 所示,將純文本數(shù)據(jù)和字幕數(shù)據(jù)結(jié)合在一起可提高少樣本性能。
- 數(shù)據(jù)經(jīng)驗(yàn) 3:謹(jǐn)慎混合圖像和文本數(shù)據(jù)可獲得最佳的多模態(tài)性能,并保留較強(qiáng)的文本性能。圖 5c 嘗試了圖像(標(biāo)題和交錯(cuò))和純文本數(shù)據(jù)之間的幾種混合比例。
- 數(shù)據(jù)經(jīng)驗(yàn) 4:合成數(shù)據(jù)有助于少樣本學(xué)習(xí)。如圖 5d 所示,人工合成數(shù)據(jù)確實(shí)對(duì)少數(shù)幾次學(xué)習(xí)的性能有不小的提升,絕對(duì)值分別為 2.4% 和 4%。
最終模型和訓(xùn)練方法
研究者收集了之前的消融結(jié)果,確定 MM1 多模態(tài)預(yù)訓(xùn)練的最終配方:
- 圖像編碼器:考慮到圖像分辨率的重要性,研究者使用了分辨率為 378x378px 的 ViT-H 模型,并在 DFN-5B 上使用 CLIP 目標(biāo)進(jìn)行預(yù)訓(xùn)練;
- 視覺語言連接器:由于視覺 token 的數(shù)量最為重要,研究者使用了一個(gè)有 144 個(gè) token 的 VL 連接器。實(shí)際架構(gòu)似乎不太重要,研究者選擇了 C-Abstractor;
- 數(shù)據(jù):為了保持零樣本和少樣本的性能,研究者使用了以下精心組合的數(shù)據(jù):45% 圖像 - 文本交錯(cuò)文檔、45% 圖像 - 文本對(duì)文檔和 10% 純文本文檔。
為了提高模型的性能,研究者將 LLM 的大小擴(kuò)大到 3B、7B 和 30B 個(gè)參數(shù)。所有模型都是在序列長(zhǎng)度為 4096、每個(gè)序列最多 16 幅圖像、分辨率為 378×378 的情況下,以 512 個(gè)序列的批量大小進(jìn)行完全解凍預(yù)訓(xùn)練的。所有模型均使用 AXLearn 框架進(jìn)行訓(xùn)練。
他們?cè)谛∫?guī)模、9M、85M、302M 和 1.2B 下對(duì)學(xué)習(xí)率進(jìn)行網(wǎng)格搜索,使用對(duì)數(shù)空間的線性回歸來推斷從較小模型到較大模型的變化(見圖 6),結(jié)果是在給定(非嵌入)參數(shù)數(shù)量 N 的情況下,預(yù)測(cè)出最佳峰值學(xué)習(xí)率 η:
通過專家混合(MoE)進(jìn)行擴(kuò)展。在實(shí)驗(yàn)中,研究者進(jìn)一步探索了通過在語言模型的 FFN 層添加更多專家來擴(kuò)展密集模型的方法。
要將密集模型轉(zhuǎn)換為 MoE,只需將密集語言解碼器替換為 MoE 語言解碼器。為了訓(xùn)練 MoE,研究者采用了與密集骨干 4 相同的訓(xùn)練超參數(shù)和相同的訓(xùn)練設(shè)置,包括訓(xùn)練數(shù)據(jù)和訓(xùn)練 token。
關(guān)于多模態(tài)預(yù)訓(xùn)練結(jié)果,研究者通過適當(dāng)?shù)奶崾緦?duì)預(yù)先訓(xùn)練好的模型在上限和 VQA 任務(wù)上進(jìn)行評(píng)估。表 3 對(duì)零樣本和少樣本進(jìn)行了評(píng)估:
監(jiān)督微調(diào)結(jié)果
最后,研究者介紹了預(yù)訓(xùn)練模型之上訓(xùn)練的監(jiān)督微調(diào)(SFT)實(shí)驗(yàn)。
他們遵循 LLaVA-1.5 和 LLaVA-NeXT,從不同的數(shù)據(jù)集中收集了大約 100 萬個(gè) SFT 樣本。鑒于直觀上,更高的圖像分辨率會(huì)帶來更好的性能,研究者還采用了擴(kuò)展到高分辨率的 SFT 方法。
監(jiān)督微調(diào)結(jié)果如下:
表 4 展示了與 SOTA 比較的情況,「-Chat」表示監(jiān)督微調(diào)后的 MM1 模型。
首先,平均而言,MM1-3B-Chat 和 MM1-7B-Chat 優(yōu)于所有列出的相同規(guī)模的模型。MM1-3B-Chat 和 MM1-7B-Chat 在 VQAv2、TextVQA、ScienceQA、MMBench 以及最近的基準(zhǔn)測(cè)試(MMMU 和 MathVista)中表現(xiàn)尤為突出。
其次,研究者探索了兩種 MoE 模型:3B-MoE(64 位專家)和 6B-MoE(32 位專家)。在幾乎所有基準(zhǔn)測(cè)試中,蘋果的 MoE 模型都比密集模型取得了更好的性能。這顯示了 MoE 進(jìn)一步擴(kuò)展的巨大潛力。
第三,對(duì)于 30B 大小的模型,MM1-30B-Chat 在 TextVQA、SEED 和 MMMU 上的表現(xiàn)優(yōu)于 Emu2-Chat37B 和 CogVLM-30B。與 LLaVA-NeXT 相比,MM1 也取得了具有競(jìng)爭(zhēng)力的全面性能。
不過,LLaVA-NeXT 不支持多圖像推理,也不支持少樣本提示,因?yàn)槊糠鶊D像都表示為 2880 個(gè)發(fā)送到 LLM 的 token,而 MM1 的 token 總數(shù)只有 720 個(gè)。這就限制了某些涉及多圖像的應(yīng)用。
圖 7b 顯示,輸入圖像分辨率對(duì) SFT 評(píng)估指標(biāo)平均性能的影響,圖 7c 顯示,隨著預(yù)訓(xùn)練數(shù)據(jù)的增加,模型的性能不斷提高。
圖像分辨率的影響。圖 7b 顯示了輸入圖像分辨率對(duì) SFT 評(píng)估指標(biāo)平均性能的影響。
預(yù)訓(xùn)練的影響:圖 7c 顯示,隨著預(yù)訓(xùn)練數(shù)據(jù)的增加,模型的性能不斷提高。
更多研究細(xì)節(jié),可參考原論文。