蘋果研發(fā)多模態(tài)AI，這是研究人員迄今發(fā)現(xiàn)的結(jié)果

作者：布加迪 2024-03-28 08:00:00

蘋果的研究人員揭示了確保多模態(tài)AI成功的擴(kuò)展定律和訓(xùn)練方法。

譯者 | 布加迪

審校 | 重樓

如果我告訴你，在最近熱議的多模態(tài)AI背后，蘋果正在悄然醞釀一場(chǎng)革命，你會(huì)作何感想？蘋果的一群研究人員一直在系統(tǒng)地研究如何構(gòu)建功能最強(qiáng)大的多模態(tài)模型，揭露了質(zhì)疑傳統(tǒng)智慧的重要見解?，F(xiàn)在他們讓我們有機(jī)會(huì)一窺底層的細(xì)節(jié)。

他們的研究工作可能會(huì)改變我們對(duì)待多模態(tài)項(xiàng)目的視角。但要理解其中的原因，你需要搞清楚其研究方法和發(fā)現(xiàn)結(jié)果的細(xì)節(jié)。以下是本人對(duì)蘋果研究論文的解讀。

本人在這篇文章中將介紹以下內(nèi)容：

他們測(cè)試的架構(gòu)方面的具體取舍以及真正最重要的方面。
他們如何以一種非常有意識(shí)的方式混合數(shù)據(jù)來(lái)實(shí)現(xiàn)最先進(jìn)的小樣本（few-shot）學(xué)習(xí)。
為什么他們的擴(kuò)展定律和訓(xùn)練方法對(duì)于任何建立多模態(tài)模型的人都至關(guān)重要。
證明蘋果模型的出色功能的具體例子，從多圖像推理到OCR。
本人對(duì)這項(xiàng)研究工作的潛在影響所持的看法，以及它提出的一些開放性問(wèn)題。

本文將給出嚴(yán)謹(jǐn)的技術(shù)解讀和通俗易懂的主旨概述。最后，你對(duì)這項(xiàng)開創(chuàng)性的研究以及它如何改變AI未來(lái)會(huì)有一番清晰的認(rèn)識(shí)。

引言

多模態(tài)AI已經(jīng)取得了快速發(fā)展，Flamingo、EMu2和MoLLa等模型展示了結(jié)合視覺(jué)和語(yǔ)言理解的潛力。然而，許多這些模型并沒(méi)有深入地揭示其架構(gòu)選擇和訓(xùn)練過(guò)程背后的基本原理。

蘋果的MM1論文介紹了一系列多模態(tài)AI模型，深入解釋了如何構(gòu)建結(jié)合視覺(jué)和語(yǔ)言理解的高性能系統(tǒng)。通過(guò)廣泛的消融研究和系統(tǒng)實(shí)驗(yàn)，該團(tuán)隊(duì)發(fā)現(xiàn)了構(gòu)建高性能多模態(tài)模型方面的關(guān)鍵見解。他們的發(fā)現(xiàn)結(jié)果揭示了不同架構(gòu)選擇、數(shù)據(jù)混合策略和擴(kuò)展方法的相對(duì)重要性。

通過(guò)分享最先進(jìn)的小樣本學(xué)習(xí)的“配方”，論文作者們使更廣泛的研究社區(qū)能夠在他們的研究工作基礎(chǔ)上更有作為。從長(zhǎng)遠(yuǎn)來(lái)看，這里的開創(chuàng)性技術(shù)可以推動(dòng)將視覺(jué)和語(yǔ)言理解深度整合的新一代基礎(chǔ)模型。

本人在本文中將逐步介紹論文的關(guān)鍵部分，涵蓋他們的方法、結(jié)果、討論和結(jié)論；也將解釋技術(shù)細(xì)節(jié)，同時(shí)提供淺顯的解讀，主要圍繞主旨及其意義。在此過(guò)程中，本人將分享自己的分析，并著重介紹這項(xiàng)研究工作提出的一些開放式問(wèn)題。

技術(shù)解釋

論文作者著手研究如何構(gòu)建高性能的多模態(tài)語(yǔ)言模型（MLLM）。他們系統(tǒng)地分析了兩個(gè)關(guān)鍵因素：1）架構(gòu)組件，比如圖像編碼器和視覺(jué)語(yǔ)言連接器；2）預(yù)訓(xùn)練中的數(shù)據(jù)選擇。

為了有效地評(píng)估設(shè)計(jì)方面的選擇，他們使用擁有12億參數(shù)LLM的基本配置。他們通過(guò)每次修改一個(gè)組件，面對(duì)VQA和字幕任務(wù)評(píng)估零樣本和小樣本性能的影響來(lái)進(jìn)行消融。

就架構(gòu)而言，他們測(cè)試不同的預(yù)訓(xùn)練圖像編碼器（不同的目標(biāo)、數(shù)據(jù)和分辨率）和視覺(jué)語(yǔ)言連接器。就視覺(jué)語(yǔ)言連接器而言，他們測(cè)試了平均池化、注意力池化和一個(gè)叫做C-Abstractor的卷積ResNet塊。令人驚訝的是，特定的連接器架構(gòu)對(duì)性能幾乎沒(méi)有影響。就預(yù)訓(xùn)練數(shù)據(jù)而言，他們結(jié)合使用帶字幕的圖像、交錯(cuò)的圖像-文本文檔和純文本數(shù)據(jù)。

結(jié)果

圖1. MM1可以跨圖像執(zhí)行指令和推理。來(lái)自VILA的示例和圖像。在思維鏈的提示下，VILA正確回答

與Flamingo、IDEFICS、EMu2相比，最終的MM1系列可擴(kuò)展至300億個(gè)參數(shù)，在關(guān)鍵基準(zhǔn)測(cè)試中獲得了SOTA小樣本測(cè)試結(jié)果。

至于架構(gòu)方面，研究人員發(fā)現(xiàn)（按重要性排序）：

圖像分辨率具有最大的影響，從224px到336px有約3%的提升。
圖像編碼器大小和預(yù)訓(xùn)練數(shù)據(jù)也很重要，從ViT-L到ViT-H提升幅度小于1%。
視覺(jué)語(yǔ)言連接器設(shè)計(jì)選擇的影響可以忽略不計(jì)。

至于預(yù)訓(xùn)練數(shù)據(jù)方面：

交錯(cuò)數(shù)據(jù)對(duì)于小樣本和純文本性能至關(guān)重要，可以提升10%以上。
字幕數(shù)據(jù)改善零樣本最明顯。
合成字幕幫助小樣本（+2-4%）。
仔細(xì)混合模態(tài)（5:5:1比例的字幕，交錯(cuò)和文本）效果最好。

與Flamingo、IDEFICS、EMu2相比，最終的MM1模型可以擴(kuò)展到300億參數(shù)，在關(guān)鍵基準(zhǔn)測(cè)試中獲得了SOTA小樣本結(jié)果。

論文作者證明了他們?cè)诒O(jiān)督式微調(diào)（SFT）后獲得的訓(xùn)練前見解。MM1表現(xiàn)出令人信服的特性，比如多圖像推理、OCR和上下文小樣本學(xué)習(xí)。

有意架構(gòu)和數(shù)據(jù)選擇的MM1配方在擴(kuò)展后帶來(lái)了高性能。論文作者希望這些見解能夠適用于具體實(shí)現(xiàn)之外的更廣泛環(huán)境。

淺顯的解釋

要點(diǎn)是，蘋果的研究人員做了一系列實(shí)驗(yàn)，以查明構(gòu)建能理解圖像和文本的AI模型的最佳方法。

他們測(cè)試了不同的模型組件，比如編碼圖像的部分和連接圖像和文本的部分。他們發(fā)現(xiàn)有些方面很重要（圖像分辨率和編碼器大小/數(shù)據(jù)），而其他方面其實(shí)不重要（連接器設(shè)計(jì)）。

在訓(xùn)練模型時(shí)，他們還嘗試混合不同類型的數(shù)據(jù)。比如加有字幕的圖形、文本和圖片混合在一起的文檔以及純文本。關(guān)鍵似乎要有多樣性——這有助于模型處理不同的情況，比如描述圖像或回答問(wèn)題。

當(dāng)他們把這一切結(jié)合在一起，使模型變得非常大（300億參數(shù)）時(shí)，它最擅長(zhǎng)從僅僅幾個(gè)例子中學(xué)習(xí)。它擁有一些出色的功能，比如針對(duì)多個(gè)圖像進(jìn)行推理、讀取圖像中的文本，甚至解釋自己的輸出。

簡(jiǎn)而言之，秘密武器是有意地處理模型組件和訓(xùn)練數(shù)據(jù)。通過(guò)分享這一秘訣，這些研究人員正在為新一代功能強(qiáng)大的多模態(tài)AI系統(tǒng)鋪平道路。

批判性分析

不妨考慮一下MM1研究工作的幾處注意事項(xiàng)和限制：

評(píng)估基準(zhǔn)：論文作者特別指出，當(dāng)前的評(píng)估集以字幕為中心。為此優(yōu)化的模型可能無(wú)法推廣到其他多模態(tài)任務(wù)。我們需要更多樣化的基準(zhǔn)。
擴(kuò)展定律：將超參數(shù)外推到更大的規(guī)模有風(fēng)險(xiǎn)。可能會(huì)出現(xiàn)小規(guī)模測(cè)試中并未出現(xiàn)的穩(wěn)定性問(wèn)題。在訓(xùn)練大模型時(shí)，需要仔細(xì)監(jiān)控。
合成數(shù)據(jù)：雖然合成字幕有幫助，但生成的數(shù)據(jù)有限制。過(guò)度優(yōu)化可能會(huì)導(dǎo)致奇怪的失效模式。使用須謹(jǐn)慎。
偏見/公平性：沒(méi)有分析輸出或訓(xùn)練數(shù)據(jù)中的社會(huì)偏見。為了負(fù)責(zé)任的部署，這需要仔細(xì)審查，尤其是針對(duì)從網(wǎng)上抓取的數(shù)據(jù)。
硬件訪問(wèn)：消融使用了一個(gè)有12億參數(shù)的型號(hào)，但最終系統(tǒng)是300億參數(shù)。在算力有限的情況下，獲得的見解可能不太適用。我們還需要研究“小模型”設(shè)計(jì)。

論文作者確實(shí)承認(rèn)有改進(jìn)的余地，比如擴(kuò)展視覺(jué)編碼器、改進(jìn)視覺(jué)語(yǔ)言橋接和迭代評(píng)估套件。

除了研究人員承認(rèn)的局限性外，本人認(rèn)為關(guān)于MM1方法還有一些更深層次的問(wèn)題值得討論。比如說(shuō)，嚴(yán)重依賴從網(wǎng)上抓取的數(shù)據(jù)讓人們對(duì)訓(xùn)練集的代表性和潛在偏見引發(fā)擔(dān)憂。同樣值得考慮的是，這里確定的特定架構(gòu)選擇和擴(kuò)展定律是否可以推廣到視覺(jué)和語(yǔ)言之外的其他模態(tài)，或者擴(kuò)大到更開放的生成式任務(wù)。在這個(gè)領(lǐng)域參與這些更廣泛的辯論將加強(qiáng)這項(xiàng)研究工作的影響。

結(jié)論

我們能從蘋果的MM1論文中學(xué)到什么呢？

首先，這篇論文為訓(xùn)練高性能的多模態(tài)模型提供了更清晰的路線圖。如果深思熟慮架構(gòu)和數(shù)據(jù)選擇，并認(rèn)真擴(kuò)展，我就能發(fā)掘出色的小樣本學(xué)習(xí)和推理能力。

其次，論文提出了該領(lǐng)域的關(guān)鍵的開放性問(wèn)題。我們?nèi)绾谓⑷鏈y(cè)試多模態(tài)技能的基準(zhǔn)？對(duì)于通用模型來(lái)說(shuō)，數(shù)據(jù)模式和任務(wù)的正確組合是什么？在保持性能的情況下，我們又可以將模型尺寸做得多??？

三是，論文為基礎(chǔ)多模態(tài)模型方面的開放研究確立了新標(biāo)準(zhǔn)。通過(guò)詳細(xì)介紹訓(xùn)練過(guò)程和釋放消融，作者使業(yè)界能夠復(fù)制和擴(kuò)展他們的研究工作。這對(duì)加快整個(gè)行業(yè)的進(jìn)展至關(guān)重要。

展望未來(lái)，MM1論文有望成為多模態(tài)AI研究領(lǐng)域的一塊重要里程碑。通過(guò)為模型設(shè)計(jì)和訓(xùn)練提供嚴(yán)謹(jǐn)的經(jīng)驗(yàn)基礎(chǔ)，論文為該領(lǐng)域的未來(lái)發(fā)展奠定了基礎(chǔ)。雖然它是否會(huì)帶來(lái)類似于GPT-4的變革性影響還有待觀察，但本文給人的見解可以指導(dǎo)研究人員繼續(xù)推動(dòng)多模態(tài)系統(tǒng)的最高性能。當(dāng)然，實(shí)現(xiàn)這個(gè)潛力將需要持續(xù)的努力來(lái)利用和擴(kuò)展這些發(fā)現(xiàn)結(jié)果，同時(shí)也竭力解決上面強(qiáng)調(diào)的局限性和開放性問(wèn)題。