蘋果研發(fā)多模態(tài)AI,這是研究人員迄今發(fā)現(xiàn)的結(jié)果
譯文譯者 | 布加迪
審校 | 重樓
如果我告訴你,在最近熱議的多模態(tài)AI背后,蘋果正在悄然醞釀一場(chǎng)革命,你會(huì)作何感想?蘋果的一群研究人員一直在系統(tǒng)地研究如何構(gòu)建功能最強(qiáng)大的多模態(tài)模型,揭露了質(zhì)疑傳統(tǒng)智慧的重要見解?,F(xiàn)在他們讓我們有機(jī)會(huì)一窺底層的細(xì)節(jié)。
他們的研究工作可能會(huì)改變我們對(duì)待多模態(tài)項(xiàng)目的視角。但要理解其中的原因,你需要搞清楚其研究方法和發(fā)現(xiàn)結(jié)果的細(xì)節(jié)。以下是本人對(duì)蘋果研究論文的解讀。
本人在這篇文章中將介紹以下內(nèi)容:
- 他們測(cè)試的架構(gòu)方面的具體取舍以及真正最重要的方面。
- 他們如何以一種非常有意識(shí)的方式混合數(shù)據(jù)來(lái)實(shí)現(xiàn)最先進(jìn)的小樣本(few-shot)學(xué)習(xí)。
- 為什么他們的擴(kuò)展定律和訓(xùn)練方法對(duì)于任何建立多模態(tài)模型的人都至關(guān)重要。
- 證明蘋果模型的出色功能的具體例子,從多圖像推理到OCR。
- 本人對(duì)這項(xiàng)研究工作的潛在影響所持的看法,以及它提出的一些開放性問(wèn)題。
本文將給出嚴(yán)謹(jǐn)的技術(shù)解讀和通俗易懂的主旨概述。最后,你對(duì)這項(xiàng)開創(chuàng)性的研究以及它如何改變AI未來(lái)會(huì)有一番清晰的認(rèn)識(shí)。
引言
多模態(tài)AI已經(jīng)取得了快速發(fā)展,Flamingo、EMu2和MoLLa等模型展示了結(jié)合視覺(jué)和語(yǔ)言理解的潛力。然而,許多這些模型并沒(méi)有深入地揭示其架構(gòu)選擇和訓(xùn)練過(guò)程背后的基本原理。
蘋果的MM1論文介紹了一系列多模態(tài)AI模型,深入解釋了如何構(gòu)建結(jié)合視覺(jué)和語(yǔ)言理解的高性能系統(tǒng)。通過(guò)廣泛的消融研究和系統(tǒng)實(shí)驗(yàn),該團(tuán)隊(duì)發(fā)現(xiàn)了構(gòu)建高性能多模態(tài)模型方面的關(guān)鍵見解。他們的發(fā)現(xiàn)結(jié)果揭示了不同架構(gòu)選擇、數(shù)據(jù)混合策略和擴(kuò)展方法的相對(duì)重要性。
通過(guò)分享最先進(jìn)的小樣本學(xué)習(xí)的“配方”,論文作者們使更廣泛的研究社區(qū)能夠在他們的研究工作基礎(chǔ)上更有作為。從長(zhǎng)遠(yuǎn)來(lái)看,這里的開創(chuàng)性技術(shù)可以推動(dòng)將視覺(jué)和語(yǔ)言理解深度整合的新一代基礎(chǔ)模型。
本人在本文中將逐步介紹論文的關(guān)鍵部分,涵蓋他們的方法、結(jié)果、討論和結(jié)論;也將解釋技術(shù)細(xì)節(jié),同時(shí)提供淺顯的解讀,主要圍繞主旨及其意義。在此過(guò)程中,本人將分享自己的分析,并著重介紹這項(xiàng)研究工作提出的一些開放式問(wèn)題。
技術(shù)解釋
論文作者著手研究如何構(gòu)建高性能的多模態(tài)語(yǔ)言模型(MLLM)。他們系統(tǒng)地分析了兩個(gè)關(guān)鍵因素:1)架構(gòu)組件,比如圖像編碼器和視覺(jué)語(yǔ)言連接器;2)預(yù)訓(xùn)練中的數(shù)據(jù)選擇。
為了有效地評(píng)估設(shè)計(jì)方面的選擇,他們使用擁有12億參數(shù)LLM的基本配置。他們通過(guò)每次修改一個(gè)組件,面對(duì)VQA和字幕任務(wù)評(píng)估零樣本和小樣本性能的影響來(lái)進(jìn)行消融。
就架構(gòu)而言,他們測(cè)試不同的預(yù)訓(xùn)練圖像編碼器(不同的目標(biāo)、數(shù)據(jù)和分辨率)和視覺(jué)語(yǔ)言連接器。就視覺(jué)語(yǔ)言連接器而言,他們測(cè)試了平均池化、注意力池化和一個(gè)叫做C-Abstractor的卷積ResNet塊。令人驚訝的是,特定的連接器架構(gòu)對(duì)性能幾乎沒(méi)有影響。就預(yù)訓(xùn)練數(shù)據(jù)而言,他們結(jié)合使用帶字幕的圖像、交錯(cuò)的圖像-文本文檔和純文本數(shù)據(jù)。
結(jié)果
圖1. MM1可以跨圖像執(zhí)行指令和推理。來(lái)自VILA的示例和圖像。在思維鏈的提示下,VILA正確回答
與Flamingo、IDEFICS、EMu2相比,最終的MM1系列可擴(kuò)展至300億個(gè)參數(shù),在關(guān)鍵基準(zhǔn)測(cè)試中獲得了SOTA小樣本測(cè)試結(jié)果。
至于架構(gòu)方面,研究人員發(fā)現(xiàn)(按重要性排序):
- 圖像分辨率具有最大的影響,從224px到336px有約3%的提升。
- 圖像編碼器大小和預(yù)訓(xùn)練數(shù)據(jù)也很重要,從ViT-L到ViT-H提升幅度小于1%。
- 視覺(jué)語(yǔ)言連接器設(shè)計(jì)選擇的影響可以忽略不計(jì)。
至于預(yù)訓(xùn)練數(shù)據(jù)方面:
- 交錯(cuò)數(shù)據(jù)對(duì)于小樣本和純文本性能至關(guān)重要,可以提升10%以上。
- 字幕數(shù)據(jù)改善零樣本最明顯。
- 合成字幕幫助小樣本(+2-4%)。
- 仔細(xì)混合模態(tài)(5:5:1比例的字幕,交錯(cuò)和文本)效果最好。
與Flamingo、IDEFICS、EMu2相比,最終的MM1模型可以擴(kuò)展到300億參數(shù),在關(guān)鍵基準(zhǔn)測(cè)試中獲得了SOTA小樣本結(jié)果。
論文作者證明了他們?cè)诒O(jiān)督式微調(diào)(SFT)后獲得的訓(xùn)練前見解。MM1表現(xiàn)出令人信服的特性,比如多圖像推理、OCR和上下文小樣本學(xué)習(xí)。
有意架構(gòu)和數(shù)據(jù)選擇的MM1配方在擴(kuò)展后帶來(lái)了高性能。論文作者希望這些見解能夠適用于具體實(shí)現(xiàn)之外的更廣泛環(huán)境。
淺顯的解釋
要點(diǎn)是,蘋果的研究人員做了一系列實(shí)驗(yàn),以查明構(gòu)建能理解圖像和文本的AI模型的最佳方法。
他們測(cè)試了不同的模型組件,比如編碼圖像的部分和連接圖像和文本的部分。他們發(fā)現(xiàn)有些方面很重要(圖像分辨率和編碼器大小/數(shù)據(jù)),而其他方面其實(shí)不重要(連接器設(shè)計(jì))。
在訓(xùn)練模型時(shí),他們還嘗試混合不同類型的數(shù)據(jù)。比如加有字幕的圖形、文本和圖片混合在一起的文檔以及純文本。關(guān)鍵似乎要有多樣性——這有助于模型處理不同的情況,比如描述圖像或回答問(wèn)題。
當(dāng)他們把這一切結(jié)合在一起,使模型變得非常大(300億參數(shù))時(shí),它最擅長(zhǎng)從僅僅幾個(gè)例子中學(xué)習(xí)。它擁有一些出色的功能,比如針對(duì)多個(gè)圖像進(jìn)行推理、讀取圖像中的文本,甚至解釋自己的輸出。
簡(jiǎn)而言之,秘密武器是有意地處理模型組件和訓(xùn)練數(shù)據(jù)。通過(guò)分享這一秘訣,這些研究人員正在為新一代功能強(qiáng)大的多模態(tài)AI系統(tǒng)鋪平道路。
批判性分析
不妨考慮一下MM1研究工作的幾處注意事項(xiàng)和限制:
- 評(píng)估基準(zhǔn):論文作者特別指出,當(dāng)前的評(píng)估集以字幕為中心。為此優(yōu)化的模型可能無(wú)法推廣到其他多模態(tài)任務(wù)。我們需要更多樣化的基準(zhǔn)。
- 擴(kuò)展定律:將超參數(shù)外推到更大的規(guī)模有風(fēng)險(xiǎn)。可能會(huì)出現(xiàn)小規(guī)模測(cè)試中并未出現(xiàn)的穩(wěn)定性問(wèn)題。在訓(xùn)練大模型時(shí),需要仔細(xì)監(jiān)控。
- 合成數(shù)據(jù):雖然合成字幕有幫助,但生成的數(shù)據(jù)有限制。過(guò)度優(yōu)化可能會(huì)導(dǎo)致奇怪的失效模式。使用須謹(jǐn)慎。
- 偏見/公平性:沒(méi)有分析輸出或訓(xùn)練數(shù)據(jù)中的社會(huì)偏見。為了負(fù)責(zé)任的部署,這需要仔細(xì)審查,尤其是針對(duì)從網(wǎng)上抓取的數(shù)據(jù)。
- 硬件訪問(wèn):消融使用了一個(gè)有12億參數(shù)的型號(hào),但最終系統(tǒng)是300億參數(shù)。在算力有限的情況下,獲得的見解可能不太適用。我們還需要研究“小模型”設(shè)計(jì)。
論文作者確實(shí)承認(rèn)有改進(jìn)的余地,比如擴(kuò)展視覺(jué)編碼器、改進(jìn)視覺(jué)語(yǔ)言橋接和迭代評(píng)估套件。
除了研究人員承認(rèn)的局限性外,本人認(rèn)為關(guān)于MM1方法還有一些更深層次的問(wèn)題值得討論。比如說(shuō),嚴(yán)重依賴從網(wǎng)上抓取的數(shù)據(jù)讓人們對(duì)訓(xùn)練集的代表性和潛在偏見引發(fā)擔(dān)憂。同樣值得考慮的是,這里確定的特定架構(gòu)選擇和擴(kuò)展定律是否可以推廣到視覺(jué)和語(yǔ)言之外的其他模態(tài),或者擴(kuò)大到更開放的生成式任務(wù)。在這個(gè)領(lǐng)域參與這些更廣泛的辯論將加強(qiáng)這項(xiàng)研究工作的影響。
結(jié)論
我們能從蘋果的MM1論文中學(xué)到什么呢?
首先,這篇論文為訓(xùn)練高性能的多模態(tài)模型提供了更清晰的路線圖。如果深思熟慮架構(gòu)和數(shù)據(jù)選擇,并認(rèn)真擴(kuò)展,我就能發(fā)掘出色的小樣本學(xué)習(xí)和推理能力。
其次,論文提出了該領(lǐng)域的關(guān)鍵的開放性問(wèn)題。我們?nèi)绾谓⑷鏈y(cè)試多模態(tài)技能的基準(zhǔn)?對(duì)于通用模型來(lái)說(shuō),數(shù)據(jù)模式和任務(wù)的正確組合是什么?在保持性能的情況下,我們又可以將模型尺寸做得多???
三是,論文為基礎(chǔ)多模態(tài)模型方面的開放研究確立了新標(biāo)準(zhǔn)。通過(guò)詳細(xì)介紹訓(xùn)練過(guò)程和釋放消融,作者使業(yè)界能夠復(fù)制和擴(kuò)展他們的研究工作。這對(duì)加快整個(gè)行業(yè)的進(jìn)展至關(guān)重要。
展望未來(lái),MM1論文有望成為多模態(tài)AI研究領(lǐng)域的一塊重要里程碑。通過(guò)為模型設(shè)計(jì)和訓(xùn)練提供嚴(yán)謹(jǐn)的經(jīng)驗(yàn)基礎(chǔ),論文為該領(lǐng)域的未來(lái)發(fā)展奠定了基礎(chǔ)。雖然它是否會(huì)帶來(lái)類似于GPT-4的變革性影響還有待觀察,但本文給人的見解可以指導(dǎo)研究人員繼續(xù)推動(dòng)多模態(tài)系統(tǒng)的最高性能。當(dāng)然,實(shí)現(xiàn)這個(gè)潛力將需要持續(xù)的努力來(lái)利用和擴(kuò)展這些發(fā)現(xiàn)結(jié)果,同時(shí)也竭力解決上面強(qiáng)調(diào)的局限性和開放性問(wèn)題。
就本人而言,我很期待看到這方面會(huì)帶來(lái)怎樣的發(fā)展。
原文標(biāo)題:Apple is working on multimodal AI. Here's what they've uncovered so far,作者:Mike Young