蘋(píng)果開(kāi)源通用視覺(jué)模型:創(chuàng)新訓(xùn)練方法,超1000顆星
蘋(píng)果的研究人員開(kāi)源了最新通用多模態(tài)視覺(jué)模型AIMv2,有300M、600M、1.2B和2.7B四種參數(shù),整體能耗很低,可以適用于手機(jī)、PC等不同類(lèi)型的設(shè)備。
與傳統(tǒng)視覺(jué)模型不同的是,AIMV2 使用了一種創(chuàng)新的多模態(tài)自回歸預(yù)訓(xùn)練方法,將視覺(jué)與文本信息深度融合,為視覺(jué)模型領(lǐng)域帶來(lái)了新的技術(shù)突破。
簡(jiǎn)單來(lái)說(shuō),就是AIMV2 不再局限于僅處理視覺(jué)信息的傳統(tǒng)模式,而是將圖像和文本整合為統(tǒng)一的序列進(jìn)行預(yù)訓(xùn)練。在這個(gè)過(guò)程中,圖像被劃分為一系列不重疊的Patches,形成圖像token序列。
文本則被分解為子詞令牌序列,然后將兩者拼接在一起。這種獨(dú)特的拼接方式使得文本令牌能夠關(guān)注圖像令牌,實(shí)現(xiàn)了視覺(jué)與文本信息的交互融合。
例如,在處理一張風(fēng)景圖片和相關(guān)描述文字時(shí),AIMV2可以通過(guò)這種融合方式更好地理解圖片中的元素與文字描述之間的對(duì)應(yīng)關(guān)系,包括圖片中的山脈、河流等元素與文字中提及的自然景觀特征的關(guān)聯(lián)。
開(kāi)源地址:https://github.com/apple/ml-aim
Huggingface地址:https://huggingface.co/collections/apple/aimv2-6720fe1558d94c7805f7688c
AIMV2技術(shù)架構(gòu)
在以往的研究中,專(zhuān)家模型被設(shè)計(jì)來(lái)最大化特定任務(wù)的性能,而通用模型則能夠被部署在多個(gè)預(yù)定義的下游任務(wù)中,僅需最小的調(diào)整。
但隨著大語(yǔ)言模型GPT系列的成功,預(yù)訓(xùn)練模型已成為自然語(yǔ)言處理領(lǐng)域的主流范式。這些模型通過(guò)生成預(yù)訓(xùn)練或?qū)Ρ葘W(xué)習(xí)等方法,學(xué)習(xí)了大量的語(yǔ)言表示。在機(jī)視覺(jué)領(lǐng)域,盡管生成預(yù)訓(xùn)練在語(yǔ)言模型中占據(jù)主導(dǎo)地位,但在視覺(jué)模型中的表現(xiàn)卻落后于判別方法。
AIMV2的核心技術(shù)在于其多模態(tài)自回歸預(yù)訓(xùn)練框架。這一框架將圖像和文本整合到一個(gè)統(tǒng)一的序列中,使得模型能夠自回歸地預(yù)測(cè)序列中的下一個(gè)標(biāo)記,無(wú)論它屬于哪種模態(tài)。
在預(yù)訓(xùn)練階段,AIMV2使用一個(gè)因果多模態(tài)解碼器,首先回歸圖像塊,然后以自回歸的方式解碼文本標(biāo)記。這種簡(jiǎn)單的方法有幾個(gè)巨大技術(shù)優(yōu)勢(shì):AIMV2易于實(shí)現(xiàn)和訓(xùn)練,不需要非常大的批量大小或特殊的跨批次通信方法;
AIMV2的架構(gòu)和預(yù)訓(xùn)練目標(biāo)與LLM驅(qū)動(dòng)的多模態(tài)應(yīng)用非常吻合,可以實(shí)現(xiàn)無(wú)縫集成;
AIMV2從每個(gè)圖像塊和文本標(biāo)記中提取訓(xùn)練信號(hào),提供了比判別目標(biāo)更密集的監(jiān)督。
訓(xùn)練流程與測(cè)試數(shù)據(jù)
在預(yù)訓(xùn)練目標(biāo)方面,AIMV2定義了圖像和文本領(lǐng)域的單獨(dú)損失函數(shù)。文本領(lǐng)域的損失函數(shù)是標(biāo)準(zhǔn)的交叉熵?fù)p失,用于衡量每一步中真實(shí)標(biāo)記的負(fù)對(duì)數(shù)似然。圖像領(lǐng)域的損失函數(shù)是像素級(jí)的回歸損失,模型預(yù)測(cè)的圖像塊與真實(shí)圖像塊進(jìn)行比較。
整體目標(biāo)是最小化文本損失和圖像損失的加權(quán)和。這種損失函數(shù)的設(shè)計(jì)旨在平衡模型在圖像和文本兩個(gè)領(lǐng)域的性能,同時(shí)鼓勵(lì)模型學(xué)習(xí)到能夠準(zhǔn)確預(yù)測(cè)兩個(gè)模態(tài)的表示。
AIMV2的預(yù)訓(xùn)練過(guò)程涉及到大量的圖像和文本配對(duì)數(shù)據(jù)集。這些數(shù)據(jù)集不僅包括公開(kāi)的DFN-2B和COYO數(shù)據(jù)集,還包括蘋(píng)果公司的專(zhuān)有數(shù)據(jù)集HQITP。這些數(shù)據(jù)集的結(jié)合為AIMV2提供了豐富的預(yù)訓(xùn)練數(shù)據(jù),使其能夠在多種下游任務(wù)中表現(xiàn)出色。
預(yù)訓(xùn)練過(guò)程中,圖像被劃分為非重疊的圖像塊,文本序列被分解為子詞,然后這些序列被連接起來(lái),允許文本標(biāo)記關(guān)注圖像標(biāo)記。這種處理方式使得AIMV2能夠處理不同分辨率和長(zhǎng)寬比的圖像,提高了模型的靈活性和適應(yīng)性。
在性能測(cè)試方面,AIMV2在多個(gè)領(lǐng)域展現(xiàn)出了卓越的性能。在圖像識(shí)別方面,AIMV2在ImageNet-1k數(shù)據(jù)集上達(dá)到了89.5%的準(zhǔn)確率,這還是在凍結(jié)模型主干的情況下完成的。
此外,與其他視覺(jué)語(yǔ)言預(yù)訓(xùn)練基線模型相比,AIMV2 同樣展現(xiàn)出了高度競(jìng)爭(zhēng)的性能。例如,在ViT-Large容量下,AIMV2 在大多數(shù)基準(zhǔn)測(cè)試中優(yōu)于OAI CLIP,并在 IN-1k、iNaturalist、DTD和 Infographic 等關(guān)鍵基準(zhǔn)測(cè)試中超越了DFN-CLIP 和 SigLIP。
值得注意的是,AIMV2 在訓(xùn)練數(shù)據(jù)量?jī)H為 DFN-CLIP 和 SigLIP 的四分之一(12B vs. 40B)的情況下,仍能取得如此優(yōu)異的成績(jī),且訓(xùn)練過(guò)程更加簡(jiǎn)便、易于擴(kuò)展。
此外,AIMV2在開(kāi)放詞匯對(duì)象檢測(cè)和指代表達(dá)理解等任務(wù)上也表現(xiàn)出色,顯示出其在多模態(tài)任務(wù)中的廣泛適用性。
本文轉(zhuǎn)自 AIGC開(kāi)放社區(qū) ,作者:AIGC開(kāi)放社區(qū)
