蘋(píng)果開(kāi)源視覺(jué)模型界的“瑞士軍刀”,能執(zhí)行數(shù)十種任務(wù)
蘋(píng)果和瑞士洛桑聯(lián)邦理工學(xué)院的研究人員聯(lián)合開(kāi)源了大規(guī)模多模態(tài)視覺(jué)模型——4M-21。
多數(shù)大模型通常針對(duì)特定任務(wù)或數(shù)據(jù)類(lèi)型進(jìn)行優(yōu)化,這種專(zhuān)業(yè)化雖然能確保在特定領(lǐng)域的高性能,但也限制了模型的通用性和靈活性。
例如,開(kāi)源模型Stable Difusion只能用于文生圖,即便是Gemini這種多模態(tài)模型,也只能生成和解讀圖片。
而4M-21只有30億參數(shù),卻可以提供圖像分類(lèi)、目標(biāo)檢測(cè)、語(yǔ)義分割、實(shí)例分割、深度估計(jì)、表面法線(xiàn)估計(jì)等數(shù)十種功能,基本相當(dāng)于視覺(jué)模型界的“瑞士軍刀”功能很全面。
開(kāi)源地址:https://github.com/apple/ml-4m/
論文地址:https://arxiv.org/abs/2406.09406
在線(xiàn)demo:https://huggingface.co/spaces/EPFL-VILAB/4M
4M-21能提供如此多的功能,其關(guān)鍵核心技術(shù)是“離散tokens”轉(zhuǎn)換技術(shù)。簡(jiǎn)單來(lái)說(shuō),就是將各種模態(tài)的數(shù)據(jù)轉(zhuǎn)換為統(tǒng)一格式的tokens序列數(shù)據(jù)。
無(wú)論是圖像類(lèi)數(shù)據(jù)、神經(jīng)網(wǎng)絡(luò)特征圖、向量、結(jié)構(gòu)化數(shù)據(jù)(實(shí)例分割或人體姿態(tài)),還是以文本形式表示的數(shù)據(jù),都可以轉(zhuǎn)換成模型可以理解的同一數(shù)據(jù)格式。
這不僅簡(jiǎn)化了模型的訓(xùn)練,還將原本形態(tài)各異的數(shù)據(jù)被映射到一個(gè)共享的、易于處理的表示空間,為多模態(tài)學(xué)習(xí)和處理奠定了基礎(chǔ)。
對(duì)于圖像類(lèi)數(shù)據(jù),例如,邊緣檢測(cè)圖或特征圖,研究人員使用了基于Vision Transformer的變分量化自編碼器進(jìn)行標(biāo)記化,生成一個(gè)固定大小的小網(wǎng)格tokens陣列。
對(duì)于那些需要高保真度重建的任務(wù),例如,RGB圖像,會(huì)采用擴(kuò)散解碼器來(lái)增強(qiáng)視覺(jué)細(xì)節(jié)的恢復(fù)。
而對(duì)于非空間模態(tài),全局嵌入或參數(shù)化的人體姿態(tài)等,則利用Bottleneck MLP和Memcodes量化方法將其壓縮成少量的離散tokens。
至于文本、邊界框、顏色調(diào)色板或元數(shù)據(jù)等序列數(shù)據(jù),則通過(guò)WordPiece分詞器編碼為文本tokens,利用共享的特殊tokens來(lái)標(biāo)識(shí)它們的類(lèi)型和值。
在訓(xùn)練階段,4M-21通過(guò)掩碼建模的方法來(lái)完成多模態(tài)學(xué)習(xí),會(huì)隨機(jī)遮蓋輸入序列中的部分tokens,然后基于剩余未遮蓋的tokens預(yù)測(cè)被遮蓋的部分。
這種方法迫使模型學(xué)習(xí)輸入數(shù)據(jù)的統(tǒng)計(jì)結(jié)構(gòu)和潛在關(guān)系,從而捕捉到不同模態(tài)間的信息共通性和交互性。
此外,掩碼建模不僅提升了模型的泛化能力,還提升了生成任務(wù)的準(zhǔn)確性,能夠以迭代的方式預(yù)測(cè)缺失的tokens。
無(wú)論是通過(guò)自回歸(逐個(gè)預(yù)測(cè))還是逐步解碼(逐步揭示遮蓋部分)的方式。使得模型在解碼過(guò)程中能夠生成連貫的輸出序列,包括生成文本、圖像特征或其他模態(tài)的數(shù)據(jù),從而支持多模態(tài)處理能力。
研究人員將4M-21在圖像分類(lèi)、目標(biāo)檢測(cè)、語(yǔ)義分割、實(shí)例分割、深度估計(jì)、表面法線(xiàn)估計(jì)以及3D人體姿態(tài)估計(jì)等測(cè)試平臺(tái)中進(jìn)行了綜合評(píng)測(cè)。
結(jié)果顯示,4M-21的多模態(tài)處理能力可以媲美當(dāng)前最先進(jìn)的模型。例如,在COCO數(shù)據(jù)集上,在語(yǔ)義和實(shí)例分割任務(wù)上表現(xiàn)出色,準(zhǔn)確識(shí)別和區(qū)分圖像中的多個(gè)對(duì)象;
在3DPW數(shù)據(jù)集上的3D人體姿態(tài)估計(jì)任務(wù)中也取得了顯著的成績(jī),能夠精確捕捉人體的姿態(tài)變化。
本文轉(zhuǎn)自 AIGC開(kāi)放社區(qū) ,作者:AIGC開(kāi)放社區(qū)
