港大字節(jié)提出多模態(tài)大模型新范式,模擬人類先感知后認知,精確定位圖中物體
當前,多模態(tài)大模型 (MLLM)在多項視覺任務上展現(xiàn)出了強大的認知理解能力。
然而大部分多模態(tài)大模型局限于單向的圖像理解,難以將理解的內(nèi)容映射回圖像上。
比如,模型能輕易說出圖中有哪些物體,但無法將物體在圖中準確標識出來。
定位能力的缺失直接限制了多模態(tài)大模型在圖像編輯,自動駕駛,機器人控制等下游領域的應用。
針對這一問題,港大和字節(jié)跳動商業(yè)化團隊的研究人員提出了一種新范式Groma——
通過區(qū)域性圖像編碼來提升多模態(tài)大模型的感知定位能力。
在融入定位后,Groma可以將文本內(nèi)容和圖像區(qū)域直接關(guān)聯(lián)起來,從而顯著提升對話的交互性和指向性。
核心思路
如何賦予多模態(tài)大模型定位物體的能力,乃至于將文字內(nèi)容和圖像區(qū)域關(guān)聯(lián)起來,做到“言之有物”,是當前一大研究熱點。
常見的做法是微調(diào)大語言模型使其直接輸出物體坐標。然而這種方法卻有著諸多限制:
1、在文本上預訓練的大語言模型本身不具備空間理解能力,僅依靠少量數(shù)據(jù)微調(diào)很難精準定位物體。
2、定位任務對輸入圖像的分辨率有較高要求,但提高分辨率會顯著增加多模態(tài)大模型的計算量。
3、大語言模型的輸出形式不適合處理精細的定位任務,比如分割。
基于這些考慮,Groma提出將定位轉(zhuǎn)移到多模態(tài)大模型的vision tokenizer中,由vision tokenizer發(fā)現(xiàn)并定位潛在的物體,再交給大語言模型識別。
同時,這樣的設計也充分利用了vision tokenizer本身的空間理解能力,而無需外接專家模型(比如SAM)來輔助定位,從而避免了外接模型的冗余。
具體而言,Groma在全局圖像編碼的基礎上,引入了區(qū)域編碼來實現(xiàn)定位功能——如下圖所示,Groma先利用Region Proposer定位潛在的物體,再通過Region Encoder將定位到的區(qū)域逐一編碼成region token。
而大語言模型則可以根據(jù)region token的語意判斷其對應的區(qū)域,并通過在輸出中插入region token來達成類似超鏈接的效果,實現(xiàn)visually grounded conversation。
同樣地,用戶指定的區(qū)域也可以通過Region Encoder編碼成相應的region token,并插入到用戶指令中,從而讓多模態(tài)模型能關(guān)注到指定的區(qū)域并產(chǎn)生指向性的回答。
為了提升定位的魯棒性和準確性,Groma采用了超過8M的數(shù)據(jù)(包括SA1B)來預訓練Region Proposer。因此其產(chǎn)生的proposal不僅包括常見的物體,也涵蓋了物體的組成部分以及更廣闊的背景等要素。
此外,得益于分離式的設計,Groma可以采用高分辨率特征圖用于Region Proposer/Encoder的輸入,并采用低分辨率的特征圖用于大模型輸入,從而在降低計算量的同時又不損失定位性能。
實驗結(jié)果
Groma在傳統(tǒng)的Grounding Benchmarks上表現(xiàn)出了超越MiniGPT-v2和Qwen-VL的性能。
同時,Groma在多模態(tài)大模型通用的VQA Benchmark (LLaVA-COCO)驗證了其對話和推理能力。
在可視化的對比中,Groma也表現(xiàn)出了更高的recall和更少的幻覺。
此外,Groma還支持融合對話能力和定位能力的referential dialogue以及grounded chat。
得益于大語言模型強大的認知推理能力,多模態(tài)大模型在視覺理解任務上表現(xiàn)突出。
然而一些傳統(tǒng)的視覺任務,如檢測分割、深度估計等,更多依賴視覺感知能力,這恰恰是大語言模型所缺乏的。
Groma在這個問題上提供了一種新的解決思路,即把感知和認知解耦開來,由vision tokenizer負責感知,大語言模型負責認知。
這種先感知后認知的形式除了更符合人類的視覺過程,也避免了重新訓練大語言模型的計算開銷。
5月15日,字節(jié)跳動剛剛公布了自研的豆包大模型,提供多模態(tài)能力,下游支持豆包APP、扣子、即夢等50+業(yè)務,并通過火山引擎開放給企業(yè)客戶,助力企業(yè)提升效率、加速智能化創(chuàng)新。目前,豆包APP已成為中國市場用戶量最大的AIGC應用。字節(jié)跳動正持續(xù)加大對頂尖人才和前沿技術(shù)的投入力度,參與行業(yè)頂尖的技術(shù)挑戰(zhàn)和攻堅。
項目網(wǎng)站:
???https://groma-mllm.github.io???
論文鏈接:
???https://arxiv.org/abs/2404.13013???
開源代碼:
???https://github.com/FoundationVision/Groma??
本文轉(zhuǎn)自 量子位 ,作者:量子位
