自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

馬毅LeCun謝賽寧曝出多模態(tài)LLM重大缺陷！開創(chuàng)性研究顯著增強視覺理解能力

作者：新智元 2024-01-18 13:39:00

人工智能新聞

來自紐約大學和UC伯克利的研究團隊成功捕捉到了多模態(tài)大模型在視覺理解方面存在的重大缺陷。針對這個問題，他們進一步提出了一個將DINOv2特征與CLIP特征結合的方法，有效地提升了多模態(tài)大模型的視覺功能。

Sam Altman在各種場合都提到，大語言模型的多模態(tài)能力，是未來AI技術能夠造福人類的最亟待突破的領域。

那么現(xiàn)在在多模態(tài)大模型的視覺功能能否達到與語言功能匹配的水平？

當前多模態(tài)模型取得的進步很大程度上歸功于大語言模型（LLM）的推理能力。但在視覺方面，模型往往只基于實例級別的對比語言-圖像預訓練（CLIP）。

最近，來自紐約大學和UC伯克利的團隊研究表明，多模態(tài)大語言模型（MLLM）在視覺處理方面仍存在普遍性的缺陷。

其中，團隊成員堪稱「豪華」，除了領隊謝賽寧外，共同參與還有馬毅和LeCun兩位大佬。

論文地址：https://arxiv.org/abs/2401.06209

開源項目：https://github.com/tsb0601/MMVP

在一些特殊場景之下，很多MLLM對于圖像內容識別能力甚至不如隨機瞎猜。

在很多人類能夠輕易答對的圖像識別問題上，多模態(tài)大模型表現(xiàn)卻非常掙扎：

GPT-4V：老鷹只有一只眼。

GPT-4V：車門是關著的。

GPT-4V：蝴蝶的腳看不見。

GPT-4V：校車是背向鏡頭的。

GPT-4V：紅心的邊框是深色的。

研究人員提出了一種造成這種視覺缺陷最關鍵的原因：「對比語言-圖像預訓練盲對（CLIP-blind pairs）」——發(fā)現(xiàn)CLIP嵌入中的識別不準確，最主要是來源于那些視覺上不同，但由CLIP模型編碼卻很相似的圖像。

進一步地，研究團隊評估了SOTA開源模型（LLaVA-1.5、InstructBLIP、Mini-GPT4）和閉源模型（GPT-4V、Gemini、Bard）在這一類圖像中的識別能力。

再結合與人類的視覺能力對比，發(fā)現(xiàn)多模態(tài)LLM和人類視覺能力之間存在顯著的性能差距。

除GPT-4V和Gemini之外的模型得分都低于隨機猜測水平（25%）。最先進的GPT-4V和Gemini在解決這類基本視覺基礎問題上表現(xiàn)也很不理想。

在此基礎之上，研究人員嘗試解決這個問題。

他們最終提出了「交錯特征混合（Interleaved-MoF）」方法來利用CLIP和DINOv2嵌入的優(yōu)勢來增強圖像表征。

證明了將視覺自監(jiān)督學習特征與MLLM集成起來可以顯著增強LLM的視覺基礎能力。

他們從CLIP和DINOv2中獲取經過處理的特征，并在保持其原始空間順序的同時對它們進行交錯混合。

「交錯特征混合（Interleaved-MoF）」顯著增強了視覺基礎能力，在MMVP基準中獲得了10.7%的能力增強，同時還不影響模型遵循指令的能力。

這個實驗在LLaVA-1.5設置和各種圖像分辨率設置下能夠重復，也能獲得相似的性能提升。

CLIP模型的視覺模式

具體來說，研究人員辨識出CLIP無法識別的圖像對（CLIP-blind pairs）之后，他們梳理了一些系統(tǒng)性的視覺模式，這些模式往往會讓CLIP視覺編碼器產生誤解。

他們參考了MMVP基準測試中的問題和選項。通過這些問題，把圖像中難以捉摸的視覺模式轉換成了更加清晰、易于歸類的基于語言的描述。

研究人員總結出的9種視覺模式如下：

朝向和方向

某個特征是否出現(xiàn)

某種狀態(tài)和條件

數(shù)量的問題

顏色和外觀

位置和上下文

結構特征

文字

不同的視角

在此基礎之上，研究人員引入了一個新的基準：MMVP-VLM，可以系統(tǒng)地研究CLIP模型是否能很好地處理這些視覺模式。

研究人員將MMVP基準測試中的問題子集提煉成更簡單的語言描述，并將它們分類為視覺模式。為了保持每個視覺模式的問題數(shù)量平衡，他們會根據(jù)需要添加一些問題，以確保每個視覺模式由15個文本-圖像對表示。

擴大CLIP規(guī)模無助于解決視覺模式問題

隨著時間推移，CLIP模型經歷了發(fā)展和規(guī)模擴大。研究人員在一系列不同的CLIP模型上進行了MMVP的評估。

這些模型在大小、訓練數(shù)據(jù)和方法學等方面各有不同。

下表顯示，盡管增加網絡規(guī)模和訓練數(shù)據(jù)對于識別「顏色和外觀」以及「狀態(tài)和條件」這兩種視覺模式有所幫助，但其他的視覺模式仍然是對所有基于CLIP的模型的一大挑戰(zhàn)。

提高模型處理的圖像分辨率后，模型的改善程度十分有限，但當增加模型網絡的規(guī)模時，可以看到一定程度的性能提升。

多模態(tài)大語言模型（MLLM）的缺陷

CLIP的表現(xiàn)不佳與MLLM的視覺缺陷之間有關系嗎？

為了探索這一點，研究人員將MMVP中的問題分類為總結的這些視覺模式，并得到了每個MLLM在這些模式上的表現(xiàn)。

當CLIP視覺編碼器在特定視覺模式上的表現(xiàn)不佳時，MLLM型通常也會顯示出相似的不足。

例如，那些明確采用CLIP視覺編碼器的開源模型，比如LLaVA 1.5和InstructBLIP，它們的表現(xiàn)之間有著密切的相關性。

如果CLIP在處理諸如「方向」這類視覺模式時效果欠佳，那么MLLM在同樣的視覺模式識別上也同樣難以達到預期的性能。

此外，研究人員計算了CLIP模型和MLLM在每種視覺模式上的表現(xiàn)之間的Pearson Correlation。結果入下表顯示，LLaVA 1.5和InstructBLIP的系數(shù)得分均大于0.7。

這個高分表明CLIP模型中視覺模式識別的弱點與MLLM的表現(xiàn)之間存在很強的相關性。

全新特征混合（MoF）方法

如果開源大語言模型在視覺方面的短板源自CLIP視覺編碼器，該如何打造出一個表現(xiàn)更出色的視覺編碼器？

為了回答這個問題，他們研究了一種特征混合（MoF）技術，它將專注于視覺的自監(jiān)督學習（DINOv2）特征與CLIP特征結合在一起。

在大語言模型中采用不同的特征混合（MoF）策略。左圖：標準的大語言模型采用現(xiàn)成的CLIP預訓練視覺編碼器；中圖：加性特征混合（A-MoF）大語言模型：在適配器前將CLIP和DINOv2特征進行線性混合；右圖：交錯特征混合（I-MoF MLLM）在適配器后將CLIP視覺Token和DINOv2視覺Token進行空間交錯。

只依賴視覺的自監(jiān)督學習特征：雖提升了視覺識別能力，卻削弱了語言處理性能

研究人員將預訓練的DINOv2編碼器加入到大語言模型中，并與CLIP預訓練編碼器進行了混合，發(fā)現(xiàn)：

1. 隨著DINOv2特征比例的提高，大語言模型在執(zhí)行指令方面的能力開始下降。特別是當DINOv2特征比例達到87.5%時，能力下降尤為顯著。

2. DINOv2特征比例的增加確實提升了模型對視覺信息的理解能力，但當DINOv2比例超過75%后，這一優(yōu)勢開始減弱，并且遵循指令的能力也明顯受到了影響。

「交錯特征混合（Interleaved-MoF）」：融合CLIP和DINOv2特征，發(fā)揮雙方優(yōu)點

最后研究人員提出「交錯特征混合（Interleaved-MoF）方法」，通過將CLIP和DINOv2的特征交錯排列，同時保持它們的原始空間順序，以此來整合兩者的優(yōu)勢，從而增強圖像的表征。

這種交錯特征混合顯著提升了模型對視覺信息的理解能力，在MMVP測試中獲得了10.7%的性能提升，而且模型執(zhí)行指令的能力并沒有受到影響。

這一實驗在LLaVA-1.5的配置以及不同圖像分辨率的條件下都進行了驗證，均得到了類似的性能提升。

交錯特征混合在提升視覺信息理解能力的同時，能夠保持模型執(zhí)行指令能力的穩(wěn)定。

研究人員還評估了POPE，目的是測試視覺基礎中的幻覺。

交錯特征混合方法還顯示出相對于原始LLaVA模型的持續(xù)改進。

僅僅增加圖像分辨率以及因此增加的token數(shù)量并不能提高視覺基礎能力。而交錯特征混合改進了視覺基礎任務中的表現(xiàn)。

研究人員還在MMBench和GQA等其他基準上評估了交錯特征混合方法，發(fā)現(xiàn)交錯特征混合方法在這些基準上也實現(xiàn)了相似的性能。

作者介紹

Shengbang Tong（童晟邦）

Peter Tong（Shengbang Tong，童晟邦）是NYU Courant CS的一名博士生，導師是Yann LeCun教授和謝賽寧教授。

此前，他在加州大學伯克利分校主修計算機科學、應用數(shù)學（榮譽）和統(tǒng)計學（榮譽）。并曾是伯克利人工智能實驗室（BAIR）的研究員，導師是馬毅教授和Jacob Steinhardt教授。

他的研究興趣是世界模型、無監(jiān)督/自監(jiān)督學習、生成模型和多模態(tài)模型。

P.S.馬毅教授還特別鳴謝了Meta對研究給予的巨大支持。

責任編輯：張燕妮來源：新智元

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<legend id="by1mm"><abbr id="by1mm"></abbr></legend><cite id="by1mm"><rp id="by1mm"><form id="by1mm"></form></rp></cite>

<style id="by1mm"></style>