GPT-4V慘??!CV大神謝賽寧新作:V*重磅「視覺搜索」算法讓LLM理解力逼近人類
Sam Altman最近在世界經濟論壇上發(fā)言,稱達到人類級別的AI很快就會降臨。
但是,正如LeCun一直以來所言,如今的AI連貓狗都不如。現(xiàn)在看來的確如此。
GPT-4V、LLaVA等多模態(tài)模型圖像理解力足以讓人驚嘆。但是,它們并非真的能夠做的面面俱到。
CV大神謝賽寧稱有一個問題讓自己徹夜難眠——
不論分辨率或場景復雜程度如何,凍結的視覺編碼器通常只能「提取一次」全局圖像token。
舉個栗子,一張雜亂的桌面上放了一個「星巴克」陶瓷杯,而且logo圖案僅漏出一半的情況下。
對此,GPT-4V卻無法正確識別出來,還產生了幻覺。
再比如,圖片中小孩的鞋子是什么顏色這樣直觀的問題。
GPT-4V給出了「白色」的答案。
為了解決這個LLM圖像理解的隱疾,「視覺搜索」這一關鍵方法能夠為大模型提供視覺信息。
對此,來自UC San Diego和紐約大學的研究人員提出了V*——引導視覺搜索作為多模態(tài)LLM的核心機制。
論文地址:https://arxiv.org/pdf/2312.14135.pdf
具體來說,研究人員將VQA LLM與視覺搜索模型相結合。
借助大模型的世界知識,V*對視覺目標進行多輪引導搜索。它能夠提取局部特征,并將其添加到工作記憶中,然后,VQA LLM利用搜索到的數(shù)據(jù)生成最終反應。
有網友表示, V*模型和論文,在我看來意義重大。
就比如,GPT-4V無法解決的「谷歌機器人驗證」,V*就可以直接找到遺漏的最后一個交通燈。
「視覺搜索」神助攻
實現(xiàn)「人類智能」的標志之一,便是能夠處理和整合多感官信息,從而完成復雜的任務。
在我們涉及視覺信息的認知推理過程中,「視覺搜索」無處不在,即在雜亂的桌子上尋找鑰匙,或在人群中尋找朋友。
此外,對于需要多個推理步驟的復雜任務來說,「視覺搜索」也是一個不可或缺的步驟。
受人類能力的啟發(fā),研究人員提出了SEAL(Show、SEArch和TelL),這是一種通用元架構,用于將LLM引導的視覺搜索機制集成到MLLM中,以解決模型的視覺限制。
再如上,GPT-4V識圖失敗的栗子,SEAL便可輕松完成。
一堆毛絨玩具中,一個猩猩抱著什么樂器?
GPT-4V:薩克斯
SEAL:吉他
繁華的都市中,一位男子手中提了一打礦泉水的瓶子是什么logo?
GPT-4V:看不清
SEAL:依云
還有行李箱上的小掛件是哪家公司的?
GPT-4V:Rubbermaid Commercial
SEAL:英特爾
在一個更直觀的中,籃球運動員的球衣數(shù)字是幾號?
GPT-4V:10
SEAL:8
類似的例子還是有很多,看得出不論是簡單的,還是復雜的視圖中,GPT-4V全軍覆沒。
那么,SEAL框架是由何構成的?
SEAL框架+V*視覺搜索算
具體來說,SEAL框架由「VQA LLM」和「視覺搜索模型」兩部分組成。
典型的MLLM模型可能會由于視覺編碼器的信息不足,而拒絕回答或瞎猜(即幻覺)。
與之不同,SEAL中的VQA LLM可以明確地查明缺失的視覺細節(jié),從而為以下對象創(chuàng)建目標對象重點。
然后,利用豐富的世界知識和語言模型的常識,視覺搜索組件定位這些已識別的元素,并將它們添加到視覺工作記憶(VWM)中。
VWM中的這些附加視覺數(shù)據(jù),使VQA語言模型能夠提供更準確、更明智的響應。
左側部分代表VQA LLM,它利用視覺工作記憶中的所有數(shù)據(jù)來回答問題。右側展示了V*視覺搜索算法流程
值得一提的是,SEAL的適應性使其能夠與各種MLLM基礎模型配合使用。
在論文的例子中,研究人員使用LLaVA作為視覺搜索模型中的VQA LLM和MLLM。
借助這種新的視覺搜索功能,MLLM能夠更好地處理,在高分辨率圖像中進行準確視覺基礎的情況。
人類的視覺搜索過程受自上而下的特征引導和上下文場景引導,因此作者設計了一種名為V*引導視覺搜索算法,其視覺搜索模型也遵循類似的原則。
對于人類來說,這種引導主要來自于他們對物理世界的知識和經驗。
因此,這一視覺搜索模型是建立在另一個MLLM的基礎上的,它涵蓋了關于世界的大量常識性知識,并能根據(jù)這些知識有效推理出目標在場景中的可能位置。
實驗評估
現(xiàn)有的MLLM基準主要側重于,提供跨各種任務類別的綜合評估,并且沒有充分挑戰(zhàn)上述當前范式的具體局限性。
為了彌補這一差距并評估全新框架,作者引入了V–Bench,這是一種新的專用VQA基準,專注于高分辨率圖像的視覺基礎。
V-Bench是一個以視覺為中心的基準測試,要求多模態(tài)模型準確地提供特定的視覺信息,而這些信息很容易被缺乏視覺搜索功能的標準靜態(tài)視覺編碼器所忽視。
在圖像和視頻等豐富而復雜的視覺內容日益占據(jù)主導地位的世界中,MLLM能夠積極關注關鍵視覺信息以完成復雜的推理任務至關重要。
該基準旨在強調這一基本機制的重要性,并指導MLLM的進化,以反映人類認知固有的多模態(tài)處理和推理能力。
如下是,V–Bench上不同搜索策略的評估結果。
在具體消融實驗中,使用了V*算法的Vicuna-7B的模型表現(xiàn)更優(yōu)。
最后,視覺搜索幾十年來一直是cogsci/視覺科學的核心問題。有趣的是,與人眼注視相比,LLM引導V*可以達到與人類視覺搜索相當?shù)男剩?/span>
LLM引導視覺搜索的過程如下。
作者介紹
Penghao Wu
Penghao Wu目前是加州大學圣迭戈分校計算機科學專業(yè)的碩士研究生。他于2018年在上海交通大學獲得電氣與計算機工程學士學位。從2023年6月開始,他便成為紐約大學研究實習生,導師是謝賽寧。
Saining Xie(謝賽寧)
謝賽寧目前是紐約大學計算機科學助理教授。據(jù)個人主頁介紹,他本科畢業(yè)于上海交通大學,18年獲加州大學圣迭戈分校CS博士學位。
畢業(yè)后,便在Facebook AI Research(FAIR)擔任研究科學家。
他還曾與何愷明大神共同提出了用于圖像分類的簡單、高度模塊化的網絡結構ResNeXt,這篇論文發(fā)表在了CVPR 2017上。