「知識型圖像問答」微調也沒用?谷歌發(fā)布搜索系統(tǒng)AVIS:少樣本超越有監(jiān)督PALI,準確率提升三倍
在大型語言模型(LLM)的加持下,與視覺結合的多模態(tài)任務,如圖像描述、視覺問答(VQA)和開放詞匯目標識別(open-vocabulary object detection)等都取得了重大進展。
不過目前視覺語言模型(VLM)基本都只是利用圖像內的視覺信息來完成任務,在inforseek和OK-VQA等需要外部知識輔助問答的數(shù)據(jù)集上往往表現(xiàn)不佳。
最近谷歌發(fā)表了一個全新的自主視覺信息搜索方法AVIS,利用大型語言模型(LLM)來動態(tài)地制定外部工具的使用策略,包括調用API、分析輸出結果、決策等操作為圖像問答提供關鍵知識。
論文鏈接:https://arxiv.org/pdf/2306.08129.pdf
AVIS主要集成了三種類型的工具:
1. 從圖像中提取視覺信息的工具
2. 檢索開放世界知識和事實的網絡搜索工具
3. 檢索視覺上相似的圖像搜索工具
然后使用基于大型語言模型的規(guī)劃器在每個步驟中選擇一個工具和查詢結果,動態(tài)地生成問題答案。
模擬人類決策
Infoseek和OK-VQA數(shù)據(jù)集中的許多視覺問題甚至對人類來說都相當難,通常需要各種外部工具的輔助,所以研究人員選擇先進行一項用戶調研,觀察人類在解決復雜視覺問題時的解決方案。
首先為用戶配備一組可用的工具集,包括PALI,PALM和網絡搜索,然后展示輸入圖像、問題、檢測到的物體裁剪圖、圖像搜索結果的鏈接知識圖譜實體、相似的圖像標題、相關的產品標題以及圖像描述。
然后研究人員對用戶的操作和輸出進行記錄,并通過兩種方式來引導系統(tǒng)做出回答:
1. 通過分析用戶做出的決策序列來構建轉換圖,其中包含不同的狀態(tài),每個狀態(tài)下的可用操作集都不同。
AVIS轉換圖
例如在開始狀態(tài)下,系統(tǒng)只能執(zhí)行三個操作:PALI描述、PALI VQA或目標檢測。
2. 使用人類決策的樣例來引導規(guī)劃器(planner)和推理器(reasoner)與相關的上下文實例,來提高系統(tǒng)的性能和有效性。
總體框架
AVIS方法采用了一個動態(tài)的決策策略,旨在響應視覺信息尋求查詢。
該系統(tǒng)有三個主要組成部分:
1. 規(guī)劃器(planner),用來確定后續(xù)操作,包括適當?shù)腁PI調用以及需要處理的查詢。
2. 運行記憶(working memory)工作內存,保留了從API執(zhí)行中獲得的結果信息。
3. 推理器(reasoner),用來處理API調用的輸出,可以確定所獲得的信息是否足以產生最終響應,或者是否需要額外的數(shù)據(jù)檢索。
每次需要決定使用哪個工具以及向系統(tǒng)發(fā)送哪些查詢時,規(guī)劃器都要執(zhí)行一系列操作;基于當前狀態(tài),規(guī)劃器還會提供潛在的后續(xù)動作。
為了解決由于潛在的動作空間可能過多,導致搜索空間過大的問題,規(guī)劃器需要參考轉換圖來消除不相關的動作,排除之前已經采取并存儲在工作記憶中的動作。
然后由規(guī)劃器從用戶研究數(shù)據(jù)中組裝出一套上下文示例,結合之前工具交互的記錄,由規(guī)劃器制定提示后輸入到語言模型中,LLM再返回一個結構化的答案,確定要激活的下一個工具以及派發(fā)的查詢。
整個設計流程可以多次調用規(guī)劃器,從而促進動態(tài)決策,逐步生成答案。
研究人員使用推理器來分析工具執(zhí)行的輸出,提取有用的信息,并決定工具輸出哪個類別:提供信息的、不提供信息的或最終答案。
如果推理器返回結果是「提供答案」,則直接輸出作為最終結果,結束任務;如果結果是無信息,則退回規(guī)劃器,并基于當前狀態(tài)選擇另一個動作;如果推理器認為工具輸出是有用的,則修改狀態(tài)并將控制權轉移回規(guī)劃器,以在新狀態(tài)下做出新的決定。
AVIS采用動態(tài)決策策略來響應視覺信息搜索查詢
實驗結果
工具集合
圖像描述模型,使用PALI 17B模型為輸入圖像和檢測到的物體裁剪圖像生成描述。
視覺問題回答模型,使用 PALI 17B VQA 模型,將圖像和問題作為輸入,并將基于文本的答案作為輸出。
物體檢測,使用在Open Images數(shù)據(jù)集的超集上訓練的物體檢測器,具體類別Google Lens API提供;使用高置信度閾值,只保留 輸入圖像中排名靠前的檢測框。
圖像搜索,利用Google Image Search來獲取與檢測到的方框的圖像裁剪相關的信息。
在進行決策時,規(guī)劃器將每條信息的利用都視為一項單獨的操作,因為每條信息可能包含數(shù)百個token,需要進行復雜的處理和推理。
OCR,在某些情況下,圖像可能包含文字內容,如街道名稱或品牌名稱,使用Google Lens API 中的光學字符識別(OCR)功能獲取文本。
網絡搜索,使用谷歌搜索API,輸入為文本查詢,輸出包括相關文檔鏈接和片段、提供直接答案的知識圖譜面板、最多五個與輸入查詢相關的問題。
實驗結果
研究人員在Infoseek和OK-VQA數(shù)據(jù)集上對AVIS框架進行了評估,從結果中可以看到,即使是健壯性非常好的視覺語言模型,如OFA和PALI模型,在Infoseek數(shù)據(jù)集上進行微調后也無法獲得高準確性。
而AVIS方法在沒有微調的情況下,就實現(xiàn)了50.7%的準確率。
在OK-VQA數(shù)據(jù)集上,AVIS系統(tǒng)在few-shot設置下實現(xiàn)了60.2%的準確率,僅次于微調后的PALI模型。
性能上的差異可能是由于OK-VQA中的大多數(shù)問答示例依賴于常識知識而非細粒度知識,所以PALI能夠利用到在模型參數(shù)中編碼的通用知識,不需要外部知識的輔助。
AVIS的一個關鍵特性是能夠動態(tài)地做出決策,而非執(zhí)行固定的序列,從上面的樣例中可以看出AVIS在不同階段使用不同工具的靈活性。
值得注意的是,文中推理器設計使AVIS能夠識別不相關的信息,回溯到以前的狀態(tài),并重復搜索。
例如,在關于真菌分類學的第二個例子中,AVIS最初通過選擇葉子對象做出了錯誤的決定;推理器發(fā)現(xiàn)與問題無關后,促使AVIS重新規(guī)劃,然后成功地選擇了與假火雞尾真菌有關的對象,從而得出了正確的答案,Stereum
結論
研究人員提出了一種新的方法AVIS,將LLM作為裝配中心,使用各種外部工具來回答知識密集型的視覺問題。
在該方法中,研究人員選擇錨定在從用戶研究中收集的人類決策數(shù)據(jù),采用結構化的框架,使用一個基于LLM的規(guī)劃器,動態(tài)地決定工具選擇和查詢形成。
LLM驅動的推理器可以從所選工具的輸出中處理和提取關鍵信息,迭代地使用規(guī)劃器和推理器來選擇不同的工具,直到收集出回答視覺問題所需的所有必要信息。