自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

將所有有用的信息整合到一張圖片中:大型多模態(tài)模型能夠進行圖片內(nèi)的學習

發(fā)布于 2024-3-28 12:00
瀏覽
0收藏

將所有有用的信息整合到一張圖片中:大型多模態(tài)模型能夠進行圖片內(nèi)的學習-AI.x社區(qū)

論文題目:

All in a Single Image: Large Multimodal Models are In-Image Learners

論文鏈接:

??https://arxiv.org/abs/2402.17971??

開源鏈接:

https://github.com/AGI-Edgerunners/In-Image Learning

01 動機和背景

?

近年來,大語言模型取得了顯著的成功。盡管 GPT-4V 有強大的文本理解和圖片輸入能力,但仍存在許多問題。例如,在讀取一張復雜圖片時,無法完全理解圖像中呈現(xiàn)的信息。在本文中,我們提出了一種新的上下文學習機制——In-Image Learning,它將所有可能有用的信息,包括樣例,視覺線索和思維鏈等等整合在一張圖片上,有助于釋放 GPT-4V 的性能。

將所有有用的信息整合到一張圖片中:大型多模態(tài)模型能夠進行圖片內(nèi)的學習-AI.x社區(qū)

02 方法

  1. T-ICL with additional image-to-text models(T-ICL-Img):為了將大型語言模型(LLMs)從自然語言處理(NLP)任務適配到多模態(tài)任務,一個常見的策略是將相應的圖像轉(zhuǎn)換成文本描述。

2. Visual-text interleaved in-context learning(VT-ICL):盡管 T-ICL-Img 取得了顯著的效果,但在將視覺輸入轉(zhuǎn)換為文本描述時存在丟失信息的風險。

為了避免這個問題,可以為上下文學習準備交錯的圖文對,直接整合到大語言模型(LLMs)中。

  1. In-Image Learning(IIL):GPT-4V 在理解圖像中的符號和數(shù)字等視覺線索方面具有很高的熟練度。


在本文中,我們將樣例范本、視覺線索、思維鏈整合在一張圖片上。將有價值的信息整合到單一圖像中提供了三個主要好處。


首先,它有效地傳達了僅憑文字無法準確描述的復雜圖像。其次,它允許信息被放置在圖像的任何位置,不像之前的上下文學習方法那樣對信息的排序敏感。第三,僅使用一個圖像作為輸入減少了對冗長輸入的需求,從而減輕了輸入負擔并避免超出大模型(LMMs)的輸入限制(注意:我們沒有包含任何提示在測試樣本上)。


  1. Selection:本文提出的 In-Image Learning 擅長處理僅用文本無法準確描述的復雜圖像,而 VT-ICL 能更好地利用文本信息來提升那些可以被文本輕易描述的圖像的性能。


為了結(jié)合這兩種方法的優(yōu)點,我們使用 GPT-4V 作為一種選擇器。首先提示 GPT-4V 為給定數(shù)據(jù)示例的圖像生成描述。然后讓 GPT-4V 根據(jù)生成的描述與圖像進行對比打分,范圍從 1 到 4 分。1 或 2 分表明圖像難以描述,使其更適合 In-Image Learning 方法,3 或 4 分表明圖像易于描述,使用 VT-ICL 方法更適合這個數(shù)據(jù)示例。

將所有有用的信息整合到一張圖片中:大型多模態(tài)模型能夠進行圖片內(nèi)的學習-AI.x社區(qū)


03 實驗結(jié)果

我們在3個數(shù)據(jù)集上進行了測試,分別是:(1)MathVista;(2)HallusionBench;(3)VQA.

MathVista minitest 數(shù)據(jù)集上不同方法和模型上的測試結(jié)果如下:

將所有有用的信息整合到一張圖片中:大型多模態(tài)模型能夠進行圖片內(nèi)的學習-AI.x社區(qū)

HallusionBench 數(shù)據(jù)集上不同方法和模型上的測試結(jié)果如下:

將所有有用的信息整合到一張圖片中:大型多模態(tài)模型能夠進行圖片內(nèi)的學習-AI.x社區(qū)

VQA 數(shù)據(jù)集在不同方法和模型上的測試結(jié)果如下:

將所有有用的信息整合到一張圖片中:大型多模態(tài)模型能夠進行圖片內(nèi)的學習-AI.x社區(qū)

我們使用 MathVista 數(shù)據(jù)集上的隨機 100 個數(shù)據(jù)進行消融實驗,結(jié)果如下,說明 In-Image Learning 方法能激發(fā) GPT-4V 的潛力。

將所有有用的信息整合到一張圖片中:大型多模態(tài)模型能夠進行圖片內(nèi)的學習-AI.x社區(qū)

此外,我們?yōu)榱颂骄科渌绊懶阅艿囊蛩?。對分辨率比例、示例?shù)量及測試例子位置等各種因素下,使用 VQA 數(shù)據(jù)集進行了測試,結(jié)果如下:

將所有有用的信息整合到一張圖片中:大型多模態(tài)模型能夠進行圖片內(nèi)的學習-AI.x社區(qū)

04 總結(jié)

在本文中,我們提出了 In-Image Learning 的方法,以增強 GPT-4V 的能力。In-Image Learning 將示范例子、視覺線索和指令結(jié)合到單一圖像中。


In-Image Learning 擅長處理復雜圖像,而 VT-ICL 更適合那些可以輕易通過文本描述的圖像。為了在多模態(tài)任務中利用這兩種方法的優(yōu)勢,我們提議使用 GPT-4V 作為選擇器,以確定給定任務中每個多模態(tài)數(shù)據(jù)示例的適當方法。


通過在 MathVista 和 Hallusionbench 上的全面實驗,我們展示了 In-Image Learning 在復雜推理任務中的有效性,以及在減輕語言幻覺和視覺錯覺方面的作用。我們還檢查了圖像分辨率和示范例子位置等因素的影響,進一步凸顯了圖像內(nèi)學習的多功能性和潛力。


對于未來的工作,我們計劃在更多的文字難以描述的任務上驗證 In-Image Learning 的有效性,以及通過訓練的方式來加強 In-Image Learning。


本文轉(zhuǎn)自 PaperWeekly ,作者:讓你更懂AI的


原文鏈接:??https://mp.weixin.qq.com/s/VVNih3IFgIDRJMjP-7trKA??

標簽
收藏
回復
舉報
回復
相關推薦