視覺指令調優(yōu) 原創(chuàng)
摘要
使用機器生成的指令跟隨數(shù)據(jù)對大型語言模型(LLMs)進行指令調優(yōu)已被證明可以提高其在新任務上的零樣本(zero-shot)能力,但在多模態(tài)領域,這一想法尚未得到充分探索。我們首次嘗試使用純語言的 GPT-4 生成多模態(tài)語言-圖像指令跟隨數(shù)據(jù),并通過在這些生成數(shù)據(jù)上進行指令調優(yōu),引入了 LLaVA:一個連接視覺編碼器和語言模型的端到端訓練的大型多模態(tài)模型,用于通用視覺和語言理解。為了促進未來對視覺指令跟隨的研究,我們構建了兩個具有多樣性和挑戰(zhàn)性的應用導向任務的評估基準。我們的實驗表明,LLaVA 展示了令人印象深刻的多模態(tài)聊天能力,有時在未見圖像/指令上表現(xiàn)出與多模態(tài) GPT-4 類似的多模態(tài)行為,并在合成多模態(tài)指令跟隨數(shù)據(jù)集上取得了 85.1% 的相對分數(shù)。當在科學問答(Science QA)數(shù)據(jù)集上進行微調時,LLaVA 與 GPT-4 的協(xié)同作用達到了 92.53% 的新最高準確率。我們公開了 GPT-4 生成的視覺指令調優(yōu)數(shù)據(jù)、模型和代碼。
1、引言
人類通過多種渠道(如視覺和語言)與世界互動,因為每個渠道在表示和傳達某些概念時都有獨特的優(yōu)勢,從而有助于更好地理解世界。人工智能的一個核心目標是開發(fā)一個通用助手,能夠有效地遵循多模態(tài)視覺和語言指令,以完成各種現(xiàn)實世界中的任務。
為了實現(xiàn)這一目標,社區(qū)見證了語言增強基礎視覺模型的新興興趣,這些模型在開放世界視覺理解方面表現(xiàn)出強大能力,例如分類、檢測、分割和描述,以及視覺生成和編輯。我們建議讀者查閱計算機視覺在野外(Computer Vision in the Wild)閱讀列表,以獲取更最新的文獻匯編。在這項工作中,每個任務都由一個單一的大型視覺模型獨立解決,任務指令隱含在模型設計中。此外,語言僅用于描述圖像內容。雖然這使得語言在將視覺信號映射到語言語義(人類交流的通用渠道)方面發(fā)揮了重要作用,但它導致模型通常具有固定的接口,對用戶指令的交互性和適應性有限。
另一方面,大型語言模型(LLM)已經(jīng)證明語言可以發(fā)揮更廣泛的作用:作為通用接口的通用助手,各種任務指令可以通過語言明確表示,并指導端到端訓練的神經(jīng)助手切換到感興趣的特定任務以解決它。例如,最近 ChatGPT和 GPT-4的成功展示了對齊 LLMs 在遵循人類指令方面的力量,并激發(fā)了對開發(fā)開源 LLMs 的極大興趣。其中,LLaMA是一個開源 LLM,其性能與 GPT-3 相當。Alpaca、Vicuna和 GPT-4-LLM利用各種機器生成的高質量指令跟隨樣本來提高 LLM 的對齊能力,與專有 LLMs 相比報告了令人印象深刻的性能。重要的是,這一系列工作僅限于文本。
在本文中,我們提出了視覺指令調優(yōu),這是首次嘗試將指令調優(yōu)擴展到語言-圖像多模態(tài)空間,為構建通用視覺助手鋪平道路。具體來說,本文的貢獻如下:
- 多模態(tài)指令跟隨數(shù)據(jù):一個關鍵挑戰(zhàn)是缺乏視覺-語言指令跟隨數(shù)據(jù)。我們提出了一個數(shù)據(jù)改革視角和流程,將圖像-文本對轉換為適當?shù)闹噶罡S格式,使用 ChatGPT/GPT-4。
- 大型多模態(tài)模型:我們通過連接 CLIP的開放集視覺編碼器和語言解碼器 Vicuna,并基于我們生成的指令視覺-語言數(shù)據(jù)進行端到端微調,開發(fā)了一個大型多模態(tài)模型(LMM)。我們的實證研究表明,使用生成數(shù)據(jù)進行 LMM 指令調優(yōu)的有效性,并為構建通用指令跟隨視覺代理提供了實用建議。當與 GPT-4 組合時,我們的方法在科學問答(Science QA)多模態(tài)推理數(shù)據(jù)集上達到了新的最高水平。
- 多模態(tài)指令跟隨基準:我們提出了 LLaVA-Bench,包含兩個具有挑戰(zhàn)性的基準,涵蓋了多樣化的配對圖像、指令和詳細的標注。
- 開源:我們向公眾公開以下資產(chǎn):生成的多模態(tài)指令數(shù)據(jù)、代碼庫、模型檢查點和視覺聊天演示。
2、相關工作
多模態(tài)指令跟隨代理。在計算機視覺中,現(xiàn)有的構建指令跟隨代理的工作可以大致分為兩類:(i)端到端訓練模型,這些模型分別針對每個特定研究主題進行探索。例如,視覺語言導航任務和 Habitat要求具身人工智能代理遵循自然語言指令,并在視覺環(huán)境中采取一系列行動以完成目標。在圖像編輯領域,給定輸入圖像和書面指令,告訴代理要做什么,InstructPix2Pix通過遵循人類指令來編輯圖像。(ii)一個通過 LangChain/LLMs協(xié)調各種模型的系統(tǒng),例如 Visual ChatGPT、X-GPT、MM-REACT、VisProg和 ViperGPT。盡管這些工作共享構建指令跟隨代理的相同目標,但我們專注于開發(fā)一個用于多任務的端到端訓練的語言-視覺多模態(tài)模型。
指令調優(yōu)。在自然語言處理(NLP)社區(qū)中,為了使 LLMs(如 GPT-3、T5、PaLM和 OPT)能夠遵循自然語言指令并完成現(xiàn)實世界任務,研究人員探索了 LLM 指令調優(yōu)的方法,分別導致了 InstructGPT/ChatGPT、FLAN-T5、FLAN-PaLM和 OPT-IML等指令調優(yōu)的對應版本。事實證明,這種簡單的方法可以有效提高 LLMs 的零樣本和少樣本泛化能力。因此,從 NLP 借鑒這一想法到計算機視覺是很自然的。更廣泛地,教師-學生蒸餾思想與基礎模型在其他主題(如圖像分類)中也得到了研究。Flamingo可以被視為多模態(tài)領域的 GPT-3 時刻,因其在零樣本任務遷移和上下文學習中的出色表現(xiàn)。其他在圖像-文本對上訓練的 LMMs 包括 BLIP-2、FROMAGe和 KOSMOS-1。PaLM-E是一個用于具身人工智能的 LMM。基于最近“最佳”開源 LLM LLaMA,OpenFlamingo和 LLaMA-Adapter是開源努力,使 LLaMA 能夠使用圖像輸入,為構建開源多模態(tài) LLMs 鋪平了道路。盡管這些模型展現(xiàn)了有希望的任務遷移泛化性能,但它們并未明確使用視覺-語言指令數(shù)據(jù)進行調優(yōu),其在多模態(tài)任務中的表現(xiàn)通常不如語言任務。在本文中,我們旨在填補這一空白并研究其有效性。最后,需要注意的是,視覺指令調優(yōu)與視覺提示調優(yōu)不同:前者旨在提高模型的指令跟隨能力,而后者旨在提高模型適應中的參數(shù)效率。
3、GPT 輔助視覺指令數(shù)據(jù)生成
社區(qū)見證了大量公共多模態(tài)數(shù)據(jù)(如圖像-文本對)的涌現(xiàn),從 CC 到 LAION。然而,當涉及到多模態(tài)指令跟隨數(shù)據(jù)時,可用的數(shù)量有限,部分原因是創(chuàng)建此類數(shù)據(jù)的過程耗時且不夠明確,尤其是當考慮人工眾包時。受最近 GPT 模型在文本標注任務中成功的啟發(fā),我們提出利用 ChatGPT/GPT-4 為多模態(tài)指令跟隨數(shù)據(jù)收集提供支持,基于廣泛存在的圖像-對數(shù)據(jù)。
對于一張圖像 Xv 及其相關的標題 Xc,自然會生成一組問題 Xq,意圖是讓助手描述圖像內容。我們提示 GPT-4 生成這樣的問題列表(詳細信息見附錄)。因此,將圖像-文本對擴展為指令跟隨版本的簡單方法是:Human: Xq XvAssistant: Xc。盡管構建成本較低,但這種簡單的擴展版本在指令和回答中缺乏多樣性和深入推理。
為緩解這一問題,我們利用純語言的 GPT-4 或 ChatGPT 作為強大的“教師”(兩者僅接受文本輸入),創(chuàng)建涉及視覺內容的指令跟隨數(shù)據(jù)。具體而言,為了將圖像編碼為其視覺特征以提示純文本 GPT,我們使用兩種類型的符號表示:(i)標題通常從不同角度描述視覺場景;(ii)邊界框通常定位場景中的對象,并且每個框編碼對象概念及其空間位置。表 1 的上半部分展示了一個例子。
表1:一個用于說明指令遵循數(shù)據(jù)的示例。上半部分展示了用于提示GPT的上下文,例如標題和方框,下半部分展示了三種類型的回答。請注意,視覺圖像并未用于提示GPT,我們在此僅將其作為參考展示。
這種符號表示允許我們將圖像編碼為 LLM 可識別的序列。我們使用 COCO 圖像并生成三種類型的指令跟隨數(shù)據(jù)。表 1 的下半部分每種類型各展示了一個例子。對于每種類型,我們首先手動設計幾個例子。這些是我們數(shù)據(jù)收集過程中唯一的人工標注,并作為上下文學習中的種子示例,用于查詢 GPT-4。
- 對話:我們設計了一個助手與詢問照片內容的人之間的對話?;卮鸬恼Z氣就好像助手正在觀看圖像并回答問題一樣。我們詢問了關于圖像視覺內容的多樣化問題,包括對象類型、對象計數(shù)、對象動作、對象位置以及對象之間的相對位置。只考慮有明確答案的問題。詳細提示見附錄。
- 詳細描述:為了包含豐富且全面的圖像描述,我們創(chuàng)建了一個問題列表,并提示 GPT-4 進行整理(詳細提示和整理過程見附錄)。對于每張圖像,我們從列表中隨機抽取一個問題,讓 GPT-4 生成詳細描述。
- 復雜推理:上述兩種類型專注于視覺內容本身,在此基礎上,我們進一步創(chuàng)建了深入推理問題。答案通常需要通過遵循嚴格邏輯的逐步推理過程來得出。
我們總共收集了 158K 個獨特的語言-圖像指令跟隨樣本,包括 58K 個對話、23K 個詳細描述和 77K 個復雜推理。我們在早期實驗中對 ChatGPT 和 GPT-4 進行了消融實驗,發(fā)現(xiàn) GPT-4 在提供高質量指令跟隨數(shù)據(jù)(如空間推理)方面表現(xiàn)更為一致。
4、視覺指令調優(yōu)
我們在兩種主要的實驗設置中評估了 LLaVA 在指令跟隨和視覺推理能力上的表現(xiàn):多模態(tài)聊天機器人和科學問答(ScienceQA)數(shù)據(jù)集。我們使用 8× A100 GPU 進行所有模型的訓練,并遵循 Vicuna 的超參數(shù)設置。我們在經(jīng)過篩選的 CC-595K 子集上對模型進行預訓練,持續(xù) 1 個 epoch,學習率為 2e-3,批量大小為 128;然后在提出的 LLaVA-Instruct-158K 數(shù)據(jù)集上進行微調,持續(xù) 3 個 epoch,學習率為 2e-5,批量大小為 32。更多訓練細節(jié)請參考附錄。
表 3:GPT-4 論文中的示例提示,用于比較視覺推理和聊天能力。與 BLIP-2和 OpenFlamingo相比,LLaVA 準確地遵循用戶指令,而不是簡單地描述場景。LLaVA 的回答比 GPT-4 更全面。即使僅僅被要求描述圖像,LLaVA 也能識別圖像中的不尋常之處。
| 用戶:這張圖片有什么不尋常之處?| LLaVA:這張圖片的不尋常之處在于,一個人正在一輛面包車或貨車的后部熨燙衣服。這不是進行這種活動的典型場所,因為人們通常會在更固定且安全的地方(例如家中)使用普通的熨燙板來熨燙衣服。圖中這種在不穩(wěn)定環(huán)境中進行熨燙的臨時設置既不安全也不常見。此外,也不清楚這個人是如何在這種不穩(wěn)定的環(huán)境中保持平衡和穩(wěn)定的。 [開始新對話并清除歷史記錄] 用戶:場景中發(fā)生了什么?| LLaVA:圖中描繪的是一個人站在繁忙城市街道上的黃色 SUV 車頂上。他手持一個便攜式梯子,似乎正在車頂上熨燙衣服。周圍場景中還有其他車輛、交通燈和消防栓。此外,附近還有另外兩個人,一個人靠近車上的那個人,另一個人則離得更遠。站在梯子上的人似乎因為他在移動車輛上熨燙衣服這一不同尋常的選擇而吸引了周圍人的注意。周圍的街道熙熙攘攘,增添了場景的獨特性。|
| 用戶:這張圖片有什么不尋常之處?| GPT-4:這張圖片的不尋常之處在于,一個人正在熨燙板上熨燙衣服,而熨燙板被安裝在一輛正在行駛的出租車的車頂上。|
| 用戶:這張圖片有什么不尋常之處?| BLIP-2:一個人坐在黃色出租車的后部。|
| 用戶:這張圖片有什么不尋常之處?| OpenFlamingo:那個人正在汽車引擎蓋上晾干他的衣服。|
5.1 多模態(tài)聊天機器人
我們開發(fā)了一個聊天機器人演示,以展示 LLaVA 的圖像理解和對話能力,并研究 LLaVA 在消化視覺輸入和展現(xiàn)指令跟隨能力方面的表現(xiàn)。我們首先使用 GPT-4 論文中的示例(見表 3),這些示例需要深入的圖像理解。為了進行比較,我們引用了 GPT-4 論文中的提示(prompt)和回答,并查詢了 BLIP-2 和 OpenFlamingo 模型檢查點以獲取它們的回答。
令人驚訝的是,盡管 LLaVA 是在一個較小的多模態(tài)指令跟隨數(shù)據(jù)集(約 80K 張獨特圖像)上訓練的,但它在這些示例上展示了與多模態(tài) GPT-4 相似的推理結果。需要注意的是,這些圖像對于 LLaVA 來說是領域外的,但 LLaVA 仍然能夠理解場景并按照問題指令給出合理的回答。相比之下,BLIP-2 和 OpenFlamingo 更多地集中在描述圖像上,而不是按照用戶指令以適當?shù)姆绞交卮饐栴}。
定量評估
為了系統(tǒng)地了解 LLaVA 的性能,我們提出了一個定量指標來衡量模型在多模態(tài)數(shù)據(jù)上的指令跟隨能力。受的啟發(fā),我們利用 GPT-4 來衡量生成回答的質量。具體來說,我們創(chuàng)建了由圖像、真實文本描述和問題組成的三元組。候選模型(例如 LLaVA)根據(jù)問題和圖像預測答案。為了提供理論上限的近似值,我們使用文本形式的真實描述和問題,通過文本版 GPT-4 創(chuàng)建參考預測。在獲得候選模型的輸出后,我們將問題、視覺信息(以文本描述的形式)以及兩個助手生成的回答一起輸入到評估器(即文本版 GPT-4)中。它會評估助手回答的相關性、準確性、幫助程度和詳細程度,并在 1 到 10 的量表上給出總體評分,更高的分數(shù)表示更好的表現(xiàn)。我們還要求它提供全面的解釋,以便我們更好地理解模型。我們報告相對于使用真實文本描述作為視覺輸入的文本版 GPT-4 模型的相對分數(shù)。我們創(chuàng)建了兩個基準來評估模型的性能。
LLaVA-Bench (COCO)
我們從 COCO-Val-2014 中隨機選擇 30 張圖像,并使用第 3 節(jié)中提出的數(shù)據(jù)生成流程為每張圖像生成三種類型的問題(對話、詳細描述、復雜推理),總共 90 個問題。該基準研究模型在視覺輸入一致時的行為和能力。我們改變訓練數(shù)據(jù)集以研究不同類型的指令跟隨數(shù)據(jù)的有效性,并在表 4 中展示了結果。首先,與沒有指令調優(yōu)的模型相比,經(jīng)過指令調優(yōu)的模型在遵循用戶指令方面的能力顯著提升了超過 50 個百分點。其次,加入少量詳細描述和復雜推理問題可以顯著提升模型的整體能力,達到 7 個百分點的提升。此外,它還提升了模型在對話問題上的表現(xiàn),這表明推理能力的提升可以補充對話能力。最后,我們發(fā)現(xiàn)使用所有三種類型的數(shù)據(jù)可以達到最佳性能,相對分數(shù)為 85.1%。
LLaVA-Bench (In-the-Wild)
為了評估模型在更具挑戰(zhàn)性的任務和對新領域的泛化能力,我們收集了一組多樣化的圖像,包括室內和室外場景、表情包、繪畫、素描等,總共 24 張圖像和 60 個問題,并為每張圖像關聯(lián)了詳細的描述和適當?shù)膯栴}。我們在表 5 中比較了 LLaVA、BLIP 和 OpenFlamingo 的表現(xiàn)。得益于視覺指令調優(yōu),LLaVA 的表現(xiàn)顯著優(yōu)于 BLIP-2(+29%)和 OpenFlamingo(+48%)。與可以訪問真實標簽的文本版 GPT-4 相比,LLaVA 在復雜推理問題上達到了令人印象深刻的 81.7% 的表現(xiàn),總體得分為 67.3%。
局限性
LLaVA-Bench (In-the-Wild) 被設計為具有挑戰(zhàn)性,以揭示模型的弱點。我們在表 6 中提供了兩個具有關聯(lián)描述和問題的示例。對于拉面示例(左側),正確回答餐廳名稱需要模型具備廣泛的知識覆蓋和多語言理解能力;而正確描述配菜則需要模型能夠從互聯(lián)網(wǎng)檢索相關的多模態(tài)信息。對于冰箱示例(右側),識別酸奶的品牌需要模型能夠處理高分辨率圖像并具備廣泛的知識覆蓋。我們還觀察到 LLaVA 的一個有趣失?。寒敱粏柤氨渲惺欠裼胁葺端崮虝r,盡管冰箱中只有酸奶和草莓,LLaVA 卻回答“是”。這表明,有時 LLaVA 會將圖像視為“一組補丁”,而無法把握圖像內的復雜語義。我們希望 LLaVA 能作為基準上的一個堅實基線,我們的發(fā)現(xiàn)能夠啟發(fā)未來的研究,開發(fā)出更強大的多模態(tài)模型。
5.2 ScienceQA
ScienceQA 包含 21k 個多模態(tài)多項選擇題,涵蓋了 3 個學科、26 個主題、127 個類別和 379 項技能的豐富領域多樣性。該基準數(shù)據(jù)集分為訓練集、驗證集和測試集,分別包含 12726、4241 和 4241 個樣本。我們考慮了兩種代表性方法,包括 GPT-3.5 模型(text-davinci-002)以及是否使用鏈式思維(Chain-of-Thought, CoT),LLaMA-Adapter,以及當前該數(shù)據(jù)集上的最佳方法——多模態(tài)鏈式思維(Multimodal Chain-of-Thought, MM-CoT)。更多基線結果請參考。
表 7:ScienceQA 數(shù)據(jù)集上的準確率(%)。問題類別:NAT = 自然科學,SOC = 社會科學,LAN = 語言科學,TXT = 文本上下文,IMG = 圖像上下文,NO = 無上下文,G1-6 = 1-6 年級,G7-12 = 7-12 年級。? 文本版 GPT-4,我們的評估。我們的新模型組合文本版 GPT-4 在所有類別上都顯著提升了性能,達到了新的最佳水平。
對于 LLaVA,我們使用 CLIP 視覺編碼器的最后一層之前的特征,讓模型先預測推理過程,然后預測答案,并訓練了 12 個 epoch。它達到了 90.92% 的準確率,非常接近當前的最佳水平 91.68%。為了探索 LLM 的極限,我們還使用 2-shot 上下文學習提示 GPT-4,并達到了 82.69% 的準確率,與 75.17% 的 GPT-3.5 相比,絕對提升了 7.52%。對于大量問題,我們注意到 GPT-4 僅僅因為報告沒有足夠的上下文(如圖像或圖表)而失敗。我們考慮了兩種方案來組合我們的模型和 GPT-4 的結果。(i)GPT-4 補全。每當 GPT-4 無法提供答案時,我們使用我們方法的預測。這種方案達到了 90.97% 的準確率,幾乎與單獨應用我們的方法相同。(ii)GPT-4 作為裁判。每當 GPT-4 和 LLaVA 產(chǎn)生不同答案時,我們再次提示 GPT-4,要求它根據(jù)問題和兩個結果提供最終答案。這種方案的精神與 CoT 類似,但結合了另一個模型的外部知識。令人驚訝的是,這種方案在所有問題類別上都能提供一致的改進,并達到了新的最佳準確率 92.53%。有趣的是,文本版 GPT-4(無法處理圖像)通過這種方式提升了模型在以圖像為上下文的問題上的整體性能。這是因為這些問題中的一些實際上并不需要圖像上下文來得出正確答案。GPT-4 裁判能夠識別這些情況,并糾正 LLaVA 一些錯誤。附錄中給出了示例。據(jù)我們所知,這是首次使用 GPT-4 進行模型組合。我們希望這一發(fā)現(xiàn)能夠鼓勵未來的研究探索更有效的方法,以利用 LLM 進行模型組合。
表 8:ScienceQA 上的設計選擇消融實驗(%)。與最佳變體的差異以紅色文本顯示。
視覺特征:我們嘗試使用 CLIP 視覺編碼器的最后一層特征,結果準確率為 89.96%,比最后一層之前的特征低 0.96%。我們推測這是因為 CLIP 的最后一層特征可能更關注圖像的全局和抽象屬性,而最后一層之前的特征可以更關注局部屬性,這些局部屬性對于理解特定圖像細節(jié)很有用。
鏈式思維:為了決定模型預測中答案和推理過程的順序,我們運行了兩種變體,發(fā)現(xiàn)先預測答案的變體在 12 個 epoch 后達到了 89.77% 的最佳準確率,而先進行推理的變體可以在 6 個 epoch 內快速達到 89.77% 的準確率,但后續(xù)訓練沒有進一步提升。訓練 24 個 epoch 也沒有提升性能。我們得出結論,類似 CoT 的推理優(yōu)先策略可以顯著提升收斂速度,但對最終性能的貢獻相對較小。
預訓練:我們跳過預訓練階段,直接從頭開始在 ScienceQA 上訓練——性能下降到 85.81% 的準確率。5.11% 的絕對下降表明預訓練階段的重要性,它在對齊多模態(tài)特征的同時保留了大量預訓練知識。
模型大小:我們保持所有配置與最佳的 13B 模型相同,訓練了一個 7B 模型。結果準確率為 89.84%,比 90.92% 低 1.08%,這表明模型規(guī)模的重要性。
6、結論
本文展示了視覺指令調優(yōu)的有效性。我們提出了一個基于 GPT-4 的自動流程,用于創(chuàng)建語言-圖像指令跟隨數(shù)據(jù),并基于這些數(shù)據(jù)訓練了 LLaVA,一個多模態(tài)模型,能夠按照人類意圖完成視覺任務。它在 ScienceQA 上微調后達到了新的最佳準確率,并在多模態(tài)聊天數(shù)據(jù)上微調后展現(xiàn)出卓越的視覺聊天能力。此外,我們提出了第一個用于研究多模態(tài)指令跟隨能力的基準。本文是視覺指令調優(yōu)的初步嘗試,主要關注現(xiàn)實任務。對于 LLaVA 在學術基準測試上的更多定量結果,請參考。我們希望我們的工作能夠激發(fā)未來在構建更強大的多模態(tài)模型方面的研究。
本文轉載自公眾號AIRoobt ,作者:HT Liu et al
原文鏈接:??https://mp.weixin.qq.com/s/-TJtD2pB0sJu0FJ44Szb4A??
