SEED-Bench:基于生成理解的多模態(tài)大語言模型基準測試(CVPR2024) 原創(chuàng)
摘要:基于強大的大語言模型(LLMs),最近的生成型多模態(tài)大語言模型(MLLMs)作為一個重要的研究領域,展示了在理解和生成方面的顯著能力。在這項工作中,我們引入了一個名為SEED-Bench的基準測試,以評估MLLMs的生成理解能力,作為對生成模型進行全面評估的初步步驟。SEED-Bench包含19,000道多項選擇題,配有精確的人類標注(是現(xiàn)有基準的6倍),涵蓋了包括圖像和視頻模態(tài)理解在內的12個評估維度。我們開發(fā)了一個先進的流程,用于生成針對特定評估維度的多項選擇題,集成了自動過濾和人工驗證過程。由人類注釋得出的具有真實選項的多項選擇題,使得模型性能的評估能夠客觀且高效,無需在評估過程中進行人工或GPT干預。我們進一步評估了18個模型在所有12個維度上的表現(xiàn),涵蓋了空間和時間理解。通過評估結果揭示現(xiàn)有MLLMs的局限性,我們希望SEED-Bench能為未來的研究提供啟示。我們將推出并持續(xù)維護一個排行榜,為社區(qū)提供一個評估和研究模型能力的平臺。
1.引言
近年來,大語言模型(LLMs)在各種開放性任務中展示了卓越的理解、推理和生成文本的能力。利用LLMs的強大通用性,生成型多模態(tài)大語言模型(MLLMs)在多模態(tài)理解和生成方面展示了增強的能力。然而,目前的MLLMs主要通過有限數(shù)量的定性示例或使用不適合評估開放形式輸出的現(xiàn)有基準來評估其性能。例如,在VQAv2中,只有當模型的輸出與標準答案完全匹配時,答案才被視為正確,而標準答案通常只有一兩個詞。缺乏一個全面客觀的基準來評估MLLMs,這對比較和研究各種模型的性能構成了重大挑戰(zhàn)。
并行研究工作已經做出努力,開發(fā)專門評估MLLMs的基準,如表1所示。例如,LVLM-eHub和LAMM利用各種計算機視覺任務的現(xiàn)有公共數(shù)據(jù)集作為評估樣本,并使用人類注釋者或GPT來評估模型預測的質量、相關性和實用性。然而,在評估過程中涉及人類和GPT不僅降低了效率,還導致了評估的主觀性增加和準確性降低。MME和MMBench通過構建判斷題或選擇題進一步推進了MLLMs的客觀評估,涵蓋了各種能力維度。將模型的輸出限制在判斷題或A/B/C/D選項上,方便了準確率的計算,作為評估的客觀指標。然而,這些基準相對較小的規(guī)模(少于3K樣本)引入了評估統(tǒng)計的不穩(wěn)定性。
表1:現(xiàn)有多模態(tài)大語言模型基準的比較?!癏/G 評估”表示評估過程中是否使用人類或GPT。
圖1:左圖:SEED-Bench中12個評估維度的概述,包括空間和時間理解,柱狀圖中的數(shù)字表示每個維度中人類標注的多項選擇題的數(shù)量。右圖:顯示18個模型在12個評估維度上的平均準確率的整體排行榜。
在這項工作中,我們專注于評估MLLMs的生成理解能力,作為對生成模型進行全面評估的初步步驟,引入了一個名為SEED-Bench的基準測試。SEED-Bench涵蓋了圖像和視頻模態(tài)的12個評估維度。SEED-Bench包含19,000道多項選擇題,標準答案由人類注釋得出(是MME的9倍,MMBench的6倍)。我們設計了一個復雜的流程,用于生成針對特定評估維度的多項選擇題,并進一步結合自動過濾機制和人工驗證過程,以確保問題的質量和標準答案的準確性。
具體來說,對于圖像,我們利用各種基礎模型提取其視覺信息,包括圖像級別的描述、實例級別的描述和文本元素。對于視頻,我們利用原始人類注釋提供視覺信息。然后我們將視覺信息輸入ChatGPT/GPT-4,通過專門設計的提示生成針對特定評估維度的問題以及四個候選選項和一個標準答案。我們進一步利用多個LLMs過濾掉可以在沒有視覺輸入的情況下回答的問題。最后,我們雇傭人類注釋者選擇每個多項選擇題的正確選項,并將每個問題分類到一個評估維度中,最終得到一個包含19,000道多項選擇題的清晰且高質量的基準測試。我們的流程支持跨多個領域擴展評估數(shù)據(jù),并將繼續(xù)擴展基準測試以增加更多評估維度。
基于SEED-Bench,我們全面評估了包括LLMs、ImageLLMs和VideoLLMs在內的18個模型在所有12個維度上的表現(xiàn)。不同于MMBench使用ChatGPT將模型的預測與多項選擇題中的選項匹配(僅實現(xiàn)了87.0%的匹配率),我們遵循GPT-3的方法計算每個候選選項的對數(shù)似然值,并選擇最高值作為最終預測,而不依賴模型的指令遵循能力輸出“A”或“B”或“C”或“D”。通過分析12個維度的結果,我們對現(xiàn)有多模態(tài)模型在空間和時間理解能力進行了全面比較。我們觀察到大多數(shù)MLLMs在所有12個評估維度上仍表現(xiàn)有限,并驚訝地發(fā)現(xiàn)VideoLLMs在時間理解方面未能實現(xiàn)與ImageLLMs相競爭的表現(xiàn)。通過評估結果,我們希望SEED-Bench能夠為未來探索更高級的MLLMs提供啟示。我們將推出一個評估平臺并持續(xù)維護一個排行榜,用于評估和比較模型性能。
2.相關工作
多模態(tài)大語言模型
隨著大語言模型(LLM)的顯著成功,最近的研究致力于生成型多模態(tài)大語言模型(MLLMs),通過利用LLMs的強大通用性來提高多模態(tài)理解和生成能力。一些工作進一步考慮視頻輸入,并利用LLMs的巨大能力來進行視頻理解任務。在SEED-Bench中,我們提供了對這些模型的全面定量評估,以徹底評估和比較它們在生成理解方面的表現(xiàn)。
多模態(tài)大語言模型的基準測試
隨著多模態(tài)大語言模型(MLLMs)的快速發(fā)展,一些并行工作提出了各種評估MLLMs的基準。例如,GVT通過匯總兩個語義級理解任務(VQA和圖像描述)和兩個細粒度任務(對象計數(shù)和多類識別)來構建基準,但其評估僅限于視覺理解的有限方面。LVLM-eHub結合多個現(xiàn)有的計算機視覺基準,并開發(fā)了一個在線平臺,在該平臺上兩個模型被提示回答與圖像相關的問題,并雇用人類注釋者比較模型的預測。評估過程中涉及人類注釋者不僅引入了偏見,還帶來了顯著的成本。LAMM通過使用實體提取從開放形式的預測中獲取關鍵答案,并利用GPT評估答案與標準答案的相關性和準確性,來評估圖像和點云任務。依賴實體提取和GPT指標可能影響評估的準確性和可靠性。MME和MMBench分別通過構建2914道判斷題和2974道多項選擇題,旨在增強MLLMs的客觀評估。考慮到這些基準相對較小的規(guī)模,其評估結果可能表現(xiàn)出不穩(wěn)定性。在這項工作中,我們引入了SEED-Bench,以提供對MLLMs的客觀和全面的評估,其中包含19K道多項選擇題,涵蓋了包括空間和時間理解在內的12個評估維度。
3. SEED-Bench
我們的基準包含19K道多項選擇題,帶有精確的人類注釋,涵蓋了包括空間和時間理解在內的12個評估維度。在本節(jié)中,我們首先在3.1節(jié)中介紹SEED-Bench的評估維度。在3.2節(jié)中介紹數(shù)據(jù)來源,并在3.3節(jié)中介紹構建多項選擇題的流程。最后,我們在3.4節(jié)描述了MLLMs回答多項選擇題的評估策略。
3.1 評估維度
為了全面評估MLLMs的視覺理解能力,SEED-Bench包括12個評估維度,涵蓋空間和時間理解,如表2所示。
圖2:SEED-Bench的數(shù)據(jù)樣本,涵蓋包括空間和時間理解在內的12個評估維度。每個評估維度包含由人類注釋得出的多項選擇題及其標準選項。
表2:SEED-Bench的評估維度,包括空間和時間理解。我們省略了示例問題中的圖像。
空間理解
在空間理解評估中,我們考慮了9個維度,涵蓋了圖像級和實例級的感知和推理。
- 場景理解:該維度關注圖像中的全局信息。通過整體理解圖像來回答問題。
- 實例身份:該維度涉及圖像中某個實例的識別,包括某個對象的存在或類別。評估模型的對象識別能力。
- 實例屬性:該維度與實例的屬性有關,如顏色、形狀或材質。評估模型對對象視覺外觀的理解。
- 實例位置:該維度關注某個指定實例的絕對位置。要求模型正確定位問題中提到的對象。
- 實例計數(shù):該維度要求模型計算圖像中特定對象的數(shù)量。這需要模型理解所有對象,并成功計算所指對象的實例數(shù)量。
- 空間關系:該維度要求模型識別圖像中兩個提到的對象之間的相對空間關系。
- 實例互動:該維度要求模型識別兩個對象或人之間的狀態(tài)關系或互動關系。
- 視覺推理:該維度評估模型是否能夠基于視覺信息進行推理。這需要模型充分理解圖像并利用其常識知識來正確回答問題。
- 文本理解:在這個維度中,模型應回答有關圖像中文本元素的問題。
時間理解
在時間理解評估中,我們考慮了3個維度,側重于動作的識別、預測和過程理解。
- 動作識別:在該維度中,模型需要識別視頻中展示的動作。評估的不僅是捕捉時間動態(tài)的能力,還包括對物理動作、人類動作和對象之間動態(tài)互動的知識。
- 動作預測:該維度的目標是通過視頻前段預測未來的動作,這需要理解視頻的上下文信息和時間推理。
- 過程理解:該維度要求模型捕捉所有關鍵動作并對它們進行時間排序。我們旨在評估模型的時間細粒度理解和過程推理能力。
3.2 數(shù)據(jù)來源
為了創(chuàng)建一個涵蓋各種評估維度的基準,我們需要收集包含豐富視覺信息的圖像和具有豐富時間動態(tài)的視頻,以便構建多樣且具有挑戰(zhàn)性的多項選擇題。在SEED-Bench中,我們使用經過過濾的CC3M數(shù)據(jù)集來構建空間理解問題。具體來說,考慮到CC3M原始描述的噪音,我們使用Tag2Text為每張圖像生成描述。我們過濾掉描述中名詞不超過5個的圖像,以確保剩余圖像的信息豐富性,以便構建問題。
我們進一步采用Something-Something-v2(SSV2)、Epic-kitchen 100和Breakfast數(shù)據(jù)集來構建時間理解問題。SSV2是一個動作識別數(shù)據(jù)集,包括174個基本動作的細粒度類別,我們從其驗證集中采用了1740個視頻。我們還選擇了Epic-kitchen 100數(shù)據(jù)集中有時間注釋動作標簽的138個長視頻。此外,Breakfast數(shù)據(jù)集中的視頻和細粒度動作分割注釋用于過程理解任務。
3.3 多項選擇題
如圖3所示,我們生成多項選擇題的流程包括問題/答案生成和驗證。為了生成問題/答案對,我們首先利用各種基礎模型提取視覺信息,包括圖像級描述、實例級描述和文本元素?;谂c特定評估維度相對應的專門設計的提示,ChatGPT/GPT-4隨后生成問題和四個候選選項,其中一個為標準答案。為了驗證問題/答案對,我們過濾掉可以通過多個LLMs在沒有視覺信息的情況下正確回答的問題。我們進一步雇傭人類注釋者選擇正確選項并將每個問題分類到一個評估維度。
圖3:SEED-Bench生成圖像多項選擇題的流程概述。
(a) 我們首先利用各種基礎模型提取視覺信息,包括圖像級描述、實例級描述和文本元素?;谂c特定評估維度相對應的專門設計的提示,ChatGPT/GPT-4隨后生成問題和四個候選選項,其中一個為標準答案。(b) 我們進一步利用LLMs篩選問題,并雇傭人類注釋者選擇正確選項,并將每個問題分類到一個評估維度。
視覺信息提取
為了構建與空間理解相關的問題,我們使用多種預訓練模型將每張圖像的豐富信息解釋為文本,以便ChatGPT/GPT-4能夠理解圖像并相應地創(chuàng)建問題。為了構建與時間理解相關的問題,考慮到從視頻中提取可靠的時間信息(尤其是細粒度動作和長期時間上下文)非常困難,我們利用視頻數(shù)據(jù)集的標準注釋。我們將探索如何基于自動提取的視頻信息生成問題。
圖像的視覺信息提取包括以下部分:
- 圖像描述:圖像描述包含圖像的整體描述。我們使用BLIP2和Tag2Text為每張圖像創(chuàng)建描述。前者為整個圖像創(chuàng)建描述,而后者基于每個實例的描述生成描述。兩個模型相輔相成,以單個句子的形式描述圖像內容。
- 實例描述:除了可能忽略圖像中具體細節(jié)的描述外,我們還使用實例級描述從圖像中提取視覺信息,包括對象檢測、屬性檢測和密集描述。具體來說,我們使用SAM對圖像中的每個實例進行分割,并根據(jù)分割結果獲取它們的邊界框。對象標簽使用Tag2Text獲得。此外,我們還使用屬性檢測器獲取圖像中每個實例的屬性。最后,我們使用GRiT生成密集描述,使用簡短句子描述圖像中每個檢測到的實例。這些實例級描述對圖像描述是補充,進一步豐富了每張圖像的視覺信息。
- 文本元素:除了對象,圖像中的文本也包含描述圖像的重要信息。我們使用PaddleOCR檢測文本元素。
問題-答案生成
在從圖像和視頻中提取視覺信息后,我們讓ChatGPT/GPT-4基于提取的信息或視頻注釋生成多項選擇題。對于每個空間理解評估,我們仔細設計提示,要求ChatGPT/GPT-4根據(jù)提取的視覺信息創(chuàng)建四個候選選項的問題。我們使用ChatGPT為所有評估維度創(chuàng)建問題,除了推理維度,我們使用GPT-4因為其卓越的推理能力。對于每個問題,我們要求ChatGPT/GPT-4創(chuàng)建一個正確選項和三個干擾選項。我們試圖通過使三個錯誤選項與正確選項相似來使多項選擇題具有挑戰(zhàn)性。生成不同評估維度多項選擇題的詳細提示列在圖4中。對于生成與時間理解相關的問題,我們使用選定視頻的標準注釋作為
多項選擇題的答案,并雇傭ChatGPT生成三個干擾選項。
圖4:為不同評估維度生成多項選擇題的提示語。
(翻譯:
默認指令:
“你是一個AI視覺助手,可以分析單張圖像。你會收到描述圖像的三種信息,包括圖像的描述、對象檢測和屬性檢測結果。對象檢測結果中提供了對象類型及其詳細坐標。屬性檢測結果中的每一行代表一個對象類別及其坐標,以及其屬性。所有坐標以邊界框的形式表示,格式為(x1, y1, x2, y2),數(shù)值范圍從0到1。這些值分別對應左上角x,左上角y,右下角x,右下角y。你的任務是使用提供的信息,創(chuàng)建關于圖像的多項選擇題,并提供選項和答案。
不要直接提到邊界框坐標,而是利用這些數(shù)據(jù)用自然語言解釋場景。包括對象數(shù)量、對象位置、對象之間的相對位置等細節(jié)。
在使用描述和坐標信息時,直接解釋場景,不要提及信息來源是描述或邊界框。始終回答時要像是你在直接看圖像。
創(chuàng)建多個問題,每個問題有4個選項。通過不在問題中包含視覺內容的細節(jié)來使問題具有挑戰(zhàn)性,以便用戶首先需要推理這些內容。創(chuàng)建一個有四個選項(A、B、C和D)的多項選擇題,確保一個選項是正確的,其他三個選項是合理但不正確的。對于每個問題,嘗試通過創(chuàng)建一個非常類似于正確答案但錯誤的選項來增加其挑戰(zhàn)性。
請注意,給定的信息可能是不準確的圖像描述,因此圖像中可能沒有被檢測描述,而某些項目在屬性檢測中可能會被多次檢測到。因此,僅在你對答案有信心時才創(chuàng)建問題。不要解釋你的選擇。”
場景理解指令:
“創(chuàng)建關于圖像主要內容的復雜問題。應該能夠通過快速瀏覽整個圖像回答問題,而不必直接仔細查看單個對象或人。問題不應與圖像中的單個對象相關,而應與此圖片的整體主題相關?!?/span>
實例身份指令:
“創(chuàng)建關于圖像中出現(xiàn)對象身份的復雜問題,例如其類型/類別或其存在。例如,你可以問‘某個對象是什么?’或‘某個對象是否出現(xiàn)在圖像中?’。回答問題時,預期需要快速查看圖像中提到的對象?!?/span>
實例屬性指令:
“創(chuàng)建關于某個對象屬性的復雜問題,例如其顏色、形狀或細粒度類型?;卮饐栴}時,需要仔細查看圖像中某個對象的視覺外觀,但不必考慮其他方面的信息,如空間位置或其身份?!?/span>
實例定位指令:
“創(chuàng)建關于圖像中某個對象位置的復雜問題。問題應基于對象的坐標創(chuàng)建?;卮饐栴}時,需要找到提到的對象,并查看其在圖像中的位置。預期在不必查看其他對象的情況下回答問題?!?/span>
實例計數(shù)指令:
“創(chuàng)建涉及某個對象出現(xiàn)次數(shù)的問題。以‘有多少....’開頭。問題的選項應為數(shù)字?;卮饐栴}時,需要找到并計數(shù)圖像中提到的所有對象。”
空間關系指令:
“創(chuàng)建關于兩個對象之間空間關系的問題。問題主要應基于兩個對象的坐標?;卮饐栴}時,需要找到提到的兩個對象,并找到它們的相對空間關系來回答問題。”
實例互動指令:
“創(chuàng)建關于兩個對象之間關系和連接的問題,例如‘某人正在對某個對象做什么’和‘兩個對象之間的關系是什么’?;卮饐栴}時,需要找到提到的兩個對象,仔細查看圖像,并稍微推理圖像以理解它們的關系。”
視覺推理指令:
“創(chuàng)建超越描述場景的復雜問題?;卮鸫祟悊栴}時,首先應理解視覺內容,然后基于背景知識或推理,解釋為什么事情會這樣發(fā)生,或為用戶的請求提供指導和幫助。通過不在問題中包含視覺內容的細節(jié)來使問題具有挑戰(zhàn)性,以便用戶首先需要推理這些內容?!?/span>
文本識別指令:
“創(chuàng)建與圖像中的文本相關的問題。描述問題時不要提及OCR中的任何內容,而要像直接查看圖像一樣?!保?/span>
自動過濾
我們的基準旨在評估MLLMs的多模態(tài)視覺語言理解能力。然而,我們發(fā)現(xiàn)一些生成的問題可以通過LLMs在不看圖像的情況下正確回答。我們認為這些問題對于評估MLLMs的視覺理解能力沒有幫助。為此,我們將生成的問題(不含圖像)輸入三個強大的LLMs,包括Vicuna-7B、Flan-T5-XXL和LLaMA-7B,并要求它們回答這些問題。我們經驗發(fā)現(xiàn),5.52%的生成問題可以通過所有三個LLMs正確回答。我們將這些問題從基準中篩選掉。
人類注釋
為了確保SEED-Bench的準確性和客觀性,我們進一步雇傭人類注釋者驗證生成的問題/答案對。人類注釋者被要求為每個多項選擇題選擇正確答案并將每個問題分類到一個評估維度。如果一個問題不能基于視覺輸入回答,或者沒有正確選擇,或者有多個正確選擇,它將被人類注釋者丟棄。最終得到一個包含19K道多項選擇題的清晰、高質量且分類良好的評估基準。每個評估維度多項選擇題的數(shù)量統(tǒng)計如圖1所示。我們可以觀察到文本識別維度的問題最少,有85個樣本,實例定位維度的問題最多,有4649個樣本。我們將在未來保持不同評估維度多項選擇題的均勻分布。
表3:不同模型在SEED-Bench上的評估結果,其中“Spatial”顯示了在評估空間理解的九個維度上的平均表現(xiàn),“Temporal”顯示了在評估時間理解的三個維度上的平均表現(xiàn)。
3.4 評估策略
不同于MMBench使用ChatGPT將模型的預測與多項選擇題中的選項匹配(僅實現(xiàn)了87.0%的匹配率),我們采用答案排名策略來評估現(xiàn)有的MLLMs與多項選擇題。具體來說,對于每個問題的每個選擇,我們計算MLLM生成該選擇內容的可能性。我們選擇可能性最高的選項作為模型的預測。我們的評估策略不依賴于模型輸出“A”或“B”或“C”或“D”的指令遵循能力。此外,這種評估策略消除了多項選擇題選項順序對模型性能的影響。
4 評估結果
4.1 模型
基于我們的SEED-Bench,我們評估了包括3個LLMs(即Flan-T5、Vicuna、LLaMA)、12個ImageLLMs(即OpenFlamingo、BLIP-2、MiniGPT-4、LLaVa、mPLUG-Owl、InstructBLIP、Otter、MultimodalGPT、GVT、PandaGPT、VPGTrans、LLaMA-Adapter V2)和3個VideoLLMs(即VideoChat、Video-ChatGPT和Valley)在內的18個模型。每個模型都在包括空間和時間理解的12個維度上進行了評估。對于ImageLLMs,除了評估其空間理解能力外,我們還旨在調查其在多個幀之間進行時間推理的能力。對于VideoLLMs,我們探討了其在輸入單張圖像時,空間理解能力是否有所退化。
4.2 結果
不同模型在SEED-Bench上的評估結果列在表1中,其中準確率指正確回答的多項選擇題相對于問題總數(shù)的比例。我們驚訝地發(fā)現(xiàn),InstructBLIP不僅在評估空間理解的九個維度的平均結果中取得了最佳表現(xiàn),而且在評估時間理解的三個維度的平均結果中也超過了VideoLLMs。我們在圖5中展示了SEED-Bench上各種評估維度的排行榜,以提供對不同模型的全面評估?;谒性u估維度平均結果的總體排行榜顯示在圖1中。為了更好地展示模型在不同評估維度中的能力,我們進一步在圖6中可視化了每個模型在每個評估維度中的排名,其中顏色越深表示排名越高。我們可以觀察到,BLIP系列模型在多個評估維度中取得了競爭性結果,但在視覺推理和動作識別方面表現(xiàn)不佳。VideoLLM Valley在大多數(shù)評估維度中表現(xiàn)次優(yōu)。LLaVa在文本識別評估中表現(xiàn)出與其他評估維度相比無與倫比的能力。就具體評估維度而言,MiniGPT-4和mPLUG-Owl模型在視覺推理方面表現(xiàn)更好,而VPGTrans模型在動作識別和過程理解方面表現(xiàn)出色。LLaMA Adapter V2模型在動作識別方面表現(xiàn)更加熟練。此外,Multimodal GPT、Otter、Openflamingo、GVT和三種VideoLLMs在各種評估維度中表現(xiàn)均衡。
圖5:SEED-Bench上不同評估維度的排行榜。
圖6:各模型在不同評估維度中的表現(xiàn)示意圖,其中顏色越深表示排名越高。
4.3 分析
通過對各種模型在SEED-Bench上的全面和客觀評估,我們觀察到了一些可以為未來工作帶來啟示的發(fā)現(xiàn)。
大多數(shù)MLLMs在所有12個評估維度上的表現(xiàn)仍然有限。如圖1和圖5所示,除BLIP系列模型外,大多數(shù)MLLMs在平均表現(xiàn)和超過三個單一評估維度上的表現(xiàn)均未達到50%的準確率。在某些特定的評估維度(例如視覺推理)中,大多數(shù)MLLMs似乎取得了較高的準確率。然而,當將MLLMs的表現(xiàn)與LLMs進行比較時,我們發(fā)現(xiàn)大多數(shù)MLLMs的性能提升仍然相對有限。
MLLMs在全局圖像理解上表現(xiàn)相對較高。在場景理解和視覺推理的評估中,大多數(shù)MLLMs的準確率超過40%,且所有MLLMs的表現(xiàn)均優(yōu)于LLMs。這表明,MLLMs在圖像的全局理解和推理方面比在其他需要細粒度實例級理解的評估維度上更為熟練。
InstructBLIP在12個評估維度中的8個維度上表現(xiàn)最佳。我們觀察到,InstructBLIP在8個評估維度上超過了其他模型,可能的解釋如下:(a) InstructBLIP的指令調整數(shù)據(jù)包含總計1600萬樣本(比其他指令調整數(shù)據(jù)集更大),涵蓋了廣泛的多模態(tài)任務,甚至包括OCR和時間視覺推理的QA數(shù)據(jù)。(b) 在執(zhí)行InstructBLIP的指令調整時,LLMs的權重被凍結,這可能緩解了災難性遺忘。然而,InstructBLIP系列模型在動作識別和過程理解方面表現(xiàn)仍然較差,這與指令調整數(shù)據(jù)顯著不同。例如,在需要理解細粒度動作的Something-Something-v2上的動作識別方面,InstructBLIP系列模型的性能提升相比LLMs并不顯著(低于2%)。這表明InstructBLIP系列模型可能在分布外數(shù)據(jù)上的泛化能力較差。
MLLMs在理解對象間的空間關系方面表現(xiàn)較弱。排名最高的InstructBLIP在空間關系評估中的準確率僅為40%,這表明識別實例之間的相對空間關系是具有挑戰(zhàn)性的,因為可能存在多種空間關系的排列和組合。此外,某些情況下對象之間的空間關系可能會引起歧義,使得確定它們的關系變得困難。
大多數(shù)MLLMs在文本識別方面表現(xiàn)不佳。除了InstructBLIP,所有其他模型在文本識別方面的準確率均低于40%,這主要是由于多模態(tài)預訓練數(shù)據(jù)集中缺乏文本元素。由于準確識別和提取圖像中的文本能力非常重要,未來的工作應開發(fā)更好地處理文本識別的模型,通過在包含豐富文本元素的視覺數(shù)據(jù)集上進行預訓練。
VideoLLMs在空間理解方面取得了令人鼓舞的結果。例如,VideoChat在實例定位中的準確率為39.98%(排名第4),超過了LLaVa 11.55%,且僅比排名第一的模型低3.58%。這表明,VideoChat在預訓練和指令調整階段聯(lián)合訓練圖像和視頻數(shù)據(jù)時,其空間理解能力沒有退化。
大多數(shù)MLLMs在細粒度時間理解方面表現(xiàn)不佳。值得注意的是,在過程理解的評估中,排名最高的模型VPGTrans的準確率僅比LLaMA高出5%。接下來的4個MLLMs的性能提升相比LLaMA甚至低于1.2%。這表明,ImageLLMs和VideoLLMs在執(zhí)行細粒度時間推理以識別和排序視頻中的關鍵動作方面都非常困難。
VideoLLMs在時間理解方面未能實現(xiàn)競爭力的表現(xiàn)。盡管VideoLLMs在視頻數(shù)據(jù)上進行了指令調整,但在時間理解的評估維度上并未表現(xiàn)出顯著優(yōu)勢。令人驚訝的是,兩種VideoLLMs(Video-ChatGPT和Valley)在動作識別、動作預測和過程理解方面的表現(xiàn)甚至低于大多數(shù)ImageLLMs。這表明現(xiàn)有VideoLLMs在細粒度動作識別、時間關系理解和時間推理方面的能力仍然有限。最近的研究工作也提出了對現(xiàn)有VideoLLMs的類似擔憂。
5.結論
在這項工作中,我們提出了一個大規(guī)?;鶞蔛EED-Bench,以對多模態(tài)大語言模型(MLLMs)的生成理解進行全面和客觀的評估。SEED-Bench包含19K道帶有精確人類注釋的多項選擇題,涵蓋了包括空間和時間理解在內的12個評估維度。我們設計了一個先進的流程來創(chuàng)建針對特定評估維度的多項選擇題,促進了跨各種領域的評估數(shù)據(jù)的可擴展性。我們還整合了自動過濾和人工驗證,以提高生成問題和答案的質量。我們對18個模型進行了全面評估,分析和比較了它們的表現(xiàn),為未來的研究提供了見解。我們計劃推出并持續(xù)維護一個排行榜,為社區(qū)提供評估模型性能的平臺。我們將繼續(xù)通過更多數(shù)據(jù)進一步拓寬SEED-Bench的評估維度。
Li B, Wang R, Wang G, et al. Seed-bench: Benchmarking multimodal llms with generative comprehension[J]. arXiv preprint arXiv:2307.16125, 2023.
1Tencent AI Lab
2ARC Lab, Tencent PCG
本文轉載自公眾號AIRoobt ,作者:AIRoobt
