8B文字多模態(tài)大模型指標(biāo)逼近GPT4V,字節(jié)、華師、華科聯(lián)合提出TextSquare
近期,多模態(tài)大模型 (MLLM) 在文本中心的 VQA 領(lǐng)域取得了顯著進(jìn)展,尤其是多個(gè)閉源模型,例如:GPT4V 和 Gemini,甚至在某些方面展現(xiàn)了超越人類能力的表現(xiàn)。但是開源模型的性能還遠(yuǎn)遠(yuǎn)落后于閉源模型,最近許多開創(chuàng)性的研究,例如:MonKey、LLaVAR、TG-Doc、ShareGPT4V 等已開始關(guān)注指令微調(diào)數(shù)據(jù)不足的問題。盡管這些努力取得了顯著的效果,但仍存在一些問題,圖像描述數(shù)據(jù)和 VQA 數(shù)據(jù)屬于不同的領(lǐng)域,圖像內(nèi)容呈現(xiàn)的粒度和范圍存在不一致性。此外,合成數(shù)據(jù)的規(guī)模相對較小,使得 MLLM 無法充分發(fā)揮潛力。
- 論文標(biāo)題:TextSquare: Scaling up Text-Centric Visual Instruction Tuning
- 論文地址:https://arxiv.org/abs/2404.12803
為了減少這一差距,來自字節(jié)跳動(dòng) & 華東師大 & 華中科大的研究員提出了一種新的策略:Square--- 即從先進(jìn)的閉源 MLLMs 中獲得大量的以文本中心的高質(zhì)量 VQA 數(shù)據(jù),并構(gòu)建了一個(gè)千萬級(jí)指令微調(diào)數(shù)據(jù)集(Square-10M)。
VQA 數(shù)據(jù)生成
Square 策略方法包括四個(gè)步驟:自問 (Self-Questioning)、回答 (Self-Answering)、推理 (Self-Reasoning) 和評估 (Self-Evalution)。Self-Questioning 利用 MLLM 在文本圖像分析和理解方面的能力生成與圖像中文本內(nèi)容相關(guān)的問題。Self-Answering 利用各種提示技術(shù),如:思維鏈 CoT 和少樣本,提示回答這些問題。Self-Reasoning 利用 MLLMs 強(qiáng)大的推理能力,生成模型背后的推理過程。Self-Evalution 評估問題的有效性、與圖像文本內(nèi)容的相關(guān)性以及答案的正確性,從而提高數(shù)據(jù)質(zhì)量并減少幻覺。
圖 1 TextSquare 和先進(jìn)的閉源、開源模型的比較,在 10 個(gè)文本相關(guān)的 benchmark 上的平均排名超越了 GPT4V(排名 2.2 vs. 2.4)
基于 Square 方法,研究者從各種公共來源收集了一組多樣化的含有大量文本的圖像,包括自然場景、圖表、表單、收據(jù)、書籍、PPT、PDF 等構(gòu)建了 Square-10M,并基于這個(gè)數(shù)據(jù)集訓(xùn)練了以文本理解為中心的 MLLM TextSquare-8B。
如圖 1 所示,TextSquare-8B 在多個(gè) benchmark 可取得與 GPT4V 和 Gemini 相媲美或更優(yōu)的效果,并顯著超過了其他開源模型。TextSquare 實(shí)驗(yàn)驗(yàn)證了推理數(shù)據(jù)對 VQA 任務(wù)的積極影響,證明了其能夠在減少幻覺的同時(shí)提升模型性能。
此外,通過利用大規(guī)模的數(shù)據(jù)集,揭示了指令調(diào)整數(shù)據(jù)規(guī)模、訓(xùn)練收斂損失和模型性能之間的關(guān)系。盡管少量的指令調(diào)整數(shù)據(jù)可以很好地訓(xùn)練 MLLM,隨著指令調(diào)整數(shù)據(jù)的不斷擴(kuò)大,模型的性能能得到進(jìn)一步增長,指令微調(diào)數(shù)據(jù)和模型之間也存在著相對應(yīng)的 scaling law。
圖 2 VQA 數(shù)據(jù)合成的流程,包括數(shù)據(jù)生成(Self-Questioning、 Answering、Reasoning)、數(shù)據(jù)過濾(Evaluation)2 個(gè)階段
圖 3 Square-10M 的圖像分布和 QA 分布等詳細(xì)情況
數(shù)據(jù)收集
數(shù)據(jù)收集策略的主要目標(biāo)是涵蓋廣泛的現(xiàn)實(shí)世界文本豐富的場景。為此,研究者收集了 380 萬張的富文本的圖像。這些圖像表現(xiàn)出不同的特性,例如,圖表和表格側(cè)重于具有密集統(tǒng)計(jì)信息的文本元素;PPT、屏幕截圖和 WebImage 是為文本和突出視覺信息之間的交互而設(shè)計(jì)的;文檔 / PDF、收據(jù)和電子商務(wù)包含具有精細(xì)和密集文本的圖像;街景源于自然場景。收集到的圖像形成了現(xiàn)實(shí)世界中文本元素的映射,并構(gòu)成了研究以文本為中心的 VQA 的基礎(chǔ)。
數(shù)據(jù)生成
研究者利用 Gemini Pro 的多模態(tài)理解能力從特定數(shù)據(jù)源選擇圖像,并通過自問、自答、自我推理三個(gè)階段生成 VQA 及推理上下文對。
- Self-Question: 這個(gè)階段會(huì)給定一些 prompt,Gemini Pro 會(huì)根據(jù)這些提示對圖像進(jìn)行全面分析,并根據(jù)理解去生成一些有意義的問題??紤]到通用 MLLM 對文本元素的理解能力通常會(huì)比視覺模型弱,我們通過專門的 OCR 模型將提取的文本預(yù)處理到 prompt 中去。
- Self-Answering: Gemini Pro對生成問題會(huì)利用思維鏈 (CoT) 和少樣本提示 (few-shot prompting) 等技術(shù)豐富上下文信息,提高生成答案的可靠性。
- Self-Reasoning:這個(gè)階段會(huì)生成答案的詳細(xì)原因,迫使 Gemini Pro 更多的思考問題和視覺元素之間的聯(lián)系,從而減少幻覺并提高準(zhǔn)確的答案。
數(shù)據(jù)過濾
盡管自我提問、回答和推理是有效的,但生成的圖像 - 文本對可能面臨幻覺內(nèi)容、無意義問題和錯(cuò)誤答案。因此,我們設(shè)計(jì)了基于 LLM 的評估能力的過濾規(guī)則,以選擇高質(zhì)量的 VQA 對。
- Self-Evaluation提示 Gemini Pro 和其他 MLLMs 判斷生成的問題是否有意義,以及答案是否足以正確解決問題。
- Multi-Prompt Consistency 除了直接評估生成的內(nèi)容外,研究者還在數(shù)據(jù)生成中手動(dòng)增加提示和上下文空間。當(dāng)提供不同的提示時(shí),一個(gè)正確且有意義的 VQA 對應(yīng)該在語義上一致。
- Multi-Context Consistency 研究者通過在問題前準(zhǔn)備不同的上下文信息來進(jìn)一步驗(yàn)證 VQA 對。
TextSquare-8B
TextSquare-8B 借鑒了 InternLM-Xcomposer2 的模型結(jié)構(gòu),包括 CLIP ViT-L-14-336 的視覺 Encoder,圖像分辨率進(jìn)一步提升至 700;基于 InternLM2-7B-ChatSFT 的大語言模型 LLM;一個(gè)對齊視覺和文本 token 的橋接器 projector。
TextSquare-8B 的訓(xùn)練包括三階段的 SFT:
第一階段,以 490 的分辨率全參數(shù) (Vision Encoder, Projector, LLM) 微調(diào)模型。
第二階段,輸入分辨率增加到 700,只訓(xùn)練 Vision Encoder 以適應(yīng)分辨率變化。
第三階段,進(jìn)一步以 700 的分辨率進(jìn)行全參數(shù)微調(diào)。
TextSquare 證實(shí),在 Square-10M 數(shù)據(jù)集的基礎(chǔ)上,具有 8B 參數(shù)和正常大小圖像分辨率的模型可以在以文本為中心的 VQA 上實(shí)現(xiàn)超過了大多數(shù)的 MLLM,甚至是閉源模型 (GPT4V、Gemini Pro) 的效果。
實(shí)驗(yàn)結(jié)果
圖 4(a)顯示 TextSquare 具有簡單的算術(shù)功能。圖 4(b)顯示了理解文本內(nèi)容并在密集文本中提供大致位置的能力。圖 4(c)顯示了 TextSquare 對表格結(jié)構(gòu)的理解能力。
MLLM Benchmark
- Document-Oriented Benchmark 在文檔場景的 VQA Benckmark (DocVQA、ChartQA、InfographicVQA) 上平均提升 3.5%,優(yōu)于所有開源模型,在 ChartQA 數(shù)據(jù)集上略高于 GPT4V 和 Gemini Pro,該模型分辨率僅 700,小于大多數(shù)面向文檔的 MLLM,如果分辨率進(jìn)一步提高,相信模型性能也將進(jìn)一步提高,Monkey 已證明這一點(diǎn)。
- Scene Text-centric Benchmark自然場景的 VQA Benchmark (TextVQA、AI2D) 中取得了 SOTA 的效果,但與 baseline Xcomposer2 相比沒有較大改進(jìn),可能是因?yàn)?Xcomposer2 已經(jīng)用了高質(zhì)量的域內(nèi)數(shù)據(jù)進(jìn)行了充分優(yōu)化。
- Table VQA Benchmark 表格場景的 VQA Benchmark (WTQ、TabFact) 中取得到遠(yuǎn)超 GPT4V 及 Gemini Pro 的效果,分別超過其他 SOTA 模型 3%。
- Text-centric KIE Benchmark文本中心的關(guān)鍵信息提取 KIE 任務(wù)的 benchmark (SROIE、POIE),將 KIE 任務(wù)轉(zhuǎn)換成 VQA 任務(wù),在兩個(gè)數(shù)據(jù)集都取得了最佳的性能,平均提升 14.8%。
- OCRBench 包括文本識(shí)別、公式識(shí)別、文本中心 VQA、KIE 等 29 項(xiàng) OCR 相關(guān)的評估任務(wù),取得了開源模型的最佳性能,并成為第一個(gè) 10B 左右參數(shù)量達(dá)到 600 分的模型。
- General VQA and Hallucination Evaluation Benchmark在通用的 VQA Benchmark (VizWiz VQAv2、GQA、POPE) 上 TextSquare 相較于 Xconposer2 沒有顯著退化,仍然保持著最佳的性能,在 VisWiz 和 POPE 表現(xiàn)出顯著的性能,比各最佳的方法高出 3.6%,這突出了該方法的有效性,能減輕模型幻覺。
消融實(shí)驗(yàn)
TextSquare 相較于 Xcomposer2 在各 benchmark 平均提升 7.7%。
加入自評估后,模型性能有了明顯提升。
加入推理數(shù)據(jù)后有助于顯著提升性能以及減輕幻覺生成。
數(shù)據(jù)規(guī)模和收斂 loss & 模型性能關(guān)系
隨著數(shù)據(jù)規(guī)模的增長,模型的 loss 繼續(xù)減少,而下降速度逐漸變慢。收斂損失和指令調(diào)整數(shù)據(jù)尺度之間的關(guān)系近似符合對數(shù)函數(shù)。
隨著指令調(diào)優(yōu)數(shù)據(jù)的增長,模型的性能越來越好,但增長速度繼續(xù)放緩,也大致符合對數(shù)函數(shù)。
總體而言,在以文本為中心的 VQA 場景中,在指令調(diào)整階段存在相應(yīng)的縮放定律,其中模型性能與數(shù)據(jù)縮放的對數(shù)成正比,可以指導(dǎo)潛在更大數(shù)據(jù)集的構(gòu)建并預(yù)測模型性能。
總結(jié)
在本文中,研究者提出了構(gòu)建高質(zhì)量的以文本為中心的指令調(diào)優(yōu)數(shù)據(jù)集(Square-10M)的 Square 策略,利用該數(shù)據(jù)集,TextSquare-8B 在多個(gè) benchmark 上實(shí)現(xiàn)了與 GPT4V 相當(dāng)?shù)男阅?,并在各種基準(zhǔn)測試上大幅優(yōu)于最近發(fā)布的開源模型。
此外,研究者推導(dǎo)了指令調(diào)整數(shù)據(jù)集規(guī)模、收斂損失和模型性能之間的關(guān)系,以便為構(gòu)建更大的數(shù)據(jù)集鋪平道路,證實(shí)了數(shù)據(jù)的數(shù)量和質(zhì)量對模型性能至關(guān)重要。
最后,研究者指出,如何進(jìn)一步提高數(shù)據(jù)數(shù)量和質(zhì)量以縮小開源模型與領(lǐng)先模型之間的差距,被認(rèn)為一個(gè)有高度希望的研究方向。
本文轉(zhuǎn)自 機(jī)器之心 ,作者:機(jī)器之心
