STIC:自我訓(xùn)練增強LVLM對圖像理解的能力 原創(chuàng)
STIC框架概述,這是一個專注于LVLM圖像理解能力的兩階段自我訓(xùn)練算法。 第1階段,基礎(chǔ)LVLM使用精心設(shè)計的提示、設(shè)計不良的提示和扭曲的圖像自我構(gòu)建其圖像描述偏好數(shù)據(jù)集。在第2階段,之前使用過的監(jiān)督微調(diào)(SFT)數(shù)據(jù)的一小部分被回收利用,并與模型生成的圖像描述進一步微調(diào)基礎(chǔ)LVLM。
大型視覺語言模型(LVLMs)將大型語言模型(LLMs)與預(yù)訓(xùn)練的視覺編碼器結(jié)合在一起,從而激活了模型的感知能力,以理解不同查詢的圖像輸入并進行后續(xù)推理。改進這種能力需要高質(zhì)量的視覺語言數(shù)據(jù),這種數(shù)據(jù)獲取成本高且需要大量的人力資源。自我訓(xùn)練方法在單模態(tài)環(huán)境中通過利用模型自身的生成來減輕對標(biāo)記數(shù)據(jù)的需求已經(jīng)被證明是有效的。然而,有效的自我訓(xùn)練對LVLMs的獨特視覺感知和推理能力仍然是一個挑戰(zhàn)。
為了解決這個問題,研究人員開發(fā)了Self-Training on Image Comprehension(STIC),強調(diào)了一種專門用于圖像理解的自我訓(xùn)練方法。首先,模型使用未標(biāo)記的圖像自構(gòu)建了一個圖像描述的偏好數(shù)據(jù)集。通過逐步的提示生成首選響應(yīng),而不良響應(yīng)則是從扭曲的圖像或誤導(dǎo)性提示中生成的。為了進一步自我改進對提取的視覺信息的推理,研究人員讓模型重用一小部分現(xiàn)有的指導(dǎo)微調(diào)數(shù)據(jù),并將其自動生成的圖像描述附加到提示中。
在七個不同的基準(zhǔn)測試中驗證了STIC的有效性,研究人員展示了平均性能提升4.0%的顯著性能增益,同時使用的監(jiān)督微調(diào)數(shù)據(jù)比當(dāng)前方法少70%。進一步的研究探討了STIC的各個組成部分,并突出了它利用大量未標(biāo)記圖像進行自我訓(xùn)練的潛力。
STIC:自構(gòu)建的偏好數(shù)據(jù)
STIC特別強調(diào)了LVLM圖像理解的自我訓(xùn)練,其中模型生成了自己的偏好數(shù)據(jù),重點是圖像描述。通過收集模型響應(yīng)而得到自動生成的不良響應(yīng),其來源可能是(1)可能導(dǎo)致不準(zhǔn)確響應(yīng)的提示或(2)扭曲的圖像。首選響應(yīng)通過詳細(xì)的提示收集,該提示引導(dǎo)模型通過逐步的圖像描述過程。
STIC:兩階段自我訓(xùn)練
研究人員開發(fā)了STIC,一個設(shè)計用于增強圖像理解能力的兩階段自我訓(xùn)練算法。第一階段構(gòu)建了自己的偏好數(shù)據(jù)集,第二階段將使用的監(jiān)督微調(diào)(SFT)數(shù)據(jù)與自動生成的圖像描述混合以進行微調(diào)。
STIC特別強調(diào)了LVLM圖像理解的自我訓(xùn)練,其中模型生成了自己的偏好數(shù)據(jù),重點是圖像描述。通過收集模型響應(yīng)而得到自動生成的不良響應(yīng),其來源可能是(1)可能導(dǎo)致不準(zhǔn)確響應(yīng)的提示或(2)扭曲的圖像。首選響應(yīng)通過詳細(xì)的提示收集,該提示引導(dǎo)模型通過逐步的圖像描述過程。
在微調(diào)過程中,研究人員考慮了直接偏好優(yōu)化(DPO)損失,并增加了一個額外的正則化項,明確強調(diào)了首選響應(yīng)。最后,允許模型根據(jù)自己提取的圖像信息自我改進其推理能力,方法是重新使用少量現(xiàn)有的指導(dǎo)微調(diào)數(shù)據(jù),并將其自動生成的圖像描述附加到提示中。研究人員將這個第二階段稱為描述注入微調(diào)。值得注意的是,STIC方法不需要圖像的預(yù)標(biāo)記信息,這與依賴此類信息構(gòu)建視覺語言偏好數(shù)據(jù)的最近工作形成對比。
STIC: 主要結(jié)果
為了展示STIC的有效性,研究人員在七個視覺語言基準(zhǔn)測試上進行了廣泛的實驗,包括ScienceQA、TextVQA、ChartQA、LLaVA-Bench、MMBench、MM-Vet和MathVista。這些基準(zhǔn)測試涵蓋了科學(xué)推理、數(shù)學(xué)推理、光學(xué)字符識別(OCR)和基于視覺輸入的對話能力,涵蓋了各種圖像來源,如自然圖像、圖表和文本豐富的圖像。研究人員將LLaVA-v1.6作為實驗的主要基礎(chǔ)LVLM,并使用來自MSCOCO的6000張圖像來構(gòu)建圖像描述偏好數(shù)據(jù)。
STIC在這些基準(zhǔn)測試中實現(xiàn)了一致且顯著的性能改進,基于基礎(chǔ)LVLM的平均準(zhǔn)確率提高了4.0%,在ScienceQA上的顯著增益為6.4%。這些結(jié)果表明了圖像理解自我訓(xùn)練方法在增強LVLM的視覺感知能力方面的顯著有效性。
STIC:t-SNE可視化
為了進一步洞察STIC在不同基準(zhǔn)測試中的有效性,研究人員進行了t-SNE可視化分析,比較了用于偏好數(shù)據(jù)構(gòu)建的MSCOCO圖像分布與四個基準(zhǔn)測試的圖像分布:ScienceQA、TextVQA、MathVista和ChartQA。
分析揭示了一個普遍趨勢:MSCOCO圖像分布與基準(zhǔn)測試之間的重疊越大,STIC在該基準(zhǔn)測試上實現(xiàn)的性能增益就越高。這一觀察結(jié)果在ScienceQA和TextVQA上得到了驗證,這兩個基準(zhǔn)測試與MSCOCO存在大量的分布重疊,并分別實現(xiàn)了6.4%和4.9%的最高性能增益。相反,MathVista由于其多樣的圖像類型和與MSCOCO的有限重疊,看到了更為適度的增益,為2.4%。有趣的是,ChartQA是一個離群值,盡管與MSCOCO的重疊程度較小,但實現(xiàn)了5.1%的高增益,這表明STIC改進的圖像理解在理解和推理圖表方面發(fā)揮了基礎(chǔ)作用。
譯自(有刪改):https://stic-lvlm.github.io
本文轉(zhuǎn)載自公眾號AIGC最前線
