自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

將圖像自動(dòng)文本化,圖像描述質(zhì)量更高、更準(zhǔn)確了

發(fā)布于 2024-6-28 11:00
瀏覽
0收藏

皮仁杰:香港科技大學(xué)博士三年級(jí)學(xué)生,師從張潼教授和周曉方教授。于 2024 年獲得蘋(píng)果獎(jiǎng)學(xué)金。目前主要研究方向是多模態(tài)大語(yǔ)言模型和數(shù)據(jù)為中心的 AI。

?

張鑒殊:武漢大學(xué)本科三年級(jí)學(xué)生,目前在張潼教授的指導(dǎo)下?lián)窝芯繉?shí)習(xí)生,主要研究方向是大語(yǔ)言模型,多模態(tài)大語(yǔ)言模型以及持續(xù)學(xué)習(xí)。當(dāng)下在尋找 2025 fall 博士入學(xué)機(jī)會(huì)。


在當(dāng)今的多模態(tài)大模型的發(fā)展中,模型的性能和訓(xùn)練數(shù)據(jù)的質(zhì)量關(guān)系十分緊密,可以說(shuō)是 “數(shù)據(jù)賦予了模型的絕大多數(shù)能力”。


在這其中,圖像 - 文本數(shù)據(jù)集發(fā)揮著至關(guān)重要的作用,在圖像理解、文本生成和圖像檢索等多個(gè)領(lǐng)域發(fā)揮著關(guān)鍵作用。


然而,現(xiàn)有的圖像描述數(shù)據(jù)集主要來(lái)源于網(wǎng)絡(luò)抓取和人工標(biāo)注,存在著質(zhì)量參差不齊、細(xì)節(jié)缺失、描述噪音多等問(wèn)題。盡管人類可以為圖像提供詳細(xì)的描述,但高昂的標(biāo)注成本限制了其規(guī)模和可行性。因此,迫切需要一種高效、可擴(kuò)展的方法來(lái)生成準(zhǔn)確且詳細(xì)的圖像描述。


為了應(yīng)對(duì)上述挑戰(zhàn),來(lái)自香港科技大學(xué)、武漢大學(xué)、浙江大學(xué)、UIUC的研究者聯(lián)合提出了一種創(chuàng)新的自動(dòng)化框架 ——Image-Textualization(IT),該框架通過(guò)整合多模態(tài)大語(yǔ)言模型(MLLMs)和多種視覺(jué)專家模型的協(xié)作,將圖片信息進(jìn)行文本化,最后利用擁有強(qiáng)大的推理能力的純文本大語(yǔ)言模型將這些文本化的信息轉(zhuǎn)化為高質(zhì)量的圖像描述。


將圖像自動(dòng)文本化,圖像描述質(zhì)量更高、更準(zhǔn)確了-AI.x社區(qū)

  • 論文:Image Textualization: An Automatic Framework for Creating Accurate and Detailed Image Descriptions
  • 論文地址:https://arxiv.org/pdf/2406.07502v1
  • 項(xiàng)目地址:https://github.com/sterzhang/image-textualization/


將圖像自動(dòng)文本化,圖像描述質(zhì)量更高、更準(zhǔn)確了-AI.x社區(qū)

利用多模態(tài)模型造的圖片描述 vs 利用 IT 生成的圖片描述


總的來(lái)說(shuō),本文貢獻(xiàn)包括:


  • 創(chuàng)新框架:我們提出了圖像文本化框架,利用多模態(tài)大模型的的粗粒度圖像理解能力,視覺(jué)專家模型的精細(xì)感知能力,以及純文本大語(yǔ)言的模型的推理能力去自動(dòng)生成細(xì)節(jié)豐富且語(yǔ)言表達(dá)清晰的圖像描述。
  • 評(píng)估基準(zhǔn)與實(shí)驗(yàn):提出了多個(gè)評(píng)估細(xì)節(jié)豐富的圖片描述的基準(zhǔn),通過(guò)廣泛的實(shí)驗(yàn)驗(yàn)證了框架的有效性。
  • 數(shù)據(jù)集與代碼發(fā)布:利用我們的圖像文本化框架,我們生成了一個(gè)大規(guī)模高質(zhì)量的圖像描述數(shù)據(jù)集(IT-170K)。為了促進(jìn)未來(lái)的研究,我們已將所有源代碼和生成的數(shù)據(jù)集公開(kāi)發(fā)布。


將圖像自動(dòng)文本化,圖像描述質(zhì)量更高、更準(zhǔn)確了-AI.x社區(qū)

Image Textualization 方法


Image-Textualization(IT)框架包括以下三個(gè)階段:


1. 粗粒度的圖片文本化(Holistic Textualization):首先利用多模態(tài)大語(yǔ)言模型對(duì)圖片生成參考描述,盡管這些描述可能存在細(xì)節(jié)缺失和幻覺(jué),但它們?yōu)閳D像的視覺(jué)信息和語(yǔ)言表達(dá)提供了基本結(jié)構(gòu)。這里視覺(jué)的結(jié)構(gòu)主要體現(xiàn)在參考描述中往往會(huì)包含一些大的,核心的物體,這個(gè)可以為后續(xù)的細(xì)節(jié)提供類似 “錨點(diǎn)” 的作用,能夠使得最后的文本化重述(Textualized Recaptioning)更好的添加細(xì)節(jié)。另外,語(yǔ)言表達(dá)上的結(jié)構(gòu)主要體現(xiàn)在多模態(tài)大模型包含的純文本大語(yǔ)言模型使得其擁有較強(qiáng)的語(yǔ)言能力,這使得這里生成的參考描述能夠在語(yǔ)言上有良好的組織,比如會(huì)先說(shuō)出這個(gè)圖片大概描述了些什么,然后展開(kāi)細(xì)節(jié),最后總結(jié),這種描述風(fēng)格較為偏向人類的偏好。這也能夠使得最后的文本化重述(Textualized Recaptioning)能夠在一個(gè)語(yǔ)言能力較好的模板上進(jìn)行加工。


2. 視覺(jué)細(xì)節(jié)文本化(Visual Detail Textualization):這個(gè)階段我們同時(shí)從圖片端和文本端進(jìn)行細(xì)節(jié)的提取。


首先是文本端,由于在上一階段中我們利用多模態(tài)大模型生成的參考描述可能含有幻覺(jué),所以這里首先做的是 “幻覺(jué)檢測(cè)”。我們首先利用 LLM 去抓取參考描述中含有的實(shí)體,再利用了一個(gè)開(kāi)集檢測(cè)器去圖片里對(duì)這個(gè)實(shí)體進(jìn)行匹配,如果沒(méi)有被檢測(cè)出來(lái),則將這個(gè)實(shí)體判斷為幻覺(jué)。這里我們把檢測(cè)出來(lái)的幻覺(jué)也進(jìn)行了文本化,在最后的文本化重述(Textualized Recaptioning)進(jìn)行刪除。


將圖像自動(dòng)文本化,圖像描述質(zhì)量更高、更準(zhǔn)確了-AI.x社區(qū)

在視覺(jué)端,我們利用在高分辨率圖片上訓(xùn)練出來(lái)的各個(gè)任務(wù)上的視覺(jué)專家模型提取圖像中的細(xì)節(jié)信息。想要將一個(gè)圖片上的物體的細(xì)節(jié)信息利用文本表達(dá)出來(lái)僅僅用物體的 caption 是不夠的,我們首先利用提取這些物體的 bounding box 來(lái)把這些物體的左右關(guān)系給用文本的方式體現(xiàn)出來(lái)。但圖片中的物體不僅僅有左右信息,還有前后信息。對(duì)此,我們首先利用分割模型將這些物體的 mask 給提取出來(lái),再將原本的圖片轉(zhuǎn)化為深度圖,通過(guò)計(jì)算深度圖中特定物體 mask 對(duì)應(yīng)的深度分?jǐn)?shù)來(lái)將深度信息由文本體現(xiàn)出來(lái)。至此,我們能利用文本還原出圖片中各個(gè)物體的大小,左右位置,前后關(guān)系等細(xì)節(jié)信息。

將圖像自動(dòng)文本化,圖像描述質(zhì)量更高、更準(zhǔn)確了-AI.x社區(qū)

3. 文本化重述(Textualized Recaptioning):結(jié)合前兩個(gè)階段的圖片信息文本化的結(jié)果,加上我們通過(guò)精心設(shè)計(jì)的改寫(xiě) prompt,純文本的大語(yǔ)言模型能夠很好的通過(guò)純文本還原出圖片的信息,并通過(guò)強(qiáng)大理解和推理能力生成詳細(xì)且準(zhǔn)確的圖像描述。


全面評(píng)估與實(shí)驗(yàn)驗(yàn)證


為了驗(yàn)證我們框架的有效性,我們構(gòu)建了三個(gè)評(píng)估基準(zhǔn),分別是 DID-Bench(詳細(xì)圖像描述基準(zhǔn))、D2I-Bench(描述到圖像基準(zhǔn))和 LIN-Bench(語(yǔ)言基準(zhǔn))。我們進(jìn)行了廣泛的實(shí)驗(yàn),結(jié)果表明 IT 框架生成的圖像描述在細(xì)節(jié)豐富度和準(zhǔn)確性方面顯著優(yōu)于現(xiàn)有方法。尤其是,通過(guò)我們的 IT 框架生成的數(shù)據(jù)集訓(xùn)練的 MLLMs,如 LLaVA-7B,展現(xiàn)出了更強(qiáng)的圖像描述能力,減少了幻覺(jué)現(xiàn)象。


DID-Bench(詳細(xì)圖像描述基準(zhǔn)):用于評(píng)估圖片描述和人類手動(dòng)標(biāo)的詳細(xì)的圖片描述的相似性??梢钥吹轿覀兊男薷暮蟮?IT-{LLaVA} 和 IT-{GPT4-V} 圖片描述都比修改前的要更詳細(xì)和準(zhǔn)確,更貼合人類標(biāo)注出來(lái)的描述。

將圖像自動(dòng)文本化,圖像描述質(zhì)量更高、更準(zhǔn)確了-AI.x社區(qū)

D2I-Bench(描述到圖像基準(zhǔn)):利用文生圖模型將生成的描述轉(zhuǎn)化為圖片,和原圖進(jìn)行相似度的對(duì)比,這里我們選取了 CLIP-score 和 DINO-score 進(jìn)行評(píng)估,都能達(dá)到更高的分?jǐn)?shù)。

將圖像自動(dòng)文本化,圖像描述質(zhì)量更高、更準(zhǔn)確了-AI.x社區(qū)

將圖像自動(dòng)文本化,圖像描述質(zhì)量更高、更準(zhǔn)確了-AI.x社區(qū)

另外我們還在 POPE 和 LIN-Bench 上驗(yàn)證了利用我們框架生成數(shù)據(jù)進(jìn)行訓(xùn)練的 LLaVA-7B 能夠在生成描述更詳細(xì)更復(fù)雜的情況下(表右側(cè) LIN-Bench),還能降低幻覺(jué)(表左側(cè) POPE 基準(zhǔn))。

將圖像自動(dòng)文本化,圖像描述質(zhì)量更高、更準(zhǔn)確了-AI.x社區(qū)

最后,我們對(duì)生成出的數(shù)據(jù)進(jìn)行了統(tǒng)計(jì)上的對(duì)比,可以看到我們修改后的描述中各個(gè)詞性的數(shù)量上都能有較大的提升。


將圖像自動(dòng)文本化,圖像描述質(zhì)量更高、更準(zhǔn)確了-AI.x社區(qū)

未來(lái)展望


我們的工作不僅解決了現(xiàn)有圖像描述數(shù)據(jù)集的局限性,也為設(shè)計(jì)更高效、可擴(kuò)展的方法提供了靈感。我們期待 IT 框架在更多應(yīng)用領(lǐng)域中展示其潛力,推動(dòng)圖像理解和生成技術(shù)的進(jìn)一步發(fā)展。


本文轉(zhuǎn)自 機(jī)器之心 ,作者:機(jī)器之心


原文鏈接:??https://mp.weixin.qq.com/s/0Xo9IbVq6-muRjTpexhOeA??

收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦