火山引擎論文入選國(guó)際會(huì)議ACM MM'24|對(duì)齊人類主觀偏好的圖像質(zhì)量評(píng)價(jià)方法
會(huì)議背景
2024年10月28日至11月1日,ACM Multimedia(ACM MM) 2024在澳大利亞墨爾本召開,該會(huì)議是中國(guó)計(jì)算機(jī)學(xué)會(huì)(CCF)推薦的多媒體領(lǐng)域的A類國(guó)際學(xué)術(shù)會(huì)議。2024年共4395篇參與審稿,最終錄用1149篇論文,錄用率26.1%。
火山引擎-流媒體技術(shù)與湖南工商大學(xué)、湘江實(shí)驗(yàn)室合作的論文"Align-IQA: Aligning Image Quality Assessment Models with Diverse Human Preferences via Customizable Guidance" 被ACM Multimedia 2024 收錄。
論文鏈接:https://openreview.net/pdf?id=CdA18J5jJx
論文方案
論文背景
圖像質(zhì)量評(píng)價(jià)(Image Quality Assessment, IQA)是圖像處理和計(jì)算機(jī)視覺(jué)領(lǐng)域中的一項(xiàng)重要任務(wù),旨在模擬人類視覺(jué)系統(tǒng)對(duì)圖像質(zhì)量的感知過(guò)程,構(gòu)建與人類主觀判斷盡可能一致的客觀質(zhì)量評(píng)價(jià)算法。最初,IQA的研究主要聚焦于評(píng)估經(jīng)過(guò)特定處理(如壓縮、模糊或添加噪聲)的自然場(chǎng)景圖像、之后逐步擴(kuò)展到用戶生成內(nèi)容(User-Generated Content, UGC)(如使用智能手機(jī)等電子設(shè)備拍攝的圖像),以及近年來(lái)流行的人工智能生成內(nèi)容(AI-Generated Content, AIGC)(如通過(guò)文本到圖像模型生成的圖像)。為了應(yīng)對(duì)這些不同類型的圖像內(nèi)容的質(zhì)量評(píng)估需求,研究者們投入了大量精力,提出了多種IQA方法。然而,由于人類對(duì)于不同類型的圖像內(nèi)容的偏好存在差異,如何使得IQA模型與這些偏好保持一致,依然是一個(gè)亟待解決的挑戰(zhàn)。盡管現(xiàn)有的IQA方法通過(guò)利用預(yù)訓(xùn)練模型中的知識(shí),在評(píng)估特定圖像內(nèi)容(自然場(chǎng)景圖像、UGC圖像)方面取得了重大成功,但由于影響最終評(píng)估結(jié)果的復(fù)雜因素眾多,以及這些方法所特有的、精心設(shè)計(jì)的網(wǎng)絡(luò)架構(gòu),它們?cè)跍?zhǔn)確捕捉人類對(duì)新型的圖像內(nèi)容(AIGC圖像)的偏好方面仍存在不足。
基于可定制指導(dǎo)的對(duì)齊人類主觀偏好的圖像質(zhì)量評(píng)價(jià)方法——Align-IQA
為了解決現(xiàn)有的IQA方法在準(zhǔn)確捕捉人類對(duì)新穎圖像內(nèi)容的偏好方面的不足,本文提出了一種基于可定制指導(dǎo)的對(duì)齊人類主觀偏好的圖像質(zhì)量評(píng)價(jià)方法——Align-IQA。該方法能夠針對(duì)不同類型的圖像內(nèi)容,生成與人類偏好高度一致的質(zhì)量評(píng)分。
可定制指導(dǎo)注入模塊
在對(duì)自然場(chǎng)景圖像、UGC圖像和AIGC圖像進(jìn)行質(zhì)量評(píng)估時(shí),人類能夠根據(jù)自身的知識(shí)和經(jīng)驗(yàn)靈活地調(diào)整評(píng)估標(biāo)準(zhǔn)。對(duì)于自然場(chǎng)景圖像和UGC圖像,人類評(píng)估的重點(diǎn)是圖像的視覺(jué)保真度;而對(duì)于AIGC圖像,除了視覺(jué)保真度之外,人類還會(huì)關(guān)注圖像與文本提示之間的語(yǔ)義一致性。為此,本文提出了一種可定制指導(dǎo)注入模塊(Customizable Guidance Injector, CGI),旨在根據(jù)不同類型的圖像內(nèi)容(自然場(chǎng)景圖像、UGC圖像和AIGC圖像)引入相應(yīng)的人類先驗(yàn)知識(shí),從而使得同一個(gè)質(zhì)量評(píng)價(jià)模型能夠針對(duì)這些不同類型的圖像內(nèi)容進(jìn)行自適應(yīng)評(píng)估。
具體而言,對(duì)于自然場(chǎng)景圖像和UGC圖像,CGI模塊通過(guò)引入視覺(jué)顯著性特征作為指導(dǎo),來(lái)幫助模型提取與質(zhì)量感知相關(guān)的特征;對(duì)于AIGC圖像,CGI模塊則通過(guò)引入圖像和文本提示之間的語(yǔ)義一致性特征,來(lái)引導(dǎo)模型提取與質(zhì)量感知相關(guān)的特征。
多尺度特征聚合模塊
在人類視覺(jué)系統(tǒng)中,有許多視覺(jué)特性影響著人類對(duì)圖像質(zhì)量的感知。為了構(gòu)建一個(gè)能更貼近人類視覺(jué)感知的圖像質(zhì)量評(píng)價(jià)模型,本文提出了一種多尺度特征聚合模塊(Multi-scale Feature Aggregator, MSFA)。該模塊通過(guò)模擬人類視覺(jué)系統(tǒng)的多尺度機(jī)制,能夠更全面且有效地提取與質(zhì)量感知相關(guān)的特征。同時(shí),它還結(jié)合了深度可分離膨脹卷積,以較少的參數(shù)高效地實(shí)現(xiàn)多尺度信息的提取和融合工作。
實(shí)驗(yàn)結(jié)果
在八個(gè)公開數(shù)據(jù)集(四個(gè)自然場(chǎng)景圖像數(shù)據(jù)集:LIVE、CSIQ、TID2013和KADID-10K;兩個(gè)UGC圖像數(shù)據(jù)集:CLIVE和KonIQ-10K;兩個(gè)AIGC圖像數(shù)據(jù)集:AGIQA-1K和AGIQA-3K)上的實(shí)驗(yàn)結(jié)果顯示,Align-IQA能夠針對(duì)不同類型的圖像內(nèi)容,生成與人類偏好高度一致的質(zhì)量評(píng)分。這充分驗(yàn)證了Align-IQA的有效性和普適性。
總結(jié)
本文提出了一種基于可定制指導(dǎo)的對(duì)齊人類主觀偏好的圖像質(zhì)量評(píng)價(jià)方法—Align-IQA,該方法能夠自適應(yīng)地對(duì)自然場(chǎng)景圖像、UGC圖像和AIGC圖像進(jìn)行高效的質(zhì)量評(píng)估。為了實(shí)現(xiàn)這一適應(yīng)性評(píng)估,本文提出了一個(gè)可定制指導(dǎo)注入模塊,用于根據(jù)不同類型的圖像內(nèi)容引入相應(yīng)的人類先驗(yàn)知識(shí)。此外,為了更準(zhǔn)確地從人類視覺(jué)感知的角度預(yù)測(cè)圖像的質(zhì)量評(píng)分,本文提出了一個(gè)多尺度特征聚合模塊。實(shí)驗(yàn)結(jié)果表明,Align-IQA在涵蓋多種圖像類型的八個(gè)公開數(shù)據(jù)集上,達(dá)到了優(yōu)于或與SOTA方法相當(dāng)?shù)男阅堋?/p>