自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

標注受限也能識別多標簽圖像!中山大學等發(fā)布異構(gòu)語義轉(zhuǎn)移HST框架 | IJCV 2024

發(fā)布于 2024-5-24 13:42
瀏覽
0收藏

隨著深度學習的快速發(fā)展,許多研究者們開始嘗試利用深度神經(jīng)網(wǎng)絡(luò)解決多標簽圖像識別(Multi-label Image Recognition, MLR)任務(wù),并已取得了不俗的進展。


但是,由于圖像本身和潛在標簽類別的復雜性,收集滿足現(xiàn)有模型訓練的多標簽標注信息往往成本高昂且難以拓展,導致現(xiàn)有的大部分多標簽圖像識別模型難以在現(xiàn)實應(yīng)用場景中落地。


因此,近年來許多研究者開始致力于探索標注受限情況下的多標簽圖像識別(Multi-label Image Recognition with Partial Label, MLR-PL)算法來解決這個問題。


標注受限也能識別多標簽圖像!中山大學等發(fā)布異構(gòu)語義轉(zhuǎn)移HST框架 | IJCV 2024-AI.x社區(qū)

圖1 多標簽圖像識別任務(wù)中完整標注與標注受限的區(qū)別


為此,近期中山大學聯(lián)合廣東工業(yè)大學聯(lián)手探索標注受限情況下的多標簽圖像識別任務(wù),提出了兩種解決方案(即,結(jié)構(gòu)化語義遷移和語義感知表達混合)并發(fā)表多篇文章于頂級期刊/會議(IJCV / TMM / AAAI)。


此外,為了更好的衡量現(xiàn)有方法在不同標注比例下的性能,研究人員構(gòu)建了一個統(tǒng)一且公平的評測基準,該基準復現(xiàn)了多個效果較好的傳統(tǒng)多標簽圖像識別方法,以及數(shù)個最新發(fā)表的標注受限情況下的多標簽圖像識別算法,并使用統(tǒng)一的數(shù)據(jù)集以及標注比例,以此進行公平的比較評測。


標注受限也能識別多標簽圖像!中山大學等發(fā)布異構(gòu)語義轉(zhuǎn)移HST框架 | IJCV 2024-AI.x社區(qū)

倉庫鏈接:??https://github.com/HCPLab-SYSU/HCP-MLR-PL??


具體而言,研究人員做了以下兩方面的工作:


通過對多標簽圖像中的強語義相關(guān)性的探索研究,團隊提出了一種異構(gòu)語義轉(zhuǎn)移(Heterogeneous Semantic Transfer, HST) 框架。


該框架探索圖像內(nèi)和圖像間潛在的語義相關(guān)性,從而實現(xiàn)有效的未知標簽生成。相關(guān)文章發(fā)表于 IJCV'24 & AAAI'22。


標注受限也能識別多標簽圖像!中山大學等發(fā)布異構(gòu)語義轉(zhuǎn)移HST框架 | IJCV 2024-AI.x社區(qū)

IJCV 2024:??https://arxiv.org/pdf/2205.11131??


標注受限也能識別多標簽圖像!中山大學等發(fā)布異構(gòu)語義轉(zhuǎn)移HST框架 | IJCV 2024-AI.x社區(qū)

AAAI 2022:??https://aaai-2022.virtualchair.net/poster_aaai1133??


除了正負樣本標注受限情況外,正樣本標注受限情況下的多標簽圖像識別(Multi-label Image Recognition with Partial Positive Label, MLR-PPL)對進行了額外的拓展討論。


在該問題中,提出了一種類別自適應(yīng)標簽發(fā)現(xiàn)與噪音抑制(Category-Adaptive Label Discovery and Noise Rejection)框架。相關(guān)文章發(fā)表于 TMM'24。


標注受限也能識別多標簽圖像!中山大學等發(fā)布異構(gòu)語義轉(zhuǎn)移HST框架 | IJCV 2024-AI.x社區(qū)

TMM 2024:??https://ieeexplore.ieee.org/document/10517428/??


通過對多標簽圖像混合中的可能存在的語義/上下文混淆進行分析,團隊提出了一種語義感知表達混合(Dual-Perspective Semantic-Aware Representation Blending, DSRB)框架。


該框架分別從實例和原型的角度混合特定于類別的視覺表達,以此實現(xiàn)多樣化且穩(wěn)定的混合視覺表達生成。相關(guān)文章發(fā)表于 ESWA'24 & AAAI'22。


標注受限也能識別多標簽圖像!中山大學等發(fā)布異構(gòu)語義轉(zhuǎn)移HST框架 | IJCV 2024-AI.x社區(qū)

ESWA 2024:??https://www.sciencedirect.com/science/article/abs/pii/S0957417424003919??



標注受限也能識別多標簽圖像!中山大學等發(fā)布異構(gòu)語義轉(zhuǎn)移HST框架 | IJCV 2024-AI.x社區(qū)

AAAI 2022:??https://aaai-2022.virtualchair.net/poster_aaai1134??


結(jié)構(gòu)化語義遷移

現(xiàn)有的 MLR 算法主要將多標簽圖像識別任務(wù)視為多個二元分類子任務(wù),從該角度出發(fā)將未知標簽視為缺失或負標簽是一種直觀且簡單的方法,因此可以通過調(diào)整這些算法來解決 MLR-PL 任務(wù)。


然而,這種簡單粗暴的處理會導致模型丟失部分標注數(shù)據(jù),甚至產(chǎn)生一些噪聲標簽,這可能會損害模型的訓練過程并不可避免地導致明顯的性能下降。


幸運的是,每個多標簽圖像內(nèi)以及不同多標簽圖像之間都存在很強的語義相關(guān)性。這些相關(guān)性有助于有效地遷移已知標簽的語義知識來構(gòu)造未知標簽,從而解決上述困境。


如下圖所示,語義相關(guān)性分為兩種類型,即


1)圖像內(nèi)相關(guān)性:標簽共現(xiàn)在現(xiàn)實世界的圖像中廣泛存在,并且具有高共現(xiàn)概率的標簽可能共存于一幅圖像中,例如,汽車 往往與 人 同時出現(xiàn),而 桌子 則傾向于與 椅子 同時出現(xiàn)。


2)跨圖像相關(guān)性:屬于同一類別且來自不同圖像的對象可能具有相似的視覺外觀,因此具有相似視覺特征的圖像可能具有相同的標簽。


標注受限也能識別多標簽圖像!中山大學等發(fā)布異構(gòu)語義轉(zhuǎn)移HST框架 | IJCV 2024-AI.x社區(qū)

圖2 多標簽圖像中存在強語義相關(guān)性


基于上述發(fā)現(xiàn),團隊開展了對于語義相關(guān)性的探索研究,以通過一種新穎的異構(gòu)語義轉(zhuǎn)移(Heterogeneous Semantic Transfer, HST)框架來幫助補充未知標簽。


該框架由語義感知表達學習 (SARL) 模塊、圖像內(nèi)語義轉(zhuǎn)移(IST)模塊和跨圖像語義轉(zhuǎn)移(CST)模塊組成,其中 SARL 模塊通過結(jié)合各個類別的語義來學習特定于類別的特征表達;IST 模塊通過學習每個圖像的所有類別之間的共現(xiàn)矩陣,以此補充與已知標簽具有高共現(xiàn)概率的未知標簽;CST 模塊通過學習特定類別的表達原型以及相應(yīng)的特征表達和原型之間的特定于類別的相似性,并基于此補充具有高相似性的未知標簽。


最后,可以使用已知標簽和補充標簽來監(jiān)督 MLR 模型的訓練。


標注受限也能識別多標簽圖像!中山大學等發(fā)布異構(gòu)語義轉(zhuǎn)移HST框架 | IJCV 2024-AI.x社區(qū)

圖3 HST 框架圖 (發(fā)表于 IJCV 2024 & AAAI 2022)


類別自適應(yīng)標簽發(fā)現(xiàn)與噪音抑制

除了上述工作外,團隊也對 MLR-PL 任務(wù)本身進行了拓展討論。為了更貼合實際應(yīng)用場景,坐著建議訓練具有部分正標簽的 MLR 模型(MLR-PPL),即僅知道一部分正標簽,而其余正標簽和所有負標簽缺失。


在這種情況下,可以充分利用豐富的在線用戶標記圖像來大幅降低標注成本。然而,團隊也認識到這項任務(wù)提出了更大的挑戰(zhàn),主要是由于監(jiān)督信號的大幅減少和負標簽的缺失,這會導致模型表現(xiàn)出始終預(yù)測正面標簽的強烈偏見。


由于缺乏負訓練樣本,僅使用部分正標簽訓練 MLR 模型的傳統(tǒng)做法通常會導致「始終預(yù)測正」解決方案。


為了解決這個問題,之前的研究提出了一種樸素的訓練策略,假設(shè)負數(shù)(AN),其中所有缺失的標簽都被視為負數(shù)。


雖然這種策略在一定程度上緩解了困境,但由于將許多積極標簽錯誤地注釋為消極標簽,它可能會顯著降低性能。為此,團隊提出了一種新穎的框架,該框架探索各個類別的跨圖像語義相關(guān)性,以此識別未知的正標簽并丟棄噪聲標簽。


具體而言,該框架由兩個互補模塊組成,分別是類別自適應(yīng)標簽發(fā)現(xiàn)模塊(Category-Adaptive Label Discovery, CALD)和類別自適應(yīng)噪聲抑制(Category-Adaptive Noise Rejection, CANR)模塊。


其中,CALD 模塊測量正樣本隊列中同一類別的特征表示之間的語義相似度,然后利用這些語義相似度來生成偽標簽。


同時,CANR 模塊通過評估各個樣本之間的語義相似度來計算樣本權(quán)重。隨后,它通過識別相關(guān)權(quán)重較低的標簽來消除噪聲標簽。與之前的工作不同,團隊還設(shè)計了類別自適應(yīng)閾值更新來自適應(yīng)調(diào)整 CALD 和 CANR 模塊中每個類別的閾值,避免了極其耗時和費力的手動調(diào)整。


標注受限也能識別多標簽圖像!中山大學等發(fā)布異構(gòu)語義轉(zhuǎn)移HST框架 | IJCV 2024-AI.x社區(qū)

圖4 所提出方法的框架圖(發(fā)表于 TMM 2024)


語義感知表達混合

除了語義相關(guān)性外,團隊也發(fā)現(xiàn)在一個圖像 I^n 中未知的特定標簽 c 在另一圖像 I^m 中可能是已知的。


因此,將圖像 I^m 中已知標簽 c 的信息混合到圖像 I^n 可能有助于補充圖像 I^n 的未知標簽 c


然而,通過簡單的混合操作混合兩個圖像幾乎無法幫助促進 MLR-PL 任務(wù),因為此類操作可能會導致語義和上下文混淆。


首先,多標簽圖像包含不同語義類別的多個對象,簡單地混合兩個圖像可能會將兩個具有完全不同語義的對象混合在一起,從而在訓練過程中誤導模型。


如下圖所示,將圖像 I^m 混合到圖像 I^n 中,混合了 I^m 中的 人 和 I^n 中的 交通燈 在一起,這會產(chǎn)生令人混淆的區(qū)域,并可能會損害訓練過程。


其次,許多物體類別由于數(shù)據(jù)樣本數(shù)量的原因嚴重依賴上下文進行識別。因此, 簡單地混合任意兩個圖像,特別是如果它們屬于不同的場景,可能會破壞這些依賴性。


例如下圖中在街道和浴室中捕獲的兩個圖像,街道的場景可能會為識別 吹風機 和 牙刷 提供令人困惑的上下文信息。


標注受限也能識別多標簽圖像!中山大學等發(fā)布異構(gòu)語義轉(zhuǎn)移HST框架 | IJCV 2024-AI.x社區(qū)

圖5 圖像混合中的語義/上下文混淆


基于上述發(fā)現(xiàn),團隊提出了一種語義感知表達混合(Dual-Perspective Semantic-Aware Representation Blending, DSRB)框架,該框架學習每個圖像的特定于類別的表達,然后執(zhí)行特定于類別的表達混合以補充未知標簽。


它由兩個關(guān)鍵模塊組成,分別從實例和原型的角度混合特定于類別的視覺表達。具體而言,DSRB 框架建立在特定類別表達學習 (CSRL) 模塊的基礎(chǔ)上,該模塊合并類別語義來指導學習特定類別語義表達。


然后,團隊設(shè)計了一個實例視角表達混合(IPRB)模塊,即將一幅圖像 I^m 中已知標簽 c 的表達與另一幅圖像 I^n 中相應(yīng)未知標簽 c 的表達混合,因此它可以補充圖像 I^n 的未知標簽 c。


同時,提出了原型視角表達混合(PPRB)模塊來學習每個類別的更魯棒的表達原型,并以位置敏感的方式將未知標簽的表達與相應(yīng)標簽的原型混合以補充這些未知標簽。通過這種方式,可以同時生成多樣化且穩(wěn)定的混合視覺表達來補充未知標簽,從而促進 MLR-PL 任務(wù)。


標注受限也能識別多標簽圖像!中山大學等發(fā)布異構(gòu)語義轉(zhuǎn)移HST框架 | IJCV 2024-AI.x社區(qū)

圖6 DSRB 框架圖(發(fā)表于 ESWA 2024 & AAAI 2022)


統(tǒng)一且公平的評測基準

為了解決不同標注比例下對比不公平的問題,團隊構(gòu)建了一個統(tǒng)一且公平的評測基準。該評測基準復現(xiàn)了多個效果較好的傳統(tǒng)多標簽圖像識別方法,以及數(shù)個最新發(fā)表的標簽受限下多標簽圖像識別算法,并使用統(tǒng)一的數(shù)據(jù)集以及標注比例,以此進行公平的比較評測。與其他工作相比,該評測基準有多個優(yōu)點:


標注比例選取一致:該評測基準統(tǒng)一了多種標注比例下的數(shù)據(jù)設(shè)置,以此確保對各個方法進行統(tǒng)一且公平的對比。


對比方法涵蓋范圍廣:該評測基準對比了多樣化的不同方法:1)效果較好的傳統(tǒng)多標簽圖像識別方法,包括 SSGRL [1],GCN-ML [2],KGGR [3],P-GCN [4],ASL [5];2)最新發(fā)表的標簽受限下多標簽圖像識別算法,包括 CL [6],Partial BCE [6]。


標注受限也能識別多標簽圖像!中山大學等發(fā)布異構(gòu)語義轉(zhuǎn)移HST框架 | IJCV 2024-AI.x社區(qū)

圖7 在不同標注比例下的實驗結(jié)果

本文轉(zhuǎn)自新智元 ,作者:新智元


原文鏈接:??https://mp.weixin.qq.com/s/oL7KKjKW3ZhCoXFIzxCJEg??

收藏
回復
舉報
回復
相關(guān)推薦