自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學堂

IT職業(yè)在線教育平臺

標注受限也能識別多標簽圖像！中山大學等發(fā)布異構(gòu)語義轉(zhuǎn)移HST框架 | IJCV 2024

發(fā)布于 2024-5-24 13:42

瀏覽

0收藏

隨著深度學習的快速發(fā)展，許多研究者們開始嘗試利用深度神經(jīng)網(wǎng)絡(luò)解決多標簽圖像識別（Multi-label Image Recognition, MLR）任務(wù)，并已取得了不俗的進展。

但是，由于圖像本身和潛在標簽類別的復雜性，收集滿足現(xiàn)有模型訓練的多標簽標注信息往往成本高昂且難以拓展，導致現(xiàn)有的大部分多標簽圖像識別模型難以在現(xiàn)實應(yīng)用場景中落地。

因此，近年來許多研究者開始致力于探索標注受限情況下的多標簽圖像識別（Multi-label Image Recognition with Partial Label, MLR-PL）算法來解決這個問題。

標注受限也能識別多標簽圖像！中山大學等發(fā)布異構(gòu)語義轉(zhuǎn)移HST框架 | IJCV 2024-AI.x社區(qū)

圖1 多標簽圖像識別任務(wù)中完整標注與標注受限的區(qū)別

為此，近期中山大學聯(lián)合廣東工業(yè)大學聯(lián)手探索標注受限情況下的多標簽圖像識別任務(wù)，提出了兩種解決方案（即，結(jié)構(gòu)化語義遷移和語義感知表達混合）并發(fā)表多篇文章于頂級期刊/會議（IJCV / TMM / AAAI）。

此外，為了更好的衡量現(xiàn)有方法在不同標注比例下的性能，研究人員構(gòu)建了一個統(tǒng)一且公平的評測基準，該基準復現(xiàn)了多個效果較好的傳統(tǒng)多標簽圖像識別方法，以及數(shù)個最新發(fā)表的標注受限情況下的多標簽圖像識別算法，并使用統(tǒng)一的數(shù)據(jù)集以及標注比例，以此進行公平的比較評測。

標注受限也能識別多標簽圖像！中山大學等發(fā)布異構(gòu)語義轉(zhuǎn)移HST框架 | IJCV 2024-AI.x社區(qū)

倉庫鏈接：??https://github.com/HCPLab-SYSU/HCP-MLR-PL??

具體而言，研究人員做了以下兩方面的工作：

通過對多標簽圖像中的強語義相關(guān)性的探索研究，團隊提出了一種異構(gòu)語義轉(zhuǎn)移(Heterogeneous Semantic Transfer, HST) 框架。

該框架探索圖像內(nèi)和圖像間潛在的語義相關(guān)性，從而實現(xiàn)有效的未知標簽生成。相關(guān)文章發(fā)表于 IJCV'24 & AAAI'22。

標注受限也能識別多標簽圖像！中山大學等發(fā)布異構(gòu)語義轉(zhuǎn)移HST框架 | IJCV 2024-AI.x社區(qū)

IJCV 2024：??https://arxiv.org/pdf/2205.11131??

標注受限也能識別多標簽圖像！中山大學等發(fā)布異構(gòu)語義轉(zhuǎn)移HST框架 | IJCV 2024-AI.x社區(qū)

AAAI 2022：??https://aaai-2022.virtualchair.net/poster_aaai1133??

除了正負樣本標注受限情況外，正樣本標注受限情況下的多標簽圖像識別（Multi-label Image Recognition with Partial Positive Label, MLR-PPL）對進行了額外的拓展討論。

在該問題中，提出了一種類別自適應(yīng)標簽發(fā)現(xiàn)與噪音抑制（Category-Adaptive Label Discovery and Noise Rejection）框架。相關(guān)文章發(fā)表于 TMM'24。

標注受限也能識別多標簽圖像！中山大學等發(fā)布異構(gòu)語義轉(zhuǎn)移HST框架 | IJCV 2024-AI.x社區(qū)

TMM 2024：??https://ieeexplore.ieee.org/document/10517428/??

通過對多標簽圖像混合中的可能存在的語義/上下文混淆進行分析，團隊提出了一種語義感知表達混合（Dual-Perspective Semantic-Aware Representation Blending, DSRB）框架。

該框架分別從實例和原型的角度混合特定于類別的視覺表達，以此實現(xiàn)多樣化且穩(wěn)定的混合視覺表達生成。相關(guān)文章發(fā)表于 ESWA'24 & AAAI'22。

標注受限也能識別多標簽圖像！中山大學等發(fā)布異構(gòu)語義轉(zhuǎn)移HST框架 | IJCV 2024-AI.x社區(qū)

ESWA 2024：??https://www.sciencedirect.com/science/article/abs/pii/S0957417424003919??

標注受限也能識別多標簽圖像！中山大學等發(fā)布異構(gòu)語義轉(zhuǎn)移HST框架 | IJCV 2024-AI.x社區(qū)

AAAI 2022：??https://aaai-2022.virtualchair.net/poster_aaai1134??

結(jié)構(gòu)化語義遷移

現(xiàn)有的 MLR 算法主要將多標簽圖像識別任務(wù)視為多個二元分類子任務(wù)，從該角度出發(fā)將未知標簽視為缺失或負標簽是一種直觀且簡單的方法，因此可以通過調(diào)整這些算法來解決 MLR-PL 任務(wù)。

然而，這種簡單粗暴的處理會導致模型丟失部分標注數(shù)據(jù)，甚至產(chǎn)生一些噪聲標簽，這可能會損害模型的訓練過程并不可避免地導致明顯的性能下降。

幸運的是，每個多標簽圖像內(nèi)以及不同多標簽圖像之間都存在很強的語義相關(guān)性。這些相關(guān)性有助于有效地遷移已知標簽的語義知識來構(gòu)造未知標簽，從而解決上述困境。

如下圖所示，語義相關(guān)性分為兩種類型，即

1）圖像內(nèi)相關(guān)性：標簽共現(xiàn)在現(xiàn)實世界的圖像中廣泛存在，并且具有高共現(xiàn)概率的標簽可能共存于一幅圖像中，例如，汽車往往與人同時出現(xiàn)，而桌子則傾向于與椅子同時出現(xiàn)。

2）跨圖像相關(guān)性：屬于同一類別且來自不同圖像的對象可能具有相似的視覺外觀，因此具有相似視覺特征的圖像可能具有相同的標簽。

標注受限也能識別多標簽圖像！中山大學等發(fā)布異構(gòu)語義轉(zhuǎn)移HST框架 | IJCV 2024-AI.x社區(qū)

圖2 多標簽圖像中存在強語義相關(guān)性

基于上述發(fā)現(xiàn)，團隊開展了對于語義相關(guān)性的探索研究，以通過一種新穎的異構(gòu)語義轉(zhuǎn)移（Heterogeneous Semantic Transfer, HST）框架來幫助補充未知標簽。

該框架由語義感知表達學習 (SARL) 模塊、圖像內(nèi)語義轉(zhuǎn)移（IST）模塊和跨圖像語義轉(zhuǎn)移（CST）模塊組成，其中 SARL 模塊通過結(jié)合各個類別的語義來學習特定于類別的特征表達；IST 模塊通過學習每個圖像的所有類別之間的共現(xiàn)矩陣，以此補充與已知標簽具有高共現(xiàn)概率的未知標簽；CST 模塊通過學習特定類別的表達原型以及相應(yīng)的特征表達和原型之間的特定于類別的相似性，并基于此補充具有高相似性的未知標簽。

最后，可以使用已知標簽和補充標簽來監(jiān)督 MLR 模型的訓練。

標注受限也能識別多標簽圖像！中山大學等發(fā)布異構(gòu)語義轉(zhuǎn)移HST框架 | IJCV 2024-AI.x社區(qū)

圖3 HST 框架圖（發(fā)表于 IJCV 2024 & AAAI 2022）

類別自適應(yīng)標簽發(fā)現(xiàn)與噪音抑制

除了上述工作外，團隊也對 MLR-PL 任務(wù)本身進行了拓展討論。為了更貼合實際應(yīng)用場景，坐著建議訓練具有部分正標簽的 MLR 模型（MLR-PPL），即僅知道一部分正標簽，而其余正標簽和所有負標簽缺失。

在這種情況下，可以充分利用豐富的在線用戶標記圖像來大幅降低標注成本。然而，團隊也認識到這項任務(wù)提出了更大的挑戰(zhàn)，主要是由于監(jiān)督信號的大幅減少和負標簽的缺失，這會導致模型表現(xiàn)出始終預(yù)測正面標簽的強烈偏見。

由于缺乏負訓練樣本，僅使用部分正標簽訓練 MLR 模型的傳統(tǒng)做法通常會導致「始終預(yù)測正」解決方案。

為了解決這個問題，之前的研究提出了一種樸素的訓練策略，假設(shè)負數(shù)（AN），其中所有缺失的標簽都被視為負數(shù)。

雖然這種策略在一定程度上緩解了困境，但由于將許多積極標簽錯誤地注釋為消極標簽，它可能會顯著降低性能。為此，團隊提出了一種新穎的框架，該框架探索各個類別的跨圖像語義相關(guān)性，以此識別未知的正標簽并丟棄噪聲標簽。

具體而言，該框架由兩個互補模塊組成，分別是類別自適應(yīng)標簽發(fā)現(xiàn)模塊（Category-Adaptive Label Discovery, CALD）和類別自適應(yīng)噪聲抑制（Category-Adaptive Noise Rejection, CANR）模塊。

其中，CALD 模塊測量正樣本隊列中同一類別的特征表示之間的語義相似度，然后利用這些語義相似度來生成偽標簽。

同時，CANR 模塊通過評估各個樣本之間的語義相似度來計算樣本權(quán)重。隨后，它通過識別相關(guān)權(quán)重較低的標簽來消除噪聲標簽。與之前的工作不同，團隊還設(shè)計了類別自適應(yīng)閾值更新來自適應(yīng)調(diào)整 CALD 和 CANR 模塊中每個類別的閾值，避免了極其耗時和費力的手動調(diào)整。

標注受限也能識別多標簽圖像！中山大學等發(fā)布異構(gòu)語義轉(zhuǎn)移HST框架 | IJCV 2024-AI.x社區(qū)

圖4 所提出方法的框架圖（發(fā)表于 TMM 2024）

語義感知表達混合

除了語義相關(guān)性外，團隊也發(fā)現(xiàn)在一個圖像 I^n 中未知的特定標簽 c 在另一圖像 I^m 中可能是已知的。

因此，將圖像 I^m 中已知標簽 c 的信息混合到圖像 I^n 可能有助于補充圖像 I^n 的未知標簽 c

然而，通過簡單的混合操作混合兩個圖像幾乎無法幫助促進 MLR-PL 任務(wù)，因為此類操作可能會導致語義和上下文混淆。

首先，多標簽圖像包含不同語義類別的多個對象，簡單地混合兩個圖像可能會將兩個具有完全不同語義的對象混合在一起，從而在訓練過程中誤導模型。

如下圖所示，將圖像 I^m 混合到圖像 I^n 中，混合了 I^m 中的人和 I^n 中的交通燈在一起，這會產(chǎn)生令人混淆的區(qū)域，并可能會損害訓練過程。

其次，許多物體類別由于數(shù)據(jù)樣本數(shù)量的原因嚴重依賴上下文進行識別。因此，簡單地混合任意兩個圖像，特別是如果它們屬于不同的場景，可能會破壞這些依賴性。

例如下圖中在街道和浴室中捕獲的兩個圖像，街道的場景可能會為識別吹風機和牙刷提供令人困惑的上下文信息。

標注受限也能識別多標簽圖像！中山大學等發(fā)布異構(gòu)語義轉(zhuǎn)移HST框架 | IJCV 2024-AI.x社區(qū)

圖5 圖像混合中的語義/上下文混淆

基于上述發(fā)現(xiàn)，團隊提出了一種語義感知表達混合（Dual-Perspective Semantic-Aware Representation Blending, DSRB）框架，該框架學習每個圖像的特定于類別的表達，然后執(zhí)行特定于類別的表達混合以補充未知標簽。

它由兩個關(guān)鍵模塊組成，分別從實例和原型的角度混合特定于類別的視覺表達。具體而言，DSRB 框架建立在特定類別表達學習 (CSRL) 模塊的基礎(chǔ)上，該模塊合并類別語義來指導學習特定類別語義表達。

然后，團隊設(shè)計了一個實例視角表達混合（IPRB）模塊，即將一幅圖像 I^m 中已知標簽 c 的表達與另一幅圖像 I^n 中相應(yīng)未知標簽 c 的表達混合，因此它可以補充圖像 I^n 的未知標簽 c。

同時，提出了原型視角表達混合（PPRB）模塊來學習每個類別的更魯棒的表達原型，并以位置敏感的方式將未知標簽的表達與相應(yīng)標簽的原型混合以補充這些未知標簽。通過這種方式，可以同時生成多樣化且穩(wěn)定的混合視覺表達來補充未知標簽，從而促進 MLR-PL 任務(wù)。

標注受限也能識別多標簽圖像！中山大學等發(fā)布異構(gòu)語義轉(zhuǎn)移HST框架 | IJCV 2024-AI.x社區(qū)

圖6 DSRB 框架圖（發(fā)表于 ESWA 2024 & AAAI 2022）

統(tǒng)一且公平的評測基準

為了解決不同標注比例下對比不公平的問題，團隊構(gòu)建了一個統(tǒng)一且公平的評測基準。該評測基準復現(xiàn)了多個效果較好的傳統(tǒng)多標簽圖像識別方法，以及數(shù)個最新發(fā)表的標簽受限下多標簽圖像識別算法，并使用統(tǒng)一的數(shù)據(jù)集以及標注比例，以此進行公平的比較評測。與其他工作相比，該評測基準有多個優(yōu)點：

標注比例選取一致：該評測基準統(tǒng)一了多種標注比例下的數(shù)據(jù)設(shè)置，以此確保對各個方法進行統(tǒng)一且公平的對比。

對比方法涵蓋范圍廣：該評測基準對比了多樣化的不同方法：1）效果較好的傳統(tǒng)多標簽圖像識別方法，包括 SSGRL [1]，GCN-ML [2]，KGGR [3]，P-GCN [4]，ASL [5]；2）最新發(fā)表的標簽受限下多標簽圖像識別算法，包括 CL [6]，Partial BCE [6]。

標注受限也能識別多標簽圖像！中山大學等發(fā)布異構(gòu)語義轉(zhuǎn)移HST框架 | IJCV 2024-AI.x社區(qū)

圖7 在不同標注比例下的實驗結(jié)果

本文轉(zhuǎn)自新智元，作者：新智元

原文鏈接:??https://mp.weixin.qq.com/s/oL7KKjKW3ZhCoXFIzxCJEg??

標簽

贊

收藏

回復

舉報

回復

相關(guān)推薦

中科大等意外發(fā)現(xiàn)：大模型不看圖也能正確回答視覺問題！

Crystalcxt ? 2159瀏覽 ? 0回復
“梗王”大模型，靠講笑話登上CVPR | 中山大學

Crystalcxt ? 2555瀏覽 ? 0回復
CVPR‘24：與任務(wù)無關(guān)的多模態(tài)數(shù)據(jù)也能提升Transformer性能｜港中文&騰訊

Crystalcxt ? 2299瀏覽 ? 0回復
人物之間的復雜互動也能處理｜中山大學&聯(lián)想團隊出品

Crystalcxt ? 3216瀏覽 ? 0回復
超越CVPR 2024方法，DynRefer在區(qū)域級多模態(tài)識別任務(wù)上，多項SOTA

輕薄滴假象 ? 2117瀏覽 ? 0回復
從噪聲中提取情感：中山大學與騰訊AI實驗室基于元學習的多模態(tài)情感分析新方法

xuxiangda ? 3721瀏覽 ? 0回復
中山大學等提出CoRe：任意提示的文本到圖像個性化生成！

angel ? 2174瀏覽 ? 0回復
OpenAI o1很強，也能被玩壞！

PaperAgent ? 2200瀏覽 ? 0回復
RAG開發(fā)新技術(shù)：利用語義相似度提升標簽過濾質(zhì)量

51CTO內(nèi)容精選 ? 2356瀏覽 ? 0回復
中山大學聯(lián)合上海AI Lab提出合成檢測基準LOKI

angel ? 2191瀏覽 ? 0回復
ACL2024 |解釋引導的大語言模型主動蒸餾：一種優(yōu)化知識轉(zhuǎn)移的創(chuàng)新框架 "ELAD"

arnoldzhw ? 2534瀏覽 ? 0回復
超越SDEdit等七大SOTA，免訓練多模態(tài)圖像編輯里程碑：HeadRouter帶來精準語義調(diào)整

angel ? 2067瀏覽 ? 0回復
Moonshine 語音模型：資源受限設(shè)備的語音識別超強 “芯” 動力！

穿越時空111 ? 1983瀏覽 ? 0回復
手勢圖像識別實戰(zhàn)(LeNet模型)

一起AI技術(shù) ? 1991瀏覽 ? 0回復
中山大學、美團聯(lián)合團隊推出行為正則化與順序策略優(yōu)化結(jié)合的離線多智能體學習算法

xuxiangda ? 2269瀏覽 ? 0回復
基于CogVideoX-2B，視覺一致和語義對齊超越最新SOTA！南洋理工等發(fā)布RepVideo

angel ? 2015瀏覽 ? 0回復
中山大學&360 AI研究院開源Qihoo-T2X:統(tǒng)一架構(gòu)搞定T2X任務(wù)

angel ? 1829瀏覽 ? 0回復
浙大&上交等發(fā)布統(tǒng)一多模態(tài)視頻生成框架OmniCam

angel ? 1042瀏覽 ? 0回復
ICLR 2025 | 被AI“洗圖”也能識別版權(quán)！水印技術(shù)重大突破：VINE模型全面碾壓舊方法!

angel ? 1250瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

DeepSeek第五天開源猛料，3FS并行文件系統(tǒng)榨干SSD！6.6 TiB/s吞吐量堪比光速 2025-02-28 12:53:18發(fā)布
剛剛，DeepSeek開源DeepEP通信庫，千億MoE訓推顛覆級創(chuàng)新！FP8狂飆，帶飛GPU 2025-02-25 12:24:42發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點：替代人干真活！ 1回復

王炸！MCP 架構(gòu)設(shè)計深度剖析 & 使用 Spring AI + MCP 四步教你實現(xiàn) Agent 智能體開發(fā) 0回復

Dify從入門到高階系列二：手把手教學！超詳細的Dify知識庫配置全攻略 0回復

Crawl4AI：GitHub榜首40K星標！LLM專屬極速開源爬蟲神器 0回復

只需5分鐘，教你用Python搭建MCP Server 0回復

上一篇：拯救被「掰彎」的GPT-4！西交微軟北大聯(lián)合提出IN2訓練治療LLM「中間迷失」

下一篇： OCR小模型仍有機會！華科等提出VIMTS：零樣本視頻端到端識別新SOTA

社區(qū)精華內(nèi)容

目錄

<legend id="4w8by"><track id="4w8by"></track></legend>

^{<blockquote id="4w8by"></blockquote>}

<legend id="4w8by"><track id="4w8by"><dfn id="4w8by"></dfn></track></legend>

<blockquote id="4w8by"><p id="4w8by"></p></blockquote>