自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<blockquote id="bvbja"></blockquote>

<p id="bvbja"></p>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質的IT技術網站

51CTO博客

專業(yè)IT技術創(chuàng)作平臺

51CTO學堂

IT職業(yè)在線教育平臺

ICML 2024 Oral｜外部引導的深度聚類新范式精華

輕薄滴假象

發(fā)布于 2024-6-7 13:01

瀏覽

0收藏

本文作者李云帆，四川大學計算機學院 2020級直博研究生。在導師彭璽教授的指導下，博士期間主要圍繞深度聚類開展理論、方法和應用的研究。目前已在國際權威刊物Nature Communications/JMLR/TPAMI/IJCV/ICML/CVPR等上發(fā)表學術論文13篇，谷歌學術引用共954次；發(fā)表于AAAI2021的Contrastive Clustering被引516次，是2021年以來聚類領域引用最高的論文；獲首批國家自然科學基金青年學生基礎研究項目（博士研究生）資助。

怎樣才能將可愛又迷人的柯基與柴犬的圖像進行區(qū)分？

ICML 2024 Oral｜外部引導的深度聚類新范式-AI.x社區(qū)

如果單從圖像識別角度而言，兩種犬類在外觀上極為相似，擁有相近的色塊像素，僅憑數據內蘊信息（即圖像自身）可能難以對二者進行區(qū)分，但如果借助外部數據和知識，情況可能會大幅改觀。

近日，一篇以《Image Clustering with External Guidance》為題的論文，提出了能夠大幅提升CLIP圖像聚類性能，引入外部知識庫內容輔助深度聚類的方法。

ICML 2024 Oral｜外部引導的深度聚類新范式-AI.x社區(qū)

論文題目：Image Clustering with External Guidance
論文地址：???https://arxiv.org/abs/2310.11989???
代碼地址：???https://github.com/XLearning-SCU/2024-ICML-TAC???

背景

作為機器學習的經典任務之一，圖像聚類旨在無需依賴樣本標注的情況下，將圖像依據語義劃分到不同的類簇中，其核心在于利用先驗知識構建監(jiān)督信號。從經典基于類簇緊致性的k-means到近年來基于增廣不變性的對比聚類[1]，聚類方法的發(fā)展本質上對應于監(jiān)督信號的演進。

ICML 2024 Oral｜外部引導的深度聚類新范式-AI.x社區(qū)

圖1: 聚類方法的發(fā)展大致可分為三個階段: (1)傳統(tǒng)聚類，基于數據分布假設設計聚類策略; (2)深度聚類，利用深度神經網絡提取有利于聚類的特征; (3)自監(jiān)督聚類，通過數據增廣或動量網絡等策略構建自監(jiān)督信號。不同于此前的工作聚焦于從數據內部挖掘監(jiān)督信號，本文提出利用外部知識來引導聚類，并將新范式歸類為 (4)外部引導聚類。實驗結果表明，通過利用文本模態(tài)中的語義信息，所提出的方法(TAC)顯著提升了圖像聚類精度。

現有的聚類研究雖然在方法設計上各不相同，但均是從數據內部挖掘監(jiān)督信號，其性能最終會受限于數據自身所蘊含信息量的固有上限。舉例來說，柯基和巴哥犬的圖片有明顯的差異，但其和柴犬在外觀上十分相似，僅依據圖像本身難以對二者進行區(qū)分。

但值得注意的是，在數據內蘊信息之外，現實世界中還存在著大量有助于聚類的外部知識，而在現有工作中被很大程度地忽略了。

在上述例子中，假設模型具備來自知識庫的「柯基腿較短，而柴犬腿較長」等非圖像域的外部先驗，則能更準確地對二者的圖像進行區(qū)分。

換而言之，與從數據中竭力地挖掘內部監(jiān)督信號相比，利用更加豐富且容易獲得的外部知識來引導聚類，有望起到事半功倍的效果。

方法

本文提出了一種簡單而有效的外部引導聚類方法TAC（Text-Aided Clustering，文本輔助的聚類），基于預訓練CLIP模型，通過利用來自文本模態(tài)的外部知識輔助圖像聚類。

在缺乏類別標注和圖像描述等文本信息的情況下，利用文本語義輔助圖像聚類面臨兩個挑戰(zhàn)：

如何構建圖像的文本表征；
如何協(xié)同圖像和文本進行聚類。

ICML 2024 Oral｜外部引導的深度聚類新范式-AI.x社區(qū)

圖2：所提出的TAC方法框架，包括文本表征構建和跨模態(tài)互蒸餾兩部分。

一、文本表征構建

針對第一個挑戰(zhàn)，由于樣本標注、圖像描述等文本信息在圖像聚類任務中不可用，本文提出將來自WordNet[2]的所有名詞作為文本模態(tài)的候選詞，選擇其中具有代表性的名詞集合來組成文本空間。

具體地，為了使文本表征精確地覆蓋圖像語義，同時盡可能在不同類別圖像之間具有區(qū)分度，本文首先使用k-means算法來計算圖像語義中心。

考慮到過多的語義中心會關注過于細粒度的特征，不利于區(qū)分不同類別的圖像，而過少的語義中心則會難以準確覆蓋位于聚類邊界圖像的語義，本文提出根據樣本點的個數估計k-means算法中合適的k值（實驗中選取k=N/300，N為圖像個數），并計算圖像語義中心如下：

ICML 2024 Oral｜外部引導的深度聚類新范式-AI.x社區(qū)

其中

ICML 2024 Oral｜外部引導的深度聚類新范式-AI.x社區(qū)

當且僅當圖像 ICML 2024 Oral｜外部引導的深度聚類新范式-AI.x社區(qū) 屬于第l個聚類，表示第i張圖像經過CLIP圖像編碼器后得到的表征。在得到圖像語義中心后，為了選取具有代表性的名詞集合，與常見的CLIP Zero-shot分類相反，本文將所有WordNet中的名詞劃分到k個圖像語義中心，其中第i個名詞屬于第l和語義中心的概率為：

ICML 2024 Oral｜外部引導的深度聚類新范式-AI.x社區(qū)

其中sim表示余弦相似性， ICML 2024 Oral｜外部引導的深度聚類新范式-AI.x社區(qū) 表示第i個名詞經過預訓練好的文本編碼器后得到的表征。保留每個語義中心對應概率最高的名詞，作為組成文本空間的候選詞。

選取完具有代表性的名詞集合后，可通過為每張圖像檢索其最相關的名詞來構建其文本模態(tài)的表征：

ICML 2024 Oral｜外部引導的深度聚類新范式-AI.x社區(qū)

其中， ICML 2024 Oral｜外部引導的深度聚類新范式-AI.x社區(qū) 表示第i張圖像對應的文本模態(tài)中的表征，表示組成文本空間的第j個候選名詞，控制檢索的平滑程度。

至此，作者為每張圖像構建出了其在文本模態(tài)中的表征。此時可通過在文本和圖像的拼接表征 ICML 2024 Oral｜外部引導的深度聚類新范式-AI.x社區(qū) 直接使用經典k-means聚類方法來實現圖像聚類。

由于融入了來自文本模態(tài)的緊湊語義，拼接后的表征具有更好的判別性，從而相較于直接在圖像表征上使用k-means會得到更好的圖像聚類結果。

值得注意的是，上述文本模態(tài)的構建過程不需要任何的額外訓練和模型調優(yōu)，其中名詞選取和檢索過程的計算開銷幾乎可以忽略不計。

二、跨模態(tài)互蒸餾

盡管直接將文本和圖像表征進行拼接已能顯著提升圖像聚類效果，但是簡單的拼接并不能充分協(xié)同文本和圖像兩個模態(tài)。因此，本文進一步提出跨模態(tài)互蒸餾方法，通過訓練額外的聚類網絡進一步提升聚類性能。

具體地，為每張圖像構建鄰居集合 ICML 2024 Oral｜外部引導的深度聚類新范式-AI.x社區(qū) ，并引入一個聚類網絡f對每個圖像表征做出聚類指派，在每次迭代中，計算所有圖像和其鄰居集合中隨機的一個圖像的聚類指派，記為：

ICML 2024 Oral｜外部引導的深度聚類新范式-AI.x社區(qū)

其中 ICML 2024 Oral｜外部引導的深度聚類新范式-AI.x社區(qū) 和分別對應圖像i及其鄰居的聚類指派，P和均為n*K的矩陣，其中K表示目標聚類個數。

相類似的，引入另一個聚類網絡g來對每個文本表征做出聚類指派，同樣為每個文本表征構建鄰居集合 ICML 2024 Oral｜外部引導的深度聚類新范式-AI.x社區(qū) ，在每次迭代中，計算所有文本和其鄰居集合中隨機的一個文本的聚類指派，記為：

ICML 2024 Oral｜外部引導的深度聚類新范式-AI.x社區(qū)

其中 ICML 2024 Oral｜外部引導的深度聚類新范式-AI.x社區(qū) 和分別對應文本i及其鄰居的聚類指派，Q和Q^N同樣均為n*K的矩陣。

為了協(xié)同圖像和文本兩個模態(tài)，要求網絡對于圖像和其對應文本模態(tài)的鄰居具有類似的聚類指派，同時對于文本和其對應圖像模態(tài)的鄰居也具有類似的聚類指派。為實現該目標，本文設計了如下的損失函數：

ICML 2024 Oral｜外部引導的深度聚類新范式-AI.x社區(qū)

其中 ICML 2024 Oral｜外部引導的深度聚類新范式-AI.x社區(qū) 分別表示聚類指派矩陣P,P^N,Q,Q^N的第i列，

ICML 2024 Oral｜外部引導的深度聚類新范式-AI.x社區(qū) 為溫度系數。該損失函數一方面能通過跨模態(tài)鄰居之間的聚類指派一致性實現圖文模態(tài)的協(xié)同，另一方面能擴大不同的類簇之間的差異性。

此外，為了使訓練過程更加穩(wěn)定，本文設計了另外兩個正則項損失函數。首先，為了鼓勵模型做出更加置信的聚類指派，提出如下損失函數：

ICML 2024 Oral｜外部引導的深度聚類新范式-AI.x社區(qū)

該損失函數在 ICML 2024 Oral｜外部引導的深度聚類新范式-AI.x社區(qū) 和均為獨熱（One-hot）編碼時被最小化，因此能提升聚類指派的置信度。另外，為了防止模型將大量圖像和文本都分配到個別類簇中，提出了以下損失函數：

ICML 2024 Oral｜外部引導的深度聚類新范式-AI.x社區(qū)

其中

ICML 2024 Oral｜外部引導的深度聚類新范式-AI.x社區(qū) 和分別表示圖像和文本模態(tài)中整體的聚類分布。

綜合上述三個損失函數，本文使用如下損失函數來優(yōu)化圖像和文本模態(tài)的聚類網絡f和g：

ICML 2024 Oral｜外部引導的深度聚類新范式-AI.x社區(qū)

其中 ICML 2024 Oral｜外部引導的深度聚類新范式-AI.x社區(qū) 為權重參數。需要指出的是，上述損失函數只用來優(yōu)化額外引入的聚類網絡，并不修改CLIP預訓練好的文本和圖像編碼器，因此其整體訓練開銷較小，實驗表明所提出的方法在CIFAR-10的6萬張圖像上訓練僅需使用1分鐘。

訓練完成后，只需將待聚類的圖像輸入聚類網絡f，即可得到其聚類指派，從而實現準確的圖像聚類。

實驗

本文在五個經典數據集和三個更具挑戰(zhàn)性的圖像聚類數據集上對方法進行了驗證，部分實驗結果如下：

ICML 2024 Oral｜外部引導的深度聚類新范式-AI.x社區(qū)

表1：所提出的TAC方法在經典圖像聚類數據集上的聚類性能

ICML 2024 Oral｜外部引導的深度聚類新范式-AI.x社區(qū)

表2：所提出的TAC方法在更具挑戰(zhàn)性的圖像聚類數據集上的聚類性能

從結果中可以看出，在缺少標注信息的情況下所提出的TAC方法通過為每個圖像構建文本表征，能夠有效地從文本模態(tài)中挖掘語義信息。在無需任何額外訓練的情況下，TAC (no train)顯著提高了直接在CLIP提取的圖像表征上使用k-means聚類的性能，特別是在更困難的數據集上。

當進一步使用提出的跨模態(tài)相互蒸餾策略訓練聚類網絡時，TAC取得了最優(yōu)的聚類性能，甚至超過了依賴類別標簽信息的CLIP Zero-shot分類性能。

總結與展望

不同于現有的聚類研究聚焦于從數據內部構建監(jiān)督信號，本文創(chuàng)新性地提出利用此前被忽略的外部知識來引導聚類。

所提出的TAC方法通過在無需文本描述的情況下，從預訓練CLIP模型的文本模態(tài)挖掘語義信息，顯著提升了圖像聚類性能，證明了所提出的外部引導聚類新范式的有效性。

所提出的外部引導聚類范式的挑戰(zhàn)在于：

如何選擇合適的外部知識；
如何有效的整合外部知識以輔助聚類。

除了本工作關注的文本語義外，外部知識廣泛存在于各類的數據、模型、知識庫等，對于不同的數據類型和聚類目標，需要針對性地選擇與利用外部知識。

總的來說，在目前大模型、知識庫日趨成熟背景下，外部引導的聚類新范式具備良好的發(fā)展?jié)摿?，希望未來有更多工作進行相關的探索。

本文轉自機器之心，作者：機器之心

原文鏈接:??https://mp.weixin.qq.com/s/-_gubDBCpbBZpLE9ZfNdCw??

標簽

贊

收藏

回復

舉報

回復

相關推薦

CVPR 2024 Oral：生命之樹大模型

AIGC最前線 ? 3727瀏覽 ? 0回復
ICLR 2024 Oral｜用巧妙的「傳送」技巧，讓神經網絡的訓練更加高效

輕薄滴假象 ? 2226瀏覽 ? 0回復
ICML 2024 | 大語言模型預訓練新前沿：「最佳適配打包」重塑文檔處理標準

輕薄滴假象 ? 2337瀏覽 ? 0回復
ICML 2024 | 脫離LoRA架構，訓練參數大幅減少，新型傅立葉微調來了

輕薄滴假象 ? 3240瀏覽 ? 0回復
ICML 2024：從視覺語言基礎模型反饋中進行強化學習

AIGC最前線 ? 3629瀏覽 ? 0回復
AI Agent：人類工作范式的顛覆者還是人機協(xié)作新范式？

Baihai_IDP ? 4354瀏覽 ? 0回復
ETH北航字節(jié)推出LoRA新范式 | ICML 2024

Crystalcxt ? 2256瀏覽 ? 0回復
谷歌開源TimesFM：1000億個時間點訓練，入選ICML 2024

duhorse ? 2758瀏覽 ? 0回復
ICML 2024：AI對齊與可變和可影響獎勵函數

AIGC最前線 ? 2472瀏覽 ? 0回復
CLUSTERLLM：將大型語言模型作為文本聚類的指南

AIRoobt ? 4332瀏覽 ? 0回復
ICML 2024高分論文 | 零階優(yōu)化器微調大模型，大幅降低內存

輕薄滴假象 ? 2563瀏覽 ? 0回復
LLooM：大語言模型時代文本聚類新思路

大語言模型論文跟蹤 ? 3929瀏覽 ? 0回復
COLM 2024：一種新的深度學習架構——Monotone Deep Boltzmann Machines

AIGC最前線 ? 2503瀏覽 ? 0回復
NLP范式總結 | 擁抱新范式

zhcs333 ? 1813瀏覽 ? 0回復
我們一起聊聊分類模型：層次聚類

寶寶數模AI ? 1658瀏覽 ? 0回復
快速學會一個機器學習算法：層次聚類法

寶寶數模AI ? 1460瀏覽 ? 0回復
基于DeepSeek推理的文本聚類

51CTO內容精選 ? 940瀏覽 ? 0回復
EDC2-RAG：利用聚類和壓縮技術提升RAG準確性

大語言模型論文跟蹤 ? 1513瀏覽 ? 0回復
萬字長文深度剖析基于 MCP 實現 AI 應用架構設計新范式的落地實踐

玄姐聊AGI ? 2597瀏覽 ? 0回復

輕薄滴假象

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發(fā)布

DeepSeek一口氣開源3個項目，還有梁文鋒親自參與，昨晚API大降價 2025-02-27 12:40:06發(fā)布
全球首個AI CUDA工程師來了！將PyTorch原生實現提速10-100倍 2025-02-21 13:20:31發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點：替代人干真活！ 1回復

王炸！MCP 架構設計深度剖析 & 使用 Spring AI + MCP 四步教你實現 Agent 智能體開發(fā) 0回復

Dify從入門到高階系列二：手把手教學！超詳細的Dify知識庫配置全攻略 0回復

Crawl4AI：GitHub榜首40K星標！LLM專屬極速開源爬蟲神器 0回復

只需5分鐘，教你用Python搭建MCP Server 0回復

上一篇： Stability AI開源47秒音頻生成模型，蟲鳴鳥叫、搖滾、鼓點都能生成

下一篇：支持合成一分鐘高清視頻，華科等提出人類跳舞視頻生成新框架UniAnimate

社區(qū)精華內容

目錄

<p id="rx6vr"></p>

<sub id="rx6vr"></sub>