ICML 2024 Oral|外部引導的深度聚類新范式 精華
本文作者李云帆,四川大學計算機學院 2020級直博研究生。在導師彭璽教授的指導下,博士期間主要圍繞深度聚類開展理論、方法和應用的研究。目前已在國際權威刊物Nature Communications/JMLR/TPAMI/IJCV/ICML/CVPR等上發(fā)表學術論文13篇,谷歌學術引用共954次;發(fā)表于AAAI2021的Contrastive Clustering被引516次,是2021年以來聚類領域引用最高的論文;獲首批國家自然科學基金青年學生基礎研究項目(博士研究生)資助。
怎樣才能將可愛又迷人的柯基與柴犬的圖像進行區(qū)分?
如果單從圖像識別角度而言,兩種犬類在外觀上極為相似,擁有相近的色塊像素,僅憑數據內蘊信息(即圖像自身)可能難以對二者進行區(qū)分,但如果借助外部數據和知識,情況可能會大幅改觀。
近日,一篇以《Image Clustering with External Guidance》為題的論文,提出了能夠大幅提升CLIP圖像聚類性能,引入外部知識庫內容輔助深度聚類的方法。
- 論文題目:Image Clustering with External Guidance
- 論文地址:???https://arxiv.org/abs/2310.11989???
- 代碼地址:???https://github.com/XLearning-SCU/2024-ICML-TAC???
背景
作為機器學習的經典任務之一,圖像聚類旨在無需依賴樣本標注的情況下,將圖像依據語義劃分到不同的類簇中,其核心在于利用先驗知識構建監(jiān)督信號。從經典基于類簇緊致性的k-means到近年來基于增廣不變性的對比聚類[1],聚類方法的發(fā)展本質上對應于監(jiān)督信號的演進。
圖1: 聚類方法的發(fā)展大致可分為三個階段: (1)傳統(tǒng)聚類,基于數據分布假設設計聚類策略; (2)深度聚類,利用深度神經網絡提取有利于聚類的特征; (3)自監(jiān)督聚類,通過數據增廣或動量網絡等策略構建自監(jiān)督信號。不同于此前的工作聚焦于從數據內部挖掘監(jiān)督信號,本文提出利用外部知識來引導聚類,并將新范式歸類為 (4)外部引導聚類。實驗結果表明,通過利用文本模態(tài)中的語義信息,所提出的方法(TAC)顯著提升了圖像聚類精度。
現有的聚類研究雖然在方法設計上各不相同,但均是從數據內部挖掘監(jiān)督信號,其性能最終會受限于數據自身所蘊含信息量的固有上限。舉例來說,柯基和巴哥犬的圖片有明顯的差異,但其和柴犬在外觀上十分相似,僅依據圖像本身難以對二者進行區(qū)分。
但值得注意的是,在數據內蘊信息之外,現實世界中還存在著大量有助于聚類的外部知識,而在現有工作中被很大程度地忽略了。
在上述例子中,假設模型具備來自知識庫的「柯基腿較短,而柴犬腿較長」等非圖像域的外部先驗,則能更準確地對二者的圖像進行區(qū)分。
換而言之,與從數據中竭力地挖掘內部監(jiān)督信號相比,利用更加豐富且容易獲得的外部知識來引導聚類,有望起到事半功倍的效果。
方法
本文提出了一種簡單而有效的外部引導聚類方法TAC(Text-Aided Clustering,文本輔助的聚類),基于預訓練CLIP模型,通過利用來自文本模態(tài)的外部知識輔助圖像聚類。
在缺乏類別標注和圖像描述等文本信息的情況下,利用文本語義輔助圖像聚類面臨兩個挑戰(zhàn):
- 如何構建圖像的文本表征;
- 如何協(xié)同圖像和文本進行聚類。
圖2:所提出的TAC方法框架,包括文本表征構建和跨模態(tài)互蒸餾兩部分。
一、文本表征構建
針對第一個挑戰(zhàn),由于樣本標注、圖像描述等文本信息在圖像聚類任務中不可用,本文提出將來自WordNet[2]的所有名詞作為文本模態(tài)的候選詞,選擇其中具有代表性的名詞集合來組成文本空間。
具體地,為了使文本表征精確地覆蓋圖像語義,同時盡可能在不同類別圖像之間具有區(qū)分度,本文首先使用k-means算法來計算圖像語義中心。
考慮到過多的語義中心會關注過于細粒度的特征,不利于區(qū)分不同類別的圖像,而過少的語義中心則會難以準確覆蓋位于聚類邊界圖像的語義,本文提出根據樣本點的個數估計k-means算法中合適的k值(實驗中選取k=N/300,N為圖像個數),并計算圖像語義中心如下:
其中
當且僅當圖像屬于第l個聚類,
表示第i張圖像經過CLIP圖像編碼器后得到的表征。在得到圖像語義中心后,為了選取具有代表性的名詞集合,與常見的CLIP Zero-shot分類相反,本文將所有WordNet中的名詞劃分到k個圖像語義中心,其中第i個名詞屬于第l和語義中心的概率為:
其中sim表示余弦相似性,表示第i個名詞經過預訓練好的文本編碼器后得到的表征。保留每個語義中心對應概率最高的名詞,作為組成文本空間的候選詞。
選取完具有代表性的名詞集合后,可通過為每張圖像檢索其最相關的名詞來構建其文本模態(tài)的表征:
其中,表示第i張圖像對應的文本模態(tài)中的表征,
表示組成文本空間的第j個候選名詞,
控制檢索的平滑程度。
至此,作者為每張圖像構建出了其在文本模態(tài)中的表征。此時可通過在文本和圖像的拼接表征直接使用經典k-means聚類方法來實現圖像聚類。
由于融入了來自文本模態(tài)的緊湊語義,拼接后的表征具有更好的判別性,從而相較于直接在圖像表征上使用k-means會得到更好的圖像聚類結果。
值得注意的是,上述文本模態(tài)的構建過程不需要任何的額外訓練和模型調優(yōu),其中名詞選取和檢索過程的計算開銷幾乎可以忽略不計。
二、跨模態(tài)互蒸餾
盡管直接將文本和圖像表征進行拼接已能顯著提升圖像聚類效果,但是簡單的拼接并不能充分協(xié)同文本和圖像兩個模態(tài)。因此,本文進一步提出跨模態(tài)互蒸餾方法,通過訓練額外的聚類網絡進一步提升聚類性能。
具體地,為每張圖像構建鄰居集合,并引入一個聚類網絡f對每個圖像表征做出聚類指派,在每次迭代中,計算所有圖像和其鄰居集合中隨機的一個圖像的聚類指派,記為:
其中和
分別對應圖像i及其鄰居的聚類指派,P和
均為n*K的矩陣,其中K表示目標聚類個數。
相類似的,引入另一個聚類網絡g來對每個文本表征做出聚類指派,同樣為每個文本表征構建鄰居集合,在每次迭代中,計算所有文本和其鄰居集合中隨機的一個文本的聚類指派,記為:
其中和
分別對應文本i及其鄰居的聚類指派,Q和Q^N同樣均為n*K的矩陣。
為了協(xié)同圖像和文本兩個模態(tài),要求網絡對于圖像和其對應文本模態(tài)的鄰居具有類似的聚類指派,同時對于文本和其對應圖像模態(tài)的鄰居也具有類似的聚類指派。為實現該目標,本文設計了如下的損失函數:
其中分別表示聚類指派矩陣P,P^N,Q,Q^N的第i列,
為溫度系數。該損失函數一方面能通過跨模態(tài)鄰居之間的聚類指派一致性實現圖文模態(tài)的協(xié)同,另一方面能擴大不同的類簇之間的差異性。
此外,為了使訓練過程更加穩(wěn)定,本文設計了另外兩個正則項損失函數。首先,為了鼓勵模型做出更加置信的聚類指派,提出如下損失函數:
該損失函數在和
均為獨熱(One-hot)編碼時被最小化,因此能提升聚類指派的置信度。另外,為了防止模型將大量圖像和文本都分配到個別類簇中,提出了以下損失函數:
其中
和
分別表示圖像和文本模態(tài)中整體的聚類分布。
綜合上述三個損失函數,本文使用如下損失函數來優(yōu)化圖像和文本模態(tài)的聚類網絡f和g:
其中為權重參數。需要指出的是,上述損失函數只用來優(yōu)化額外引入的聚類網絡,并不修改CLIP預訓練好的文本和圖像編碼器,因此其整體訓練開銷較小,實驗表明所提出的方法在CIFAR-10的6萬張圖像上訓練僅需使用1分鐘。
訓練完成后,只需將待聚類的圖像輸入聚類網絡f,即可得到其聚類指派,從而實現準確的圖像聚類。
實驗
本文在五個經典數據集和三個更具挑戰(zhàn)性的圖像聚類數據集上對方法進行了驗證,部分實驗結果如下:
表1:所提出的TAC方法在經典圖像聚類數據集上的聚類性能
表2:所提出的TAC方法在更具挑戰(zhàn)性的圖像聚類數據集上的聚類性能
從結果中可以看出,在缺少標注信息的情況下所提出的TAC方法通過為每個圖像構建文本表征,能夠有效地從文本模態(tài)中挖掘語義信息。在無需任何額外訓練的情況下,TAC (no train)顯著提高了直接在CLIP提取的圖像表征上使用k-means聚類的性能,特別是在更困難的數據集上。
當進一步使用提出的跨模態(tài)相互蒸餾策略訓練聚類網絡時,TAC取得了最優(yōu)的聚類性能,甚至超過了依賴類別標簽信息的CLIP Zero-shot分類性能。
總結與展望
不同于現有的聚類研究聚焦于從數據內部構建監(jiān)督信號,本文創(chuàng)新性地提出利用此前被忽略的外部知識來引導聚類。
所提出的TAC方法通過在無需文本描述的情況下,從預訓練CLIP模型的文本模態(tài)挖掘語義信息,顯著提升了圖像聚類性能,證明了所提出的外部引導聚類新范式的有效性。
所提出的外部引導聚類范式的挑戰(zhàn)在于:
- 如何選擇合適的外部知識;
- 如何有效的整合外部知識以輔助聚類。
除了本工作關注的文本語義外,外部知識廣泛存在于各類的數據、模型、知識庫等,對于不同的數據類型和聚類目標,需要針對性地選擇與利用外部知識。
總的來說,在目前大模型、知識庫日趨成熟背景下,外部引導的聚類新范式具備良好的發(fā)展?jié)摿?,希望未來有更多工作進行相關的探索。
本文轉自 機器之心 ,作者:機器之心
