跨模態(tài)大升級(jí)!少量數(shù)據(jù)高效微調(diào),LLM教會(huì)CLIP玩轉(zhuǎn)復(fù)雜文本
在當(dāng)今多模態(tài)領(lǐng)域,CLIP 模型憑借其卓越的視覺(jué)與文本對(duì)齊能力,推動(dòng)了視覺(jué)基礎(chǔ)模型的發(fā)展。CLIP 通過(guò)對(duì)大規(guī)模圖文對(duì)的對(duì)比學(xué)習(xí),將視覺(jué)與語(yǔ)言信號(hào)嵌入到同一特征空間中,受到了廣泛應(yīng)用。
然而,CLIP 的文本處理能力被廣為詬病,難以充分理解長(zhǎng)文本和復(fù)雜的知識(shí)表達(dá)。隨著大語(yǔ)言模型的發(fā)展,新的可能性逐漸顯現(xiàn):LLM 可以引入更豐富的開(kāi)放時(shí)間知識(shí)、更強(qiáng)的文本理解力,極大提升 CLIP 的多模態(tài)表示學(xué)習(xí)能力。
在此背景下,來(lái)自同濟(jì)大學(xué)和微軟的研究團(tuán)隊(duì)提出了 LLM2CLIP。這一創(chuàng)新方法將 LLM 作為 CLIP 的強(qiáng)力 「私教」,以少量數(shù)據(jù)的高效微調(diào)為 CLIP 注入開(kāi)放世界知識(shí),讓它能真正構(gòu)建一個(gè)的跨模態(tài)空間。在零樣本檢索任務(wù)上,CLIP 也達(dá)成了前所未有的性能提升。
- 論文標(biāo)題:LLM2CLIP: POWERFUL LANGUAGE MODEL UNLOCKS RICHER VISUAL REPRESENTATION
- 論文鏈接:https://arxiv.org/pdf/2411.04997
- 代碼倉(cāng)庫(kù):https://github.com/microsoft/LLM2CLIP
- 模型下載:https://huggingface.co/collections/microsoft/llm2clip-672323a266173cfa40b32d4c
在實(shí)際應(yīng)用中,LLM2CLIP 的效果得到了廣泛認(rèn)可,迅速吸引了社區(qū)的關(guān)注和支持。
HuggingFace 一周內(nèi)的下載量就破了兩萬(wàn),GitHub 也突破了 200+ stars!
值得注意的是, LLM2CLIP 可以讓完全用英文訓(xùn)練的 CLIP 模型,在中文檢索任務(wù)中超越中文 CLIP。
此外,LLM2CLIP 也能夠在多模態(tài)大模型(如 LLaVA)的訓(xùn)練中顯著提升復(fù)雜視覺(jué)推理的表現(xiàn)。
代碼與模型均已公開(kāi),歡迎訪問(wèn) https://aka.ms/llm2clip 了解詳情和試用。
LLM2CLIP 目前已被 NeurIPS 2024 Workshop: Self-Supervised Learning - Theory and Practice 接收。
研究背景
CLIP 的橫空出世標(biāo)志著視覺(jué)與語(yǔ)言領(lǐng)域的一次革命。不同于傳統(tǒng)的視覺(jué)模型(如 ImageNet 預(yù)訓(xùn)練的 ResNet 和 ViT)依賴簡(jiǎn)單的分類標(biāo)簽,CLIP 基于圖文對(duì)的對(duì)比學(xué)習(xí),通過(guò)自然語(yǔ)言的描述獲得了更豐富的視覺(jué)特征,更加符合人類對(duì)于視覺(jué)信號(hào)的定義。
這種監(jiān)督信號(hào)不僅僅是一個(gè)標(biāo)簽,而是一個(gè)富有層次的信息集合,從而讓 CLIP 擁有更加細(xì)膩的視覺(jué)理解能力,適應(yīng)零樣本分類、檢測(cè)、分割等多種任務(wù)??梢哉f(shuō),CLIP 的成功奠基于自然語(yǔ)言的監(jiān)督,是一種新時(shí)代的 「ImageNet 預(yù)訓(xùn)練」。
雖然 CLIP 在視覺(jué)表示學(xué)習(xí)中取得了成功,但其在處理長(zhǎng)文本和復(fù)雜描述上存在明顯限制。而大語(yǔ)言模型(LLM)例如 GPT-4 和 Llama,通過(guò)預(yù)訓(xùn)練掌握了豐富的開(kāi)放世界知識(shí),擁有更強(qiáng)的文本理解和生成能力。
將 LLM 的這些能力引入到 CLIP 中,可以大大拓寬 CLIP 的性能上限,增強(qiáng)其處理長(zhǎng)文本、復(fù)雜知識(shí)的能力。借助 LLM 的知識(shí)擴(kuò)展,CLIP 在圖文對(duì)齊任務(wù)中的學(xué)習(xí)效率也得以提升。
原始的 LLM 無(wú)法給 CLIP 帶來(lái)有意義的監(jiān)督
事實(shí)上,將 LLM 與 CLIP 結(jié)合看似簡(jiǎn)單粗暴,實(shí)際并非易事。直接將 LLM 集成到 CLIP 中會(huì)引發(fā)「災(zāi)難」,CLIP 無(wú)法產(chǎn)生有效的表示。
這是由于 LLM 的文本理解能力隱藏在內(nèi)部,它的輸出特征空間并不具備很好的特征可分性。
于是,該團(tuán)隊(duì)設(shè)計(jì)了一個(gè)圖像 caption 到 caption 的檢索實(shí)驗(yàn),使用 COCO 數(shù)據(jù)集上同一張圖像的兩個(gè)不同 caption 互相作為正樣本進(jìn)行文本檢索。
他們發(fā)現(xiàn)原生的 llama3 8B 甚至無(wú)法找到十分匹配的 caption,例如 plane 和 bat 的距離更近,但是離 airplane 的距離更遠(yuǎn),這有點(diǎn)離譜了,因此它只取得了 18.4% 的召回率。
顯然,這樣的輸出空間無(wú)法給 CLIP 的 vision encoder 一個(gè)有意義的監(jiān)督,LLM 無(wú)法幫助 CLIP 的進(jìn)行有意義的特征學(xué)習(xí)。
圖像描述對(duì)比微調(diào)是融合 LLM 與 CLIP 的秘訣
從上述觀察,研究團(tuán)隊(duì)意識(shí)到必須對(duì)提升 LLM 輸出空間對(duì)圖像表述的可分性,才有可能取得突破。
為了讓 LLM 能夠讓相似的 caption 接近,讓不同圖像的 caption 遠(yuǎn)離,他們?cè)O(shè)計(jì)了一個(gè)新的圖像描述對(duì)比微調(diào) ——Caption-Contrastive(CC)finetuning。
該團(tuán)隊(duì)對(duì)訓(xùn)練集中每張圖像都標(biāo)注了兩個(gè)以上 caption,再采用同一個(gè)圖像的 caption 作為正樣本,不同圖像的 caption 作為負(fù)樣本來(lái)進(jìn)行對(duì)比學(xué)習(xí),來(lái)提升 LLM 對(duì)于不同畫(huà)面的描述的區(qū)分度。
實(shí)驗(yàn)證明,這個(gè)設(shè)計(jì)可以輕易的提升上述 caption2caption 檢索的準(zhǔn)確率,從上述 cases 也可以看出召回的例子開(kāi)始變得有意義。
高效訓(xùn)練范式 LLM2CLIP
讓 SOTA 更加 SOTA
LLM2CLIP 這一高效的訓(xùn)練范式具體是怎么生效的呢?
首先,要先使用少量數(shù)據(jù)對(duì) LLM 進(jìn)行微調(diào),增強(qiáng)文本特征更具區(qū)分力,進(jìn)而作為 CLIP 視覺(jué)編碼器的強(qiáng)力 「教師」。這種設(shè)計(jì)讓 LLM 中的文本理解力被有效提取,CLIP 在各種跨模態(tài)任務(wù)中獲得顯著性能提升。
實(shí)驗(yàn)結(jié)果表明,LLM2CLIP 甚至能在不增加大規(guī)模訓(xùn)練數(shù)據(jù)的情況下,將當(dāng)前 SOTA 的 CLIP 性能提升超過(guò) 16%。
英文訓(xùn)練,中文超越,CLIP 的語(yǔ)言能力再拓展
一個(gè)令人驚喜的發(fā)現(xiàn)是,LLM2CLIP 的開(kāi)放世界知識(shí)不僅提升了 CLIP 在英文任務(wù)中的表現(xiàn),還能賦予其多語(yǔ)言理解能力。
盡管 LLM2CLIP 僅在英文數(shù)據(jù)上進(jìn)行了訓(xùn)練,但在中文圖文檢索任務(wù)上卻超越了中文 CLIP 模型。這一突破讓 CLIP 不僅在英文數(shù)據(jù)上達(dá)到領(lǐng)先水平,同時(shí)在跨語(yǔ)言任務(wù)中也展現(xiàn)了前所未有的優(yōu)勢(shì)。
提升多模態(tài)大模型的復(fù)雜視覺(jué)推理性能
LLM2CLIP 的優(yōu)勢(shì)還不止于此。當(dāng)該團(tuán)隊(duì)將 LLM2CLIP 應(yīng)用于多模態(tài)大模型 LLaVA 的訓(xùn)練時(shí),顯著提升了 LLaVA 在復(fù)雜視覺(jué)推理任務(wù)中的表現(xiàn)。
LLaVA 的視覺(jué)編碼器通過(guò) LLM2CLIP 微調(diào)后的 CLIP 增強(qiáng)了對(duì)細(xì)節(jié)和語(yǔ)義的理解能力,使其在視覺(jué)問(wèn)答、場(chǎng)景描述等任務(wù)中取得了全面的性能提升。
總之,該團(tuán)隊(duì)希望通過(guò) LLM2CLIP 技術(shù),推動(dòng)大模型的能力反哺多模態(tài)社區(qū),同時(shí)為基礎(chǔ)模型的預(yù)訓(xùn)練方法帶來(lái)新的突破。
LLM2CLIP 的目標(biāo)是讓現(xiàn)有的預(yù)訓(xùn)練基礎(chǔ)模型更加強(qiáng)大,為多模態(tài)研究提供更高效的工具。
除了完整的訓(xùn)練代碼,他們也逐步發(fā)布了經(jīng)過(guò) LLM2CLIP 微調(diào)的主流跨模態(tài)基礎(chǔ)模型,期待這些模型能被應(yīng)用到更多有價(jià)值的場(chǎng)景中,挖掘出更豐富的能力。