自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

一文讀懂OpenGVLab帶來(lái)的最新視覺(jué)預(yù)訓(xùn)練框架

發(fā)布于 2024-10-21 13:09
瀏覽
0收藏

大模型技術(shù)論文不斷,每個(gè)月總會(huì)新增上千篇。本專(zhuān)欄精選論文?重點(diǎn)解讀,主題還是圍繞著行業(yè)實(shí)踐和工程量產(chǎn)。若在某個(gè)環(huán)節(jié)出現(xiàn)卡點(diǎn),可以回到大模型必備腔調(diào)?或者LLM背后的基礎(chǔ)模型?重新閱讀。而最新科技(Mamba,xLSTM,KAN)?則提供了大模型領(lǐng)域最新技術(shù)跟蹤。若對(duì)于具身智能感興趣的請(qǐng)移步具身智能專(zhuān)欄?。技術(shù)宅麻煩死磕AI架構(gòu)設(shè)計(jì)。當(dāng)然最重要的是訂閱“魯班模錘”。

在過(guò)去的十年中,ImageNet預(yù)訓(xùn)練的視覺(jué)模型顯著提高了計(jì)算機(jī)視覺(jué)水平,在各種視覺(jué)任務(wù)中不斷取得突破。ImageNet的成功激發(fā)了人們進(jìn)一步探索從頭開(kāi)始預(yù)訓(xùn)練視覺(jué)模型的更好方法。最近,預(yù)訓(xùn)練的重點(diǎn)已從手動(dòng)注釋數(shù)據(jù)轉(zhuǎn)移到大規(guī)模的網(wǎng)絡(luò)爬蟲(chóng)圖像文本數(shù)據(jù)。這一轉(zhuǎn)變的一個(gè)關(guān)鍵里程碑是CLIP,它利用的圖像-文本對(duì)的數(shù)據(jù)比ImageNet大數(shù)百倍,在各種任務(wù)中提供卓越的性能,并逐漸成為視覺(jué)模型預(yù)訓(xùn)練的主流方法。

基于這一趨勢(shì),人們對(duì)探索圖像-文本交錯(cuò)的數(shù)據(jù)的興趣越來(lái)越大,這在互聯(lián)網(wǎng)上更為普遍。與CLIP中使用的結(jié)構(gòu)化圖像-文本對(duì)不同,這種交錯(cuò)數(shù)據(jù)是自由格式和非配對(duì)的,規(guī)模更大,文本信息更豐富。充分利用這些圖像-文本交錯(cuò)的數(shù)據(jù)對(duì)于進(jìn)一步大規(guī)模改進(jìn)視覺(jué)模型預(yù)訓(xùn)練是必要的。

1.一圖讀懂

一文讀懂OpenGVLab帶來(lái)的最新視覺(jué)預(yù)訓(xùn)練框架-AI.x社區(qū)

這張圖片完整的對(duì)比了新模型與CLIP的差異。(a)展示了來(lái)自CLIP的對(duì)比學(xué)習(xí)框架,而(b)展示了新穎的LCL預(yù)訓(xùn)練框架。整體而言,與CLIP相比,LCL可以在訓(xùn)練視覺(jué)編碼器的時(shí)候使用圖像和文本交叉的訓(xùn)練數(shù)據(jù)。值得注意的是這兩個(gè)框架在訓(xùn)練完畢的時(shí)候,可以將其中的text-encoder或者使用的大模型丟棄。

(c)則是展示了多模態(tài)的增量訓(xùn)練過(guò)程,將訓(xùn)練好的視覺(jué)編碼器有選擇地凍結(jié)或微調(diào),然后按照傳統(tǒng)的訓(xùn)練模型進(jìn)行。當(dāng)然這個(gè)過(guò)程也是支持圖像-文本的交錯(cuò)訓(xùn)練數(shù)據(jù)。但是,其主要目標(biāo)是使預(yù)訓(xùn)練的視覺(jué)編碼器和大語(yǔ)言模型保持一致。

研究人員提出這種訓(xùn)練框架的思路在于自然語(yǔ)言處理最近一項(xiàng)研究表明,現(xiàn)代語(yǔ)言模型的成功源于將訓(xùn)練數(shù)據(jù)集壓縮為模型參數(shù)。這種壓縮學(xué)習(xí)也適用于多模態(tài)領(lǐng)域,只是要壓縮的數(shù)據(jù)從結(jié)構(gòu)化純文本擴(kuò)展到圖像-文本交錯(cuò)的數(shù)據(jù)。因?yàn)閳D像是原始像素和非結(jié)構(gòu)化的,通常包含不必要和不可預(yù)測(cè)的細(xì)節(jié)。這些細(xì)節(jié)與高級(jí)語(yǔ)義任務(wù)無(wú)關(guān),應(yīng)該在壓縮學(xué)習(xí)中丟棄。所以應(yīng)該調(diào)整這種壓縮算法,以便于能夠適應(yīng)圖像數(shù)據(jù)的加入。另外文本-圖像交錯(cuò)的學(xué)習(xí)數(shù)據(jù)的將會(huì)更好的提取語(yǔ)義抽象。

整體而言,Latent Compression Learning是一個(gè)新的視覺(jué)預(yù)訓(xùn)練框架,旨在通過(guò)最大化因果注意模型輸出和輸入之間的互信息來(lái)進(jìn)行有效的潛在壓縮學(xué)習(xí)。

兩個(gè)隨機(jī)變量的互信息(mutual Information,MI)度量了兩個(gè)變量之間相互依賴(lài)的程度。具體來(lái)說(shuō),對(duì)于兩個(gè)隨機(jī)變量,MI是一個(gè)隨機(jī)變量由于已知另一個(gè)隨機(jī)變量而減少的“信息量”(單位通常為比特)?;バ畔⒌母拍钆c隨機(jī)變量的熵緊密相關(guān),熵是信息論中的基本概念,它量化的是隨機(jī)變量中所包含的“信息量”。

框架的核心思想是通過(guò)因果注意模型來(lái)實(shí)現(xiàn)潛在的信息壓縮學(xué)習(xí)。

因果注意模型通常用于序列預(yù)測(cè)或生成任務(wù),確保每個(gè)輸出僅依賴(lài)于前面的輸入

一文讀懂OpenGVLab帶來(lái)的最新視覺(jué)預(yù)訓(xùn)練框架-AI.x社區(qū)

LCL 時(shí)的模型架構(gòu)概覽如上圖所示。在交錯(cuò)的圖像文本輸入序列中,引入特殊標(biāo)記 <BoI> 和 <EoI>,分別作為圖像中視覺(jué)嵌入的開(kāi)始和結(jié)束的特殊標(biāo)記。原文采用 Vision Transformer (ViT) 作為視覺(jué)編碼器,它輸入一系列圖像塊并輸出一系列潛在表示。這最為關(guān)鍵的是損失函數(shù),也就是訓(xùn)練目標(biāo)的設(shè)定。

目前優(yōu)化目標(biāo)可以分解為兩部分:第一部分為對(duì)比學(xué)習(xí),就是上圖最上面的那根線,對(duì)比視覺(jué)“潛變量”和先前上下文的語(yǔ)義一致性(對(duì)比的對(duì)象是<BOI>標(biāo)識(shí)的輸出)。第二部分為自回歸預(yù)測(cè):就是傳統(tǒng)文本生成的對(duì)比,大白話就是將生成的字符和預(yù)期的字符比較。綜合兩者的差異,反向的微調(diào)和訓(xùn)練模型。

這兩個(gè)訓(xùn)練目標(biāo)相互補(bǔ)充,學(xué)習(xí)到的視覺(jué)潛變量既保留了可以從先前上下文中預(yù)測(cè)的信息,又包含了預(yù)測(cè)后續(xù)上下文所需的信息,從而實(shí)現(xiàn)了有效的視覺(jué)預(yù)訓(xùn)練。

2.潛在壓縮學(xué)習(xí)

自回歸語(yǔ)言建模等同于壓縮學(xué)習(xí)。假設(shè) ???? 是一個(gè)具有可學(xué)習(xí)參數(shù) ?? 的語(yǔ)言模型 (LM)。給定一個(gè)輸入文本序列 ??=(</s>,??1,??2,…,????) ,其中</s>是一個(gè)指示文本開(kāi)頭的特殊標(biāo)記,模型根據(jù)前面的上下文輸出 ??=?????(??)=(??1,??2,…,????) 預(yù)測(cè)下一個(gè)標(biāo)記,即 ??k-estiamte=????=?????(??)?? 。

而其中x的概率為:

一文讀懂OpenGVLab帶來(lái)的最新視覺(jué)預(yù)訓(xùn)練框架-AI.x社區(qū)

該模型使用NLL損失進(jìn)行優(yōu)化,這等于最小化數(shù)據(jù)分布 ?? 和模型分布 ?? 之間的交叉熵:

一文讀懂OpenGVLab帶來(lái)的最新視覺(jué)預(yù)訓(xùn)練框架-AI.x社區(qū)

然而在訓(xùn)練的過(guò)程中,卻出現(xiàn)了塌方。研究人員發(fā)現(xiàn)將潛在壓縮和最大熵約束相結(jié)合,完全等同于最大化模型輸入和輸出之間的互信息。

一文讀懂OpenGVLab帶來(lái)的最新視覺(jué)預(yù)訓(xùn)練框架-AI.x社區(qū)

因此, 將??使用作為優(yōu)化目標(biāo)可以實(shí)現(xiàn)潛在壓縮,同時(shí)通過(guò)最大的熵約束避免視覺(jué)z的坍縮。壓縮??使模型提取有用的信息并丟棄圖像的不可預(yù)測(cè)信息。同時(shí),最大化???要求每個(gè)????能從先前的潛伏??中獲得足夠的信息來(lái)預(yù)測(cè) ???? 。每個(gè) ???? 都應(yīng)該攜帶可預(yù)測(cè)的信息。

這保證了圖像表示能夠?qū)⒇S富的語(yǔ)義信息編碼,當(dāng)然這些編碼和文本對(duì)齊。假設(shè)通過(guò)圖像表示學(xué)習(xí)到的上述屬性是視覺(jué)語(yǔ)言預(yù)訓(xùn)練所需要的,因此使用方程該方程作為我們的預(yù)訓(xùn)練目標(biāo)。參數(shù) ?? 和 ?? 在此目標(biāo)下共同優(yōu)化。直觀地,視覺(jué)編碼器 ???? 學(xué)習(xí)通過(guò)高級(jí)抽象來(lái)表示圖像,而因果注意力模型 ???? 學(xué)習(xí)壓縮數(shù)據(jù)集的高級(jí)抽象。

3.最終的效果

一文讀懂OpenGVLab帶來(lái)的最新視覺(jué)預(yù)訓(xùn)練框架-AI.x社區(qū)

LCL首次探索了使用交錯(cuò)圖像文本數(shù)據(jù),進(jìn)行視覺(jué)模型預(yù)訓(xùn)練。這篇文章從理論上證明了latent compression等價(jià)于最大化因果模型的輸入和輸出之間的相互信息,并將該目標(biāo)進(jìn)一步分解為兩個(gè)基本的訓(xùn)練任務(wù)(對(duì)比學(xué)習(xí)+生成任務(wù)),最終得到了更魯棒的視覺(jué)表征。

本文轉(zhuǎn)載自 ??魯班模錘??,作者: 龐德公

收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦