自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

視覺語言模型導(dǎo)論:這篇論文能成為你進(jìn)軍VLM的第一步

人工智能 新聞
近段時(shí)間,視頻 - 語言模型領(lǐng)域出現(xiàn)了圖像 - 語言模型領(lǐng)域類似的趨勢:使用預(yù)訓(xùn)練 LLM 并將其與視頻編碼器對齊,從而增強(qiáng) LLM 的視頻理解能力。視覺指令微調(diào)等現(xiàn)代技術(shù)也被廣泛使用并被適配用于視頻。

近些年,語言建模領(lǐng)域進(jìn)展非凡。Llama 或 ChatGPT 等許多大型語言模型(LLM)有能力解決多種不同的任務(wù),它們也正在成為越來越常用的工具。

這些模型之前基本都局限于文本輸入,但現(xiàn)在也正在具備處理視覺輸入的能力。如果能將視覺與語言打通,那么勢必能造就多種多樣的應(yīng)用 —— 這實(shí)際上也正是當(dāng)前 AI 技術(shù)革命的關(guān)鍵方向。

即便現(xiàn)在已有不少研究將大型語言模型擴(kuò)展到了視覺領(lǐng)域,但視覺與語言之間的連接尚未被徹底打通。舉些例子,大多數(shù)模型都難以理解空間位置關(guān)系或計(jì)數(shù) —— 這還需要復(fù)雜的工程設(shè)計(jì)并依賴額外的數(shù)據(jù)標(biāo)注。許多視覺語言模型(VLM)依然難以理解屬性和順序。它們往往會(huì)忽略輸入 prompt 的某些部分,因此為了得到理想結(jié)果,用戶常常需要在提示工程上費(fèi)心費(fèi)力。還有些模型會(huì)產(chǎn)生幻覺,產(chǎn)出無用或不相關(guān)的內(nèi)容。因此,人們依然在大力開發(fā)穩(wěn)定的模型。

如果你是有志這一行業(yè)的學(xué)生或愛好者或想要從其它 AI 領(lǐng)域轉(zhuǎn)戰(zhàn)此方向,那么請一定不要錯(cuò)過我們今天要介紹的這篇《視覺語言模型導(dǎo)論》。

圖片

  • 論文標(biāo)題:An Introduction to Vision-Language Modeling
  • 論文地址:https://arxiv.org/pdf/2405.17247

這篇導(dǎo)論來自 Meta 和蒙特利爾大學(xué)等多所研究機(jī)構(gòu)的數(shù)十位研究者,將解釋 VLM 是什么、它們是如何訓(xùn)練的以及如何基于不同研究目標(biāo)有效地評估它們。

該團(tuán)隊(duì)表示,這篇論文的目標(biāo)是幫助讀者輕松理解 VLM 并著重說明這一領(lǐng)域的有效實(shí)踐,而不是提供 VLM 研究成果的詳盡綜述或完整指南。

多種多樣的 VLM

得益于深度學(xué)習(xí)的發(fā)展,計(jì)算機(jī)視覺和自然語言處理領(lǐng)域都取得了令人矚目的進(jìn)展,也因此已經(jīng)有不少研究團(tuán)隊(duì)嘗試過將這兩個(gè)領(lǐng)域連接到一起。

這篇論文關(guān)注的重點(diǎn)是最近期的基于 Transformer 的技術(shù)。

該團(tuán)隊(duì)將嘗試打通這兩大領(lǐng)域的研究成果,按訓(xùn)練范式分成了四類,見圖 1。

圖片

第一類是對比式訓(xùn)練(contrastive training),這是一種使用正例和負(fù)例對來訓(xùn)練模型的常用策略。VLM 的訓(xùn)練目標(biāo)是為正例對預(yù)測相似的表征,為負(fù)例對預(yù)測不同的表征。

第二類是掩碼(masking),其方法是根據(jù)某些未被遮掩的文本來重建被遮掩的圖塊。類似地,通過遮掩描述中的詞,也可以讓 VLM 根據(jù)未被遮掩的圖像來重建這些被遮掩的詞。

另一類是基于預(yù)訓(xùn)練骨干網(wǎng)絡(luò)來訓(xùn)練 VLM,這往往是使用 Llama 等開源 LLM 來學(xué)習(xí)圖像編碼器(也可能是預(yù)訓(xùn)練的)和 LLM 之間的映射關(guān)系。相比于從頭開始訓(xùn)練文本和圖像編碼器,學(xué)習(xí)預(yù)訓(xùn)練模型之間的映射關(guān)系的計(jì)算成本往往更低。

大部分這類方法都是使用中間表征或部分重建,而生成式 VLM 則能生成圖像或描述。有鑒于這類模型的性質(zhì),它們的訓(xùn)練成本通常是最高的。

需要說明:這些范式并不是互斥的,很多方法都混合使用了對比、掩碼和生成范式。文中為每種范式都提供了一兩個(gè)模型進(jìn)行說明,以幫助讀者了解這些模型的設(shè)計(jì)思路。

基于 Transformer 的 VLM 早期研究

通過使用 Transformer 架構(gòu),BERT(使用 Transformer 的雙向編碼器表征)一誕生,就超過了當(dāng)時(shí)所有的語言建模方法。之后不久,BERT 就被擴(kuò)展用來處理視覺數(shù)據(jù)。visual-BERT 和 ViLBERT 是其中兩個(gè)代表,它們的做法是將文本與圖像 token 組合到一起。

這些模型有兩個(gè)訓(xùn)練目標(biāo):1) 經(jīng)典的掩碼建模任務(wù),目標(biāo)是預(yù)測給定輸入中缺失的部分;2) 句子 - 圖像預(yù)測任務(wù),目標(biāo)是預(yù)測圖像標(biāo)注是否描述了圖像內(nèi)容。

通過利用這兩個(gè)目標(biāo),這些模型在多種視覺 - 語言任務(wù)上表現(xiàn)出色,這主要是得益于 Transformer 模型有能力學(xué)會(huì)通過注意力機(jī)制將詞與視覺線索關(guān)聯(lián)起來。

基于對比的 VLM

基于對比的訓(xùn)練往往能通過基于能量的模型(EBM)更好地解釋,即模型的訓(xùn)練目標(biāo)是為觀察到的變量分配低能量,為未被觀察到的變量分配高能量。來自目標(biāo)分布的數(shù)據(jù)的能量應(yīng)該較低,其它數(shù)據(jù)點(diǎn)的能量應(yīng)該較高。

使用掩碼目標(biāo)的 VLM

在深度學(xué)習(xí)研究中,掩碼是一種常用技術(shù)。它可被視為一種特定形式的去噪自動(dòng)編碼器,其中的噪聲有一種空間結(jié)構(gòu)。它也與修復(fù)(inpainting)策略有關(guān),該策略曾被用于學(xué)習(xí)強(qiáng)大的視覺表征。BERT 也在訓(xùn)練階段使用了掩碼式語言建模(MLM)來預(yù)測句子中缺失的 token。掩碼方法非常適合 Transformer 架構(gòu),因此輸入信號(hào)的 token 化使得隨機(jī)丟棄特定的輸入 token 變得更容易。

已經(jīng)有一些研究在圖像方面探索這一方法,即掩碼式圖像建模(MIM),具體案例包括 MAE 和 I-JEPA。

很自然地,也有人將這兩者組合起來訓(xùn)練 VLM。其一是 FLAVA,其使用了掩碼在內(nèi)的多種訓(xùn)練策略來學(xué)習(xí)文本和圖像表征。另一個(gè)是 MaskVLM,這是一種獨(dú)立模型。

基于生成的 VLM

上面的訓(xùn)練范式主要是操作隱含表征來構(gòu)建圖像或文本抽象,之后再在它們之間映射,生成范式則不同,它考慮文本和 / 或圖像的生成。

CoCa 等一些方法會(huì)學(xué)習(xí)一個(gè)完整的文本編碼器和解碼器來描述圖像 Chameleon Team 和 CM3leon 等另一些方法則是多模態(tài)的生成模型,其訓(xùn)練目標(biāo)就包括生成文本和圖像。最后,還有些模型的目標(biāo)是基于文本生成圖像,比如 Stable Diffusion、Imagen 和 Parti。但是,即便它們是為生成圖像而生的,它們也能被用于解決一些視覺 - 語言理解任務(wù)。

用預(yù)訓(xùn)練骨干網(wǎng)絡(luò)構(gòu)建的 VLM

VLM 的一個(gè)缺點(diǎn)是從頭開始訓(xùn)練的成本很高。這通常需要成百上千臺(tái) GPU,同時(shí)還必須使用上億對圖像和文本。因此,也有很多研究者探索使用已有的 LLM 和 / 或視覺提取器,而不是從頭開始訓(xùn)練模型。

這種做法的另一個(gè)優(yōu)勢是可以利用現(xiàn)在很多開源且易用的 LLM。

通過使用這樣的模型,有可能學(xué)習(xí)到僅在文本模態(tài)和圖像模態(tài)之間的映射。通過學(xué)習(xí)這樣的映射,僅需要少量計(jì)算資源就可讓 LLM 有能力回答視覺問題。

該團(tuán)隊(duì)在論文中說明了這類模型的兩個(gè)代表:一是首個(gè)使用預(yù)訓(xùn)練 LLM 的模型 Frozen,二是 Mini-GPT。詳見原論文。

VLM 訓(xùn)練指南

有一些研究揭示了進(jìn)一步擴(kuò)大深度神經(jīng)網(wǎng)絡(luò)規(guī)模的重要性。受這些 scaling law 的激勵(lì),最近不少項(xiàng)目都在通過增加計(jì)算量和擴(kuò)大模型規(guī)模來學(xué)習(xí)更好的模型。這就催生了 CLIP 等模型 —— 其訓(xùn)練使用了 4 億張圖像,計(jì)算預(yù)算自然也非常高。就算是其開源實(shí)現(xiàn) OpenCLIP,根據(jù)模型大小的不同,訓(xùn)練也使用了 256 到 600 臺(tái) GPU,耗時(shí)數(shù)天到幾周。

但是,又有一項(xiàng)研究表明通過精心的數(shù)據(jù)整編,有可能戰(zhàn)勝 scaling law。這一節(jié)首先將討論訓(xùn)練模型時(shí)數(shù)據(jù)的重要性,并會(huì)給出一些用于構(gòu)建 VLM 訓(xùn)練數(shù)據(jù)集的方法。

然后會(huì)討論常用的軟件、工具和技巧,它們可幫助實(shí)踐者更高效地訓(xùn)練 VLM。

由于訓(xùn)練 VLM 有多種不同方法,所以文中還會(huì)討論特定情形下應(yīng)該選用什么類型的模型。

之后,該團(tuán)隊(duì)還會(huì)給出一些提升定基(grounding,即正確映射文本與視覺線索的能力)的技巧,并介紹使用人類偏好提升對齊的技術(shù)。

VLM 常被用于閱讀和翻譯文本,所以他們也會(huì)分享一些用于進(jìn)一步提升 VLM 的 OCR 能力的技術(shù)。

最后是一些常用的微調(diào)方法。

圖片

訓(xùn)練數(shù)據(jù)

為了評估預(yù)訓(xùn)練數(shù)據(jù)集的質(zhì)量,DataComp 提出了一個(gè)基準(zhǔn),其中 CLIP 的模型架構(gòu)和預(yù)訓(xùn)練超參數(shù)都是固定的。其評估重點(diǎn)是設(shè)計(jì)出能在 38 個(gè)下游任務(wù)上取得優(yōu)良零樣本和檢索性能的圖像 - 文本數(shù)據(jù)集。DataComp 提供了多個(gè)有噪聲網(wǎng)頁數(shù)據(jù)集池,規(guī)模從小型(1.28M)到超大型(12.8B)不等。針對每個(gè)池,都有多個(gè)過濾策略被提出和評估。DataComp 表明:為了訓(xùn)練出高效高性能的 VLM,數(shù)據(jù)剪枝是一個(gè)關(guān)鍵步驟。

用于 VLM 的數(shù)據(jù)剪枝方法可以分為三大類:(1) 啟發(fā)式方法,可以清除低質(zhì)量數(shù)據(jù)對;(2) bootstrapping 方法,使用預(yù)訓(xùn)練的 VLM 評估圖像和文本的多模態(tài)對齊程度,然后丟棄其中對齊較差的數(shù)據(jù)對;(3) 用于創(chuàng)建多樣化和平衡數(shù)據(jù)集的方法。具體的措施包括:

  • 使用合成數(shù)據(jù)來提升訓(xùn)練數(shù)據(jù)
  • 使用數(shù)據(jù)增強(qiáng)
  • 交錯(cuò)式的數(shù)據(jù)整編
  • 評估多模態(tài)數(shù)據(jù)質(zhì)量
  • 利用人類專業(yè)知識(shí):數(shù)據(jù)標(biāo)注的力量

軟件

這一小節(jié)討論了現(xiàn)有的可用于評估和訓(xùn)練 VLM 的軟件以及訓(xùn)練它們所需的資源。

  • 使用現(xiàn)有的公共軟件庫
  • 我需要多少臺(tái) GPU?
  • 為訓(xùn)練加速
  • 其它超參數(shù)的重要性

使用什么模型?

前面已經(jīng)提到,訓(xùn)練 VLM 的方法有好幾種。一些是使用簡單的對比訓(xùn)練方案,一些則是使用掩碼策略來預(yù)測缺失的文本或圖塊,還有一些模型使用的是自回歸或擴(kuò)散等生成范式。也有可能使用 Llama 或 GPT 等預(yù)訓(xùn)練的視覺或文本骨干網(wǎng)絡(luò)。在這種情況下,構(gòu)建 VLM 模型僅需學(xué)習(xí) LLM 和視覺編碼器表征之間的映射。

那么,應(yīng)該如何選擇這些方法呢?我們需要像 CLIP 一樣從頭開始訓(xùn)練視覺和文本編碼器,還是像 Flamingo 或 MiniGPT 一樣從預(yù)訓(xùn)練的 LLM 開始訓(xùn)練?

  • 何時(shí)使用 CLIP 這樣的對比模型?
  • 何時(shí)使用掩碼?
  • 何時(shí)使用生成模型?
  • 何時(shí)使用 LLM 作為預(yù)訓(xùn)練骨干網(wǎng)絡(luò)?

提升定基

在 VLM 和生成模型文獻(xiàn)中,定基(grounding)是一個(gè)關(guān)鍵難題。定基的目標(biāo)主要是解決模型不能很好理解文本 prompt 的問題,這個(gè)問題既可能導(dǎo)致模型忽視 prompt 中的某些部分,也可能導(dǎo)致其產(chǎn)生幻覺,想象出 prompt 中沒有的內(nèi)容。

解決這些難題需要理解關(guān)系,比如確定一個(gè)物體是在左邊還是右邊、否定、計(jì)數(shù)、理解屬性(如顏色或紋理)。

提升定基這個(gè)研究領(lǐng)域很活躍,而目前還尚未出現(xiàn)一種能解決此難題的單一簡單方法。盡管如此,在提升定基性能方面,還是有一些技巧可用:

  • 使用邊界框標(biāo)注
  • 否定描述

提升對齊

受語言領(lǐng)域指令微調(diào)的成功的啟發(fā)視覺語言模型也開始整合指令微調(diào)和根據(jù)人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)來提升多模態(tài)聊天能力以及將輸出與期望響應(yīng)對齊。

指令微調(diào)涉及到在一個(gè)包含指令、輸入和期望響應(yīng)的監(jiān)督式數(shù)據(jù)集上對視覺語言模型進(jìn)行微調(diào)。通常來說,指令微調(diào)數(shù)據(jù)集的規(guī)模遠(yuǎn)小于預(yù)訓(xùn)練數(shù)據(jù)集 —— 指令微調(diào)數(shù)據(jù)集的規(guī)模從少量到數(shù)十萬不等。整合了指令微調(diào)的視覺語言模型包括 LLaVa、InstructBLIP、OpenFlamingo。

RLHF 的另一個(gè)目標(biāo)是對齊模型輸出與人類偏好。使用 RLHF 時(shí),需要訓(xùn)練一個(gè)獎(jiǎng)勵(lì)模型來匹配人類偏好 —— 即人類認(rèn)為一個(gè)模型響應(yīng)是好是壞。盡管指令微調(diào)需要監(jiān)督訓(xùn)練樣本(收集成本較高),但 RLHF 則可使用輔助式獎(jiǎng)勵(lì)模型來模擬人類偏好。然后再使用該獎(jiǎng)勵(lì)模型來微調(diào)主模型(不管是語言模型還是視覺語言模型),使其輸出與人類偏好對齊。LLaVa-RLFH 就是一個(gè)視覺語言模型整合 RLHF 的突出案例,其能通過事實(shí)信息來提升模型的輸出對齊。

提升對富含文本的圖像的理解

在我們的日常生活中,視覺感知中有一大關(guān)鍵部分:理解文本。多模態(tài)大型語言模型(MLLM)的成功可讓 VLM 以零樣本方式應(yīng)用于多種應(yīng)用,并且其中許多已經(jīng)可用于真實(shí)世界場景。

有研究表明 MLLM 具備卓越的零樣本光學(xué)字符識(shí)別(OCR)能力,無需專門使用特定于 OCR 領(lǐng)域的數(shù)據(jù)進(jìn)行訓(xùn)練。但是,當(dāng)涉及到數(shù)據(jù)類型之間的復(fù)雜關(guān)系時(shí),這些模型往往難以解讀圖像中的文本,原因是它們的訓(xùn)練數(shù)據(jù)中包含大量自然圖像。

下面列出了一些在文本理解方面的常見難題以及試圖解決該難題的模型:

  • 使用細(xì)粒度的富含文本的數(shù)據(jù)進(jìn)行指令微調(diào):LLaVAR
  • 處理高分辨率圖像中的細(xì)粒度文本:Monkey
  • 分立式場景文本識(shí)別模塊和 MM-LLM:Lumos

參數(shù)高效型微調(diào)

事實(shí)已經(jīng)證明,在跨領(lǐng)域視覺和語言任務(wù)上,VLM 的效果很好。但是,隨著預(yù)訓(xùn)練模型大小持續(xù)增長,由于計(jì)算限制,微調(diào)這些模型的全體參數(shù)集將變得不切實(shí)際。

為了解決這一難題,參數(shù)高效型微調(diào)(PEFT)方法誕生了,其目標(biāo)是解決與微調(diào)大規(guī)模模型相關(guān)的高計(jì)算成本問題。這些方法關(guān)注的重點(diǎn)是訓(xùn)練部分參數(shù)來使模型適應(yīng)下游任務(wù),而不是重新訓(xùn)練全體模型?,F(xiàn)有的 PEFT 方法可以分為四大類:

  • 基于低秩適配器(LoRa)的方法
  • 基于 prompt 的方法
  • 基于適應(yīng)器的方法
  • 基于映射的方法

實(shí)現(xiàn)負(fù)責(zé)任 VLM 評估的方法

VLM 的主要能力是實(shí)現(xiàn)文本與圖像的映射,因此度量其視覺語言能力就非常關(guān)鍵了,因?yàn)檫@能確保詞與視覺線索真正實(shí)現(xiàn)了映射。

在評估 VLM 方面,早期的評估任務(wù)包括圖像描述和視覺問答(VQA)。

現(xiàn)在還有以文本為中心的 VQA(text-centric VQA)任務(wù),其評估的是模型理解和閱讀圖像中的文本的能力。

Radford et al. [2021] 也提出了一種常用的評估方法,該方法是基于零樣本預(yù)測,比如 ImageNet 分類任務(wù)。這樣的分類任務(wù)可以評估 VLM 是否具備足夠的世界知識(shí)。

Winoground 是一個(gè)更近期的基準(zhǔn),其度量的是模型的視覺 - 語言組合推理能力。

另外,我們已經(jīng)知道 VLM 會(huì)表現(xiàn)出偏見和幻覺,因此對這兩方面進(jìn)行評估也非常重要。

圖片

將 VLM 擴(kuò)展用于視頻

之前談到的 VLM 基本都是在靜態(tài)視覺數(shù)據(jù)(圖像)上訓(xùn)練和評估的。但是,視覺數(shù)據(jù)還有動(dòng)態(tài)的,即視頻。

對 VLM 而言,視頻數(shù)據(jù)既能帶來新挑戰(zhàn),也有望為其帶來新能力,比如理解物體的運(yùn)動(dòng)和動(dòng)態(tài)或在空間和時(shí)間中定位物體和動(dòng)作。用文本檢索視頻、視頻問答和視頻生成正在快速成為基礎(chǔ)的計(jì)算機(jī)視覺任務(wù)。

視頻的時(shí)間屬性對存儲(chǔ)、CPU 內(nèi)存來說都是一個(gè)巨大挑戰(zhàn)(如果把每一幀都視為一張圖像,那么幀率越高,成本就越高)。于是對于處理視頻的 VLM 而言,就需要考慮多個(gè)權(quán)衡因素,比如數(shù)據(jù)加載器中動(dòng)態(tài)視頻解碼器的壓縮格式、基于圖像編碼器來初始化視頻編碼器、為視頻編碼器使用時(shí)空池化 / 掩碼機(jī)制、非端到端 VLM。

與圖像 - 文本模型類似,早期的視頻 - 文本模型也是使用自監(jiān)督指標(biāo)來從頭開始訓(xùn)練視覺和文本組件。但不同于圖像模型,對比式視頻 - 文本模型并非首選方法,早期時(shí)人們更喜歡融合和時(shí)間對齊方法,因?yàn)橄啾扔谟?jì)算視頻的全局表征,讓表征中有更多時(shí)間粒度更重要。

近段時(shí)間,視頻 - 語言模型領(lǐng)域出現(xiàn)了圖像 - 語言模型領(lǐng)域類似的趨勢:使用預(yù)訓(xùn)練 LLM 并將其與視頻編碼器對齊,從而增強(qiáng) LLM 的視頻理解能力。視覺指令微調(diào)等現(xiàn)代技術(shù)也被廣泛使用并被適配用于視頻。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2024-02-26 10:08:01

2021-01-15 18:17:06

網(wǎng)絡(luò)協(xié)議分層

2023-01-13 13:59:23

ChatGPT學(xué)術(shù)

2013-04-03 14:25:22

虛擬化網(wǎng)絡(luò)網(wǎng)絡(luò)應(yīng)用網(wǎng)絡(luò)架構(gòu)

2015-06-02 11:42:00

Cloud FoundAzure

2009-01-18 08:49:04

Java入門JDK

2018-07-04 13:49:10

NumPyPython模型

2019-11-20 10:54:46

無密碼身份驗(yàn)證網(wǎng)絡(luò)安全

2012-07-11 16:43:14

飛視美

2013-01-15 09:17:11

2015-10-28 22:25:45

SwiftAndroid應(yīng)用開發(fā)

2011-07-25 14:17:46

BSMIT運(yùn)維北塔

2010-07-01 13:44:12

2018-02-10 11:24:39

Python數(shù)據(jù)程序

2021-08-24 05:07:25

React

2012-08-30 11:14:11

云計(jì)算虛擬化

2020-07-22 22:10:34

互聯(lián)網(wǎng)物聯(lián)網(wǎng)IOT

2024-11-19 13:17:38

視覺語言模型Pytorch人工智能

2020-11-17 14:55:36

亞馬遜云科技遷移

2020-11-11 07:09:05

隔離直播系統(tǒng)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)