自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

到底什么是視覺(jué)語(yǔ)言模型?(分類/訓(xùn)練/評(píng)估)

發(fā)布于 2024-6-20 12:11
瀏覽
0收藏

5月27日,Meta發(fā)布了Vision Language Model行業(yè)研究的綜述論文《An Introduction to Vision-Language Modeling》。全文干貨滿滿,但篇幅過(guò)長(zhǎng),所以筆者把每一章節(jié)放到獨(dú)立的文章中,方便對(duì)VLM領(lǐng)域感興趣的同學(xué)們一邊讀一邊翻譯一邊消化,覺(jué)得有用就一鍵三連吧~

*本文只摘譯精華部分,需要了解全文的請(qǐng)至文末跳轉(zhuǎn)至原文鏈接閱讀。*樓主會(huì)用GPTs翻譯形成初稿,然后自己精讀后完成終稿,力求每一句話自己都能理解后再輸出譯文。

引言

近年來(lái),語(yǔ)言建模技術(shù)取得了顯著進(jìn)展。許多大型語(yǔ)言模型(LLMs),如Llama或ChatGPT,現(xiàn)在能夠解決各種任務(wù),其使用變得越來(lái)越普及。這些模型過(guò)去主要處理文本輸入,但現(xiàn)在擴(kuò)展到了視覺(jué)輸入。將視覺(jué)與語(yǔ)言結(jié)合將開(kāi)啟許多關(guān)鍵應(yīng)用,這些應(yīng)用對(duì)當(dāng)前的AI技術(shù)革命至關(guān)重要。盡管已有多項(xiàng)工作將大型語(yǔ)言模型擴(kuò)展到視覺(jué)領(lǐng)域,但語(yǔ)言與視覺(jué)的結(jié)合尚未完全解決。例如,大多數(shù)模型在理解空間關(guān)系或計(jì)數(shù)時(shí)存在困難,除非進(jìn)行復(fù)雜的工程處理并依賴額外的數(shù)據(jù)標(biāo)注。許多視覺(jué)語(yǔ)言模型(VLMs) 也缺乏對(duì)屬性和順序的理解。它們經(jīng)常忽略輸入prompt的一部分,導(dǎo)致需要進(jìn)行大量提示工程以產(chǎn)生期望的結(jié)果。此外,一些模型還可能產(chǎn)生不需要或不相關(guān)的內(nèi)容。因此,開(kāi)發(fā)可靠的模型仍然是一個(gè)非?;钴S的研究領(lǐng)域。


這篇文章介紹了VLMs的基礎(chǔ)知識(shí)。作者將解釋什么是VLMs,它們是如何訓(xùn)練的,以及如何根據(jù)不同的研究目標(biāo)有效地評(píng)估VLMs。這篇文章不應(yīng)被視為對(duì)VLMs的全面調(diào)查或指南,也因此不打算引用VLM研究領(lǐng)域的每一項(xiàng)工作,不會(huì)捕捉到該領(lǐng)域的每一個(gè)最佳實(shí)踐。相反,本文的目的是提供一個(gè)清晰易懂的VLM研究入門,并強(qiáng)調(diào)該領(lǐng)域的有效研究實(shí)踐。這篇介紹對(duì)希望進(jìn)入該領(lǐng)域的學(xué)生或其他領(lǐng)域的研究人員特別有用。


文章首先介紹不同的VLM訓(xùn)練范式,討論對(duì)比學(xué)習(xí)方法如何改變了該領(lǐng)域;接著介紹利用掩碼策略或生成組件的方法;最后介紹使用預(yù)訓(xùn)練主干(如LLMs)的VLMs。將VLMs分類并非易事,因?yàn)樗鼈兇蠖嘤兄丿B的組件。然而,作者希望我們的分類能夠幫助新研究人員導(dǎo)航該領(lǐng)域,并揭示VLMs背后的內(nèi)部機(jī)制。


文章接下來(lái)介紹了訓(xùn)練VLMs的典型方法。例如本文討論了:哪些數(shù)據(jù)集適合不同的研究目標(biāo)?哪種數(shù)據(jù)整理策略最有效?用戶是否需要訓(xùn)練一個(gè)文本編碼器,還是可以利用預(yù)訓(xùn)練的LLM?對(duì)比學(xué)習(xí)損失是否足以理解視覺(jué),還是生成組件是關(guān)鍵?該章節(jié)還介紹了一些常用的技術(shù),以提高模型性能以及改進(jìn)對(duì)齊和基礎(chǔ)。


雖然提供訓(xùn)練模型的方法是更好理解VLMs需求的關(guān)鍵步驟,但提供這些模型的穩(wěn)健和可靠評(píng)估同樣重要。許多用于評(píng)估VLMs的基準(zhǔn)最近被引入。然而,這些基準(zhǔn)中的一些具有研究人員應(yīng)該注意的基本局限性。通過(guò)討論VLM基準(zhǔn)的優(yōu)缺點(diǎn),作者希望能闡明改進(jìn)用戶對(duì)VLMs理解的挑戰(zhàn)。該章節(jié)首先討論評(píng)估VLMs視覺(jué)語(yǔ)言能力的基準(zhǔn),然后介紹如何衡量偏見(jiàn)。


下一代的VLMs將能夠通過(guò)將視頻映射到語(yǔ)言來(lái)理解視頻。然而,視頻存在一些圖像沒(méi)有的不同挑戰(zhàn)。計(jì)算成本當(dāng)然要高得多,但還有其他關(guān)于如何通過(guò)文本映射時(shí)間維度的考慮。通過(guò)揭示從視頻中學(xué)習(xí)的當(dāng)前方法,作者希望突出需要解決的當(dāng)前研究挑戰(zhàn)。

通過(guò)降低進(jìn)入VLM研究的門檻,Meta團(tuán)隊(duì)希望為更負(fù)責(zé)任的VLM開(kāi)發(fā)奠定基礎(chǔ),同時(shí)推動(dòng)視覺(jué)理解的邊界。

VLM的分類

隨著深度學(xué)習(xí)在計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理領(lǐng)域的顯著進(jìn)展,已經(jīng)有多個(gè)將這兩個(gè)領(lǐng)域結(jié)合的嘗試。本文重點(diǎn)介紹了基于transformers的最新技術(shù),作者將這些最新的嘗試分為四種不同的訓(xùn)練范式(見(jiàn)圖1)。

到底什么是視覺(jué)語(yǔ)言模型?(分類/訓(xùn)練/評(píng)估)-AI.x社區(qū)

圖1:VLMs的分類

  • 第一種是對(duì)比訓(xùn)練,這是一種常用策略,利用正負(fù)樣本對(duì)進(jìn)行訓(xùn)練。VLM通過(guò)預(yù)測(cè)正樣本對(duì)的相似表示和負(fù)樣本對(duì)的不同表示來(lái)進(jìn)行訓(xùn)練。
  • 第二種是掩碼方法,通過(guò)給定部分未掩碼文本來(lái)重建被掩碼的圖像塊。同樣,通過(guò)在標(biāo)題中掩碼詞語(yǔ),可以訓(xùn)練VLM在給定未掩碼圖像的情況下重建這些詞語(yǔ)。
  • 基于預(yù)訓(xùn)練模型的VLMs通常利用開(kāi)源的LLMs(如Llama)來(lái)學(xué)習(xí)圖像編碼器(也可以是預(yù)訓(xùn)練的)和LLM之間的映射。學(xué)習(xí)預(yù)訓(xùn)練模型之間的映射通常比從頭開(kāi)始訓(xùn)練文本和圖像編碼器的計(jì)算成本更低。
  • 雖然大多數(shù)方法利用中間表示或部分重建,生成式VLMs通過(guò)生成圖像或標(biāo)題進(jìn)行訓(xùn)練。由于這些模型的特點(diǎn),它們通常訓(xùn)練成本最高。


需要強(qiáng)調(diào)的是,這些范式并不互斥,許多方法結(jié)合了對(duì)比、掩碼和生成標(biāo)準(zhǔn)。對(duì)于每種范式,本文僅介紹一兩個(gè)模型,以便讀者對(duì)這些模型的設(shè)計(jì)有一個(gè)高層次的了解。詳見(jiàn)以下傳送門:


Meta最新Vision-Language Model研究綜述(一)——VLMs的分類(https://zhuanlan.zhihu.com/p/700599618)

VLM的訓(xùn)練

最近的研究已經(jīng)揭示了擴(kuò)展計(jì)算能力對(duì)提高深度神經(jīng)網(wǎng)絡(luò)性能的重要性。受到這些擴(kuò)展規(guī)律的啟發(fā),最近的許多研究都集中在增加計(jì)算資源和擴(kuò)大規(guī)模,以學(xué)習(xí)更好的模型。這導(dǎo)致了像CLIP這樣的模型,它在極高計(jì)算預(yù)算下訓(xùn)練了4億張圖像。即使是它的開(kāi)源版本OpenCLIP,也在256到600個(gè)GPU上訓(xùn)練了多天或多周,具體取決于模型的大小。然而,最近的研究表明,通過(guò)使用數(shù)據(jù)管理流程,可以突破Scaling Laws的限制。


本文中首先討論數(shù)據(jù)在模型訓(xùn)練中的重要性,并介紹一些用于創(chuàng)建VLM訓(xùn)練數(shù)據(jù)集的方法。然后討論一些常用的軟件、工具和技巧,以更高效地訓(xùn)練VLM。由于訓(xùn)練VLM的方法有多種,本文還會(huì)探討在特定情況下應(yīng)選擇哪種類型的模型。最后,本文還會(huì)介紹一些提高基準(zhǔn)的方法,即正確映射文本與視覺(jué)線索的能力。此外,作者還介紹了使用人類偏好來(lái)改進(jìn)模型對(duì)齊的技術(shù)。VLM經(jīng)常用于讀取和翻譯文本,因此也會(huì)介紹一些增強(qiáng)VLM OCR能力的方法,還會(huì)討論一些常見(jiàn)的微調(diào)方法。

到底什么是視覺(jué)語(yǔ)言模型?(分類/訓(xùn)練/評(píng)估)-AI.x社區(qū)

圖2:訓(xùn)練VLM時(shí)需要注意的重要因素。


圖2展示了一些訓(xùn)練VLM時(shí)的重要因素。數(shù)據(jù)是訓(xùn)練VLM的核心要素之一,為了學(xué)習(xí)涵蓋廣泛概念的優(yōu)質(zhì)模型,必須擁有多樣化且平衡的數(shù)據(jù)集。同時(shí),刪除大型數(shù)據(jù)集中的重復(fù)數(shù)據(jù)非常重要,這不僅可以節(jié)省大量計(jì)算時(shí)間,還能減少模型記憶風(fēng)險(xiǎn)。此外,修剪數(shù)據(jù)也是關(guān)鍵步驟,需要確保圖像的標(biāo)題確實(shí)反映了其內(nèi)容。提高標(biāo)題質(zhì)量對(duì)于增強(qiáng)VLM的性能也至關(guān)重要。


正確關(guān)聯(lián)VLM中的詞匯和具體概念是另一個(gè)關(guān)鍵步驟。常見(jiàn)的方法包括使用邊界框或負(fù)面標(biāo)題。最后,對(duì)齊模型的輸出與人類預(yù)期答案也是必不可少的步驟,以確保模型生成的回答符合人類的期望。


詳見(jiàn)以下傳送門:

Meta最新Vision-Language Model研究綜述(二)——VLMs的訓(xùn)練 (https://zhuanlan.zhihu.com/p/700728458)

VLM的評(píng)估

因?yàn)閂LM的主要能力是將文本與圖像匹配,所以評(píng)估其視覺(jué)語(yǔ)言能力,確保詞語(yǔ)確實(shí)對(duì)應(yīng)于視覺(jué)線索,至關(guān)重要。早期評(píng)估VLM的任務(wù)包括圖像描述和視覺(jué)問(wèn)答(VQA)。此外,還有評(píng)估模型從圖像中理解和讀取文本能力的文本中心VQA任務(wù)。另一種常見(jiàn)評(píng)估方法是基于零樣本預(yù)測(cè),例如ImageNet分類任務(wù),這對(duì)于評(píng)估VLM的世界知識(shí)是否足夠非常重要。更近期的基準(zhǔn)如Winoground則測(cè)量視覺(jué)語(yǔ)言組合推理能力。鑒于VLM模型常會(huì)顯示偏見(jiàn)或幻覺(jué),因此評(píng)估這些問(wèn)題同樣重要。

到底什么是視覺(jué)語(yǔ)言模型?(分類/訓(xùn)練/評(píng)估)-AI.x社區(qū)

圖3:評(píng)估VLM的不同方法

圖3展示了評(píng)估VLMs的常用方法,視覺(jué)問(wèn)答是最常用的一種。盡管這種方法通過(guò)精確字符串匹配來(lái)比較模型的答案和標(biāo)準(zhǔn)答案,但這可能會(huì)低估模型的實(shí)際性能。推理評(píng)估方法包括給VLM提供一個(gè)標(biāo)題列表,并讓其選擇最可能的一個(gè)。在這一類中,兩個(gè)常用的基準(zhǔn)是Winoground和ARO。最近,人們還可以使用密集的人工注釋來(lái)評(píng)估模型將標(biāo)題準(zhǔn)確映射到圖像相應(yīng)部分的能力。最后,還可以使用像PUG這樣的合成數(shù)據(jù)生成不同配置的圖像,以評(píng)估VLM在特定變化下的魯棒性。


詳見(jiàn)以下傳送門:

Meta最新Vision-Language Model研究綜述(三)——VLMs的評(píng)估 (https://zhuanlan.zhihu.com/p/700943845)

從圖像擴(kuò)展到視頻

迄今為止,本主要關(guān)注的是在靜態(tài)視覺(jué)數(shù)據(jù)(圖像)上訓(xùn)練和評(píng)估的VLMs。然而,視頻數(shù)據(jù)帶來(lái)了新的挑戰(zhàn)和潛在的新能力,例如理解物體的運(yùn)動(dòng)和動(dòng)態(tài),或在時(shí)間和空間上定位物體和動(dòng)作。文本到視頻檢索、視頻問(wèn)答和視頻生成迅速成為計(jì)算機(jī)視覺(jué)的核心任務(wù)。


視頻的時(shí)間維度在存儲(chǔ)、GPU內(nèi)存和訓(xùn)練方面帶來(lái)了幀率的挑戰(zhàn)。例如,如果每幀都被視為圖像,那么24幀每秒的視頻需要24倍的存儲(chǔ)和處理能力。這需要在視頻VLMs中進(jìn)行權(quán)衡。例如,可以使用壓縮格式的視頻(如H.264編碼)并在數(shù)據(jù)加載器中即時(shí)解碼;從圖像編碼器初始化視頻編碼器;以及在視頻編碼器中引入空間/時(shí)間池化或掩碼機(jī)制。非端到端的VLMs通過(guò)離線提取視頻特征并訓(xùn)練使用視頻特征而不是像素幀的模型,以處理長(zhǎng)視頻數(shù)據(jù)。


與圖像-文本模型類似,早期的視頻-文本模型通過(guò)自監(jiān)督準(zhǔn)則從頭開(kāi)始訓(xùn)練視覺(jué)和文本組件。但與圖像模型不同,對(duì)比視頻-文本模型并不是首選方法,早期更傾向于視頻和文本的早期融合和時(shí)間對(duì)齊,因?yàn)樵诒硎局懈嗟臅r(shí)間粒度比計(jì)算視頻的全局表示更有趣。最近,視頻-語(yǔ)言模型也出現(xiàn)了類似于圖像-語(yǔ)言模型的趨勢(shì):使用預(yù)訓(xùn)練的LLMs并與視頻編碼器對(duì)齊,增強(qiáng)LLMs的視頻理解能力。現(xiàn)代技術(shù)如視覺(jué)指令微調(diào)也常用于并適應(yīng)于視頻數(shù)據(jù)處理。


詳見(jiàn)以下傳送門:

Meta最新Vision-Language Model研究綜述(四)——從圖像擴(kuò)展到視頻 (https://zhuanlan.zhihu.com/p/701035253)

總結(jié)

將視覺(jué)映射到語(yǔ)言仍然是一個(gè)活躍的研究領(lǐng)域。從對(duì)比學(xué)習(xí)方法到生成方法,有許多訓(xùn)練VLMs的途徑。然而,高昂的計(jì)算和數(shù)據(jù)成本往往成為多數(shù)研究人員的障礙。這促使研究人員更多地利用預(yù)訓(xùn)練的LLMs或圖像編碼器,僅學(xué)習(xí)模態(tài)之間的映射。不論使用何種技術(shù)來(lái)訓(xùn)練VLMs,一些通用的考慮因素仍需注意。大規(guī)模高質(zhì)量的圖像和描述是提升模型性能的重要因素。改進(jìn)模型的基礎(chǔ)能力以及使模型符合人類偏好,也是提升模型可靠性的關(guān)鍵步驟。


為了評(píng)估模型性能,已經(jīng)引入了多個(gè)基準(zhǔn)來(lái)衡量視覺(jué)語(yǔ)言和推理能力;然而,其中許多基準(zhǔn)存在嚴(yán)重的局限性,例如僅能通過(guò)利用語(yǔ)言先驗(yàn)知識(shí)來(lái)解決問(wèn)題。將圖像與文本綁定并不是VLMs的唯一目標(biāo);視頻也是一種重要的模態(tài),可以用來(lái)學(xué)習(xí)表示。然而,在實(shí)現(xiàn)良好的視頻表示學(xué)習(xí)之前,仍有許多挑戰(zhàn)需要克服。VLMs的研究仍然非?;钴S,因?yàn)檫€有許多關(guān)鍵組件需要完善,以使這些模型更加可靠。


本文轉(zhuǎn)自  AI生成未來(lái) ,作者:呂阿華


原文鏈接:??https://mp.weixin.qq.com/s/tMRfiDG_MldVlv-5GzBLMQ??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦