自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

^{<blockquote id="mqe8v"></blockquote>}

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

到底什么是視覺(jué)語(yǔ)言模型？(分類/訓(xùn)練/評(píng)估)

發(fā)布于 2024-6-20 12:11

瀏覽

0收藏

5月27日，Meta發(fā)布了Vision Language Model行業(yè)研究的綜述論文《An Introduction to Vision-Language Modeling》。全文干貨滿滿，但篇幅過(guò)長(zhǎng)，所以筆者把每一章節(jié)放到獨(dú)立的文章中，方便對(duì)VLM領(lǐng)域感興趣的同學(xué)們一邊讀一邊翻譯一邊消化，覺(jué)得有用就一鍵三連吧~

*本文只摘譯精華部分，需要了解全文的請(qǐng)至文末跳轉(zhuǎn)至原文鏈接閱讀。*樓主會(huì)用GPTs翻譯形成初稿，然后自己精讀后完成終稿，力求每一句話自己都能理解后再輸出譯文。

引言

近年來(lái)，語(yǔ)言建模技術(shù)取得了顯著進(jìn)展。許多大型語(yǔ)言模型（LLMs），如Llama或ChatGPT，現(xiàn)在能夠解決各種任務(wù)，其使用變得越來(lái)越普及。這些模型過(guò)去主要處理文本輸入，但現(xiàn)在擴(kuò)展到了視覺(jué)輸入。將視覺(jué)與語(yǔ)言結(jié)合將開(kāi)啟許多關(guān)鍵應(yīng)用，這些應(yīng)用對(duì)當(dāng)前的AI技術(shù)革命至關(guān)重要。盡管已有多項(xiàng)工作將大型語(yǔ)言模型擴(kuò)展到視覺(jué)領(lǐng)域，但語(yǔ)言與視覺(jué)的結(jié)合尚未完全解決。例如，大多數(shù)模型在理解空間關(guān)系或計(jì)數(shù)時(shí)存在困難，除非進(jìn)行復(fù)雜的工程處理并依賴額外的數(shù)據(jù)標(biāo)注。許多視覺(jué)語(yǔ)言模型（VLMs） 也缺乏對(duì)屬性和順序的理解。它們經(jīng)常忽略輸入prompt的一部分，導(dǎo)致需要進(jìn)行大量提示工程以產(chǎn)生期望的結(jié)果。此外，一些模型還可能產(chǎn)生不需要或不相關(guān)的內(nèi)容。因此，開(kāi)發(fā)可靠的模型仍然是一個(gè)非?；钴S的研究領(lǐng)域。

這篇文章介紹了VLMs的基礎(chǔ)知識(shí)。作者將解釋什么是VLMs，它們是如何訓(xùn)練的，以及如何根據(jù)不同的研究目標(biāo)有效地評(píng)估VLMs。這篇文章不應(yīng)被視為對(duì)VLMs的全面調(diào)查或指南，也因此不打算引用VLM研究領(lǐng)域的每一項(xiàng)工作，不會(huì)捕捉到該領(lǐng)域的每一個(gè)最佳實(shí)踐。相反，本文的目的是提供一個(gè)清晰易懂的VLM研究入門，并強(qiáng)調(diào)該領(lǐng)域的有效研究實(shí)踐。這篇介紹對(duì)希望進(jìn)入該領(lǐng)域的學(xué)生或其他領(lǐng)域的研究人員特別有用。

文章首先介紹不同的VLM訓(xùn)練范式，討論對(duì)比學(xué)習(xí)方法如何改變了該領(lǐng)域；接著介紹利用掩碼策略或生成組件的方法；最后介紹使用預(yù)訓(xùn)練主干（如LLMs）的VLMs。將VLMs分類并非易事，因?yàn)樗鼈兇蠖嘤兄丿B的組件。然而，作者希望我們的分類能夠幫助新研究人員導(dǎo)航該領(lǐng)域，并揭示VLMs背后的內(nèi)部機(jī)制。

文章接下來(lái)介紹了訓(xùn)練VLMs的典型方法。例如本文討論了：哪些數(shù)據(jù)集適合不同的研究目標(biāo)？哪種數(shù)據(jù)整理策略最有效？用戶是否需要訓(xùn)練一個(gè)文本編碼器，還是可以利用預(yù)訓(xùn)練的LLM？對(duì)比學(xué)習(xí)損失是否足以理解視覺(jué)，還是生成組件是關(guān)鍵？該章節(jié)還介紹了一些常用的技術(shù)，以提高模型性能以及改進(jìn)對(duì)齊和基礎(chǔ)。

雖然提供訓(xùn)練模型的方法是更好理解VLMs需求的關(guān)鍵步驟，但提供這些模型的穩(wěn)健和可靠評(píng)估同樣重要。許多用于評(píng)估VLMs的基準(zhǔn)最近被引入。然而，這些基準(zhǔn)中的一些具有研究人員應(yīng)該注意的基本局限性。通過(guò)討論VLM基準(zhǔn)的優(yōu)缺點(diǎn)，作者希望能闡明改進(jìn)用戶對(duì)VLMs理解的挑戰(zhàn)。該章節(jié)首先討論評(píng)估VLMs視覺(jué)語(yǔ)言能力的基準(zhǔn)，然后介紹如何衡量偏見(jiàn)。

下一代的VLMs將能夠通過(guò)將視頻映射到語(yǔ)言來(lái)理解視頻。然而，視頻存在一些圖像沒(méi)有的不同挑戰(zhàn)。計(jì)算成本當(dāng)然要高得多，但還有其他關(guān)于如何通過(guò)文本映射時(shí)間維度的考慮。通過(guò)揭示從視頻中學(xué)習(xí)的當(dāng)前方法，作者希望突出需要解決的當(dāng)前研究挑戰(zhàn)。

通過(guò)降低進(jìn)入VLM研究的門檻，Meta團(tuán)隊(duì)希望為更負(fù)責(zé)任的VLM開(kāi)發(fā)奠定基礎(chǔ)，同時(shí)推動(dòng)視覺(jué)理解的邊界。

VLM的分類

隨著深度學(xué)習(xí)在計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理領(lǐng)域的顯著進(jìn)展，已經(jīng)有多個(gè)將這兩個(gè)領(lǐng)域結(jié)合的嘗試。本文重點(diǎn)介紹了基于transformers的最新技術(shù)，作者將這些最新的嘗試分為四種不同的訓(xùn)練范式（見(jiàn)圖1）。

到底什么是視覺(jué)語(yǔ)言模型？(分類/訓(xùn)練/評(píng)估)-AI.x社區(qū)

圖1：VLMs的分類

第一種是對(duì)比訓(xùn)練，這是一種常用策略，利用正負(fù)樣本對(duì)進(jìn)行訓(xùn)練。VLM通過(guò)預(yù)測(cè)正樣本對(duì)的相似表示和負(fù)樣本對(duì)的不同表示來(lái)進(jìn)行訓(xùn)練。
第二種是掩碼方法，通過(guò)給定部分未掩碼文本來(lái)重建被掩碼的圖像塊。同樣，通過(guò)在標(biāo)題中掩碼詞語(yǔ)，可以訓(xùn)練VLM在給定未掩碼圖像的情況下重建這些詞語(yǔ)。
基于預(yù)訓(xùn)練模型的VLMs通常利用開(kāi)源的LLMs（如Llama）來(lái)學(xué)習(xí)圖像編碼器（也可以是預(yù)訓(xùn)練的）和LLM之間的映射。學(xué)習(xí)預(yù)訓(xùn)練模型之間的映射通常比從頭開(kāi)始訓(xùn)練文本和圖像編碼器的計(jì)算成本更低。
雖然大多數(shù)方法利用中間表示或部分重建，生成式VLMs通過(guò)生成圖像或標(biāo)題進(jìn)行訓(xùn)練。由于這些模型的特點(diǎn)，它們通常訓(xùn)練成本最高。

需要強(qiáng)調(diào)的是，這些范式并不互斥，許多方法結(jié)合了對(duì)比、掩碼和生成標(biāo)準(zhǔn)。對(duì)于每種范式，本文僅介紹一兩個(gè)模型，以便讀者對(duì)這些模型的設(shè)計(jì)有一個(gè)高層次的了解。詳見(jiàn)以下傳送門：

Meta最新Vision-Language Model研究綜述（一）——VLMs的分類(https://zhuanlan.zhihu.com/p/700599618)

VLM的訓(xùn)練

最近的研究已經(jīng)揭示了擴(kuò)展計(jì)算能力對(duì)提高深度神經(jīng)網(wǎng)絡(luò)性能的重要性。受到這些擴(kuò)展規(guī)律的啟發(fā)，最近的許多研究都集中在增加計(jì)算資源和擴(kuò)大規(guī)模，以學(xué)習(xí)更好的模型。這導(dǎo)致了像CLIP這樣的模型，它在極高計(jì)算預(yù)算下訓(xùn)練了4億張圖像。即使是它的開(kāi)源版本OpenCLIP，也在256到600個(gè)GPU上訓(xùn)練了多天或多周，具體取決于模型的大小。然而，最近的研究表明，通過(guò)使用數(shù)據(jù)管理流程，可以突破Scaling Laws的限制。

本文中首先討論數(shù)據(jù)在模型訓(xùn)練中的重要性，并介紹一些用于創(chuàng)建VLM訓(xùn)練數(shù)據(jù)集的方法。然后討論一些常用的軟件、工具和技巧，以更高效地訓(xùn)練VLM。由于訓(xùn)練VLM的方法有多種，本文還會(huì)探討在特定情況下應(yīng)選擇哪種類型的模型。最后，本文還會(huì)介紹一些提高基準(zhǔn)的方法，即正確映射文本與視覺(jué)線索的能力。此外，作者還介紹了使用人類偏好來(lái)改進(jìn)模型對(duì)齊的技術(shù)。VLM經(jīng)常用于讀取和翻譯文本，因此也會(huì)介紹一些增強(qiáng)VLM OCR能力的方法，還會(huì)討論一些常見(jiàn)的微調(diào)方法。

到底什么是視覺(jué)語(yǔ)言模型？(分類/訓(xùn)練/評(píng)估)-AI.x社區(qū)

圖2：訓(xùn)練VLM時(shí)需要注意的重要因素。

圖2展示了一些訓(xùn)練VLM時(shí)的重要因素。數(shù)據(jù)是訓(xùn)練VLM的核心要素之一，為了學(xué)習(xí)涵蓋廣泛概念的優(yōu)質(zhì)模型，必須擁有多樣化且平衡的數(shù)據(jù)集。同時(shí)，刪除大型數(shù)據(jù)集中的重復(fù)數(shù)據(jù)非常重要，這不僅可以節(jié)省大量計(jì)算時(shí)間，還能減少模型記憶風(fēng)險(xiǎn)。此外，修剪數(shù)據(jù)也是關(guān)鍵步驟，需要確保圖像的標(biāo)題確實(shí)反映了其內(nèi)容。提高標(biāo)題質(zhì)量對(duì)于增強(qiáng)VLM的性能也至關(guān)重要。

正確關(guān)聯(lián)VLM中的詞匯和具體概念是另一個(gè)關(guān)鍵步驟。常見(jiàn)的方法包括使用邊界框或負(fù)面標(biāo)題。最后，對(duì)齊模型的輸出與人類預(yù)期答案也是必不可少的步驟，以確保模型生成的回答符合人類的期望。

詳見(jiàn)以下傳送門：

Meta最新Vision-Language Model研究綜述（二）——VLMs的訓(xùn)練 (https://zhuanlan.zhihu.com/p/700728458)

VLM的評(píng)估

因?yàn)閂LM的主要能力是將文本與圖像匹配，所以評(píng)估其視覺(jué)語(yǔ)言能力，確保詞語(yǔ)確實(shí)對(duì)應(yīng)于視覺(jué)線索，至關(guān)重要。早期評(píng)估VLM的任務(wù)包括圖像描述和視覺(jué)問(wèn)答（VQA）。此外，還有評(píng)估模型從圖像中理解和讀取文本能力的文本中心VQA任務(wù)。另一種常見(jiàn)評(píng)估方法是基于零樣本預(yù)測(cè)，例如ImageNet分類任務(wù)，這對(duì)于評(píng)估VLM的世界知識(shí)是否足夠非常重要。更近期的基準(zhǔn)如Winoground則測(cè)量視覺(jué)語(yǔ)言組合推理能力。鑒于VLM模型常會(huì)顯示偏見(jiàn)或幻覺(jué)，因此評(píng)估這些問(wèn)題同樣重要。

到底什么是視覺(jué)語(yǔ)言模型？(分類/訓(xùn)練/評(píng)估)-AI.x社區(qū)

圖3：評(píng)估VLM的不同方法

圖3展示了評(píng)估VLMs的常用方法，視覺(jué)問(wèn)答是最常用的一種。盡管這種方法通過(guò)精確字符串匹配來(lái)比較模型的答案和標(biāo)準(zhǔn)答案，但這可能會(huì)低估模型的實(shí)際性能。推理評(píng)估方法包括給VLM提供一個(gè)標(biāo)題列表，并讓其選擇最可能的一個(gè)。在這一類中，兩個(gè)常用的基準(zhǔn)是Winoground和ARO。最近，人們還可以使用密集的人工注釋來(lái)評(píng)估模型將標(biāo)題準(zhǔn)確映射到圖像相應(yīng)部分的能力。最后，還可以使用像PUG這樣的合成數(shù)據(jù)生成不同配置的圖像，以評(píng)估VLM在特定變化下的魯棒性。

詳見(jiàn)以下傳送門：

Meta最新Vision-Language Model研究綜述（三）——VLMs的評(píng)估 (https://zhuanlan.zhihu.com/p/700943845)

從圖像擴(kuò)展到視頻

迄今為止，本主要關(guān)注的是在靜態(tài)視覺(jué)數(shù)據(jù)（圖像）上訓(xùn)練和評(píng)估的VLMs。然而，視頻數(shù)據(jù)帶來(lái)了新的挑戰(zhàn)和潛在的新能力，例如理解物體的運(yùn)動(dòng)和動(dòng)態(tài)，或在時(shí)間和空間上定位物體和動(dòng)作。文本到視頻檢索、視頻問(wèn)答和視頻生成迅速成為計(jì)算機(jī)視覺(jué)的核心任務(wù)。

視頻的時(shí)間維度在存儲(chǔ)、GPU內(nèi)存和訓(xùn)練方面帶來(lái)了幀率的挑戰(zhàn)。例如，如果每幀都被視為圖像，那么24幀每秒的視頻需要24倍的存儲(chǔ)和處理能力。這需要在視頻VLMs中進(jìn)行權(quán)衡。例如，可以使用壓縮格式的視頻（如H.264編碼）并在數(shù)據(jù)加載器中即時(shí)解碼；從圖像編碼器初始化視頻編碼器；以及在視頻編碼器中引入空間/時(shí)間池化或掩碼機(jī)制。非端到端的VLMs通過(guò)離線提取視頻特征并訓(xùn)練使用視頻特征而不是像素幀的模型，以處理長(zhǎng)視頻數(shù)據(jù)。

與圖像-文本模型類似，早期的視頻-文本模型通過(guò)自監(jiān)督準(zhǔn)則從頭開(kāi)始訓(xùn)練視覺(jué)和文本組件。但與圖像模型不同，對(duì)比視頻-文本模型并不是首選方法，早期更傾向于視頻和文本的早期融合和時(shí)間對(duì)齊，因?yàn)樵诒硎局懈嗟臅r(shí)間粒度比計(jì)算視頻的全局表示更有趣。最近，視頻-語(yǔ)言模型也出現(xiàn)了類似于圖像-語(yǔ)言模型的趨勢(shì)：使用預(yù)訓(xùn)練的LLMs并與視頻編碼器對(duì)齊，增強(qiáng)LLMs的視頻理解能力。現(xiàn)代技術(shù)如視覺(jué)指令微調(diào)也常用于并適應(yīng)于視頻數(shù)據(jù)處理。

詳見(jiàn)以下傳送門：

Meta最新Vision-Language Model研究綜述（四）——從圖像擴(kuò)展到視頻 (https://zhuanlan.zhihu.com/p/701035253)

總結(jié)

將視覺(jué)映射到語(yǔ)言仍然是一個(gè)活躍的研究領(lǐng)域。從對(duì)比學(xué)習(xí)方法到生成方法，有許多訓(xùn)練VLMs的途徑。然而，高昂的計(jì)算和數(shù)據(jù)成本往往成為多數(shù)研究人員的障礙。這促使研究人員更多地利用預(yù)訓(xùn)練的LLMs或圖像編碼器，僅學(xué)習(xí)模態(tài)之間的映射。不論使用何種技術(shù)來(lái)訓(xùn)練VLMs，一些通用的考慮因素仍需注意。大規(guī)模高質(zhì)量的圖像和描述是提升模型性能的重要因素。改進(jìn)模型的基礎(chǔ)能力以及使模型符合人類偏好，也是提升模型可靠性的關(guān)鍵步驟。

為了評(píng)估模型性能，已經(jīng)引入了多個(gè)基準(zhǔn)來(lái)衡量視覺(jué)語(yǔ)言和推理能力；然而，其中許多基準(zhǔn)存在嚴(yán)重的局限性，例如僅能通過(guò)利用語(yǔ)言先驗(yàn)知識(shí)來(lái)解決問(wèn)題。將圖像與文本綁定并不是VLMs的唯一目標(biāo)；視頻也是一種重要的模態(tài)，可以用來(lái)學(xué)習(xí)表示。然而，在實(shí)現(xiàn)良好的視頻表示學(xué)習(xí)之前，仍有許多挑戰(zhàn)需要克服。VLMs的研究仍然非?；钴S，因?yàn)檫€有許多關(guān)鍵組件需要完善，以使這些模型更加可靠。

本文轉(zhuǎn)自 AI生成未來(lái) ，作者：呂阿華

原文鏈接:??https://mp.weixin.qq.com/s/tMRfiDG_MldVlv-5GzBLMQ??

標(biāo)簽

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

蘋果超強(qiáng)視覺(jué)預(yù)訓(xùn)練模型助力下游任務(wù)拿SOTA?。?em>分類、檢測(cè)、分割、深度估計(jì)）

angel ? 3853瀏覽 ? 0回復(fù)
什么是LLMOps?

zhcs333 ? 3631瀏覽 ? 0回復(fù)
什么是超參數(shù)？大模型的超參數(shù)是做什么用的？超參數(shù)和大模型參數(shù)有什么關(guān)系？

AI探索時(shí)代 ? 5408瀏覽 ? 0回復(fù)
大模型所謂的參數(shù)是什么？大模型為什么需要訓(xùn)練？大模型訓(xùn)練到底干了什么？

AI探索時(shí)代 ? 6064瀏覽 ? 0回復(fù)
從做菜的角度來(lái)更形象的理解什么是大模型的參數(shù)，訓(xùn)練原理與過(guò)程，以及為什么要訓(xùn)練？

AI探索時(shí)代 ? 2642瀏覽 ? 0回復(fù)
大模型的訓(xùn)練與調(diào)優(yōu)，SFT(監(jiān)督微調(diào))和RLHF(基于人類反饋的強(qiáng)化學(xué)習(xí))到底是什么？

AI探索時(shí)代 ? 6970瀏覽 ? 0回復(fù)
什么是多模態(tài)大模型？為什么需要多模態(tài)大模型？

AI探索時(shí)代 ? 4439瀏覽 ? 0回復(fù)
大模型的訓(xùn)練與調(diào)優(yōu)，SFT(監(jiān)督微調(diào))和RLHF(基于人類反饋的強(qiáng)化學(xué)習(xí))到底是什么？

AI探索時(shí)代 ? 7503瀏覽 ? 0回復(fù)
為什么你會(huì)覺(jué)得大模型很難學(xué)？甚至學(xué)了好久還不知道大模型到底是個(gè)什么玩意？

AI探索時(shí)代 ? 1831瀏覽 ? 0回復(fù)
超越CLIP，視覺(jué)大模型訓(xùn)練新范式？

kede96 ? 1961瀏覽 ? 0回復(fù)
什么是多模態(tài)大模型

AI探索時(shí)代 ? 2726瀏覽 ? 0回復(fù)
什么是主動(dòng)學(xué)習(xí)？

魚(yú)蟲(chóng)子 ? 1944瀏覽 ? 0回復(fù)
深入理解預(yù)訓(xùn)練與微調(diào)，為什么需要預(yù)訓(xùn)練，什么是微調(diào)？

AI探索時(shí)代 ? 3732瀏覽 ? 0回復(fù)
使用 LlamaFactory 結(jié)合開(kāi)源大語(yǔ)言模型實(shí)現(xiàn)文本分類：從數(shù)據(jù)集構(gòu)建到 LoRA 微調(diào)與推理評(píng)估

AI悠閑區(qū) ? 5102瀏覽 ? 0回復(fù)
基于CNN＋PyTorch實(shí)現(xiàn)視覺(jué)檢測(cè)分類

51CTO內(nèi)容精選 ? 1965瀏覽 ? 0回復(fù)
什么是自然語(yǔ)言處理——NLP，其解決了什么問(wèn)題？

AI探索時(shí)代 ? 2122瀏覽 ? 0回復(fù)
一文讀懂 DeepSeek使用的 MoE 架構(gòu)到底是什么

九歌AI大模型 ? 2004瀏覽 ? 0回復(fù)
大模型除了聊天還能做什么？關(guān)于大模型的分類和應(yīng)用

AI探索時(shí)代 ? 1481瀏覽 ? 0回復(fù)
麥肯錫：什么是AI代理？

chengganfei ? 590瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒(méi)有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

熱門推薦

Seedream 3.0技術(shù)細(xì)節(jié)重磅發(fā)布！中文圖文生成再進(jìn)化,2K高清+爆改文字渲染,遠(yuǎn)超Canva！ 0回復(fù)

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點(diǎn)：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計(jì)深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開(kāi)發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識(shí)庫(kù)配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開(kāi)源爬蟲(chóng)神器 0回復(fù)

上一篇：上海交大&阿里巴巴推出虛擬試衣新里程碑式工作——AnyFit：任意場(chǎng)景、任意組合！

下一篇： CVPR 2024最佳論文獎(jiǎng)公布！生成式AI成最大贏家

社區(qū)精華內(nèi)容

目錄

<cite id="1pjdx"><rp id="1pjdx"><pre id="1pjdx"></pre></rp></cite>

<sub id="1pjdx"></sub><sub id="1pjdx"></sub>

<sub id="1pjdx"></sub>

<cite id="1pjdx"></cite>