自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<cite id="kj6ir"><rp id="kj6ir"></rp></cite>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

Llama 3.2 Vision & Molmo：多模態(tài)開源生態(tài)系統(tǒng)基礎(chǔ) 原創(chuàng)

發(fā)布于 2024-11-1 10:15

瀏覽

0收藏

編者按： 視覺功能的融入對模型能力和推理方式的影響如何？當(dāng)我們需要一個既能看懂圖像、又能生成文本的 AI 助手時，是否只能依賴于 GPT-4V 這樣的閉源解決方案？
我們今天為大家分享的這篇文章，作者的核心觀點(diǎn)是：多模態(tài)語言模型領(lǐng)域正處于快速發(fā)展階段，Llama 3.2 Vision 和 Molmo 等開源模型的出現(xiàn)為構(gòu)建開放的多模態(tài)生態(tài)系統(tǒng)奠定了重要基礎(chǔ)。
本文分享了來自 Meta 的 Llama 3.2 Vision 和 AI2 的 Molmo 模型的主要技術(shù)架構(gòu)及其特點(diǎn)，同時比較了它們與眾多多模態(tài)大模型的性能表現(xiàn)。文中介紹在多數(shù)視覺領(lǐng)域測試中， Molmo 表現(xiàn)更優(yōu)，Llama 3.2 V 在 MMMU 等文本相關(guān)任務(wù)中表現(xiàn)更好，目前多模態(tài)模型的開源定義仍需進(jìn)一步探討和完善，但 Molmo 是目前最接近開源的視覺模型。同時還探究了視覺功能的融入對模型能力和推理方式的影響。
盡管目前在評估工具、數(shù)據(jù)集等方面還存在不足，但開源模型已經(jīng)展現(xiàn)出與閉源模型相媲美的潛力，這預(yù)示著多模態(tài) AI 領(lǐng)域即將迎來新的發(fā)展機(jī)遇。

作者 | Nathan Lambert

編譯 | 岳揚(yáng)

多模態(tài)語言模型領(lǐng)域相比純語言模型，顯得定義更為不明確、未解決的問題更多，同時也有更多空間讓人們發(fā)揮創(chuàng)意。在語言模型領(lǐng)域，存在一系列明確的任務(wù)和行為，那些前沿實(shí)驗(yàn)室正試圖通過例如 OpenAI o1 這樣的創(chuàng)新訓(xùn)練方法，在最為棘手的推理問題上取得突破。然而，無論是前沿實(shí)驗(yàn)室（frontier labs）還是小型實(shí)驗(yàn)室（small labs），都在探索多模態(tài)模型的應(yīng)用方向。AI如何“感知”和理解外部世界？擁有一系列強(qiáng)大的開放式模型（open models）對于該領(lǐng)域全面且公開、透明的發(fā)展至關(guān)重要——這是實(shí)現(xiàn)積極成果的兩個關(guān)鍵條件（譯者注：這兩個條件應(yīng)當(dāng)是指全面、公開透明的發(fā)展）。

目前，多模態(tài)語言模型研究大多是通過 late-fusion 模型進(jìn)行的，即基于語言主干網(wǎng)絡(luò)（language backbone）和圖像編碼器（image encoder）（很可能也是 GPT-4V 所使用的方法）進(jìn)行初始化。這種對基礎(chǔ)語言模型的微調(diào)方式雖然成本較高，但實(shí)際上計算成本并沒有人們想象的那么難以承受。雖然存在多種模型架構(gòu)[1]，但由于 late-fusion 這一架構(gòu)的穩(wěn)定性和可預(yù)測性，成為了當(dāng)下研究的熱門選擇。Molmo 和 Llama 3.2 V 就是通過這種方法訓(xùn)練而成的。

通過在多模態(tài)數(shù)據(jù)集上預(yù)訓(xùn)練的 early-fusion 模型來擴(kuò)展數(shù)據(jù)的預(yù)期效果尚未顯現(xiàn)?；蛟S只有當(dāng)這些模型在 GPT-5 級別的計算集群上進(jìn)行測試時，它們的真正優(yōu)勢才會顯現(xiàn)出來。

Late-fusion 的多模態(tài)方法激發(fā)了我們對如何將基礎(chǔ)語言模型轉(zhuǎn)型升級為多樣化輸出形式的深入探索?；仡欉^去幾年我們在模型微調(diào)領(lǐng)域所采用的各種技術(shù)，從 RLHF 開始，到多模態(tài) late-fusion 模型，再到像 o1 這樣的創(chuàng)新模型，我們意識到模型還有大量表達(dá)潛能等待我們?nèi)グl(fā)掘。一些基本問題仍然值得關(guān)注，比如“多模態(tài)訓(xùn)練會對 GSM8k 或 IFEval 這樣的標(biāo)準(zhǔn)文本評測基準(zhǔn)造成何種影響？”在對模型進(jìn)行視覺方面的微調(diào)之后，那些主要用于評估模型知識水平的標(biāo)準(zhǔn)測試，例如 MMLU（Massive Multitask Language Understanding）測試，并沒有發(fā)生較大變化。

這個領(lǐng)域?qū)ξ襾碚f同樣新穎。本文的主要介紹對象是 Ai2 的一個重要模型版本——Molmo[2]（開放式多模態(tài)語言模型），以及 Meta 的新模型 Llama 3.2 Vision。兩者都推出了一套不同規(guī)模的四個模型。它們的性能表現(xiàn)相當(dāng)，但 Molmo 在開放程度上更勝一籌。

Meta 發(fā)布了 Llama 3.2 的早期版本，包括 1B、3B、11B-Vision 和 90B-Vision[3]，并在博客文章中透露了一些訓(xùn)練過程的細(xì)節(jié)[4]（文章中還有相關(guān)鏈接）。11B 模型可能是基于 Llama 3 8B 模型的改進(jìn)版，而 90B 模型則是在 Llama 3 70B 模型的基礎(chǔ)上發(fā)展而來的。

Ai2 推出了基于 Qwen 2 72B 打造的 Molmo 72B，基于 Qwen 2 7B 的 Molmo-7B-D，即將問世的基于 OLMo 7B 版本的 Molmo-O，以及基于 OLMoE 并擁有 1B 活躍參數(shù)的 Molmo-E。

Molmo 系列模型采用 Apache 2.0 許可協(xié)議，而 Meta 模型則采用了 Llama 3.2 社區(qū)許可協(xié)議，該許可協(xié)議對模型的使用施加了一些較為嚴(yán)格的限制。

這不禁讓人思考，人工智能領(lǐng)域的發(fā)展將何去何從。實(shí)際上，重頭戲是 1B 和 3B 參數(shù)規(guī)模的 Llama 模型。小型語言模型的市場需求持續(xù)攀升，而且隨著這些模型能力的不斷提升，市場潛力還在不斷擴(kuò)大。我會反復(fù)探討這一話題，但今天我們聚焦的是多模態(tài)。

01 Llama Vision：面向大眾開發(fā)者的多模態(tài)模型

自 Llama 3 報告[5]發(fā)布以來，Meta 已經(jīng)明確表示這些模型不久將面世（歐盟地區(qū)除外）。Meta 正在將它們應(yīng)用到 Meta AI 以及旗下的增強(qiáng)現(xiàn)實(shí)（AR）/虛擬現(xiàn)實(shí)（VR）設(shè)備，例如 RayBan 智能眼鏡。這些模型非常可靠，比封閉實(shí)驗(yàn)室的小型模型更勝一籌，后者的活躍參數(shù)通常估計在 60B 范圍內(nèi)。

Llama 3.2 Vision & Molmo：多模態(tài)開源生態(tài)系統(tǒng)基礎(chǔ)-AI.x社區(qū)

關(guān)于這些模型的具體信息相對較少。若歐盟地區(qū)的用戶嘗試從 Meta AI 的官方頁面下載模型，將會看到我在 HuggingFace 平臺上看到的地理限制鎖??。

Llama 3.2 Vision & Molmo：多模態(tài)開源生態(tài)系統(tǒng)基礎(chǔ)-AI.x社區(qū)

其他用戶可在 Meta AI 中獲取這些模型。不過還有個更重要的消息，還有一些具有更豐富文檔和更高開放性的模型可供使用（且不受地理限制）。

02 Molmo：與 Llama Vision 相當(dāng)?shù)囊粋€（大部分）開源的模型

Molmo 是 Ai2 最新推出的開源語言模型[6]，它附有一份初步的技術(shù)報告[7]，用戶可以免費(fèi)體驗(yàn)?zāi)Ｐ?demo[8]，而且即將公開相應(yīng)的數(shù)據(jù)集。該項(xiàng)目的宗旨是構(gòu)建開源語言模型，讓任何人都有機(jī)會參與或理解構(gòu)建現(xiàn)代 AI 模型的最關(guān)鍵部分。Molmo 模型是在 Qwen2 和 OLMo 的架構(gòu)基礎(chǔ)上，結(jié)合了 CLIP 編碼器[9]進(jìn)行訓(xùn)練的。但盡管有了這個數(shù)據(jù)開放的 CLIP 版本[10]，研究團(tuán)隊(duì)并沒有選擇這個版本，而是放棄使用它，轉(zhuǎn)而選擇另一種版本，因?yàn)楹笳呦掠涡阅芨吭?。請注意，Mistral 的 Pixtral 模型[11]和 Llama 模型都訓(xùn)練了自己的編碼器。相關(guān)博客文章清晰地闡述了這些組成部分是如何協(xié)同工作的：

該模型架構(gòu)采用了將語言模型與圖像編碼器結(jié)合的簡潔而標(biāo)準(zhǔn)的設(shè)計。整個模型由四個主要部分組成： （1） 一個預(yù)處理器，將輸入的單張圖像轉(zhuǎn)換成一系列不同尺度（multiscale）和不同裁剪方式（multi-crop）的圖像集合； （2） 一個 ViT 圖像編碼器，獨(dú)立地將這些圖像轉(zhuǎn)換成一系列視覺 tokens； （3） 一個連接器，負(fù)責(zé)將視覺 tokens 轉(zhuǎn)換為適合語言模型輸入的維度，并通過池化技術(shù)減少視覺 tokens 數(shù)量； （4） 一個僅包含解碼器的 Transformer 大語言模型（LLM）。

論文中對該模型結(jié)構(gòu)進(jìn)行了詳細(xì)的概述。

Llama 3.2 Vision & Molmo：多模態(tài)開源生態(tài)系統(tǒng)基礎(chǔ)-AI.x社區(qū)

請留意，在這些模型的兩個訓(xùn)練階段中，所有的模型參數(shù)都會得到更新，而不是保持不變。此外，這些模型在訓(xùn)練過程中并未采用RLHF（基于人類反饋的強(qiáng)化學(xué)習(xí)）或偏好調(diào)優(yōu)技術(shù)（preference tuning）。就我們針對視覺模型所設(shè)定的基準(zhǔn)測試而言，Molmo 模型在性能上可與 GPT、Claude 以及 Gemini 模型相媲美。

Llama 3.2 Vision & Molmo：多模態(tài)開源生態(tài)系統(tǒng)基礎(chǔ)-AI.x社區(qū)

相較于 Llama 3.2 V 模型，Molmo 在多數(shù)視覺領(lǐng)域的表現(xiàn)更勝一籌。以下是對各個基準(zhǔn)測試得分情況的概述：

在MMMU測試中，Llama模型的得分高出6分；
在MathVista測試中，Molmo模型的得分領(lǐng)先1分；
在ChatQA測試中，Molmo模型的得分高出2分；
在AI2D測試中，Molmo模型的得分領(lǐng)先4分；
在DocVQA測試中，Molmo模型的得分高出3分；
而在VQAv2測試中，兩者的得分相近，或者 Molmo 稍占優(yōu)勢（Llama 3.2 的博客文章中對這一處的報告不夠明確）。

以下是 Reddit 上的用戶 LocalLlama[12] 對評估結(jié)果的獨(dú)立復(fù)現(xiàn)。

Llama 3.2 Vision & Molmo：多模態(tài)開源生態(tài)系統(tǒng)基礎(chǔ)-AI.x社區(qū)

依我看，這一點(diǎn)也基本符合各組織的追求目標(biāo)，Llama 3.2 V 在文本方面表現(xiàn)更佳，或許優(yōu)勢還相當(dāng)明顯，但在圖像方面，Molmo 則更勝一籌。特別是在識別圖像中的指向性特征和讀取時鐘等任務(wù)上，Molmo 的表現(xiàn)尤為出色。

正如我將在本文后續(xù)部分進(jìn)一步探討的，基準(zhǔn)測試并不能全面反映這些模型的實(shí)力。Molmo 對開源和科學(xué)界做出了巨大貢獻(xiàn)，但探討這些模型的行為特性同樣重要。Molmo 具備一項(xiàng)獨(dú)特的功能，是其同等級模型所不具備的 —— 那就是能夠指向參考圖片中的特定像素。 例如，我向 Molmo 詢問了一張我的照片中自行車的位置[13]。

Llama 3.2 Vision & Molmo：多模態(tài)開源生態(tài)系統(tǒng)基礎(chǔ)-AI.x社區(qū)

這種指向性功能是多模態(tài)模型在 web agents 應(yīng)用中最顯著的優(yōu)點(diǎn)。一旦在模型訓(xùn)練時融入了足夠的 web 數(shù)據(jù)，它就能迅速掌握瀏覽所有常規(guī)網(wǎng)頁的能力。

當(dāng)模型被要求對同一張圖片進(jìn)行描述時，它給出了一個相當(dāng)詳盡的描述[14]，而且相當(dāng)標(biāo)準(zhǔn)：

圖片是一張 Zoom 通話的截屏，圖片被黑色邊框和白色內(nèi)框所環(huán)繞。在右上角，有一個小窗口顯示另一位參與者，他留著胡須，戴著眼鏡和耳機(jī)，身穿一件黑色T恤。他坐在壁爐前，壁爐臺上擺放著照片和書籍。主畫面中的年輕男子有著短短的棕色頭發(fā)和藍(lán)色的眼睛，面帶微笑，穿著一件點(diǎn)綴著白色圓點(diǎn)的藍(lán)色襯衫。他坐在一個白色墻壁、帶窗臺窗戶的房間里，背后是一個黑色的架子。架子上陳列著各式物品，墻上還掛著一個自行車輪胎。屋內(nèi)還擺放了幾幅裝框的畫作。屏幕頂端顯示著文件名……

這種詳細(xì)的描述得益于新數(shù)據(jù)集 PixMo 的直接影響，該數(shù)據(jù)集被用于訓(xùn)練 Molmo 模型。PixMo 的價值遠(yuǎn)遠(yuǎn)超出這些早期模型。這個數(shù)據(jù)集的創(chuàng)新之處在于，它讓標(biāo)注人員通過音頻而非文字來對圖片做出回應(yīng)（類似于這篇關(guān)于局部化敘述的研究[15]），這使得他們的數(shù)據(jù)標(biāo)注更加富有創(chuàng)造性和描述性。事實(shí)上，數(shù)據(jù)標(biāo)注人員們非常喜歡這些任務(wù)（比如提供指向數(shù)據(jù)），以至于他們主動要求完成更多任務(wù)。激發(fā)數(shù)據(jù)標(biāo)注人員的高度參與度是任何人工數(shù)據(jù)流程（human data pipeline）的目標(biāo)，而這在我所見過的案例中是前所未有的。這個數(shù)據(jù)集有數(shù)百萬個樣例，涉及各種各樣的圖像。

我們所掌握的有關(guān) Llama 3.2 V 的少數(shù)技術(shù)細(xì)節(jié)之一是，它是在 “6B（圖像，文本）對” 上進(jìn)行訓(xùn)練的，其中大部分可能是合成數(shù)據(jù)。而 Molmo 則是通過主要由人類產(chǎn)生的數(shù)百萬份數(shù)據(jù)進(jìn)行訓(xùn)練。

對于 OLMo 模型，包括 Molmo 在內(nèi)，最關(guān)鍵的差異化因素和戰(zhàn)略是其開放性（openness）。隨著對“開源 AI”定義的討論進(jìn)行，像這些多模態(tài)模型（例如 CLIP）就是很好的案例，可以用來檢驗(yàn)或“壓力測試”我們對開源 AI 的理解。以下是對 Molmo 模型及其同類模型的開放性比較 —— Llama 3.2 V 的開放性與其他所有權(quán)重開源模型（open-weight models）相似。

Llama 3.2 Vision & Molmo：多模態(tài)開源生態(tài)系統(tǒng)基礎(chǔ)-AI.x社區(qū)

這些模型都采用了沒有開放數(shù)據(jù)的視覺編碼器（主要是 OpenAI 的 CLIP），但也有開源的替代方案。公開圖像數(shù)據(jù)風(fēng)險較高（可能會涉及像 CSAM 這樣的敏感問題），而且過程復(fù)雜。Molmo 模型是基于非開源模型進(jìn)行微調(diào)的（并對參數(shù)進(jìn)行了更新），根據(jù)開源倡議的最新定義，它們并不能算作開源。但如果 Molmo 只是公開數(shù)據(jù)的嵌入，而不是原始圖像或文本數(shù)據(jù)，那么這種做法是否能讓模型滿足開源要求。這就引出了一個問題：當(dāng)核心權(quán)重保持不變并且公開嵌入數(shù)據(jù)時，模型的開源性是否依舊符合標(biāo)準(zhǔn)？

這與根據(jù)其他語言模型（包括非公開模型）的合成輸出訓(xùn)練出的模型可被視為開源的定義是一樣的。在同時使用多個模型和數(shù)據(jù)流的領(lǐng)域，開源 AI 的定義還需要進(jìn)一步的探討。 對于僅使用文本進(jìn)行預(yù)訓(xùn)練的模型，其“開源”定義原則上是合理的，只需要在一些細(xì)節(jié)上做出調(diào)整。然而，當(dāng)涉及到微調(diào)和多模態(tài)時，情況變得更加復(fù)雜，因此還需要更多的討論。

基于這些原因，我不會直接宣稱“Molmo 是開源的”，但它無疑是目前最為接近開源的視覺模型。從定義上講，生態(tài)系統(tǒng)中最開放的實(shí)驗(yàn)室在戰(zhàn)略上與開源的差距微乎其微。

03 視覺功能的融入對模型能力和推理方式的影響

視覺功能的增加可以被視為一種微調(diào)問題，讓我不禁要問，當(dāng)前頂級模型在處理帶圖像和不帶圖像的相同提示詞時會有怎樣的表現(xiàn)。在幕后會將 query 路由給不同的模型。對于那些不是 early fusion 模型的，比如 GPT-4 和 Claude，除了推理成本之外，帶有視覺元素幾乎肯定會對性能有所影響 —— 否則，所有的模型都將是視覺模型。而對于像 GPT-4o 這樣能夠原生處理圖像數(shù)據(jù)的模型，這一測試并不適用。

最直接的比較方法就是查看模型的標(biāo)準(zhǔn)版本和視覺版本對文本任務(wù)進(jìn)行評估的差異。然而，在目前已經(jīng)發(fā)布的模型中，進(jìn)行這種直接比較的寥寥無幾。即便有，也通常只限于部分評估。在撰寫本文的過程中，我做了一個還算不錯但并不完全詳盡的調(diào)查，發(fā)現(xiàn)對比數(shù)據(jù)不足，因此沒法用具體的數(shù)字支撐一個有說服力的論點(diǎn)。我的直覺是，在模型中加入視覺處理會使得模型在訓(xùn)練完成之后通過各種方法（如微調(diào)、優(yōu)化等）實(shí)現(xiàn)的性能提升（我們在 ChatBotArena 等平臺上觀察到的）變得更加難以實(shí)現(xiàn)。

本實(shí)驗(yàn)旨在觀察 GPT-4 和 Claude 3.5 Sonnet 在處理中等難度的推理或編程任務(wù)時，能否在有圖像干擾的情況下正確地忽略非相關(guān)信息。實(shí)驗(yàn)結(jié)果顯示，當(dāng)明確指示模型忽略某些信息時，它們都能輕松做到，并且在后續(xù)詢問圖像相關(guān)問題時，仍能準(zhǔn)確理解圖像內(nèi)容。圖像的引入可能會導(dǎo)致模型更容易出現(xiàn)之前模型在處理類似任務(wù)時遇到的那些典型問題或錯誤。

我首先提出了一個我經(jīng)常使用的簡單推理問題：“月球能裝下多少高爾夫球？”無論是附有圖像還是無圖像的 ChatGPT4 ，它們的推理過程幾乎相同，得出的答案也非常接近。

Llama 3.2 Vision & Molmo：多模態(tài)開源生態(tài)系統(tǒng)基礎(chǔ)-AI.x社區(qū)

另一方面，Claude 的視覺系統(tǒng)在這個例子中（見下圖右側(cè)）顯得有些力不從心。Claude 給出的回應(yīng)，更像是一種巧妙的回避，而不是像往常那樣嘗試解答這個常見的概念性問題。

Llama 3.2 Vision & Molmo：多模態(tài)開源生態(tài)系統(tǒng)基礎(chǔ)-AI.x社區(qū)

這個任務(wù)難度似乎不夠，于是我決定挑戰(zhàn)一個編程問題，要求 LLM 闡述解題思路，然后為其編寫一個 Python 腳本 —— 一個語言模型的基本訓(xùn)練腳本。首先未提供給 ChatGPT 相關(guān)圖像，這也在情理之中，對于實(shí)際開發(fā)來說，其作用有限。

Llama 3.2 Vision & Molmo：多模態(tài)開源生態(tài)系統(tǒng)基礎(chǔ)-AI.x社區(qū)

ChatGPT 對帶有圖像的提示詞的回應(yīng)不夠詳盡，也不夠周全。

Llama 3.2 Vision & Molmo：多模態(tài)開源生態(tài)系統(tǒng)基礎(chǔ)-AI.x社區(qū)

而 Claude 所給出的兩次回答在內(nèi)容上幾乎無二致。

Llama 3.2 Vision & Molmo：多模態(tài)開源生態(tài)系統(tǒng)基礎(chǔ)-AI.x社區(qū)

這個結(jié)論并不讓人意外。模型的圖像輸入不那么成熟，因此我們看到了更多去年常見的典型問題或不足之處。

更值得關(guān)注的問題是未來這種情況會有顯著改善，還是維持現(xiàn)狀？像 o1 這樣的特性獲得的認(rèn)可度，明顯高于更優(yōu)質(zhì)的視覺輸入。在 AI 模型領(lǐng)域，語言仍然是核心， 如果沒有明確的任務(wù)來挑戰(zhàn)視覺的極限 ，就很難證明視覺輸入具有變革性。語言依然是這個生態(tài)系統(tǒng)的命脈。

對于 Molmo 而言，由于缺乏標(biāo)準(zhǔn)的文本指令調(diào)優(yōu)和 RLHF（基于人類反饋的強(qiáng)化學(xué)習(xí)），在進(jìn)行推理任務(wù)時，給人的感覺與以往熟悉的模型大相徑庭。我們清楚，需要在所有 OLMo 模型上不斷優(yōu)化這類任務(wù)。

Llama 3.2 Vision & Molmo：多模態(tài)開源生態(tài)系統(tǒng)基礎(chǔ)-AI.x社區(qū)

然而，Molmo 還有一些 Claude 和 ChatGPT 所不具備的特殊功能。我們期待這些功能能夠證明其使用價值。如果想要體驗(yàn)這些模型，還有一個選擇是 Vision Arena[16]，但需要注意的是，它的某些功能接口出現(xiàn)了問題，而且其運(yùn)行速度不及原生的本地應(yīng)用程序。

04 多模態(tài)語言模型：正處于快速發(fā)展階段的前端

Molmo 項(xiàng)目與我之前關(guān)注的純文本模型項(xiàng)目的進(jìn)展相比，最顯著的區(qū)別在于多模態(tài)模型生態(tài)系統(tǒng)的成熟度較低。尤其是在模型訓(xùn)練完成后的行為研究方面，我們?nèi)鄙僭u估工具、數(shù)據(jù)集、開放的基準(zhǔn)模型 —— 總之，一切都非常缺乏。我在今年年初就這個問題發(fā)表了自己的看法，特別是對于開放流程（open pipelines）中多模態(tài) RLHF 的不明確性[17]，遺憾的是，至今變化不大。這就導(dǎo)致了一個現(xiàn)象：某些可以說是“開源”的模型幾乎能與像 GPT-4o 這樣的閉源模型相媲美。

需要明確的是，雖然技術(shù)報告中對模型的基準(zhǔn)測試討論頗多，但與潛在的研究空間相比，這些討論僅僅是觸及了表面。許多評估工作是將傳統(tǒng)語言模型的理念，如解釋概念或識別內(nèi)容，遷移到視覺領(lǐng)域。 而對于視覺模型來說，我們需要的是全新的基準(zhǔn)測試方向。對于視覺語言模型，SWE-Bench 的對等基準(zhǔn)測試會是什么？我推測可能會出現(xiàn) SWE-Bench-Vision，但我們還需要開發(fā)更多無法與文本模型相對應(yīng)的新測試類別。

在使用多模態(tài)模型時，我發(fā)現(xiàn)并不清楚應(yīng)該用它們來做什么。這些模型在信息提取和加工處理等方面確實(shí)強(qiáng)大。我就經(jīng)常用 Claude 或 ChatGPT 來復(fù)制表格內(nèi)容或重新編寫代碼生成圖表。除了前面提到的用途之外，還有很多功能，特別是場景描述（scene captioning），雖然展示出來的時候非常吸引人，讓人印象深刻，但并不是我們?nèi)粘Ｉ钪袝?jīng)常使用到的功能。

曾經(jīng)，視覺語言模型的效果并不理想。但現(xiàn)在，它們的性能得到了大大增強(qiáng)，更重要的是，它們現(xiàn)在可以被大規(guī)模公開使用，這無疑會促進(jìn)其被更廣泛地采用。而隨著使用率的提升，就有了發(fā)展的反饋回路。以下是對這一論點(diǎn)的詳細(xì)解釋。

Llama 3.2 Vision & Molmo：多模態(tài)開源生態(tài)系統(tǒng)基礎(chǔ)-AI.x社區(qū)

特別是，Meta 采取了將“開源 AI”的品牌與 Llama 模型掛鉤的策略，這一行動提升了 Llama 模型在業(yè)界的可信度，從而促使更多開發(fā)者更加重視此類模型。

在未來的多模態(tài)語言模型中，唯一尚未解決但肯定會重要的應(yīng)用是理解網(wǎng)頁元素。 Web agents 成為了阻礙生成式 AI 產(chǎn)品大規(guī)模部署的最后幾道關(guān)卡之一。 我們之所以尚未見到更多的 web agents，可能是因?yàn)楫?dāng)前的生態(tài)系統(tǒng)過于依賴封閉模型，而這些模型很難獲得執(zhí)行相關(guān)操作所需的權(quán)限（尤其是在企業(yè)級應(yīng)用中）。隨著技術(shù)能力的提升，我們有理由相信，權(quán)重開源模型（open-weight models）將會得到快速的推廣和應(yīng)用。推動多模態(tài)模型發(fā)展的原因似乎更多是市場、技術(shù)、行業(yè)趨勢等方面的因素，而非僅僅是為了推廣本地多模態(tài)模型 —— 這一點(diǎn)我們可以向 Adept 公司進(jìn)行探討。隨著權(quán)重開源模型和近乎開源模型（(nearly) open-source models）的增多，AI 領(lǐng)域的加速發(fā)展指日可待。

Thanks for reading!

Hope you have enjoyed and learned new things from this blog!

About the authors

Nathan Lambert

ML researcher making sense of AI research, products, and the uncertain technological future. PhD from Berkeley AI. Experience at Meta, DeepMind, HuggingFace.

END

本期互動內(nèi)容 ??

?Molmo 模型的“像素級指向功能”給您帶來了哪些啟發(fā)？您認(rèn)為這個功能在未來可能催生什么樣的創(chuàng)新應(yīng)用？

??文中鏈接??

[1]??https://lilianweng.github.io/posts/2022-06-09-vlm??

[2]??https://molmo.allenai.org/blog??

[3]??https://huggingface.co/collections/meta-llama/llama-32-66f448ffc8c32f949b04c8cf??

[4]??https://ai.meta.com/blog/llama-3-2-connect-2024-vision-edge-mobile-devices/?utm_source=twitter&utm_medium=organic_social&utm_content=video&utm_campaign=llama32??

[5]??https://arxiv.org/abs/2407.21783??

[6]??https://www.interconnects.ai/p/olmo??

[7]??https://molmo.allenai.org/paper.pdf??

[8]??https://molmo.allenai.org/??

[9]??https://huggingface.co/openai/clip-vit-large-patch14-336??

[10]??https://github.com/mlfoundations/open_clip??

[11]??https://mistral.ai/news/pixtral-12b/??

[12]??https://www.reddit.com/r/LocalLLaMA/comments/1fpb4m3/molmo_models_outperform_llama_32_in_most_vision/??

[13]??https://molmo.allenai.org/share/963de0d0-9069-4a14-ad5a-8e4bc0863136??

[14]??https://molmo.allenai.org/chat/d1917496-1581-4ca5-8bda-1f4216d1ea1e??

[15]??https://arxiv.org/abs/1912.03098??

[16]??https://huggingface.co/spaces/WildVision/vision-arena??

[17]??https://www.interconnects.ai/i/140525309/multimodal-rlhf-questions-ideas-and-resources??

原文鏈接：

??https://www.interconnects.ai/p/molmo-and-llama-3-vision??

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請注明出處，否則將追究法律責(zé)任

標(biāo)簽

Llama 3.2 Vision

贊

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

阿里巴巴重磅開源EasyAnimate！基于DiT的長視頻制作生態(tài)系統(tǒng)

angel ? 4507瀏覽 ? 0回復(fù)
解析Llama 3.1 與Meta 的 AI 戰(zhàn)略，以及新的開放前沿模型生態(tài)系統(tǒng)

lintoms ? 2231瀏覽 ? 0回復(fù)
Meta首個開源多模態(tài)模型Llama 3.2橫空出世，能力不輸GPT4o-mini；小扎：開源的拐點(diǎn)來了！

51CTO技術(shù)棧 ? 2905瀏覽 ? 0回復(fù)
Llama 3.2：AI視覺革新，手機(jī)也能跑大模型

sbf_2000 ? 2501瀏覽 ? 0回復(fù)
Llama3.2開源：Meta發(fā)布1B和3B端側(cè)模型、11B和90B多模態(tài)模型

NLP工作站 ? 4052瀏覽 ? 0回復(fù)
Meta發(fā)布Llama 3.2：AI大模型再升級，從云端到掌上

芝士AI吃魚 ? 2472瀏覽 ? 0回復(fù)
Llama 3.2 強(qiáng)勢震撼登場：從 1B 純文本躍至 90B 多模態(tài)，成就端側(cè) AI 巔峰杰作

穿越時空111 ? 3248瀏覽 ? 0回復(fù)
Meta剛開源llama 3.2多模態(tài)，就被打敗了！

NLP前沿1 ? 2591瀏覽 ? 0回復(fù)
Meta開源多模態(tài)模型——Llama 3.2

Aceryt ? 2627瀏覽 ? 0回復(fù)
多模態(tài)大模型：基礎(chǔ)架構(gòu)

魯班模錘1 ? 2103瀏覽 ? 0回復(fù)
使用Llama 3.2-Vision大模型，搭建本地Ollama OCR應(yīng)用

AI科技論談 ? 7611瀏覽 ? 0回復(fù)
本地構(gòu)建Llama 3.2-Vision多模態(tài)LLM聊天應(yīng)用實(shí)戰(zhàn)

51CTO內(nèi)容精選 ? 2156瀏覽 ? 0回復(fù)
微軟發(fā)布Magma：跨越數(shù)字與物理世界的多模態(tài)AI基礎(chǔ)模型

Halo咯咯 ? 1998瀏覽 ? 0回復(fù)
DeepSeek-R1的方法遷移到多模態(tài)大模型-開源Vision-R1實(shí)現(xiàn)方法思路

大模型自然語言處理 ? 1635瀏覽 ? 0回復(fù)
Qwen原生多模態(tài)開源，淺析一下！

NLP前沿1 ? 1023瀏覽 ? 0回復(fù)
Llama 4 凌晨震撼發(fā)布：Meta開源最強(qiáng)MoE多模態(tài)模型，1000萬上下文碾壓行業(yè)！

AI博物院 ? 1180瀏覽 ? 0回復(fù)
Google介紹了Agent2Agent（A2A）：一種新的開放協(xié)議，允許AI代理在生態(tài)系統(tǒng)中安全地合作

Halo咯咯 ? 1891瀏覽 ? 0回復(fù)
Kimi-VL開源多模態(tài)大模型結(jié)構(gòu)、訓(xùn)練方法、訓(xùn)練數(shù)據(jù)淺析

大模型自然語言處理 ? 1007瀏覽 ? 0回復(fù)
從零到一構(gòu)建Agent系統(tǒng)：四大模塊 + 框架生態(tài)詳解

PyTorch研習(xí)社 ? 774瀏覽 ? 0回復(fù)

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

Google 的 A2A 與 Anthropic 的 MCP 應(yīng)該如何選擇？ 8h前發(fā)布
面對開源大模型浪潮，基礎(chǔ)模型公司如何持續(xù)盈利？ 5天前發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點(diǎn)：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識庫配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

只需5分鐘，教你用Python搭建MCP Server 0回復(fù)

上一篇： #AIGC創(chuàng)新先鋒者征文大賽# 怎樣在 10k 個 H100 GPU 上訓(xùn)練模型？

下一篇： Agent 智能體開發(fā)框架選型指南

社區(qū)精華內(nèi)容

目錄