自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

號(hào)稱擊敗Claude 3.5 Sonnet,媲美GPT-4o,開源多模態(tài)模型Molmo挑戰(zhàn)Scaling law

人工智能 新聞
Ai2 又是如何做到「四兩撥千金」的呢?答案在 Ai2 公布的技術(shù)報(bào)告和論文中,這個(gè)秘訣就是:數(shù)據(jù)。

雖然大家一直在期待谷歌、OpenAI 等等擁有無限資金儲(chǔ)備和頂尖人才的大廠做出新的 Sota 模型。不過,一家默默耕耘的創(chuàng)業(yè)公司 Ai2 發(fā)布了一款多模態(tài)人工智能模型 Molmo。

在下面展示的視頻中,我們可以看到 Molmo 就像鋼鐵俠的「賈維斯」一樣萬能。想賣自行車,咨詢一下 Molmo 的建議,僅靠一張照片,Molmo 就能把自行車的顏色、品牌和二手售價(jià)搞清楚,并且?guī)湍銓懗鲆痪漤樋诘膹V告語。

它也可以從虛擬世界幫你解決現(xiàn)實(shí)世界的問題,說一句:「Molmo,幫我買杯星巴克的南瓜拿鐵?!故O碌木筒挥脛?dòng)手了,打開外賣網(wǎng)頁、點(diǎn)餐、付款,Molmo 一氣呵成。你所要做的,就是坐在家中,靜候咖啡送到你的手中。

圖片

機(jī)器之心也嘗試了一下他們?cè)诰€發(fā)布的 Demo 模型。相較于宣傳視頻,其功能還很有限,所以我們讓其執(zhí)行了圖像描述任務(wù),可以看到 Molmo 在細(xì)節(jié)描述和準(zhǔn)確度上的表現(xiàn)確實(shí)很不錯(cuò),它甚至能注意到貓背上的小玩具:「玩具看起來像一只綠色的老鼠,鼻子是粉紅色的,尾巴是蓬松的,羽毛色彩繽紛?!?/span>

圖片

但遺憾的是,Molmo 的漢語輸出能力非常有限,即使我們明確要求其輸出漢語,它也未能辦到:

圖片

除了 Demo,從數(shù)據(jù)來看,Molmo 的表現(xiàn)也足夠驚艷。在人類測(cè)評(píng)和一系列測(cè)試集中,Molmo 的得分擊敗了 Claude 3.5 Sonnet、GPT4V 等一眾頂尖模型,甚至可以媲美 GPT4o。

圖片

不過,Molmo 的體量更小,卻能「以小搏大」,性能超越了比它的參數(shù)量大十倍的其他模型。據(jù) Ai2 首席執(zhí)行官 Ali Farhadi 稱,Molmo 的體積小到可以在本地運(yùn)行,它無需 API、無需訂閱、更無需成本高昂的液冷 GPU 集群。

更重要的是 Molmo 完全免費(fèi)且開源,所有的權(quán)重、代碼、數(shù)據(jù)和評(píng)估流程都即將公布。

部分模型權(quán)重、推理代碼和一個(gè)基于 Molmo-7B-D 模型的公開演示已經(jīng)可以使用。

體驗(yàn)鏈接:https://huggingface.co/collections/allenai/molmo-66f379e6fe3b8ef090a8ca19

Ai2 又是如何做到「四兩撥千金」的呢?答案在 Ai2 公布的技術(shù)報(bào)告和論文中,這個(gè)秘訣就是:數(shù)據(jù)。

圖片

論文鏈接:https://molmo.allenai.org/paper.pdf

目前,最先進(jìn)的多模態(tài)模型大多是閉源的,即使有一些開源的模型表現(xiàn)不錯(cuò),但它們通常依賴于專有模型生成的合成數(shù)據(jù)。因此,如何從零開始構(gòu)建高性能 VLM,對(duì)于開源社區(qū)來說,種種基礎(chǔ)知識(shí)都很難獲得。

圖片

各大多模態(tài)模型的開源程度

如上圖所示,Ai2 的研究團(tuán)隊(duì)統(tǒng)計(jì)了目前 VLM 的開源程度,除了直接看模型的權(quán)重、數(shù)據(jù)和代碼是否公開,他們還考慮了模型是否依賴于其他閉源模型。如果一個(gè)模型在訓(xùn)練中用了其他專有模型生成的數(shù)據(jù),那它就被標(biāo)記為「蒸餾」,這意味著它無法完全獨(dú)立再現(xiàn)。

針對(duì)「閉源」的瓶頸,Ai2 使用語音描述收集了一個(gè)高細(xì)節(jié)度的圖像描述數(shù)據(jù)集,這個(gè)數(shù)據(jù)集完全由人工標(biāo)注,并可以公開訪問。

該團(tuán)隊(duì)認(rèn)為提升模型性能的訣竅是使用更少但質(zhì)量更好的數(shù)據(jù)。面對(duì)數(shù)十億張圖像,不可能僅靠人力完成篩選、精細(xì)標(biāo)注和去重的工作,因此,他們沒有選擇 scaling law,而是精心挑選并注釋了 60 萬張圖像。

數(shù)據(jù)集鏈接:https://docs.google.com/forms/u/0/d/e/1FAIpQLSdML1MhNNBDsCHpgWG65Oydg2SjZzVasyqlP08nBrWjZp_c7A/formResponse?pli=1

為了讓 Molmo 能處理更多任務(wù),Ai2 還引入了一個(gè)多樣化的數(shù)據(jù)混合對(duì)模型進(jìn)一步微調(diào),其中就包括一種獨(dú)特的二維「指向」數(shù)據(jù)。

因?yàn)楝F(xiàn)在市面上的多模態(tài)模型的工作原理是把圖片、聲音、文字等多種模態(tài)轉(zhuǎn)換成自然語言的表示,而基于「指向」數(shù)據(jù)的 Molmo 更進(jìn)一步,它可以用非語言的方式(如指向物體)進(jìn)行解答。

比如,向 Molmo 提問:「你可以指出這塊白板上的哪個(gè)模型的訓(xùn)練時(shí)間最短嗎?」它不僅能用語音準(zhǔn)確回答,還能直接用箭頭「指向」它是從哪些數(shù)據(jù)中得到答案的。

圖片

Molmo 用紅色的波紋標(biāo)出了自己識(shí)別的對(duì)象。

要求 Molmo 數(shù)圖中有多少只狗,它的計(jì)數(shù)方法是在每只狗的臉上畫一個(gè)點(diǎn)。如果要求它數(shù)狗狗舌頭的數(shù)量,它會(huì)在每只舌頭上畫一個(gè)點(diǎn)。

「指向」讓 Molmo 能夠在零樣本的情況下執(zhí)行更廣泛的任務(wù),同時(shí),無需查看網(wǎng)站的代碼,它可以懂得如何瀏覽頁面、提交表單。

這種能力也讓 Molmo 更自然地連接現(xiàn)實(shí)世界和數(shù)字世界,為下一代應(yīng)用程序提供全新的互動(dòng)方式。

PixMo:數(shù)據(jù)質(zhì)量勝過數(shù)量

通常而言,要訓(xùn)練一個(gè)大型 VLM,需要數(shù)以十億計(jì)的圖像 - 文本對(duì)數(shù)據(jù)。而這些數(shù)據(jù)往往取自網(wǎng)絡(luò),因此噪聲很高。模型就需要在訓(xùn)練過程中分離信號(hào)與噪聲。有噪聲文本還會(huì)導(dǎo)致模型輸出出現(xiàn)幻覺。

基于這樣的考慮,該團(tuán)隊(duì)采用了不同的方法來獲取數(shù)據(jù)。他們將數(shù)據(jù)質(zhì)量放在了更重要的位置,結(jié)果發(fā)現(xiàn),使用少于 1M 的圖像 - 文本對(duì)就足以訓(xùn)練出強(qiáng)大的模型 —— 這比許多其它同類方法少了 3 個(gè)數(shù)量級(jí)。

Molmo 系列模型之所以能取得成功,最關(guān)鍵的要素莫過于 PixMo——Molmo 的訓(xùn)練數(shù)據(jù)。

Pixmo 包含兩大類數(shù)據(jù):(1) 用于多模式預(yù)訓(xùn)練的密集描述數(shù)據(jù)和 (2) 用于實(shí)現(xiàn)各種用戶交互的監(jiān)督式微調(diào)數(shù)據(jù),包括問答、文檔閱讀和指向等行為。

該團(tuán)隊(duì)表示,在收集這些數(shù)據(jù)時(shí),主要限制是避免使用已有的 VLM,因?yàn)椤肝覀兿M麖念^構(gòu)建一個(gè)高性能 VLM」,而不是蒸餾某個(gè)已有的系統(tǒng)(但注意,他們也確實(shí)會(huì)使用僅語言的 LLM,但并不會(huì)把圖像輸入這些模型)。

在實(shí)踐中,要讓人類來標(biāo)注大量數(shù)據(jù)是非常困難的。而且人類編寫的圖像描述往往僅會(huì)提及一些突出的視覺元素,而缺乏細(xì)節(jié)。如果強(qiáng)制要求最低字?jǐn)?shù),標(biāo)注者要么需要花費(fèi)太長(zhǎng)時(shí)間,使收集過程成本高昂,要么就會(huì)從專有 VLM 復(fù)制粘貼響應(yīng),這又會(huì)違背避免蒸餾模型的目標(biāo)。

因此,開放研究社區(qū)一直在努力,在不依賴專有 VLM 的合成數(shù)據(jù)的前提下,創(chuàng)建這樣的數(shù)據(jù)集。

該團(tuán)隊(duì)提出了一種簡(jiǎn)單但有效的數(shù)據(jù)收集方法,可以避免這些問題:讓標(biāo)注者用語音描述圖像 60 到 90 秒,而不是要求他們打字。他們讓標(biāo)注者詳細(xì)描述他們看到的一切,包括空間定位和關(guān)系的描述。

從結(jié)果上看,該團(tuán)隊(duì)發(fā)現(xiàn),通過這種模態(tài)切換「技巧」,標(biāo)注者可以在更短的時(shí)間內(nèi)提供更詳細(xì)的描述,并且對(duì)于每個(gè)描述都有對(duì)應(yīng)的錄音,可證明未使用 VLM。

總的來說,他們收集了 71.2 萬幅圖像的詳細(xì)音頻描述,涵蓋 50 個(gè)高層級(jí)主題。

他們的混合微調(diào)數(shù)據(jù)包含了標(biāo)準(zhǔn)的學(xué)術(shù)數(shù)據(jù)集以及一些新收集的數(shù)據(jù)集,這些新數(shù)據(jù)集也將會(huì)公開發(fā)布。學(xué)術(shù)數(shù)據(jù)集主要用于使模型在基準(zhǔn)測(cè)試數(shù)據(jù)上表現(xiàn)良好,而新收集的數(shù)據(jù)集則能賦予模型大量重要功能,包括在與用戶聊天時(shí)能夠回答關(guān)于圖像的一般性問題(超出學(xué)術(shù)基準(zhǔn)數(shù)據(jù)范圍)、提升 OCR 相關(guān)任務(wù)(如讀取文檔和圖表)、精準(zhǔn)識(shí)別模擬時(shí)鐘的時(shí)間,以及在圖像中指向一個(gè)或多個(gè)視覺元素。

指向功能可為圖像中的像素提供自然的解釋,從而帶來 Molmo 全新且更強(qiáng)大的能力。該團(tuán)隊(duì)認(rèn)為,指向?qū)⒊蔀?VLM 和智能體之間重要的交流方式。例如,一個(gè)機(jī)器人可以查詢具有指向功能的 VLM 以獲得路徑點(diǎn)或要拾取物體的位置,而一個(gè)網(wǎng)頁智能體可以查詢 VLM 以定位需要點(diǎn)擊的用戶界面元素。這組系列數(shù)據(jù)集也分為以下六個(gè):

  • PixMo-Cap:用于預(yù)訓(xùn)練 VLM 的數(shù)據(jù)集,可讓其理解圖像細(xì)節(jié),其中包含 71.2 萬張不同圖像和大約 130 萬個(gè)密集圖像描述。
  • PixMo-AskModelAnything:其設(shè)計(jì)目標(biāo)是讓 AI 模型可回答有關(guān)圖像的不同問題。其中包含 16.2 個(gè)問答對(duì),涉及 7.3 萬圖像。其中問題由人類標(biāo)注者編寫,答案則來自一個(gè)語言模型。
  • PixMo-Points:其中的圖像描述數(shù)據(jù)是關(guān)于圖像中物體的位置。該數(shù)據(jù)集包含 230 萬個(gè)問題 - 位置點(diǎn)對(duì),涉及 42.8 萬張圖像。
  • PixMo-CapQA:包含 21.4 萬個(gè)問答對(duì),涉及 16.5 萬個(gè)使用語言模型生成的圖像描述。
  • PixMo-Docs:包含 25.5 萬張帶有大量文本和圖表(表格、文檔、圖表)的圖像,還有語言模型生成的相應(yīng)代碼。另有 230 萬對(duì)基于生成的代碼生成的問答。
  • PixMo-Clocks:這是一個(gè)合成數(shù)據(jù)集,其中包含 82.6 萬張不同款式的模擬時(shí)鐘圖像,以及有關(guān)相應(yīng)時(shí)間的問答。

基準(zhǔn)評(píng)估和大規(guī)模人類偏好排名

為了進(jìn)行全面的評(píng)估,該團(tuán)隊(duì)既使用了學(xué)術(shù)基準(zhǔn)評(píng)測(cè),也執(zhí)行了人類評(píng)估以根據(jù)用戶偏好對(duì)模型進(jìn)行排名。

從結(jié)果上看,學(xué)術(shù)基準(zhǔn)評(píng)測(cè)結(jié)果與人類評(píng)估結(jié)果高度一致。唯一的例外是 Qwen VL2,其在學(xué)術(shù)基準(zhǔn)上表現(xiàn)很好,但在人類評(píng)估中表現(xiàn)相對(duì)較差。

圖片

該團(tuán)隊(duì)總結(jié)得到了一些關(guān)鍵結(jié)果,并表示「Small is the new big, less is the new more」,詳情如下:

  • Molmo 系列模型中最高效的是 MolmoE-1B,其基于完全開放的 OLMoE-1B-7B 混合專家 LLM,在學(xué)術(shù)基準(zhǔn)和人類評(píng)估上的表現(xiàn)接近 GPT-4V。
  • 在學(xué)術(shù)基準(zhǔn)和人類評(píng)估基準(zhǔn)上,兩個(gè) Molmo-7B 模型的表現(xiàn)大概在 GPT-4V 和 GPT-4o 之間,并且在這兩個(gè)基準(zhǔn)上均顯著優(yōu)于近期發(fā)布的 Pixtral 12B 模型。
  • 表現(xiàn)最好的 Molmo-72B 在學(xué)術(shù)基準(zhǔn)上取得了最高分,但人類評(píng)估基準(zhǔn)上則僅次于 GPT-4o,居于第二。
  • 表現(xiàn)最好的 Molmo-72B 也勝過當(dāng)前最佳的一些專有系統(tǒng),包括 Gemini 1.5 Pro 和 Flash 以及 Claude 3.5 Sonnet。

圖片

在接受 TechCrunch 的采訪時(shí), Ai2 首席執(zhí)行官 Ali Farhadi 表示,人工智能界有條定律 ——「越大越好」,訓(xùn)練數(shù)據(jù)越多,模型中的參數(shù)就越多,需要的算力也就越多。但發(fā)展到一定階段時(shí),「scaling law」就會(huì)遇到瓶頸,根本無法繼續(xù)擴(kuò)大模型規(guī)模了:沒有足夠的數(shù)據(jù)、或者計(jì)算成本和時(shí)間變得太高,以至于弄巧成拙。你只能利用現(xiàn)有的資源,或者更好的辦法是,用更少的資源做更多的事情。

圖片

Ai2 首席執(zhí)行官 Ali Farhadi

模型架構(gòu)

Molmo 的模型架構(gòu)采用了簡(jiǎn)單的標(biāo)準(zhǔn)設(shè)計(jì),也就是將一個(gè)語言模型和一個(gè)圖像編碼器組合起來。其包含 4 個(gè)組件:

  1. 預(yù)處理器,其作用是將輸入圖像轉(zhuǎn)換為一組多尺寸和經(jīng)過不同裁剪的圖像;
  2. ViT 圖像編碼器,其作用是將每一張圖像都獨(dú)立映射成一組視覺 token;
  3. 連接器,其作用是使用 MLP 將視覺 token 投影成語言模型的輸入維度,然后匯集視覺 token 以減少其數(shù)量;
  4. 僅解碼器 Transformer LLM。

該團(tuán)隊(duì)基于這一模板構(gòu)建了一個(gè)模型系列。通過選擇不同的視覺編碼器和 LLM 可以為其賦予不同的參數(shù)。在這些選擇基礎(chǔ)上,所有模型的后續(xù)訓(xùn)練數(shù)據(jù)和方案都一樣。

對(duì)于視覺編碼器,他們發(fā)布的所有模型均使用 OpenAI 的 ViT-L/14 336px CLIP 模型,該模型的效果好且質(zhì)量穩(wěn)定。

對(duì)于 LLM,他們采用不同的規(guī)模,基于不同的開放程度訓(xùn)練了模型:OLMo-7B-1024 的權(quán)重和數(shù)據(jù)完全開放的(使用了 2024 年 10 月的預(yù)發(fā)布權(quán)重,其將于晚些時(shí)候公布)、高效的 OLMoE-1B-7B-0924 也是完全開放權(quán)重和數(shù)據(jù),Qwen2 7B、Qwen2 72B、Mistral 7B、Gemma2 9B 則是僅開放權(quán)重。新發(fā)布的是該系列的 4 個(gè)樣本。

他們的訓(xùn)練過程也很簡(jiǎn)單,首先從已經(jīng)獨(dú)立完成預(yù)訓(xùn)練的視覺編碼器和 LLM 開始,接下來分為兩個(gè)階段:

  1. 多模態(tài)預(yù)訓(xùn)練,以使用他們新收集的描述數(shù)據(jù)生成描述;
  2. 使用上述混合數(shù)據(jù)集進(jìn)行監(jiān)督式微調(diào)。

這兩個(gè)階段都會(huì)對(duì)所有參數(shù)進(jìn)行更新,并且過程中不使用 RLHF。

發(fā)布計(jì)劃

該團(tuán)隊(duì)首次發(fā)布就分量十足,包含一個(gè)演示模型、推理代碼、一份簡(jiǎn)要的技術(shù)報(bào)告和以下模型權(quán)重:

  • MolmoE-1B,由 1B(活躍參數(shù)量)的專家模型構(gòu)成的混合專家模型,共 7B
  • Molmo-7B-O,最開放的 7B 模型
  • Molmo-7B-D,演示版本的模型
  • Molmo-72B,表現(xiàn)最佳的模型

未來兩個(gè)月,該團(tuán)隊(duì)還將陸續(xù)發(fā)布以下研究成果:

  • 一份詳細(xì)的技術(shù)報(bào)告
  • PixMo 系列數(shù)據(jù)集
  • 更多模型權(quán)重和檢查點(diǎn)
  • 訓(xùn)練和評(píng)估代碼

更多研究細(xì)節(jié),可訪問原博客。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2024-06-21 09:58:38

2024-06-28 18:13:05

2025-01-22 16:57:32

字節(jié)跳動(dòng)豆包大模型

2024-06-21 09:51:17

2024-06-24 12:25:22

2025-04-08 02:26:00

2024-11-22 14:10:00

AI智能體

2024-05-20 08:20:00

OpenAI模型

2024-09-29 13:07:16

2024-12-26 07:10:00

2024-06-21 09:57:00

2024-07-24 11:30:04

2024-12-27 10:27:58

2024-07-16 13:24:38

2024-07-11 16:38:15

2024-08-30 14:35:00

2024-10-17 14:05:34

2025-02-27 07:48:25

2025-01-21 13:15:15

2024-08-15 15:45:00

AI訓(xùn)練
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)