自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Pixtral Large:124B的最強開源多模態(tài)大模型 原創(chuàng)

發(fā)布于 2024-11-27 14:45
瀏覽
0收藏

近日,法國著名開源大模型平臺Mistral.ai,開源了一個1240億參數(shù)的超大多模態(tài)模型:Pixtral Large,在多個開源多模態(tài)評測上超越了GPT-4o、Gemini-1.5 Pro、Claude-3.5 Sonnet、Llama-3.2等商業(yè)模型或開源模型,成為目前最強的開源多模態(tài)大模型。

?Demo: https://chat.mistral.ai

Blog: https://mistral.ai/news/pixtral-large

Model: https://huggingface.co/mistralai/Pixtral-Large-Instruct-2411

太長不看

  • 第一梯隊的多模態(tài)性能
  • 在MathVista、DocVQA、VQAv2等多模態(tài)評測上達到SOTA水平
  • 擴展了Mistral Large 2,同時不犧牲文本性能
  • 123B的多模態(tài)transformer解碼器,1B的視覺編碼器
  • 128K上下文窗口:可容納至少30張高分辨率圖像

詳細解讀

Pixtral Large,是基于Mistral Large 2架構(gòu)構(gòu)建的124B參數(shù)量級的多模態(tài)模型。該模型特別擅長處理文檔、圖表以及自然圖像的理解任務,同時繼承并提升了Mistral Large 2在純文本理解方面的卓越性能。在遵守license條件下,開源可商用。

在諸多多模態(tài)評測上,都取得了優(yōu)異的成績,甚至干翻了GPT-4o和Claude-3.5 Sonnet在內(nèi)的多個閉源商業(yè)模型,尤其是在復雜文檔圖表圖像的推理能力上。

Pixtral Large:124B的最強開源多模態(tài)大模型-AI.x社區(qū)

Pixtral Large:124B的最強開源多模態(tài)大模型-AI.x社區(qū)

它建立在其前身,2024年夏天推出的Mistral Large 2,以及9月份發(fā)布的Mistral第一款多模態(tài)大模型Pixtral 12B的基礎(chǔ)上。

Pixtral Large 的解碼器基于 Mistral Large 2 的架構(gòu)。它采用基于 Transformer 的設(shè)計,能夠在文本和視覺模態(tài)間進行高級推理。解碼器可無縫處理長達 128K token 的上下文,非常適合在單次推理中融合大量文本和視覺數(shù)據(jù)。

Pixtral Large:124B的最強開源多模態(tài)大模型-AI.x社區(qū)

視覺編碼器視覺編碼器 Pixtral-ViT 是一個擁有 10 億參數(shù)的模塊,專為處理多樣化的視覺數(shù)據(jù)而設(shè)計。

Pixtral Large:124B的最強開源多模態(tài)大模型-AI.x社區(qū)

??https://arxiv.org/abs/2410.07073??

Pixtral 視覺編碼器主要特性:

  1. 長寬比保持:與傳統(tǒng)固定分辨率的編碼器不同,Pixtral-ViT 可處理圖像的原始尺寸。這減少了預處理需求,并保留了關(guān)鍵細節(jié)。
  2. 塊對角注意力掩碼(Block-Diagonal Attention Masks):通過隔離每張圖像的注意力計算,支持高效處理多張圖像。
  3. ROPE-2D 編碼:相對位置編碼的二維擴展,優(yōu)化了圖像塊的空間表示,使編碼器能夠適應不同的分辨率和長寬比。

視覺編碼器將圖像轉(zhuǎn)換為與多模態(tài)解碼器兼容的 token 表示,實現(xiàn)文本與圖像的統(tǒng)一處理。


本文轉(zhuǎn)載自公眾號思源數(shù)據(jù)科學 作者:思源Source

原文鏈接:??https://mp.weixin.qq.com/s/D2xwsz6GvnAy-ddou7UJFQ??

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責任
已于2024-11-27 14:46:25修改
收藏
回復
舉報
回復
相關(guān)推薦