Pixtral Large:124B的最強開源多模態(tài)大模型 原創(chuàng)
近日,法國著名開源大模型平臺Mistral.ai,開源了一個1240億參數(shù)的超大多模態(tài)模型:Pixtral Large,在多個開源多模態(tài)評測上超越了GPT-4o、Gemini-1.5 Pro、Claude-3.5 Sonnet、Llama-3.2等商業(yè)模型或開源模型,成為目前最強的開源多模態(tài)大模型。
?Demo: https://chat.mistral.ai
Blog: https://mistral.ai/news/pixtral-large
Model: https://huggingface.co/mistralai/Pixtral-Large-Instruct-2411
太長不看
- 第一梯隊的多模態(tài)性能
- 在MathVista、DocVQA、VQAv2等多模態(tài)評測上達到SOTA水平
- 擴展了Mistral Large 2,同時不犧牲文本性能
- 123B的多模態(tài)transformer解碼器,1B的視覺編碼器
- 128K上下文窗口:可容納至少30張高分辨率圖像
詳細解讀
Pixtral Large,是基于Mistral Large 2架構(gòu)構(gòu)建的124B參數(shù)量級的多模態(tài)模型。該模型特別擅長處理文檔、圖表以及自然圖像的理解任務,同時繼承并提升了Mistral Large 2在純文本理解方面的卓越性能。在遵守license條件下,開源可商用。
在諸多多模態(tài)評測上,都取得了優(yōu)異的成績,甚至干翻了GPT-4o和Claude-3.5 Sonnet在內(nèi)的多個閉源商業(yè)模型,尤其是在復雜文檔圖表圖像的推理能力上。
它建立在其前身,2024年夏天推出的Mistral Large 2,以及9月份發(fā)布的Mistral第一款多模態(tài)大模型Pixtral 12B的基礎(chǔ)上。
Pixtral Large 的解碼器基于 Mistral Large 2 的架構(gòu)。它采用基于 Transformer 的設(shè)計,能夠在文本和視覺模態(tài)間進行高級推理。解碼器可無縫處理長達 128K token 的上下文,非常適合在單次推理中融合大量文本和視覺數(shù)據(jù)。
視覺編碼器視覺編碼器 Pixtral-ViT 是一個擁有 10 億參數(shù)的模塊,專為處理多樣化的視覺數(shù)據(jù)而設(shè)計。
??https://arxiv.org/abs/2410.07073??
Pixtral 視覺編碼器主要特性:
- 長寬比保持:與傳統(tǒng)固定分辨率的編碼器不同,Pixtral-ViT 可處理圖像的原始尺寸。這減少了預處理需求,并保留了關(guān)鍵細節(jié)。
- 塊對角注意力掩碼(Block-Diagonal Attention Masks):通過隔離每張圖像的注意力計算,支持高效處理多張圖像。
- ROPE-2D 編碼:相對位置編碼的二維擴展,優(yōu)化了圖像塊的空間表示,使編碼器能夠適應不同的分辨率和長寬比。
視覺編碼器將圖像轉(zhuǎn)換為與多模態(tài)解碼器兼容的 token 表示,實現(xiàn)文本與圖像的統(tǒng)一處理。
本文轉(zhuǎn)載自公眾號思源數(shù)據(jù)科學 作者:思源Source
