自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<strong id="vshyj"><abbr id="vshyj"></abbr></strong>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學堂

IT職業(yè)在線教育平臺

Pixtral Large：124B的最強開源多模態(tài)大模型原創(chuàng)

發(fā)布于 2024-11-27 14:45

瀏覽

0收藏

近日，法國著名開源大模型平臺Mistral.ai，開源了一個1240億參數(shù)的超大多模態(tài)模型：Pixtral Large，在多個開源多模態(tài)評測上超越了GPT-4o、Gemini-1.5 Pro、Claude-3.5 Sonnet、Llama-3.2等商業(yè)模型或開源模型，成為目前最強的開源多模態(tài)大模型。

?Demo: https://chat.mistral.ai

Blog: https://mistral.ai/news/pixtral-large

Model: https://huggingface.co/mistralai/Pixtral-Large-Instruct-2411

太長不看

第一梯隊的多模態(tài)性能
在MathVista、DocVQA、VQAv2等多模態(tài)評測上達到SOTA水平
擴展了Mistral Large 2，同時不犧牲文本性能
123B的多模態(tài)transformer解碼器，1B的視覺編碼器
128K上下文窗口：可容納至少30張高分辨率圖像

詳細解讀

Pixtral Large，是基于Mistral Large 2架構(gòu)構(gòu)建的124B參數(shù)量級的多模態(tài)模型。該模型特別擅長處理文檔、圖表以及自然圖像的理解任務，同時繼承并提升了Mistral Large 2在純文本理解方面的卓越性能。在遵守license條件下，開源可商用。

在諸多多模態(tài)評測上，都取得了優(yōu)異的成績，甚至干翻了GPT-4o和Claude-3.5 Sonnet在內(nèi)的多個閉源商業(yè)模型，尤其是在復雜文檔圖表圖像的推理能力上。

Pixtral Large：124B的最強開源多模態(tài)大模型-AI.x社區(qū)

Pixtral Large：124B的最強開源多模態(tài)大模型-AI.x社區(qū)

它建立在其前身，2024年夏天推出的Mistral Large 2，以及9月份發(fā)布的Mistral第一款多模態(tài)大模型Pixtral 12B的基礎(chǔ)上。

Pixtral Large 的解碼器基于 Mistral Large 2 的架構(gòu)。它采用基于 Transformer 的設(shè)計，能夠在文本和視覺模態(tài)間進行高級推理。解碼器可無縫處理長達 128K token 的上下文，非常適合在單次推理中融合大量文本和視覺數(shù)據(jù)。

Pixtral Large：124B的最強開源多模態(tài)大模型-AI.x社區(qū)

視覺編碼器視覺編碼器 Pixtral-ViT 是一個擁有 10 億參數(shù)的模塊，專為處理多樣化的視覺數(shù)據(jù)而設(shè)計。

Pixtral Large：124B的最強開源多模態(tài)大模型-AI.x社區(qū)

??https://arxiv.org/abs/2410.07073??

Pixtral 視覺編碼器主要特性：

長寬比保持：與傳統(tǒng)固定分辨率的編碼器不同，Pixtral-ViT 可處理圖像的原始尺寸。這減少了預處理需求，并保留了關(guān)鍵細節(jié)。
塊對角注意力掩碼（Block-Diagonal Attention Masks）：通過隔離每張圖像的注意力計算，支持高效處理多張圖像。
ROPE-2D 編碼：相對位置編碼的二維擴展，優(yōu)化了圖像塊的空間表示，使編碼器能夠適應不同的分辨率和長寬比。

視覺編碼器將圖像轉(zhuǎn)換為與多模態(tài)解碼器兼容的 token 表示，實現(xiàn)文本與圖像的統(tǒng)一處理。

本文轉(zhuǎn)載自公眾號思源數(shù)據(jù)科學作者：思源Source

原文鏈接：??https://mp.weixin.qq.com/s/D2xwsz6GvnAy-ddou7UJFQ??

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請注明出處，否則將追究法律責任

標簽

多模態(tài)大模型

已于2024-11-27 14:46:25修改

贊

收藏

回復

舉報

回復

相關(guān)推薦

最強開源大模型易主，號稱超過Llama 2、Mixtral、Grok-1的DBRX是什么？

liutao988 ? 3289瀏覽 ? 0回復
7B超越百億級，北大開源aiXcoder-7B最強代碼大模型，企業(yè)部署最佳選擇

輕薄滴假象 ? 4139瀏覽 ? 0回復
抱抱臉團隊（HF）發(fā)布多模態(tài)大模型Idefics2，8B參數(shù)

AIGC最前線 ? 3354瀏覽 ? 0回復
新測試基準發(fā)布，最強開源Llama 3尷尬了

Crystalcxt ? 2964瀏覽 ? 0回復
大模型競技場全面測評結(jié)果出爐：Llama3 70B成開源模型中最強王者！

AIGC最前線 ? 5721瀏覽 ? 0回復
英偉達開源3400億巨獸，98%合成數(shù)據(jù)訓出最強開源通用模型！性能對標GPT-4o

duhorse ? 2692瀏覽 ? 0回復
多模態(tài)與偽多模態(tài)大模型

AI探索時代 ? 2163瀏覽 ? 0回復
Mistral開源首個多模態(tài)大模型—Pixtral 12B

Aceryt ? 2425瀏覽 ? 0回復
Llama3.2開源：Meta發(fā)布1B和3B端側(cè)模型、11B和90B多模態(tài)模型

NLP工作站 ? 4058瀏覽 ? 0回復
Aria: 第一個多模態(tài)MoE | Pixtral 12B | AI教學新突破：DataEnvGym讓模型自我進化

sbf_2000 ? 2164瀏覽 ? 0回復
實測騰訊開源的Hunyuan-Large大模型，感覺......

NLP工作站 ? 2109瀏覽 ? 0回復
最強開源多模態(tài)模型 Pixtral Large！

Aceryt ? 2054瀏覽 ? 0回復
多模態(tài)RAG利器，帶你跑通Qwen2-VL-7B-Instruct大模型

小虎哦哦 ? 2700瀏覽 ? 0回復
Infinigence AI 發(fā)布 Megrez-3B-Omni：3B 設(shè)備上開源多模態(tài)大語言模型 MLLM

Halo咯咯 ? 1852瀏覽 ? 0回復
allenai開源多模態(tài)的文檔智能解析大模型（OLMOCR）方法、效果淺析

大模型自然語言處理 ? 2467瀏覽 ? 0回復
Qwen2.5-VL-32B：多模態(tài)大模型的性能與效率新標桿

Halo咯咯 ? 1105瀏覽 ? 0回復
Llama 4 凌晨震撼發(fā)布：Meta開源最強MoE多模態(tài)模型，1000萬上下文碾壓行業(yè)！

AI博物院 ? 1185瀏覽 ? 0回復
Kimi-VL開源多模態(tài)大模型結(jié)構(gòu)、訓練方法、訓練數(shù)據(jù)淺析

大模型自然語言處理 ? 1020瀏覽 ? 0回復
2025年最值得關(guān)注的十大多模態(tài)大語言模型！

Halo咯咯 ? 1846瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

Jina CLIP v2：為多模態(tài)RAG設(shè)計的向量模型 2024-11-27 14:50:27發(fā)布
解密o1推理過程！DeepSeek-R1-Lite預覽版上線 2024-11-27 14:48:58發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點：替代人干真活！ 1回復

王炸！MCP 架構(gòu)設(shè)計深度剖析 & 使用 Spring AI + MCP 四步教你實現(xiàn) Agent 智能體開發(fā) 0回復

Dify從入門到高階系列二：手把手教學！超詳細的Dify知識庫配置全攻略 0回復

Crawl4AI：GitHub榜首40K星標！LLM專屬極速開源爬蟲神器 0回復

只需5分鐘，教你用Python搭建MCP Server 0回復

上一篇： Omnivision-968M：最小多模態(tài)模型，為邊緣設(shè)備而生！

下一篇：解密o1推理過程！DeepSeek-R1-Lite預覽版上線

社區(qū)精華內(nèi)容

目錄

<ruby id="c6aas"></ruby>

<blockquote id="c6aas"></blockquote>