Mistral殺回來了!Small 3.1開源發(fā)布,性能完勝Gemma 3,RTX 4090就能跑
Mistral 又搞了個 “小而美” 的狠貨: Mistral Small 3.1 發(fā)布并開源:
號稱 “小 3.1”,但能力不 “小”。 多模態(tài)、開源 Apache 2.0 協(xié)議,關鍵是性能還杠杠的,直接 PK 掉 Gemma 3 和 GPT-4o mini。
看 Benchmark 圖: 橫坐標是速度,越小越快; 縱坐標是知識,越大越強。 Mistral Small 3.1,直接霸榜左上角,速度、知識雙 Buff 加持。
Mistral 官方列出了 Small 3.1 的關鍵特性和能力:
? 輕量級: 能在 RTX 4090 或 32GB 內存的 Mac 上運行,適合本地部署。
? 快速響應: 適合虛擬助手等需要快速響應的應用。
? 低延遲函數(shù)調用: 能快速執(zhí)行函數(shù)。
? 領域微調: 能針對特定領域進行微調,比如法律、醫(yī)療等。
? 高級推理基礎: 社區(qū)可以在此基礎上構建更強的推理模型。
最近幾周,已經有一些基于 Mistral Small 3 的優(yōu)秀推理模型出現(xiàn),比如Nous Research 的 DeepHermes 24B。Mistral 同時發(fā)布了基礎模型和指令調優(yōu)的 checkpoint,方便大家進一步定制。
“AI 智能,兩周一降價”, 這趨勢有點猛。
有人分析 Mistral Small 3.1,覺得這模型潛力巨大。 雖然現(xiàn)在還不是原生多模態(tài),但 Mistral 可能會憋個大的,直接搞個原生多模態(tài)模型出來。
參數(shù) 30B 左右,各種模態(tài)都支持。 要是真成了,說不定能再現(xiàn) Mistral 7B 的 “經典時刻”。
Mistral Small 3.1 的基準測試成績
多張圖。
先看多語言能力,Mistral Small 3.1 在歐洲、東亞、中東語言上平均值領先。
長上下文方面,Mistral Small 3.1 只有在RULER 上不如 Claude-3.5 Haiku。
多模態(tài)指令上,Mistral Small 3.1 都有顯著優(yōu)勢。
文本指令上,Mistral Small 3.1 在 SimpleQA 、GPQA Main、GPQA Diamond 上領先。在 MMLU、MMLU Pro、HumanEval、MATH 上,也是有高有低。
有網友指出,Mistral Small 3.1 參數(shù)多、支持多語言、多模態(tài),還沒啥限制,就是推理能力差點意思。
但馬上有人潑冷水,說簡單任務用推理模型就是 “高射炮打蚊子”, 太啰嗦。 他們更喜歡輕量級的模型處理日常小事。
推理能力不是萬金油。 像低延遲翻譯,速度才是硬道理,要啥推理?
并且這個模型還開源:
有人覺得 Mistral 完勝, gpt4o-mini 不行。
反方表示,GPT-4 級別大模型的 “底蘊” 還是在那兒,小模型就算加了 RL 也比不了, “隱含知識” 就是值錢。
而又說到基準測試,有眼尖的網友表示:
“ 這測試選的,也太奇怪了吧?對比的模型也怪怪的。Mistral Small 3.0 呢?藏哪兒去了?是不是怕露餡?”
“ 還有,有些地方 Mistral Small 3.1 只是勉強贏了 Gemma3-it-27b,之前 3.0 可是碾壓的啊,這啥情況?”
對此,網友表示:“ 最近的模型,都喜歡挑對自己有利的測試,Mistral 更狠,直接無視中國的模型… ”
本文轉載自AI進修生,作者:Aitrainee
