英偉達(dá)Mistral AI聯(lián)袂出擊!120億小模型王者強勢登場,碾壓Llama 3單張4090可跑
小模型,成為本周的AI爆點。
先是HuggingFace推出了小模型SmoLLM;OpenAI直接殺入小模型戰(zhàn)場,發(fā)布了GPT-4o mini。
GPT-4o mini發(fā)布同天,歐洲最強AI初創(chuàng)公司Mistral立馬發(fā)布旗下最新最強小模型——Mistral NeMo。
Mistral NeMo由Mistral AI和英偉達(dá)聯(lián)手打造,有12B參數(shù),支持128K上下文。
從整體性能上來看,Mistral NeMo在多項基準(zhǔn)測試中,擊敗了Gemma 2 9B和Llama 3 8B。
看到各大巨頭和獨角獸都和小模型杠上了,吃瓜群眾紛紛鼓掌。
HuggingFace創(chuàng)始人表示,本周巨頭小模型三連發(fā),「小模型周」來了!卷!繼續(xù)卷!
Mistral這周的確像打了雞血,火力全開。
幾天前,Mistral才發(fā)布了兩款小模型,專為數(shù)學(xué)推理和科學(xué)發(fā)現(xiàn)設(shè)計的Mathstral 7B和代碼模型Codestral Mamba,是首批采用Mamba 2架構(gòu)的開源模型之一。
沒想到周這只是平A了兩下熱熱場子,還和老黃憋著大招等待閃亮登場。
1+1>2?
最新發(fā)布的小模型Mistral NeMo 12B,瞄準(zhǔn)企業(yè)用戶的使用。
開發(fā)人員可以輕松定制和部署支持聊天機器人、多語言任務(wù)、編碼和摘要的企業(yè)應(yīng)用程序。
通過將Mistral AI在訓(xùn)練數(shù)據(jù)方面的專業(yè)知識,與英偉達(dá)優(yōu)化的硬件和軟件生態(tài)系統(tǒng)相結(jié)合,「最強爹媽」培養(yǎng)出的娃,Mistral NeMo模型性能極其優(yōu)秀。
Mistral AI聯(lián)合創(chuàng)始人兼首席科學(xué)家Guillaume Lample表示,「我們很幸運能夠與英偉達(dá)團隊合作,利用他們的頂級硬件和軟件?!?/span>
Mistral NeMo在NVIDIA DGX Cloud AI平臺完成了訓(xùn)練,該平臺提供對最新英偉達(dá)架構(gòu)的專用和可擴展訪問。
加速大語言模型推理性能的NVIDIA TensorRT-LLM,以及構(gòu)建自定義生成AI模型的NVIDIA NeMo開發(fā)平臺也用于推進(jìn)和優(yōu)化新模型的性能。
此次合作也凸顯了英偉達(dá)對支持模型構(gòu)建器生態(tài)系統(tǒng)的承諾。
企業(yè)賽道,卓越性能
Mistral NeMo支持128K上下文,能夠更加連貫、準(zhǔn)確地處理廣泛且復(fù)雜的信息,確保輸出與上下文相關(guān)。
與同等參數(shù)規(guī)模模型相比,它的推理、世界知識和編碼準(zhǔn)確性都處于領(lǐng)先地位。
下表結(jié)果所示,除了在MMLU基準(zhǔn)上,Mistral NeMo不如Gemma 2 9B。
但在多輪對話、數(shù)學(xué)、常識推理、世界知識和編碼等基準(zhǔn)中,超越了Gemma 2 9B和Llama 3 8B。
由于Mistral NeMo使用標(biāo)準(zhǔn)架構(gòu),因此兼容性強,易于使用,并且可以直接替代任何使用Mistral 7B的系統(tǒng)。
Mistral NeMo是一個擁有120億參數(shù)的模型,根據(jù)Apache 2.0許可證發(fā)布,任何人皆可下載使用。
此外,模型使用FP8數(shù)據(jù)格式進(jìn)行模型推理,這可以減少內(nèi)存大小并加快部署速度,而不會降低準(zhǔn)確性。
這意味著,模型可以流暢絲滑地學(xué)習(xí)任務(wù),并更有效地處理不同的場景,使其成為企業(yè)的理想選擇。
這種格式可以在任何地方輕松部署,各種應(yīng)用程序都能靈活使用。
因此,模型可以在幾分鐘內(nèi),部署到任何地方,免去等待和設(shè)備限制的煩惱。
Mistral NeMo瞄準(zhǔn)企業(yè)用戶的使用,采用屬于NVIDIA AI Enterprise一部分的企業(yè)級軟件,具有專用功能分支、嚴(yán)格的驗證流程以及企業(yè)級安全性的支持。
開放模型許可證也允許企業(yè)將Mistral NeMo無縫集成到商業(yè)應(yīng)用程序中。
Mistral NeMo NIM專為安裝在單個NVIDIA L40S、NVIDIA GeForce RTX 4090或NVIDIA RTX 4500 GPU的內(nèi)存上而設(shè)計,高效率低成本,并且保障安全性和隱私性。
也就是說,單個英偉達(dá)L40S,一塊GPU就可跑了。
對于希望實現(xiàn)先進(jìn)人工智能的企業(yè)來說,Mistral NeMo 12B提供了強大且實用的組合技。
先進(jìn)模型的開發(fā)和定制
Mistral AI和英偉達(dá)各自擅長的領(lǐng)域結(jié)合,優(yōu)化了Mistral NeMo的訓(xùn)練和推理。
模型利用Mistral AI的專業(yè)知識進(jìn)行訓(xùn)練,尤其是在多語言、代碼和多輪內(nèi)容方面,受益于英偉達(dá)全堆棧的加速訓(xùn)練。
它專為實現(xiàn)最佳性能而設(shè)計,利用高效的模型并行技術(shù)、可擴展性以及與Megatron-LM的混合精度。
該模型使用NVIDIA NeMo的一部分Megatron-LM進(jìn)行訓(xùn)練,在DGX Cloud上配備3,072個H100 80GB Tensor Core GPU,由NVIDIA AI架構(gòu)組成,包括加速計算、網(wǎng)絡(luò)結(jié)構(gòu)和軟件,以提高訓(xùn)練效率。
面向大眾的多語言模型
Mistral NeMo模型專為全球多語言應(yīng)用程序而設(shè)計。
它經(jīng)過函數(shù)調(diào)用訓(xùn)練,具有較大的上下文窗口,并且在英語、法語、德語、西班牙語、意大利語、葡萄牙語、中文、日語、韓語、阿拉伯語和印地語多語言方面性能強大。
可以說,這是將前沿人工智能模型帶到全世界不同語言使用者手中的重要一步。
Mistral NeMo在多語言基準(zhǔn)測試中的表現(xiàn)
Tekken:更高效的分詞器
Mistral NeMo使用基于Tiktoken的全新分詞器——Tekken,該分詞器已針對100多種語言進(jìn)行訓(xùn)練,并且比以前的Mistral模型中使用的SentencePiece分詞器更有效地壓縮自然語言文本和源代碼。
具體而言,在壓縮源代碼、中文、意大利語、法語、德語、西班牙語和俄語方面的效率提高了約30%;
在壓縮韓語和阿拉伯語方面的效率也分別提高了2倍和3倍。與Llama 3分詞器相比,Tekken在壓縮大約85%的所有語言的文本方面表現(xiàn)更為出色。
Tekken壓縮率
指令微調(diào)
Mistral NeMo已經(jīng)經(jīng)過了高級微調(diào)和對齊階段。與Mistral 7B相比,它在遵循精確指令、推理、處理多輪對話和生成代碼方面表現(xiàn)得更好。
Mistral NeMo指令微調(diào)模型精度,使用GPT-4o作為官方參考的評判標(biāo)準(zhǔn)進(jìn)行評估
可用性和部署
憑借在云、數(shù)據(jù)中心或RTX工作站等任何地方運行的靈活性,Mistral NeMo已準(zhǔn)備好成為徹底改變跨平臺使用AI應(yīng)用程序的先鋒。
用戶可以立即通過ai.nvidia.com作為NVIDIA NIM體驗Mistral NeMo,可下載的NIM版本即將推出。
有網(wǎng)友已經(jīng)迫不及待在英偉達(dá)NIM推理微服務(wù)中運行了Mistral NeMo 12B。
開發(fā)者現(xiàn)在可以使用mistral-inference試用Mistral NeMo,并使用mistral-finetune對其進(jìn)行微調(diào)。
Mistral NeMo在La Plateforme上以open-mistral-nemo-2407的名稱公開。