自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

小模型卷起來(lái)了:Mistral聯(lián)合英偉達(dá)開(kāi)源12B小模型,128k上下文

人工智能 新聞
隨著各行業(yè)的企業(yè)繼續(xù)努力將 AI 整合到他們的運(yùn)營(yíng)中,像 Mistral-NeMo 這樣的模型代表了向更高效、可部署的 AI 解決方案的轉(zhuǎn)變。

今天凌晨,OpenAI 突然發(fā)布了 GPT-4o 的迷你版本 ——GPT-4o mini。這個(gè)模型替代了原來(lái)的 GPT-3.5,作為免費(fèi)模型在 ChatGPT 上提供。其 API 價(jià)格也非常美麗,每百萬(wàn)輸入 token 僅為 15 美分,每百萬(wàn)輸出 token 60 美分, 比之前的 SOTA 模型便宜一個(gè)數(shù)量級(jí),比 OpenAI 此前最便宜的 GPT-3.5 Turbo 還要便宜 60% 以上。

OpenAI CEO 山姆?奧特曼對(duì)此的形容是:通往智能的成本已經(jīng)「too cheap to meter」。

圖片

與動(dòng)輒上千億參數(shù)的大模型相比,小模型的優(yōu)勢(shì)是顯而易見(jiàn)的:它們不僅計(jì)算成本更低,訓(xùn)練和部署也更為便捷,可以滿足計(jì)算資源受限、數(shù)據(jù)安全級(jí)別較高的各類場(chǎng)景。因此,在大筆投入大模型訓(xùn)練之余,像 OpenAI、谷歌等科技巨頭也在積極訓(xùn)練好用的小模型。

其實(shí),比 OpenAI 官宣 GPT-4o mini 早幾個(gè)小時(shí),被譽(yù)為「歐洲版 OpenAI」的 Mistral AI 也官宣了一個(gè)小模型 ——Mistral NeMo。

圖片

這個(gè)小模型由 Mistral AI 和英偉達(dá)聯(lián)合打造,參數(shù)量為 120 億(12B),上下文窗口為 128k

Mistral AI 表示,Mistral NeMo 的推理能力、世界知識(shí)和編碼準(zhǔn)確性在同類產(chǎn)品中都是 SOTA 級(jí)別的。由于 Mistral NeMo 依賴于標(biāo)準(zhǔn)架構(gòu),因此易于使用,可在任何使用 Mistral 7B 的系統(tǒng)中成為替代品。

下表比較了 Mistral NeMo 基本模型與兩個(gè)最新的開(kāi)源預(yù)訓(xùn)練模型(Gemma 2 9B 和 Llama 3 8B)的準(zhǔn)確性。(嚴(yán)格來(lái)講,這個(gè)對(duì)比不太公平,畢竟Mistral NeMo 的參數(shù)量比另外兩個(gè)都要大不少)

圖片

表 1:Mistral NeMo 基本模型與 Gemma 2 9B 和 Llama 3 8B 的性能比較。

他們?cè)?nbsp;Apache 2.0 許可證下發(fā)布了預(yù)訓(xùn)練的基本檢查點(diǎn)和指令微調(diào)檢查點(diǎn),允許商用。Mistral NeMo 經(jīng)過(guò)量化感知訓(xùn)練,可在不損失任何性能的情況下進(jìn)行 FP8 推理。

面向大眾的多語(yǔ)言模型

該模型專為全球多語(yǔ)言應(yīng)用而設(shè)計(jì)。它受過(guò)函數(shù)調(diào)用訓(xùn)練,擁有一個(gè)大型上下文窗口,在英語(yǔ)、法語(yǔ)、德語(yǔ)、西班牙語(yǔ)、意大利語(yǔ)、葡萄牙語(yǔ)、中文、日語(yǔ)、韓語(yǔ)、阿拉伯語(yǔ)和印地語(yǔ)方面表現(xiàn)尤為突出。

圖 1:Mistral NeMo 在多語(yǔ)言基準(zhǔn)測(cè)試中的表現(xiàn)。

Tekken:更高效的分詞器

Mistral NeMo 使用基于 Tiktoken 的新分詞器 Tekken,該分詞器經(jīng)過(guò) 100 多種語(yǔ)言的訓(xùn)練,能比以前 Mistral 模型中使用的 SentencePiece 分詞器更有效地壓縮自然語(yǔ)言文本和源代碼。在壓縮源代碼、中文、意大利文、法文、德文、西班牙文和俄文時(shí),它的效率要高出約 30%。在壓縮韓文和阿拉伯文時(shí),它的效率是原來(lái)的 2 倍和 3 倍。事實(shí)證明,與 Llama 3 分詞器相比,Tekken 在壓縮所有語(yǔ)言中約 85% 的文本方面更勝一籌。

圖片

圖 2:Tekken 的壓縮率。

指令微調(diào)

Mistral NeMO 經(jīng)歷了高級(jí)微調(diào)和對(duì)齊階段。與 Mistral 7B 相比,它在遵循精確指令、推理、處理多輪對(duì)話和生成代碼方面的能力大大提升。

圖片

表 2:Mistral NeMo 指令微調(diào)模型的準(zhǔn)確率。使用 GPT4o 作為裁判進(jìn)行的評(píng)估。

Mistral NeMo 基礎(chǔ)模型和指令微調(diào)模型的權(quán)重都托管在 HuggingFace 上。

  • 基礎(chǔ)模型:https://huggingface.co/mistralai/Mistral-Nemo-Base-2407
  • 指令微調(diào)模型:https://huggingface.co/mistralai/Mistral-Nemo-Instruct-2407

你現(xiàn)在就可以使用 mistral-inference 試用 Mistral NeMo,并使用 mistral-finetune 對(duì)其進(jìn)行調(diào)整。

該模型被還打包在一個(gè)容器中,作為 NVIDIA NIM inference 微服務(wù),可從 ai.nvidia.com 獲取。

模型變小之后,小公司也能用 AI 賺錢了

在接受 Venturebeat 采訪時(shí),英偉達(dá)應(yīng)用深度學(xué)習(xí)研究副總裁 Bryan Catanzaro 詳細(xì)闡述了小型模型的優(yōu)勢(shì)。他說(shuō):「小型模型更容易獲取和運(yùn)行,可以有不同的商業(yè)模式,因?yàn)槿藗兛梢栽诩抑凶约旱南到y(tǒng)上運(yùn)行它們。事實(shí)上,Mistral NeMo 可以在許多人已經(jīng)擁有的 RTX GPU 上運(yùn)行。」

圖片

這一進(jìn)展發(fā)生在 AI 行業(yè)的關(guān)鍵時(shí)刻。雖然很多注意力都集中在擁有數(shù)千億參數(shù)的龐大模型上,但人們對(duì)能夠在本地商業(yè)硬件上運(yùn)行的更高效模型越來(lái)越感興趣。這種轉(zhuǎn)變是由對(duì)數(shù)據(jù)隱私的擔(dān)憂、對(duì)更低延遲的需求以及對(duì)更具成本效益的 AI 解決方案的渴望所驅(qū)動(dòng)的。

Mistral-NeMo 128k 的上下文窗口是一個(gè)突出的功能,允許模型處理和理解比許多競(jìng)爭(zhēng)對(duì)手更多的文本塊。Catanzaro 說(shuō):「我們認(rèn)為長(zhǎng)上下文能力對(duì)許多應(yīng)用來(lái)說(shuō)可能很重要。如果無(wú)需進(jìn)行微調(diào),那模型會(huì)更容易部署。」

這種擴(kuò)展的上下文窗口對(duì)于處理冗長(zhǎng)文檔、復(fù)雜分析或復(fù)雜編碼任務(wù)的企業(yè)來(lái)說(shuō)尤其有價(jià)值。它有可能消除頻繁上下文刷新的需要,從而產(chǎn)生更加連貫一致的輸出。

該模型的效率和本地部署能力可能會(huì)吸引在聯(lián)網(wǎng)受限或有嚴(yán)格數(shù)據(jù)隱私要求的環(huán)境中運(yùn)營(yíng)的企業(yè)。然而,Catanzaro 澄清了該模型的預(yù)期使用場(chǎng)景。他說(shuō):「我會(huì)更多地考慮筆記本電腦和臺(tái)式電腦,而不是智能手機(jī)。」

這一定位表明,雖然 Mistral-NeMo 使 AI 更接近個(gè)人業(yè)務(wù)用戶,但它還沒(méi)有達(dá)到移動(dòng)部署的水平。

行業(yè)分析師認(rèn)為,這次發(fā)布可能會(huì)顯著擾亂 AI 軟件市場(chǎng)。Mistral-NeMo 的推出代表了企業(yè) AI 部署的潛在轉(zhuǎn)變。通過(guò)提供一種可以在本地硬件上高效運(yùn)行的模型,英偉達(dá)和 Mistral AI 正在解決阻礙許多企業(yè)廣泛采用 AI 的擔(dān)憂,如數(shù)據(jù)隱私、延遲以及與基于云的解決方案相關(guān)的高成本。

這一舉措可能會(huì)使競(jìng)爭(zhēng)環(huán)境更加公平,允許資源有限的小型企業(yè)利用以前只有擁有大量 IT 預(yù)算的大型公司才能獲得的 AI 能力。然而,這一發(fā)展的真實(shí)影響將取決于模型在實(shí)際應(yīng)用中的表現(xiàn)以及圍繞它構(gòu)建的工具和支持生態(tài)系統(tǒng)。

隨著各行業(yè)的企業(yè)繼續(xù)努力將 AI 整合到他們的運(yùn)營(yíng)中,像 Mistral-NeMo 這樣的模型代表了向更高效、可部署的 AI 解決方案的轉(zhuǎn)變。這是否會(huì)挑戰(zhàn)更大、基于云的模型的主導(dǎo)地位還有待觀察,但它無(wú)疑為 AI 在企業(yè)環(huán)境中的整合開(kāi)辟了新的可能性。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2024-03-25 00:05:00

開(kāi)源模型AI

2024-03-29 14:04:00

模型訓(xùn)練

2021-12-16 09:52:18

云計(jì)算行業(yè)科技

2023-08-25 13:27:00

模型開(kāi)源

2024-07-22 07:10:00

小模型機(jī)器學(xué)習(xí)蘋果

2024-07-22 07:50:00

模型英偉達(dá)

2025-01-14 12:22:06

2023-11-17 18:06:15

2025-03-18 08:14:05

2023-12-06 13:59:00

數(shù)據(jù)訓(xùn)練

2024-08-22 18:58:27

英偉達(dá)微軟小語(yǔ)言模型

2024-04-01 00:00:00

馬斯克Grok 1.5HumanEval

2024-03-14 08:11:45

模型RoPELlama

2023-07-11 10:02:23

2024-07-22 09:00:00

2023-11-26 18:05:00

文本訓(xùn)練

2024-06-17 08:55:00

2024-01-08 13:38:00

AI模型

2025-03-18 09:10:00

MCPAI模型上下文協(xié)議

2022-08-18 15:08:16

智能AI
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)