自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<cite id="v9sw9"></cite><sub id="v9sw9"></sub>

<style id="v9sw9"><rp id="v9sw9"></rp></style>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

467億參數(shù)MoE追平GPT-3.5！爆火開源Mixtral模型細節(jié)首公開，中杯逼近GPT-4

作者：新智元 2023-12-12 13:57:00

今天，Mistral AI公布了Mixtral 8x7B的技術(shù)細節(jié)，不僅性能強勁，而且推理速度更快！還有更強型號的Mistral-medium也已開啟內(nèi)測，性能直追GPT-4。

今天，Mistral AI正式放出了Mixtral 8x7B的技術(shù)細節(jié)——

在大多數(shù)基準測試中，Mixtral的表現(xiàn)不僅優(yōu)于Llama 2 70B，而且推理速度提高了整整6倍！

尤其是，它在大多數(shù)標準基準測試上與GPT-3.5打平，甚至略勝一籌。

新開源的Mixtral 8x7B自帶了一些出色的表現(xiàn)：

比如可以很好地處理32k長度的上下文，支持英語、法語、意大利語、德語和西班牙語，且在代碼生成方面表現(xiàn)出強大的性能。

另外，它可以微調(diào)為指令跟隨模型（instruction-following model），在MT-Bench上獲得了8.3分的好成績。

467億參數(shù)打平GPT-3.5

Mixtral是基于decoder-only架構(gòu)的稀疏專家混合網(wǎng)絡。

它的前饋模塊從8組不同的參數(shù)中進行選擇。在每一層網(wǎng)絡中，對于每個token，路由器網(wǎng)絡選擇8組中的兩組（專家），來處理token并將其輸出累加組合。

這種技術(shù)增加了模型的參數(shù)數(shù)量，同時控制了成本和延遲，因為模型只使用每個token參數(shù)集總數(shù)的一小部分。

Mixtral有46.7B的總參數(shù)量，但每個token只使用其中12.9B參數(shù)。因此，Mixtral的實際執(zhí)行速度和所需的成本，都只相當于一個12.9B的模型。

Mixtral根據(jù)從開放網(wǎng)絡中提取的數(shù)據(jù)進行預訓練——包括訓練專家網(wǎng)絡和路由模塊。

性能實測

如下圖所示，在大多數(shù)基準測試中，Mixtral與Llama 2 70B和GPT-3.5表現(xiàn)相當，其中的幾項測試結(jié)果還要優(yōu)于另外兩個模型。

圖片

下圖展示了模型生成質(zhì)量與推理消耗成本的關(guān)系。與Llama 2相比，Mistral 7B和Mixtral 8x7B表現(xiàn)出自己高能效的優(yōu)勢。

圖片

更加詳細的比較結(jié)果看下面的表格：

圖片

下面來看下模型在幻覺和偏見問題上的表現(xiàn)。

公平起見，為了避免微調(diào)或者偏好建模帶來的影響，這里使用BBQ和BOLD來測試基本模型的性能。

圖片

從上面的結(jié)果可以看出，與Llama 2相比，Mixtral更真實，并且在BBQ基準上表現(xiàn)出更少的偏差。

另外，Mixtral在BOLD上表現(xiàn)出比Llama 2更積極的情緒，每個維度的差異相似。

圖片

上表中，在各種支持的語言上與Llama 2進行PK，Mixtral 8x7B可以說是「精通」法語、德語、西班牙語、意大利語和英語。

本次發(fā)布的Mixtral 8x7B Instruct和Mixtral 8x7B，已通過監(jiān)督微調(diào)和直接偏好優(yōu)化（DPO）進行了優(yōu)化，并實現(xiàn)了指令的跟隨。

在MT-Bench上，它的得分達到了8.30——是目前開源模型的最好成績，性能可與GPT-3.5相媲美。

用戶還可以通過提示的方式，進一步約束Mixtral，從而構(gòu)建一些需要嚴格審核級別的應用程序。

另外，為了使社區(qū)能夠使用完全開源的堆棧運行Mixtral，開發(fā)人員提交了對vLLM項目的更新，并集成了Megablocks CUDA內(nèi)核以實現(xiàn)高效推理。

逼近GPT-4，「中杯」開啟內(nèi)測

與此同時，Mistral AI還開放了首個平臺服務的測試版——la plateforme。

其中，平臺提供了三個基于指令生成文本的聊天模型，以及一個嵌入模型。

目前，mistral-tiny和mistral-small已經(jīng)正式發(fā)布，而性能更強的mistral-medium還處在測試階段。

這些模型首先在開放網(wǎng)絡抽取的數(shù)據(jù)上進行預訓練，隨后通過標注進行指令微調(diào)，并融合了最為有效的對齊技術(shù)（如高效微調(diào)、直接偏好優(yōu)化）。

- Mistral-tiny

基于Mistral 7B Instruct v0.2的Mistral-tiny是最具性價比的模型，它在MT-Bench上的得分為7.6，但僅支持英語。

- Mistral-small

作為最新開源的模型，Mixtral 8x7B在MT-Bench上的得分達到了8.3，并支持英語、法語、意大利語、德語、西班牙語和代碼生成。

- Mistral-medium

這是Mistral AI推出的最強開源模型，雖然目前還處在原型階段，但它在主流評測上已經(jīng)可以實現(xiàn)對GPT-3.5的碾壓了！

Mistral-medium在MT-Bench上拿下了8.6的高分，同樣支持英語、法語、意大利語、德語、西班牙語和代碼生成。

圖片

- Mistral-embed

除了文本生成模型外，Mistral還提供了一個具有1024嵌入維度的嵌入模型。

在設計模型時，團隊著重增強了它的檢索功能，從而在MTEB上實現(xiàn)了高達55.26的檢索得分。

從測試到全面開放

從今天起，任何人都可以注冊并使用Mistral的API。

該API與其主要競品類似，并且支持Python和Javascript客戶端庫，從而讓用戶可以方便地檢查模型端點。

此外，Mistral還允許用戶設置系統(tǒng)提示，以便在模型輸出中實施更高級別的內(nèi)容審查。這一功能對于某些應用來說非常重要。

不過，由于平臺還處在測試階段，使用過程中可能會出現(xiàn)一些小的問題。

致謝

感謝英偉達在TensorRT-LLM和Triton的整合，以及使專家稀疏混合模型與TRT-LLM兼容方面，提供的支持。

網(wǎng)友熱議

鑒于Mistral-Medium的強力表現(xiàn)，有網(wǎng)友翻出了GPT-4在相關(guān)測試中的分數(shù)：

圖片

結(jié)果，Mistral-Medium在Winogrande基準測試中優(yōu)于GPT-4。

由于Mistral-Medium的能力貌似可與GPT-4一戰(zhàn)，所以有網(wǎng)友自然開始比較兩者的價格。

圖片

圖片

這位網(wǎng)友表示Mistral-Medium的價格約為GPT4-turbo價格的1/4，比自己預期的要昂貴。

對此，也有網(wǎng)友表示反對：「恕我直言，這個價格很公道。小規(guī)模模型和GPT-3.5相當，并且更便宜。中等的價格則要高很多，但仍然只有GPT4-turbo的1/4?！?/span>

圖片

另外也有網(wǎng)友討論和猜測新的Mixtral 8x7B的技術(shù)內(nèi)幕：

圖片

通過比較Mixtral 8x7B和Mistral 7B每層的相似度，這位網(wǎng)友指出Mistral可能已經(jīng)大規(guī)模地進行了稀疏的升級再造工作。

圖片

「兩個模型的權(quán)重之間的顯著相關(guān)性證明了模型的成功重用。這種方法可以賦予OSS社區(qū)自己強大的MoE！希望我們能盡快看到類似于GPT-4的開源質(zhì)量！」

參考資料：https://mistral.ai/news/mixtral-of-experts/

責任編輯：武曉燕來源：新智元

GPT-3.5 Mistral AI

51CTO技術(shù)棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

^{<sub id="2mjep"></sub>}