8x7B開源MoE擊敗Llama 2逼近GPT-4!歐版OpenAI震驚AI界,22人公司半年估值20億
開源奇跡再一次上演:Mistral AI發(fā)布了首個開源MoE大模型。
幾天前,一條磁力鏈接,瞬間震驚了AI社區(qū)。
87GB的種子,8x7B的MoE架構(gòu),看起來就像一款mini版「開源GPT-4」!
無發(fā)布會,無宣傳視頻,一條磁力鏈接,就讓開發(fā)者們夜不能寐。
這家成立于法國的AI初創(chuàng)公司,在開通官方賬號后僅發(fā)布了三條內(nèi)容。
6月,Mistral AI上線。7頁PPT,獲得歐洲歷史上最大的種子輪融資。
9月,Mistral 7B發(fā)布,號稱是當時最強的70億參數(shù)開源模型。
12月,類GPT-4架構(gòu)的開源版本Mistral 8x7B發(fā)布。幾天后,外媒金融時報公布Mistral AI最新一輪融資4.15億美元,估值高達20億美元,翻了8倍。
如今20多人的公司,創(chuàng)下了開源公司史上最快增長紀錄。
所以,閉源大模型真的走到頭了?
8個7B小模型,趕超700億參數(shù)Llama 2
更令人震驚的是,就在剛剛,Mistral-MoE的基準測試結(jié)果出爐——
可以看到,這8個70億參數(shù)的小模型組合起來,直接在多個跑分上超過了多達700億參數(shù)的Llama 2。
來源:OpenCompass
英偉達高級研究科學(xué)家Jim Fan推測,Mistral可能已經(jīng)在開發(fā)34Bx8E,甚至100B+x8E的模型了。而它們的性能,或許已經(jīng)達到了GPT-3.5/3.7的水平。
這里簡單介紹一下,所謂專家混合模型(MoE),就是把復(fù)雜的任務(wù)分割成一系列更小、更容易處理的子任務(wù),每個子任務(wù)由一個特定領(lǐng)域的「專家」負責。
1. 專家層:這些是專門訓(xùn)練的小型神經(jīng)網(wǎng)絡(luò),每個網(wǎng)絡(luò)都在其擅長的領(lǐng)域有著卓越的表現(xiàn)。
2. 門控網(wǎng)絡(luò):這是MoE架構(gòu)中的決策核心。它負責判斷哪個專家最適合處理某個特定的輸入數(shù)據(jù)。門控網(wǎng)絡(luò)會計算輸入數(shù)據(jù)與每個專家的兼容性得分,然后依據(jù)這些得分決定每個專家在處理任務(wù)中的作用。
這些組件共同作用,確保適合的任務(wù)由合適的專家來處理。門控網(wǎng)絡(luò)有效地將輸入數(shù)據(jù)引導(dǎo)至最合適的專家,而專家們則專注于自己擅長的領(lǐng)域。這種合作性訓(xùn)練使得整體模型變得更加多功能和強大。
有人在評論區(qū)發(fā)出靈魂拷問:MoE是什么?
根據(jù)網(wǎng)友分析,Mistral 8x7B在每個token的推理過程中,只使用了2個專家。
以下是從模型元數(shù)據(jù)中提取的信息:
{"dim": 4096, "n_layers": 32, "head_dim": 128, "hidden_dim": 14336, "n_heads": 32, "n_kv_heads": 8, "norm_eps": 1e-05, "vocab_size": 32000, "moe": {"num_experts_per_tok": 2, "num_experts": 8}
與GPT-4(網(wǎng)傳版)相比,Mistral 8x7B具有類似的架構(gòu),但在規(guī)模上有所縮減:
- 專家數(shù)量為8個,而不是16個(減少了一半)
- 每個專家擁有70億參數(shù),而不是1660億(減少了約24倍)
- 總計420億參數(shù)(估計值),而不是1.8萬億(減少了約42倍)
- 與原始GPT-4相同的32K上下文窗口
此前曾曝出,GPT-4很可能是由8個或者是16個MoE構(gòu)成
目前,已經(jīng)有不少開源模型平臺上線了Mistral 8×7B,感興趣的讀者可以親自試一試它的性能。
LangSmith:https://smith.langchain.com/
Perplexity Labs:https://labs.perplexity.ai/
OpenRouter:https://openrouter.ai/models/fireworks/mixtral-8x7b-fw-chat
超越GPT-4,只是時間問題?
網(wǎng)友驚呼,Mistral AI才是OpenAI該有的樣子!
有人表示,這個基準測試結(jié)果,簡直就是初創(chuàng)公司版本的超級英雄故事!
無論是Mistral和Midjourney,顯然已經(jīng)破解了密碼,接下來,要超越GPT-4只是問題。
深度學(xué)習(xí)大牛Sebastian Raschka表示,基準測試中最好再加入Zephyr 7B這一列,因為它是基于Mistral 7B的。這樣,我們就可以直觀地看出Mistral微調(diào)和Mistral MoE的對比。
有人表示質(zhì)疑:這些指標主要是對基礎(chǔ)模型有意義,而不是對聊天/指令微調(diào)。
Raschka回答說,沒錯,但這仍然可以看作是一種健全性檢測,因為指令微調(diào)經(jīng)常會損害模型的知識,以及基于QA的性能。
對于指令微調(diào)模型,添加MT-Bench和AlpacaEval等對話基準測試是有意義的。
并且,Raschka也強調(diào),自己只是假設(shè)Mistral MoE沒有經(jīng)過指令微調(diào),現(xiàn)在急需一份paper。
而且,Raschka也懷疑道:Mistral MoE真的能超越Llama 2 7B嗎?
幾個月前就有傳言,說原始的Mistra 7B模型可能在基準數(shù)據(jù)集上進行了訓(xùn)練,那么這次的Mistral 8x7B是否也是如此?
軟件工程師Anton回答說,我們也并不能確定GPT-4沒有在基準測試上訓(xùn)練??紤]到Mistral團隊是前Llama的作者,希望他們能避免污染的問題。
Raschka表示,非常希望研究界為這些LLM組織一場Kaggle競賽,其中一定要有包含尚未使用數(shù)據(jù)的全新基準數(shù)據(jù)集。
也有人討論到,所以現(xiàn)在大模型的瓶頸究竟是什么?是數(shù)據(jù),計算,還是一些神奇的Transformer微調(diào)?
這些模型之間最大的區(qū)別,似乎只是數(shù)據(jù)集。OpenAI有人提到過,他們訓(xùn)練了大量的類GPT模型,與訓(xùn)練數(shù)據(jù)相比,架構(gòu)更改對性能的影響不大。
有人表示,對「7Bx8E=50B」的說法很感興趣。是否是因為此處的「集成」是基于LoRa方法,從而節(jié)省了很多參數(shù)?
(7x8=56,而6B對于LoRa方法來說節(jié)省得很少,主要是因為它可以重復(fù)使用預(yù)訓(xùn)練權(quán)重)
有人已經(jīng)期待,有望替代Transformer的全新Mamba架構(gòu)能夠完成這項工作,這樣Mistral-MoE就可以更快、更便宜地擴展。
OpenAI科學(xué)家Karpathy的言語中,還暗戳戳嘲諷了一把谷歌Gemini的虛假視頻演示。
畢竟,比起提前剪輯好的視頻demo,Mistral AI的宣傳方式實在太樸素了。
不過,對于Mitral MoE是第一個開源MoE大模型的說法,有人出來辟了謠。
在Mistral放出這個開源的7B×8E的MoE之前,英偉達和谷歌也放出過其他完全開源的MoE。
曾在英偉達實習(xí)的新加坡國立大學(xué)博士生Fuzhao Xue表示,他們的團隊在4個月前也開源了一個80億參數(shù)的MoE模型。
成立僅半年,估值20億
由前Meta和谷歌研究人員創(chuàng)立,這家總部位于巴黎的初創(chuàng)公司Mistral AI,僅憑6個月的時間逆襲成功。
值得一提的是,Mistral AI已在最新一輪融資中籌集3.85億歐元(約合4.15億美元)。
這次融資讓僅有22名員工的明星公司,估值飆升至約20億美元。
這次參與投資的,包括硅谷的風(fēng)險投資公司Andreessen Horowitz(a16z)、英偉達、Salesforce等。
6個月前,該公司剛剛成立僅幾周,員工僅6人,還未做出任何產(chǎn)品,卻拿著7頁的PPT斬獲了1.13億美元巨額融資。
現(xiàn)在,Mistral AI估值相當于翻了近10倍。
說來這家公司的名頭,可能并不像OpenAI名滿天下,但是它的技術(shù)能夠與ChatGPT相匹敵,算得上是OpenAI勁敵之一。
而它們分別是兩個極端派————開源和閉源的代表。
Mistral AI堅信其技術(shù)以開源軟件的形式共享,讓任何人都可以自由地復(fù)制、修改和再利用這些計算機代碼。
這為那些希望迅速構(gòu)建自己的聊天機器人的外部開發(fā)者提供了所需的一切。
然而,在OpenAI、谷歌等競爭對手看來,開源會帶來風(fēng)險,原始技術(shù)可能被用于傳播假信息和其他有害內(nèi)容。
Mistral AI背后開源理念的起源,離不開核心創(chuàng)始人,創(chuàng)辦這家公司的初心。
今年5月,Meta巴黎AI實驗室的研究人員Timothée Lacroix和Guillaume Lample,以及DeepMind的前員工Arthur Mensch共同創(chuàng)立Mistral AI。
論文地址:https://arxiv.org/pdf/2302.13971.pdf
人人皆知,Meta一直是推崇開源公司中的佼佼者。回顧2023年,這家科技巨頭已經(jīng)開源了諸多大模型,包括LLaMA 2、Code LLaMA等等。
因此,不難理解Timothée Lacroix和Guillaume Lample創(chuàng)始人從前東家繼承了這一傳統(tǒng)。
有趣的是,創(chuàng)始人姓氏的首字母恰好組成了「L.L.M.」。
這不僅是姓名首字母簡寫,也恰好是團隊正在開發(fā)的大語言模型(Large Language Model)的縮寫。
這場人工智能競賽中,OpenAI、微軟、谷歌等科技公司早已成為行業(yè)的佼佼者,并在LLM研發(fā)上上斥資數(shù)千億美元。
憑借充足的互聯(lián)網(wǎng)數(shù)據(jù)養(yǎng)料,使得大模型能自主生成文本,從而回答問題、創(chuàng)作詩歌甚至寫代碼,讓全球所有公司看到了這項技術(shù)的巨大潛力。
因此OpenAI、谷歌在發(fā)布新AI系統(tǒng)前,都將花費數(shù)月時間,做好LLM的安全措施,防止這項技術(shù)散播虛假信息、仇恨言論及其他有害內(nèi)容。
Mistral AI的首席執(zhí)行官Mensch表示,團隊為LLM設(shè)計了一種更高效、更具成本效益的訓(xùn)練方法。而且模型的運行成本不到他們的一半。
有人粗略估計,每月大約300萬美元的Mistral 7B可以滿足全球免費ChatGPT用戶100%的使用量。
他們對自家模型的既定目標,就是大幅擊敗ChatGPT-3.5,以及Bard。
然而,很多AI研究者、科技公司高、還有風(fēng)險投資家認為,真正贏得AI競賽的將是——那些構(gòu)建同樣技術(shù)并免費提供給大眾的公司,且不設(shè)任何安全限制。
Mistral AI的誕生,如今被視為法國挑戰(zhàn)美國科技巨頭的一個機遇。
自互聯(lián)網(wǎng)時代開啟以來,歐洲鮮有在全球影響重大的科技公司,但在AI領(lǐng)域,Mistral AI讓歐洲看到了取得進展的可能。
另一邊,投資者們正大力投資那些信奉「開源理念」的初創(chuàng)公司。
去年12月,曾在OpenAI和DeepMind擔任研究科學(xué)家創(chuàng)立了Perplexity AI,在最近完成了一輪7000萬美元的融資,公司估值達到了5億美元。
風(fēng)險投資公司a16z的合伙人Anjney Midha對新一輪Mistral的投資表示:
我們堅信 AI 應(yīng)該是開放源代碼的。推動現(xiàn)代計算的許多主要技術(shù)都是開源的,包括計算機操作系統(tǒng)、編程語言和數(shù)據(jù)庫。廣泛分享人工智能底層代碼是最安全的途徑,因為這樣可以有更多人參與審查這項技術(shù),發(fā)現(xiàn)并解決潛在的缺陷。
沒有任何一個工程團隊能夠發(fā)現(xiàn)所有問題。大型社區(qū)在構(gòu)建更便宜、更快、更優(yōu)、更安全的軟件方面更有優(yōu)勢。
創(chuàng)始人Mensch在采訪中透露,公司目前還沒有盈利,不過會在「年底前」發(fā)生改變。
目前,Mistral AI已經(jīng)研發(fā)了一個訪問AI模型的新平臺,以供第三方公司使用。