馬斯克兌現(xiàn)承諾,Grok模型攜3140億參數(shù)強勢開源,商業(yè)用途全免費!
馬斯克確實以其高效率和大膽的行動著稱,最近他旗下的AI初創(chuàng)企業(yè)xAI宣布了一項引人注目的舉措:開源了一個名為Grok-1[1]的混合專家模型。
這個模型擁有3140億個參數(shù),是目前參數(shù)量最大的開源大型語言模型之一,而允許商用、可修改和分發(fā),對各種自研大模型是一個很大的利好!這一行為不僅展示了馬斯克對開放源代碼和共享技術(shù)的一貫支持,也表明了他希望推動AI領(lǐng)域快速發(fā)展的決心截至目前,Grok-1已經(jīng)在 GitHub 上斬獲獲 28k 顆 Star。
項目介紹
讓我們先看下在Github的下載地址上,它的開源聲明都說了什么:
1.模型介紹
Grok-1模型擁有高達(dá)314億個參數(shù),采用了混合專家(MoE)層結(jié)構(gòu)。MoE層的實現(xiàn),在效率上存在局限,但這種結(jié)構(gòu)設(shè)計選擇是刻意為之,主要目的是為了簡化模型驗證流程,避免自定義內(nèi)核的需求。Grok-1 的模型細(xì)節(jié)包括如下:
- 基礎(chǔ)模型基于大量文本數(shù)據(jù)進行訓(xùn)練,沒有針對任何具體任務(wù)進行微調(diào);
- 3140 億參數(shù)的 MoE 模型,在給定 token 上的激活權(quán)重為 25%;
- 2023 年 10 月,xAI 使用 JAX 庫和 Rust 語言組成的自定義訓(xùn)練堆棧從頭開始訓(xùn)練。
2.許可協(xié)議
Grok-1遵循Apache 2.0許可證,賦予用戶以下權(quán)利:
- 「商業(yè)使用自由:」用戶有權(quán)將Grok-1用于商業(yè)用途,無需支付任何許可費用。
- 「源代碼修改及再分發(fā):」用戶可以對源代碼進行修改,并且可以在相同的許可證下對修改后的版本進行分發(fā)
- 「專利權(quán)授予:」該許可證自動授予用戶對軟件的所有專利權(quán)利,確保貢獻(xiàn)者無法基于專利對用戶提起訴訟。
- 「版權(quán)和許可聲明保留:」在分發(fā)軟件或其衍生版本時,必須包含原始的版權(quán)和許可聲明。
- 「責(zé)任限制:」雖然提供一定程度的保障,但軟件的作者或貢獻(xiàn)者不對因使用軟件可能產(chǎn)生的任何損害承擔(dān)責(zé)任。
看到這,有網(wǎng)友開始好奇 314B 參數(shù)的 Grok-1 到底需要怎樣的配置才能運行。對此有人給出答案:可能需要一臺擁有 628 GB GPU 內(nèi)存的機器(每個參數(shù) 2 字節(jié))。這么算下來,8xH100(每個 80GB)就可以了。
因此基本上個人是沒辦法用的,這個模型開源就是為了便于各種企業(yè)使用的,同時模型還提供了權(quán)重下載。
相關(guān)領(lǐng)域影響
Grok-1的開源對中小型企業(yè)在特定領(lǐng)域微調(diào)模型是一大利好。通過下載Grok進行微調(diào),可以為基于該模型的各種有趣應(yīng)用鋪平道路。
與之前開源的大型模型相比,Grok-1的參數(shù)規(guī)模更大。根據(jù)理論,模型的參數(shù)量越大,其潛在智能水平也應(yīng)該更高。正如OpenAI已經(jīng)驗證的那樣,巨大的參數(shù)量可能帶來意想不到的結(jié)果。
就像Stable Diffusion的開源對國內(nèi)各種AI繪畫工具軟件產(chǎn)生了影響一樣,Grok-1的開源可能會在各種垂直領(lǐng)域應(yīng)用中產(chǎn)生啟發(fā)作用,特別是在國內(nèi)應(yīng)用方面可能會迎來一波爆發(fā)。
網(wǎng)友分析
知名機器學(xué)習(xí)研究者、《Python 機器學(xué)習(xí)》暢銷書作者 Sebastian Raschka 評價道:「Grok-1 比其他通常帶有使用限制的開放權(quán)重模型更加開源,但是它的開源程度不如 Pythia、Bloom 和 OLMo,后者附帶訓(xùn)練代碼和可復(fù)現(xiàn)的數(shù)據(jù)集?!?/p>
DeepMind 研究工程師 Aleksa Gordié 則預(yù)測,Grok-1 的能力應(yīng)該比 LLaMA-2 要強,但目前尚不清楚有多少數(shù)據(jù)受到了污染。另外,二者的參數(shù)量也不是一個量級。
Grok-1的信息
Grok-1是由xAI公司開發(fā)的人工智能模型,擁有高達(dá)314億個參數(shù)。該模型采用了一種稱為混合專家(MoE)的技術(shù)。用人類團隊的比喻來說,這就像是一個團隊中有多位專家共同合作,每位專家都在自己擅長的領(lǐng)域發(fā)揮作用。
Grok-1的訓(xùn)練是從頭開始的,沒有專門針對任何特定任務(wù)進行優(yōu)化或調(diào)整。整個研發(fā)過程歷時四個月,期間經(jīng)歷了多次迭代。使用了JAX和Rust兩種編程語言,這兩者共同構(gòu)建了一個強大的訓(xùn)練基礎(chǔ)設(shè)施。為了訓(xùn)練Grok-1,xAI公司投入了大量資源,動用了上千塊GPU,并花費了數(shù)月時間。在訓(xùn)練過程中,還特別關(guān)注提高模型的容錯能力。
各界反應(yīng)
先看看ChatGPT如何回復(fù)馬斯克的嘲諷吧:
隨后山姆奧特曼也回復(fù)了這件事情:
Reference:[1]Grok-1:https://github.com/xai-org/grok-1.git