新開源之王來了!1320億參數(shù),邏輯數(shù)理全面打贏Grok,還比Llama2-70B快1倍
“最強”開源大模型之爭,又有新王入局:
大數(shù)據(jù)巨頭Databricks,剛剛發(fā)布MoE大模型DBRX,并宣稱:
它在基準(zhǔn)測試中擊敗了此前所有開源模型。
包括同為混合專家模型的Grok-1和Mixtral。
新王攪局,迅速引發(fā)了開源社區(qū)的熱議。
畢竟,僅從紙面數(shù)據(jù)來看,DBRX頗具特點:總參數(shù)量為1320億,但因為是混合專家模型,每次激活參數(shù)量僅為360億。
就是說,在總參數(shù)量接近Llama2-70B的2倍的情況下,DBRX的生成速度也比Llama2-70B快1倍。
△DBRX vs Llama2-70B
另外,DBRX是在12T token上從頭訓(xùn)練的,訓(xùn)練數(shù)據(jù)量是Llama2的6倍,也就是Chinchilla定律推薦量的18倍。
網(wǎng)友們的第一反應(yīng)be like:
首席科學(xué)家:打賭輸了就把頭發(fā)染藍(lán)
來看DBRX的具體細(xì)節(jié)。
DBRX由16個專家模型組成,每次訓(xùn)練推理會有4個專家處于激活狀態(tài)。其上下文長度為32K。
為了訓(xùn)練DBRX,Databricks團隊從云廠商那里租用了3072個H100。
一個細(xì)節(jié)是,團隊向Wired透露,經(jīng)過兩個月的訓(xùn)練之后,DBRX已經(jīng)在基準(zhǔn)測試中取得了不錯的分?jǐn)?shù)。而在那個時候,他們買的云資源還能再跑一個星期。
團隊因此產(chǎn)生了小小的分歧:是用這些資源來訓(xùn)練一個小杯版本,還是再投喂給模型一些高質(zhì)量數(shù)據(jù),用課程學(xué)習(xí)(curriculum learning)的方法來提高DBRX在一些特定任務(wù)上的能力?
經(jīng)過一番熱烈的內(nèi)部討論,Databricks團隊最終決定走課程學(xué)習(xí)路線。
正是這一決策使他們收獲頗豐:
Databricks首席科學(xué)家Jonathan Frankle(就叫他老弗吧)認(rèn)為,課程學(xué)習(xí)使得DBRX“產(chǎn)生了有意義的變化”。
具象化一點來說,就是老弗本來覺得DBRX可能搞不太定代碼生成,還打賭說如果他判斷錯了,就去把頭發(fā)染成藍(lán)色。
而這是他的最新照片:
回到正題,DBRX的測試結(jié)果顯示,它在語言理解、編程、數(shù)學(xué)和邏輯方面都達(dá)到了SOTA,擊敗包括Llama2-70B、Mixtral和Grok-1在內(nèi)的一眾開源大模型。
還在大多數(shù)基準(zhǔn)測試中都擊敗了GPT-3.5。
Databricks這次開源了DBRX的兩個版本:DBRX Base和DBRX Instruct,前者是預(yù)訓(xùn)練基礎(chǔ)模型,后者則經(jīng)過指令微調(diào)。
老弗還對Wired透露,他們團隊接下來計劃對模型訓(xùn)練的那個“最后一周”展開研究,看看DBRX這樣強大的模型是如何在其中收獲額外技能的。
值得一提的是,去年6月,Databricks以13億美元(約93億人民幣)的價格,買下了僅62名員工的AI初創(chuàng)公司MosaicML——
就是發(fā)布了MPT系列開源模型的那家。
老弗當(dāng)時就是MosaicML的首席科學(xué)家。此后,他和他的團隊一起留在了Databricks。
開源社區(qū)嗨翻
DBRX發(fā)布不到4小時,已經(jīng)有人把它成功部署到蘋果M2芯片筆記本電腦上了。
而大模型競技場也第一時間開放了DBRX-instruct的投票。
不過,也有人對DBRX的“開源”提出了質(zhì)疑:
根據(jù)Databricks公布的協(xié)議,基于DBRX打造的產(chǎn)品,如果月活超過7億,就必須另行向Databricks提交申請。