自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="9b3q3"><p id="9b3q3"></p></sub>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

新開源之王來了！1320億參數(shù)，邏輯數(shù)理全面打贏Grok，還比Llama2-70B快1倍

作者：量子位 2024-03-28 12:53:00

人工智能新聞

在總參數(shù)量接近Llama2-70B的2倍的情況下，DBRX的生成速度也比Llama2-70B快1倍。

“最強”開源大模型之爭，又有新王入局：

大數(shù)據(jù)巨頭Databricks，剛剛發(fā)布MoE大模型DBRX，并宣稱：

它在基準(zhǔn)測試中擊敗了此前所有開源模型。

包括同為混合專家模型的Grok-1和Mixtral。

新王攪局，迅速引發(fā)了開源社區(qū)的熱議。

畢竟，僅從紙面數(shù)據(jù)來看，DBRX頗具特點：總參數(shù)量為1320億，但因為是混合專家模型，每次激活參數(shù)量僅為360億。

就是說，在總參數(shù)量接近Llama2-70B的2倍的情況下，DBRX的生成速度也比Llama2-70B快1倍。

△DBRX vs Llama2-70B

另外，DBRX是在12T token上從頭訓(xùn)練的，訓(xùn)練數(shù)據(jù)量是Llama2的6倍，也就是Chinchilla定律推薦量的18倍。

網(wǎng)友們的第一反應(yīng)be like：

首席科學(xué)家：打賭輸了就把頭發(fā)染藍(lán)

來看DBRX的具體細(xì)節(jié)。

DBRX由16個專家模型組成，每次訓(xùn)練推理會有4個專家處于激活狀態(tài)。其上下文長度為32K。

為了訓(xùn)練DBRX，Databricks團隊從云廠商那里租用了3072個H100。

一個細(xì)節(jié)是，團隊向Wired透露，經(jīng)過兩個月的訓(xùn)練之后，DBRX已經(jīng)在基準(zhǔn)測試中取得了不錯的分?jǐn)?shù)。而在那個時候，他們買的云資源還能再跑一個星期。

團隊因此產(chǎn)生了小小的分歧：是用這些資源來訓(xùn)練一個小杯版本，還是再投喂給模型一些高質(zhì)量數(shù)據(jù)，用課程學(xué)習(xí)（curriculum learning）的方法來提高DBRX在一些特定任務(wù)上的能力？

經(jīng)過一番熱烈的內(nèi)部討論，Databricks團隊最終決定走課程學(xué)習(xí)路線。

正是這一決策使他們收獲頗豐：

Databricks首席科學(xué)家Jonathan Frankle（就叫他老弗吧）認(rèn)為，課程學(xué)習(xí)使得DBRX“產(chǎn)生了有意義的變化”。

具象化一點來說，就是老弗本來覺得DBRX可能搞不太定代碼生成，還打賭說如果他判斷錯了，就去把頭發(fā)染成藍(lán)色。

而這是他的最新照片：

回到正題，DBRX的測試結(jié)果顯示，它在語言理解、編程、數(shù)學(xué)和邏輯方面都達(dá)到了SOTA，擊敗包括Llama2-70B、Mixtral和Grok-1在內(nèi)的一眾開源大模型。

還在大多數(shù)基準(zhǔn)測試中都擊敗了GPT-3.5。

Databricks這次開源了DBRX的兩個版本：DBRX Base和DBRX Instruct，前者是預(yù)訓(xùn)練基礎(chǔ)模型，后者則經(jīng)過指令微調(diào)。

老弗還對Wired透露，他們團隊接下來計劃對模型訓(xùn)練的那個“最后一周”展開研究，看看DBRX這樣強大的模型是如何在其中收獲額外技能的。

值得一提的是，去年6月，Databricks以13億美元（約93億人民幣）的價格，買下了僅62名員工的AI初創(chuàng)公司MosaicML——

就是發(fā)布了MPT系列開源模型的那家。

老弗當(dāng)時就是MosaicML的首席科學(xué)家。此后，他和他的團隊一起留在了Databricks。

開源社區(qū)嗨翻

DBRX發(fā)布不到4小時，已經(jīng)有人把它成功部署到蘋果M2芯片筆記本電腦上了。

而大模型競技場也第一時間開放了DBRX-instruct的投票。

不過，也有人對DBRX的“開源”提出了質(zhì)疑：

根據(jù)Databricks公布的協(xié)議，基于DBRX打造的產(chǎn)品，如果月活超過7億，就必須另行向Databricks提交申請。

責(zé)任編輯：張燕妮來源：量子位

AI 數(shù)據(jù)

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<sub id="fnbex"><p id="fnbex"></p></sub>

^{<sub id="fnbex"></sub>}