自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

最強開源大模型易主,號稱超過Llama 2、Mixtral、Grok-1的DBRX是什么?

發(fā)布于 2024-4-2 12:17
瀏覽
0收藏

3月27日,美國數(shù)據(jù)和人工智能公司Databricks宣布開源Mosaic Research團隊主導開發(fā)的通用混合專家(MoE)大語言模型DBRX。

DBRX的研發(fā)歷經(jīng)數(shù)月,耗資約1000萬美元,共包含1320億參數(shù),16個專家網(wǎng)絡,每次推理時會啟用其中的4個專家網(wǎng)絡和360億參數(shù)。

DBRX在語言理解、編程、數(shù)學和邏輯等方面表現(xiàn)卓越,不僅在性能上超過了開源大模型Llama 2、Mixtral以及馬斯克新開源的Grok-1,而且在多項評分上已經(jīng)逼近GPT-4。

HyperWriteAI CEO Matt Shumer在測試后直呼:“新的開源之王降臨!”

Databricks首席神經(jīng)網(wǎng)絡架構師、DBRX開發(fā)團隊負責人Jonathan Frankle幽默地表示:“如果我們能得到馬斯克一條‘酸’我們的推文,就證明我們真的成功了?!?/p>

Databricks聯(lián)合創(chuàng)始人、CEO Ali Ghodsi在X中寫到:DBRX在標準基準測試中擊敗了以前所有的開源模型,它在保持高性能的同時更加經(jīng)濟。DBRX有著大約兩倍于Llama2-70B的“智慧”,但參數(shù)量只有36B左右。由于實時使用的專家參數(shù)只有36B,所以它的速度(tokens/秒)幾乎是Llama2-70B的兩倍。

簡單來說,DBRX比Llama2-70B更“聰明”、更“高效”。

最強開源大模型易主,號稱超過Llama 2、Mixtral、Grok-1的DBRX是什么?-AI.x社區(qū)

圖片來源:@Ali Ghodsi

MosaicML團隊也是AI領域最大收購案的主角。去年6月,數(shù)據(jù)和人工智能公司Databricks以折合人民幣約94億元的價格,收購了員工總數(shù)僅為62人的MosaicML公司。

今天MosaicML研究團隊的成就,足以證明Databricks的好眼光。

通過開源DBRX模型,Databricks希望突破當前生成式AI熱潮中的“保密主義”。他們的目標是推動技術創(chuàng)新,讓強大的AI工具被更多開發(fā)者使用。

領先的細粒度MoE大模型

Databricks在博客文章中介紹,DBRX是一個采用了細粒度(Fine-grained)混合專家(MoE)架構的基于Transformer的解碼器型大型語言模型(LLM)。

它共有132B的參數(shù),其中36B的參數(shù)在任何給定的輸入上處于激活狀態(tài)。DBRX在12T個文本和代碼數(shù)據(jù)的tokens上進行了預訓練。與其他開源的MoE模型(如Mixtral等)相比,DBRX的特點是細粒度(Fine-grained),即它使用了更多數(shù)量“小專家”。DBRX擁有16個專家,每次選擇4個;而Mixtral和Grok-1分別擁有8個專家,每次選擇2個。這種設置提供了65倍以上可能的專家組合。

DBRX還采用了旋轉(zhuǎn)位置編碼(RoPE)、門控線性單元(GLU)和分組查詢注意力(GQA)技術,同時使用了GPT-4的分詞器。DBRX在一組精心挑選的、包含12T tokens的數(shù)據(jù)上進行了預訓練,其最大上下文長度達到了 32k tokens。

DBRX在語言理解、編程、數(shù)學和邏輯方面輕松擊敗當前頂尖的開源模型,包括Meta的Llama 2-70B、法國MixtralAI的Mixtral以及馬斯克的xAI開發(fā)的Grok-1。

Databricks還提出了一個全新的開源基準測試指標“Gauntlet”,可以通過30多種不同的先進模型基準測試。

同時,DBRX 在語言理解(MMLU)、編程(HumanEval)和數(shù)學(GSM8K)方面超越了現(xiàn)有的開源模型。

最強開源大模型易主,號稱超過Llama 2、Mixtral、Grok-1的DBRX是什么?-AI.x社區(qū)

DBRX在語言理解、編程和數(shù)學方面的測試結果來源:Databricks博客

綜合基準測試方面,DBRX團隊在兩個綜合基準測試上評估了DBRX Instruct等。一是Hugging Face開源LLM排行榜,評估的任務包括ARC-Challenge、HellaSwag、MMLU、TruthfulQA、WinoGrande、GSM8k的平均分。二是Databricks模型測試套件,涵蓋6個類別的30多項任務套件:世界知識、常識推理、語言理解、閱讀理解、符號問題解決和編程。

DBRX Instruct這兩個綜合基準測試上得分都是最高的。其中,在Hugging Face開源LLM排行榜中得分74.5%,第二名是Mixtral Instruct,得分72.7%。在Databricks的模型測試套件中得分66.8%,第二名依舊是Mixtral Instruct得分60.7%。

而在編程和數(shù)學方面,DBRX Instruct與其他開源模型相比,它在HumanEval和GSM8k上得分更高。DBRX 在這些基準測試上超過了Grok-1,要知道Grok-1的參數(shù)量是 DBRX的2.4倍。在HumanEval上,DBRX Instruct甚至超過了專門為編程構建的CodeLLaMA-70B Instruct,雖然DBRX Instruct最初的設計目的是通用大模型。

在衡量大語言模型性能的指標MMLU(Mean Multi-Language Understanding)上,DBRX Instruct同樣表現(xiàn)最好,達到了73.7%。

最強開源大模型易主,號稱超過Llama 2、Mixtral、Grok-1的DBRX是什么?-AI.x社區(qū)

DBRX與其他開源模型的測試對比來源:Databricks博客

DBRX Instruct與GPT-3.5等優(yōu)秀的閉源模型相比較,同樣表現(xiàn)出色。

在幾乎所基準測試中,DBRX Instruct幾乎都超越了GPT-3.5。在常識推理方面,DBRX Instruct在MMLU(73.7% vs. 70.0%)、HellaSwag(89.0% vs. 85.5%)和WinoGrande(81.8% vs. 81.6%)上表現(xiàn)超過GPT-3.5。在編程和數(shù)學推理方面,DBRX Instruct表現(xiàn)尤為出色,如HumanEval(70.1% vs. 48.1%)和GSM8k(72.8% vs. 57.1%)所測量。

最強開源大模型易主,號稱超過Llama 2、Mixtral、Grok-1的DBRX是什么?-AI.x社區(qū)

DBRX與閉源模型的測試對比來源:Databricks博客

除了基準評測外,Databricks還公布了DBRX在長上下文任務以及檢索增強生成(Retrieval Augmented Generation, RAG)任務中的表現(xiàn)。

DBRX Instruct 訓練時使用了一個巨大的上下文窗口,能處理高達32000個token。在長上下文任務的性能評估中,它與Mixtral Instruct、GPT-3.5 Turbo和GPT-4 Turbo進行了比較?;谡撐摹禠ost in the Middle》的KV-Pairs和擴展的HotPotQA任務HotpotQAXL,DBRX Instruct 在大多數(shù)情況下都優(yōu)于GPT-3.5 Turbo,并且與Mixtral Instruct表現(xiàn)相近。

DBRX Instruct還擁有利用額外信息處理復雜任務的能力。在RAG任務中,DBRX Instruct 結合了從維基百科檢索的信息,在Natural Questions和HotPotQA基準測試中展現(xiàn)了與Mixtral Instruct和LLaMA2-70B Chat等開放模型以及GPT-3.5 Turbo相當?shù)母偁幜Α?/p>

普遍而言,MoE模型在推理方面比其總參數(shù)數(shù)量所推測得更快。因為它們對每個輸入使用的參數(shù)相對較少,DBRX也不例外。DBRX的推理吞吐量比132B非MoE模型高2-3倍。

推理效率和模型質(zhì)量通常是相互權衡關系:通常情況較大的模型具有更高的質(zhì)量,而較小的模型則具有更高的推理效率。

MoE模型的推理速度往往比其總參數(shù)量所暗示的速度要快,因為它們對每個輸入使用的參數(shù)相對較少。與非MoE模型相比,DBRX的推理吞吐量提高了 2-3 倍,即使總參數(shù)量達到132B。

MoE架構能夠在模型質(zhì)量和推理效率之間實現(xiàn)更好的權衡,這一點在密集模型中通常難以達到。例如,DBRX在質(zhì)量上超過了LLaMA2-70B,由于其活躍參數(shù)數(shù)量僅為LLaMA2-70B的一半,DBRX的推理吞吐量最多可以提高2倍。Mixtral是另一個MoE模型改進的例子:它的體積比DBRX小,質(zhì)量較低,所以推理吞吐量更高。

最強開源大模型易主,號稱超過Llama 2、Mixtral、Grok-1的DBRX是什么?-AI.x社區(qū)

DBRX的推理效率來源:Databricks博客

具有開源基因的團隊

創(chuàng)造這一成果是一個富有活力并具有開源精神的團隊。

上周一,在DBRX發(fā)布之前,大約十幾名Databricks工程師和高管拉了一個線上會議,共同討論他們是否已經(jīng)成功構建了一個頂級的AI大模型。

此前,該團隊花費了數(shù)月時間和大約1000萬美元來訓練DBRX,但在最終測試的結果出來之前,他們并不知道這個模型有多強大。

“我們已經(jīng)超越了所有!”Jonathan Frankle說出了一句讓大家興奮的話。

團隊成員們發(fā)出了歡呼聲、喝彩聲,還在ZOOM線上會議評論區(qū)發(fā)出了大量鼓掌表情符號。大家還發(fā)現(xiàn),平時盡量避免攝入咖啡因的Frankle,這一刻正在啜飲冰拿鐵。

時間回到十多年前。

Databricks起源于學術界和開源社區(qū),由Apache Spark、Delta Lake和MLflow的原始創(chuàng)建者于2013年創(chuàng)立。Databricks官網(wǎng)介紹,作為世界上第一個也是唯一一個云端Lakehouse平臺,Databricks結合了數(shù)據(jù)倉庫和數(shù)據(jù)湖的最佳特性,提供了一個開放且統(tǒng)一的數(shù)據(jù)和AI平臺。

Databricks創(chuàng)始團隊由七位計算機科學博士組成,他們一直致力于開發(fā)用于數(shù)據(jù)處理的Spark引擎,為了讓更多人能夠使用它,他們決定開源Spark,并將Spark商業(yè)化。

2013年9月,DataBricks獲1400萬美元投資,投資方為Andreessen Horowitz(A16Z)。

Ali Ghodsi是Databricks的聯(lián)合創(chuàng)始人,2016年他成為了公司的CEO,目前他負責公司的發(fā)展和國際化拓展。

除了在Databricks的工作,Ghodsi還是加州大學伯克利分校的兼職教授,并且是伯克利分校RiseLab的董事會成員。他是開源項目Apache Spark的創(chuàng)造者之一,其學術研究在資源管理、調(diào)度和數(shù)據(jù)緩存方面的思想已經(jīng)被應用到Apache Mesos和Apache Hadoop中。Ghodsi在2003年從瑞典中部大學獲得MBA學位,2006年在瑞典皇家理工學院獲得分布式計算領域的博士學位。

除了Ali Ghodsi,目前Databricks的AI決策層成員還有:Jonathan Frankle、Naveen G. Rao和Hanlin Tang等。這三位之前都來自被Databricks收購的MosaicML。

MosaicML由Hanlin Tang和Naveen G. Rao于2021年創(chuàng)立,Jonathan Frankle擔任創(chuàng)始顧問和首席科學家,MosaicML開發(fā)的愿景是通過讓更廣泛的人群和企業(yè)更容易使用人工智能來實現(xiàn)人工智能民主化。 

Jonathan Frankle現(xiàn)在成為了Databricks首席神經(jīng)網(wǎng)絡架構師、DBRX開發(fā)團隊的負責人,他是MIT計算機科學與人工智能實驗室的博士后研究員,也是哈佛Kempner研究所的附屬教員。他的研究方向是神經(jīng)網(wǎng)絡的學習動力學和訓練算法,旨在提高大語言模型的效率同時降低訓練成本。

Naveen G. Rao是Databricks生成式AI方向的副總裁。他曾是英特爾人工智能產(chǎn)品組前副總裁兼總經(jīng)理,主管AI產(chǎn)品開發(fā)和戰(zhàn)略,包括推出專為加速深度學習設計的硬件和軟件優(yōu)化。

作為計算機架構師和神經(jīng)科學家,他在2016年隨Nervana Systems并入英特爾,此前擔任Nervana CEO,將其建設為深度學習領域的領導者。Rao曾在高通研究神經(jīng)形態(tài)機器,職業(yè)生涯還包括在Kealia Inc.、CALY Networks和Sun Microsystems的工程師角色。他擁有杜克大學的學士學位和布朗大學計算神經(jīng)科學博士學位,發(fā)表多篇神經(jīng)計算論文,持有視頻壓縮等領域?qū)@?/p>

Databricks神經(jīng)網(wǎng)絡方向的CTO Hanlin Tang,曾是MosaicML的聯(lián)合創(chuàng)始人、CTO。Hanlin Tang擁有哈佛大學的生物物理學博士學位,研究人類視覺循環(huán)神經(jīng)網(wǎng)絡。他曾領導英特爾實驗室的人工智能實驗室,專注于應用深度強化學習、自然語言處理和擴展大型模型。

致力于開放人工智能研究EleutherAI執(zhí)行董事Stella Biderman表示,目前幾乎沒有證據(jù)表明開放性會增加風險。開放模型有利于經(jīng)濟增長,因為它們有助于初創(chuàng)企業(yè)和小型企業(yè),也有助于“加速科學研究”。

Databricks希望DBRX能夠做到這兩點。Jonathan Frankle表示,除了為其他人工智能研究人員提供一個新的模型來研究和構建他們自己的模型的有用提示之外,DBRX還可能有助于更深入地理解人工智能的實際運作方式。

Databricks團隊計劃研究模型在訓練的最后一周是如何變化的,這可能會揭示出一個強大的模型是如何獲得額外能力的?!白钭屛遗d奮的部分是我們能夠在這個規(guī)模上進行科學研究。”Jonathan Frankle說。

Databricks接下來將發(fā)文詳細介紹創(chuàng)建DBRX的工作過程,這種透明度甚至連Meta在發(fā)布Llama 2時也未能做到。

Allen研究所(Allen Institute for AI)的CEO Ali Farhadi表示,圍繞AI模型構建和培訓更大透明度是“必需的”。

Ali Farhadi說:“我很高興看到任何開放性的努力?!薄拔掖_實相信市場的相當一部分將轉(zhuǎn)向開源模型?!?/p>

*參考資料:《Inside the Creation of the World’s Most Powerful Open Source AI Model》,Wired

本文轉(zhuǎn)載自??鈦媒體??,作者:蘇霍伊???

標簽
收藏
回復
舉報
回復
相關推薦