鐵了心要打敗OpenAI!堅(jiān)信開源打敗閉源!這家知名數(shù)據(jù)廠商4個(gè)月打造最強(qiáng)開源大模型!性能超越Claude3,速度是羊駝2倍
原創(chuàng) 精選撰稿 | 言征
出品 | 51CTO技術(shù)棧(微信號(hào):blog51cto)
大模型領(lǐng)域,迭代的速度簡(jiǎn)直要以天計(jì)算。昨天,大家還在熱議Claude3超大杯版Opus在Elo Rating榜單上取代GPT4-Turbo-1106成為了新王。今天大家又發(fā)現(xiàn)開源大模型的王者又換主了!
圖片
3月27日,全球知名的數(shù)據(jù)倉(cāng)庫(kù)服務(wù)提供商Databricks發(fā)布了一系列開源的大型語(yǔ)言模型DBRX,稱其在標(biāo)準(zhǔn)基準(zhǔn)測(cè)試中的表現(xiàn)優(yōu)于OpenAI的GPT3.5模型和開源模型,如Mixtral、Claude 3、Llama 2和Grok-1。同時(shí),模型的訓(xùn)練和推理優(yōu)勢(shì)也非常明顯,成本降低明顯。
一、獨(dú)占鰲頭!優(yōu)于SOTA!
副總裁兼 MosaicML 的創(chuàng)始人Naveen Rao心情非常激動(dòng),“Databricks 今天宣布推出世界上最強(qiáng)大的開源模型DBRX。這款新模型在各種基準(zhǔn)測(cè)試中均優(yōu)于其他 SOTA 開源模型,如 Llama 2 70B、Mixtral-8x7B 和 Grok-1,包括語(yǔ)言理解(MMLU)、編程(Human Eval)和數(shù)學(xué)(GSM 8K)?!?/p>
可喜的是,DBRX 還超越了 OpenAI 的 GPT-3.5,并在類似基準(zhǔn)測(cè)試中與 GPT-4 的差距逐漸縮小,這不可避免地減少了對(duì)專有閉源模型的依賴,轉(zhuǎn)而采用開源模型,并顯著降低了成本。
圖片
在一系列標(biāo)準(zhǔn)基準(zhǔn)中,DBRX可謂絕大多數(shù)都獨(dú)占鰲頭。根據(jù)測(cè)評(píng)結(jié)果顯示,它超過了GPT-3.5,與Gemini 1.0 Pro具有競(jìng)爭(zhēng)力。
圖片
此外,它在生成代碼方面非常突出,超越了CodeLLaMA-70B等專業(yè)模型,此外它還具有通用LLM的優(yōu)勢(shì)。
結(jié)構(gòu)上看,DBRX采用了更細(xì)粒度的專家混合(MoE)架構(gòu),性能和訓(xùn)練效率得到了顯著的提升,落實(shí)到使用體驗(yàn)上,就是輸出得更快!
據(jù)悉,其推理速度比LLaMA2-70B快2倍,對(duì)比來看,DBRX輸出“每秒100個(gè)tokens,而Llama輸出的是每秒35個(gè)tokens”;就總參數(shù)計(jì)數(shù)和激活參數(shù)量而言,DBRX約為Grok-1大小的40%。當(dāng)托管在Mosaic AI Model Serving上時(shí),DBRX可以以高達(dá)150 tok/s/用戶的速度生成文本。
圖片
“我們的客戶會(huì)發(fā)現(xiàn),在相同的最終模型質(zhì)量下,訓(xùn)練MoE的FLOP效率也比訓(xùn)練密集模型高出約2倍。端到端,我們的DBRX總體方案(包括預(yù)訓(xùn)練數(shù)據(jù)、模型架構(gòu)和優(yōu)化策略)可以與我們上一代MPT模型的質(zhì)量相匹配,計(jì)算量減少近4倍?!?nbsp;
二、性能更強(qiáng)!DBRX怎么做到的?
1.架構(gòu)更精細(xì)
DBRX是一個(gè)基于Transformer的解碼器的大型語(yǔ)言模型(LLM),使用下一個(gè)令牌預(yù)測(cè)進(jìn)行訓(xùn)練。它使用了一種細(xì)粒度的專家混合(MoE)架構(gòu),共有132B個(gè)參數(shù),其中36B個(gè)參數(shù)在任何輸入上都是active的。它是在文本和代碼數(shù)據(jù)的12T標(biāo)記上進(jìn)行預(yù)訓(xùn)練的。與Mixtral和Grok-1等其他開放MoE模型相比,DBRX是細(xì)粒度的,這意味著它使用了大量較小的專家。
DBRX有16名專家,選擇4名,而Mixtral和Grok-1有8名專家,并選擇2名。這提供了65倍以上可能的專家組合,我們發(fā)現(xiàn)這提高了模型質(zhì)量。DBRX使用旋轉(zhuǎn)位置編碼(RoPE)、門控線性單元(GLU)和分組查詢注意力(GQA)。它使用tiktoken存儲(chǔ)庫(kù)中提供的GPT-4 令牌化器(tokenizer) 。
這些都是團(tuán)隊(duì)通過詳盡的評(píng)估和縮放實(shí)驗(yàn)做出的選擇。
同時(shí),得益于模型采用了 MoE 架構(gòu),該架構(gòu)提供了顯著的經(jīng)濟(jì)效益。“在服務(wù)方面,經(jīng)濟(jì)效益要好得多。在浮點(diǎn)運(yùn)算和浮點(diǎn)操作方面,它們的性能提高了兩倍以上,”Rao 分享道。
2.全新的數(shù)據(jù)集合,訓(xùn)練工具和訓(xùn)練細(xì)節(jié)
DBRX 是在由 3.2Tbps Infiniband 連接的 3072 個(gè) NVIDIA H100 上進(jìn)行訓(xùn)練的。構(gòu)建 DBRX 的主要過程——包括預(yù)訓(xùn)練、后訓(xùn)練、評(píng)估、紅隊(duì)測(cè)試和調(diào)優(yōu)——持續(xù)了三個(gè)月。
數(shù)據(jù)方面,為了構(gòu)建 DBRX,團(tuán)隊(duì)利用了 Databricks 向客戶提供的同一套工具,包括:使用 Unity Catalog 管理和治理訓(xùn)練數(shù)據(jù);使用新收購(gòu)的 Lilac AI 探索這些數(shù)據(jù);使用 Apache Spark? 和 Databricks 筆記本處理和清理這些數(shù)據(jù);
值得一提的是,DBRX是在精心策劃的數(shù)據(jù)的上預(yù)訓(xùn)練的,大小為12T tokens和32k tokens的最大上下文窗口長(zhǎng)度。據(jù)估計(jì),與用于預(yù)訓(xùn)練MPT系列模型的數(shù)據(jù)相比,該數(shù)據(jù)至少是 token-for-token的兩倍。
預(yù)訓(xùn)練方面,該團(tuán)隊(duì)使用“課程學(xué)習(xí)”的方法進(jìn)行預(yù)訓(xùn)練,在訓(xùn)練過程中改變數(shù)據(jù)組合,從而大大提高模型質(zhì)量。
同時(shí),他們使用優(yōu)化過的開源訓(xùn)練庫(kù)(MegaBlocks、LLM Foundry、Composer 和 Streaming)訓(xùn)練 DBRX。
而且,他們通過 Mosaic AI Training 服務(wù)在數(shù)千個(gè) GPU 上進(jìn)行大規(guī)模模型訓(xùn)練和微調(diào)。此外,還使用 MLflow 記錄結(jié)果。
收集反饋數(shù)據(jù)方面,通過 Mosaic AI Model Serving 和 Inference Tables 收集人類反饋,以改進(jìn)質(zhì)量和安全性。借用Databricks Playground 工具可以手動(dòng)對(duì)模型進(jìn)行實(shí)驗(yàn)。
圖片
當(dāng)然,并不是所有能力都能超過GPT-4,在長(zhǎng)文本任務(wù)、RAG方面,DBRX還存在有一定差距。
在一系列長(zhǎng)文本基準(zhǔn)測(cè)試(包括來自《Lost in the Middle》論文的 KV-Pairs 和 HotpotQAXL,即 HotPotQA 的修改版本,該版本將任務(wù)擴(kuò)展到更長(zhǎng)的序列長(zhǎng)度)上,DBRX的性能與 Mixtral Instruct 以及 GPT-3.5 Turbo 和 GPT-4 Turbo API 的最新版本的性能。GPT-4 Turbo 通常在這些任務(wù)中表現(xiàn)最佳。
圖片
不過值得注意的是,除了一個(gè)例外,DBRX Instruct 在所有序列長(zhǎng)度的所有部分上的表現(xiàn)均優(yōu)于 GPT-3.5 Turbo。DBRX Instruct 和 Mixtral Instruct 的整體性能相似。
三、鐵了心要打敗OpenAIDatabricks背水一戰(zhàn)
Rao 表示,“沒有差異化的用例,就無法擊敗 OpenAI……除非你能超越他們,否則試圖在平等條件下競(jìng)爭(zhēng)是徒勞的。如果不能提供獨(dú)特的優(yōu)勢(shì)或更具成本效益的解決方案,那么采用他人的模型就沒有意義?!?/p>
而Databriks差異化的底氣在于:公司的技術(shù)整合和專有數(shù)據(jù),這兩項(xiàng)法寶會(huì)繼續(xù)推動(dòng)新的、更好的模型變體的誕生。
推出DBRX的戰(zhàn)略可以追溯到去年4月,當(dāng)時(shí)該公司推出了第一個(gè)開源LLM,即Dolly 2.0,作為服務(wù)于企業(yè)的GPT 3.5和GPT-4等型號(hào)的替代產(chǎn)品。
同時(shí),Rao透露了下一步有關(guān)開源模型的計(jì)劃:
(1)將發(fā)布RAG工具,“RAG對(duì)我們來說是一個(gè)巨大而重要的模式,我們將發(fā)布工具?!贝送?,Databricks中有非常簡(jiǎn)單的RAG方法,接下來的一個(gè)大動(dòng)作是會(huì)讓DBRX模型成為RAG的最佳生成器模型。
(2)DBRX模型將會(huì)托管在AWS、谷歌云(GCP)和Azure等所有主要云環(huán)境的產(chǎn)品中。作為一個(gè)開源模型,用戶可以隨心所欲地使用它。
(3)DBRX 預(yù)計(jì)也將通過 Nvidia API Catalog 提供,并在 Nvidia NIM 推理微服務(wù)上得到支持。
四、開源大模型商業(yè)模式找到了:掙構(gòu)建、定制、服務(wù)工具的錢
現(xiàn)在DBRX的推出,除了驚人的性能數(shù)據(jù),另一個(gè)驚喜,是讓大模型廠商看到了變現(xiàn)的路徑。
RAO給出了這樣一種商業(yè)邏輯,他認(rèn)為Databricks 專注于幫助企業(yè)構(gòu)建、訓(xùn)練和擴(kuò)展?jié)M足其特定需求的模型是有意義的,“我們關(guān)心企業(yè)的采用情況,因?yàn)槟鞘俏覀兊纳虡I(yè)模式。當(dāng)客戶想要構(gòu)建、定制和提供服務(wù)模型時(shí),我們就會(huì)賺錢,”他補(bǔ)充道。
具體到DBRX,我們一探掙錢之道。
作為 LLM 發(fā)布的一部分,Databricks 以開放許可證的形式發(fā)布了兩個(gè)模型,但有一些限制:DBRX Base,一個(gè)預(yù)訓(xùn)練的基礎(chǔ)模型,以及 DBRX Instruct,一個(gè)針對(duì)少量交互的微調(diào)版本。
首先,正如上述介紹的,通過Azure數(shù)據(jù)庫(kù)在AWS、Google Cloud和Microsoft Azure上支持DBRX,因此企業(yè)可以下載該模型,并在任何他們想要的地方在圖形處理器(GPU)上運(yùn)行它。
然后重點(diǎn)來了,企業(yè)也可以選擇訂閱DBRX和其他工具,如檢索增強(qiáng)生成(RAG),用于通過Databricks的Mosaic AI Model服務(wù)產(chǎn)品定制LLM。(Mosaic AI Model 服務(wù)將通過Foundation Model APIs 與 DBRX 連接,這使得企業(yè)能夠從服務(wù)端點(diǎn)訪問和查詢 LLMs。)
Foundation Model APIs 提供兩種定價(jià)模式——按Tokens付費(fèi)和分配的吞吐量。按Tokens付費(fèi)的定價(jià)是基于并發(fā)請(qǐng)求,而吞吐量則是按每小時(shí)每個(gè) GPU 實(shí)例計(jì)費(fèi)。兩種費(fèi)率,包括云實(shí)例成本,均從每個(gè)Databricks單位 $0.070 開始。
此外,Databriks還為不同的 GPU 配置提供了相應(yīng)的定價(jià)區(qū)間。
五、寫在最后:開源才剛剛開始
有了穩(wěn)健的商業(yè)模式,開源大模型就有了持續(xù)壯大的籌碼。重要的是,這也為企業(yè)提供了入場(chǎng)AIGC的門票,不僅可以降低使用自身企業(yè)數(shù)據(jù)開發(fā)生成性AI用例的成本,而且不會(huì)受到封閉模型提供商(如OpenAI)對(duì)商業(yè)用途的限制。
Rao 認(rèn)為,這個(gè)模型預(yù)示著風(fēng)向的轉(zhuǎn)變,并感覺到開源模型最終會(huì)超越像 GPT-4 這樣的閉源模型,這與 Linux 超越專有 Unix 系統(tǒng)的歷程相似。
“開源才剛剛開始。五年后,世界將會(huì)變得有些不同。”
最后的最后,告訴大家,DBRX可以從GitHub網(wǎng)站和Hugging Face 免費(fèi)下載,用于研究或商業(yè)用途——
https://github.com/databricks/dbrx
https://huggingface.co/databricks/dbrx-base
參考鏈接:
https://www.databricks.com/blog/introducing-dbrx-new-state-art-open-llm
https://analyticsindiamag.com/databricks-creates-history-with-gpt-4-level-open-source-model/