國產(chǎn)130億參數(shù)大模型免費商用!性能超Llama2-13B,支持8k上下文,哈工大已用上
國產(chǎn)大模型,再次迎來新玩家!
XVERSE-13B,開源即免費商用。
來自前騰訊副總裁、騰訊AI lab創(chuàng)始人姚星創(chuàng)立的明星獨角獸元象,公司成立一年即完成1.2億美元融資。
此次開源的大模型,它支持40多種語言、8192上下文長度。在多項中英文測評中,性能超過了同尺寸(130億參數(shù))的LIama2、Baichuan等。
目前,哈爾濱工業(yè)大學(xué)已經(jīng)率先用上。
國產(chǎn)百億大模型免費商用
據(jù)介紹,XVERSE-13B大模型主要有這幾個方面的特點。
模型架構(gòu)方面,它是基于標準Transformer架構(gòu)(Decoder-only),支持8K上下文長度,據(jù)稱這也是目前同尺寸標準模型中最長。這樣一來,可滿足更多輪對話,減少遺忘現(xiàn)象,以及輸入更多內(nèi)容完成復(fù)雜任務(wù)。
訓(xùn)練數(shù)據(jù)上,構(gòu)建了1.4萬億tokens的數(shù)據(jù)集,包含中、英、俄、西等40多種語言。
而為了充分利用訓(xùn)練數(shù)據(jù),他們在分詞策略上,基于BPE(Byte-Pair Encoding)算法,使用上百 GB 語料訓(xùn)練了一個詞表大小為 100,278 的分詞器。
這樣一來,能夠同時支持多語言,而無需額外擴展詞表。
此外,還在訓(xùn)練框架上進行了算子、通信、并行策略及調(diào)度等方面的優(yōu)化,包括高效算子、顯存優(yōu)化、并行調(diào)度策略、數(shù)據(jù)-計算-通信重疊、平臺和框架協(xié)同等自研技術(shù),使得千卡集群上的峰值算力利用率達到 58.5%,據(jù)介紹位居業(yè)界前列。
作為通用大模型,它支持文本生成、自動化寫作、數(shù)據(jù)分析、知識問答、多語言翻譯、個性化交互、人物角色扮演、專業(yè)小助手等功能。
具體到各項能力測評上,他們選取了 MMLU(英文)、 C-Eval(中文)、AGIEval(中英) 、GAOKAO-Bench(中英)、GAOKAO-English(英文)等在內(nèi)的評測集。
比如在MMLU測評中,其綜合評分達到55.1分,在多個維度超過了同參數(shù)規(guī)模的主流模型。
(MMLU 由加州大學(xué)伯克利分校等高校共同打造,集合了科學(xué)、工程、數(shù)學(xué)、人文、社會科學(xué)等領(lǐng)域的 57 個科目,主要目標是對模型的英文跨學(xué)科專業(yè)能力進行深入測評。其內(nèi)容涵蓋從初級水平到高級專業(yè)水平)
還有在C-Eval、AGIEval和GAOKAO-Bench等中文測評中,分別以54.7、41.4以及53.9分超越了其他模型。
目前,XVERSE-13B代碼采用 Apache-2.0 協(xié)議,向?qū)W術(shù)研究完全開源,企業(yè)只需簡單登記,即可免費商用。
哈工大已經(jīng)率先使用大模型推進相關(guān)研究工作。哈工大計算機科學(xué)與技術(shù)學(xué)院張偉男教授表示:
開源是互聯(lián)網(wǎng)時代主流模式,不僅能貢獻社區(qū),推動技術(shù)持續(xù)創(chuàng)新,還能利用協(xié)同解決算法透明性、穩(wěn)定性、公眾信任度等共性問題。
來自元象XVERSE團隊
隨著XVERSE-13B的發(fā)布,國產(chǎn)大模型迎來了新玩家:
元象XVERSE,2021年3月成立,專注于AI與元宇宙技術(shù)服務(wù)。
創(chuàng)始團隊來自騰訊游戲、Adobe、微軟、IBM、麥肯錫等公司。創(chuàng)始人是前騰訊副總裁姚星,他曾親手創(chuàng)立了騰訊AI lab以及機器人實驗室Robotics X,并兼管騰訊技術(shù)工程事業(yè)群(TEG)多個技術(shù)部門。
他也是騰訊在受AlphaGo震動決定戰(zhàn)略布局AI時的一號位負責人,代表騰訊全球挖人組隊,也代表騰訊喊出了口號:AI in All。在此期間曾主導(dǎo)推出了絕藝、絕悟、云深智藥等行業(yè)代表性產(chǎn)品和應(yīng)用,張潼張正友都曾向他匯報。
2022年3月,元象完成A與A+輪融資1.2億美元,投資機構(gòu)包括騰訊、高榕資本、五源資本、高瓴創(chuàng)投、紅杉中國、淡馬錫和CPE源峰等。
在3D和AI技術(shù)領(lǐng)域,已自主研發(fā)出行業(yè)領(lǐng)先的“端云協(xié)同” 3D互動技術(shù),主打零門檻、一站式、高品質(zhì)的元宇宙體驗。
目前客戶包括澳門大三巴、騰訊音樂、央視、一汽大眾、阿迪達斯、郵儲銀行等企業(yè)。
GitHub鏈接:
https://github.com/xverse-ai/XVERSE-13B
參考鏈接:
https://huggingface.co/xverse/XVERSE-13B