中國(guó)電信開源星辰AI大模型:央企中首個(gè)完成LLM研發(fā)和開源的選手誕生
沒想到啊,開源大模型家族里,居然擠進(jìn)來一位特別的選手:
來自央企,身份為運(yùn)營(yíng)商。
具體是誰(shuí)?
中國(guó)電信。
所謂“不鳴則已,一鳴驚人”:
中國(guó)電信集團(tuán)成立的中電信人工智能科技有限公司憑借全自研算法、精心打造的高質(zhì)量數(shù)據(jù)集,發(fā)布星辰AI大模型。
其目前開源的版本在大模型知名榜單CSL上排名第五、GAOKAO排名第七、AGIEval排名第八。
什么概念?和科技公司出品的專業(yè)選手們站在了同一陣營(yíng)。
現(xiàn)在,隨著其代碼和模型在Github、Gitee、HuggingFace三個(gè)平臺(tái)一并可獲取使用,中國(guó)電信也順勢(shì)成為央企中率先完成大模型研發(fā)和開源的選手。
加上不久之前,AI領(lǐng)域Fellow大滿貫科學(xué)家李學(xué)龍加盟,出任電信CTO——
所以作為率先交卷大模型的央企和運(yùn)營(yíng)商,在大模型研發(fā)這件事上,它究竟有哪些驚艷之處?
電信大模型長(zhǎng)什么樣?
早在去年五月中旬,經(jīng)過數(shù)十版模型訓(xùn)練與優(yōu)化,中國(guó)電信就完成了百億參數(shù)星辰AI大模型穩(wěn)定版本的訓(xùn)練。
正式發(fā)布則是在去年7月的人工智能科技大會(huì)上,為運(yùn)營(yíng)商中首個(gè)。
很快,歷經(jīng)又一輪迭代,星辰AI大模型的千億參數(shù)版本于11月發(fā)布。
它最大可支持96k的上下文推理,相比第一代,長(zhǎng)文生成和理解能力提升30%。
此外,模型幻覺問題也降低了40%,并在模型量化方面取得突破——訓(xùn)練顯存降低50%的同時(shí),推理速度提升4.5倍。
具體來看,星辰AI大模型具備以下諸多通用能力,包括:
常識(shí)問答、寫作、文本翻譯潤(rùn)色/結(jié)構(gòu)化任務(wù)、邏輯推理、數(shù)學(xué)、輔助代碼生成……
模型本身則提供了近100個(gè)prompt模版任務(wù),包括營(yíng)銷宣傳、PPT制作、評(píng)價(jià)分析、行業(yè)分析等,方便大伙拿來就用:
在這之中,星辰AI大模型最大的亮點(diǎn)或者最擅長(zhǎng)的地方就是長(zhǎng)文寫作。
根據(jù)用戶提示詞,它可以準(zhǔn)確地生成結(jié)構(gòu)完整、邏輯清晰的文章,平均字?jǐn)?shù)超過1500字。
據(jù)統(tǒng)計(jì),在電信內(nèi)部,星辰AI大模型在此任務(wù)上的有效采納率可達(dá)85.7%,和國(guó)內(nèi)其他眾多大模型相比,表現(xiàn)相當(dāng)出色。
而除了長(zhǎng)文寫作這一大亮點(diǎn),星辰AI大模型還具備強(qiáng)大的插件功能,可以解決更為復(fù)雜、多場(chǎng)景的任務(wù)。
例如搜索插件,用于支持各種常識(shí)問答,標(biāo)注來源,使結(jié)果更為準(zhǔn)確。
在插件的具體調(diào)用上,電信設(shè)計(jì)了非常細(xì)致的數(shù)據(jù)格式,可以使得模型深刻理解用戶任務(wù),并依照嚴(yán)格的流程執(zhí)行推理,最終得出答案。
如果再配合上思維鏈技術(shù),星辰AI大模型的能力還能更進(jìn)一步。
據(jù)介紹,在中國(guó)電信企業(yè)內(nèi)部以及對(duì)外企事業(yè)單位客戶的業(yè)務(wù)中,星辰AI大模型已實(shí)現(xiàn)初步落地,在網(wǎng)絡(luò)故障分析和客戶服務(wù)業(yè)務(wù)中展現(xiàn)出巨大價(jià)值。
對(duì)于前者,星辰AI大模型通過對(duì)大量故障數(shù)據(jù)的學(xué)習(xí)和分析,能夠迅速識(shí)別潛在問題并提供有效的解決方案,從而提高網(wǎng)絡(luò)運(yùn)維的效率和質(zhì)量。
對(duì)于后者,新一代智能客服系統(tǒng)在接入星辰AI大模型之后,應(yīng)答能力大幅提升,問題覆蓋率超過95%,加上還能自動(dòng)對(duì)客戶服務(wù)進(jìn)行準(zhǔn)確總結(jié),因此還能進(jìn)一步優(yōu)化服務(wù)流程,提高用戶滿意度。
對(duì)于此次開源,中國(guó)電信率先釋出的則是其百億參數(shù)版本,外推長(zhǎng)度32k,底層代碼、算法邏輯等全部公開。
大伙既可以直接調(diào)用大模型,也可以根據(jù)自身業(yè)務(wù)需求對(duì)大模型進(jìn)行微調(diào)或個(gè)性化設(shè)置——支持deepspeed微調(diào)框架、int8&&int4模型量化、升騰卡訓(xùn)推。
或者還可以用它加載自己的知識(shí)庫(kù)或數(shù)據(jù),從而調(diào)整出更符合自身業(yè)務(wù)需求、更加個(gè)性化的理想結(jié)果。
具體來看,和前面介紹的還不同,電信將星辰AI大模型能力分門別類,此次一共開源的是5個(gè)細(xì)分大模型。
除了最基礎(chǔ)的星辰語(yǔ)義大模型,還包括:
- 星辰語(yǔ)音大模型 ,它具備關(guān)鍵詞檢測(cè)、超自然語(yǔ)音合成、語(yǔ)音識(shí)別、語(yǔ)音翻譯、聲音匿名、AI 作曲和語(yǔ)音生成七大類算法能力,可用于音頻會(huì)議紀(jì)要整理、智能語(yǔ)音機(jī)器人等場(chǎng)景;
- 星辰多模態(tài)大模型,支持文生圖、圖生圖,可用于內(nèi)容創(chuàng)作、廣告營(yíng)銷等;
- 啟明網(wǎng)絡(luò)大模型,專攻網(wǎng)絡(luò)運(yùn)營(yíng),側(cè)重云網(wǎng)運(yùn)營(yíng)領(lǐng)域?qū)I(yè)知識(shí)查詢;
- 星辰經(jīng)分大模型,主攻數(shù)據(jù)分析和報(bào)告生成。
可以說相當(dāng)全面了。
算法純自研,核心優(yōu)勢(shì)在數(shù)據(jù)
有點(diǎn)驚喜有點(diǎn)意外,作為一家運(yùn)營(yíng)商,電信在大模型研發(fā)這件技術(shù)活上拿出態(tài)度,走了純自研方式:
背后搭建了一支800人的研發(fā)團(tuán)隊(duì),碩博占比超54.9%的那種。
他們?cè)?strong>模型結(jié)構(gòu)、數(shù)據(jù)預(yù)處理、模型預(yù)訓(xùn)練以及人類偏好對(duì)齊、降低幻覺等方面都進(jìn)行了優(yōu)化,注入了電信自己的“靈魂”。
具體來看,在模型結(jié)構(gòu)設(shè)計(jì)上,團(tuán)隊(duì)采用解碼器架構(gòu)(decoder-only)并改進(jìn)旋轉(zhuǎn)位置編碼(RoPE),再結(jié)合自適應(yīng)插值的NTK-aware + LogN算法,大幅提高了模型的外推能力,使其支持超長(zhǎng)上下文(96k)理解。
在模型訓(xùn)練上,為了保證穩(wěn)定性,團(tuán)隊(duì)又使用了Embedding LayerNorm算法,在嵌入層添加額外的RMSNorm層,并在每個(gè)Transformer子層前加入RMSNorm層。
為了提升訓(xùn)練和推理速度,他們又采用了SwiGLU激活函數(shù)替代傳統(tǒng)GELU激活函數(shù)的方式,將隱藏層大小設(shè)計(jì)為8/3d而非4d。
再通過將RoPE與FlashAttention-V2相結(jié)合,模型的訓(xùn)練速度進(jìn)一步提高了20%以上。
在微調(diào)階段,團(tuán)隊(duì)的做法則是在embedding層加入噪聲擾動(dòng)來緩解過擬合,進(jìn)一步提升模型問答質(zhì)量。
人類指令對(duì)齊上也下了不少功夫,經(jīng)過一系列bge向量化+聚類以及人類標(biāo)注的方式,團(tuán)隊(duì)得到完整、全面的基于人類偏好的排序數(shù)據(jù)。
然后又多次嘗試PPO、RRHF和DPO在內(nèi)的人類偏好排序數(shù)據(jù)訓(xùn)練策略,最終選擇DPO進(jìn)行訓(xùn)練,實(shí)現(xiàn)人類偏好對(duì)齊,由此提升模型生成答案的安全性和規(guī)范性。
最后,在大模型幻覺問題上,中國(guó)電信研發(fā)團(tuán)隊(duì)也給出了一套完整的解決方案:包括關(guān)鍵信息注意力增強(qiáng)技術(shù)、多輪知識(shí)記憶和強(qiáng)化技術(shù)、知識(shí)圖譜強(qiáng)化技術(shù)以及知識(shí)溯源,最終將大模型幻覺降低了40%。
——技術(shù)上的努力說了這么多,在造大模型這件事上,電信到底有哪些優(yōu)勢(shì)呢?
最為核心的就是數(shù)據(jù)。
數(shù)據(jù)的重要性對(duì)于大模型的性能不言而喻,而當(dāng)下,中文互聯(lián)網(wǎng)數(shù)據(jù)由于數(shù)據(jù)孤島、AI生成污染等問題存在獲取困難、質(zhì)量堪憂等情況。
在此,電信除了大量來自百科、書籍、司法、醫(yī)藥等維度的通用數(shù)據(jù),也憑借自身業(yè)務(wù)積累了不少行業(yè)數(shù)據(jù)。
這使得電信大模型的中文訓(xùn)練數(shù)據(jù)超過25TB,中文總token量超8萬(wàn)億。
經(jīng)過Knesey-Ney技術(shù)過濾、Minihash+Jaccard排重,以及幾百人專業(yè)標(biāo)注團(tuán)隊(duì)的人工標(biāo)注,這批數(shù)據(jù)化為非常高質(zhì)量的數(shù)據(jù)集,為星辰AI大模型算法訓(xùn)練打下堅(jiān)實(shí)基礎(chǔ)。
(值得一提的是,電信也將開源其中大部分?jǐn)?shù)據(jù),值得大伙期待一波。)
數(shù)據(jù)集有了,其次,算力也不缺:
對(duì)于大模型訓(xùn)練所需的極大算力需求,中國(guó)電信通過“2+31”天翼云布局基礎(chǔ),構(gòu)建了全國(guó)四級(jí)超大算力底座來滿足。
簡(jiǎn)單來說就是來自集團(tuán)的2大核心算力集群(包含近萬(wàn)臺(tái)GPU)與31個(gè)省級(jí)算力集群(同樣近萬(wàn)臺(tái)GPU)進(jìn)行云邊端協(xié)同,實(shí)現(xiàn)算力資源全國(guó)統(tǒng)籌調(diào)度管理,AI能力一鍵下發(fā),多個(gè)大模型進(jìn)行同時(shí)訓(xùn)練也可滿足。
最后,再加上前面所講的一系列核心算法自研和優(yōu)化,電信憑“數(shù)算法”三大強(qiáng)力后盾,甩出了星辰大模型這份成績(jī)單。
現(xiàn)在,更是將它豪氣開源,和專業(yè)選手一起,敢于直接交給公眾來檢驗(yàn)。
那么,問題來了——
為什么能做到央企中第一個(gè)發(fā)布大模型?
首先,是態(tài)度上重視。
在大模型和AI技術(shù)上,中國(guó)電信有基礎(chǔ)有布局。
除了星辰AI大模型,在去年11月舉辦的數(shù)字科技生態(tài)大會(huì)上電信還發(fā)布了12個(gè)行業(yè)大模型,并推出“星辰MaaS生態(tài)服務(wù)平臺(tái)”,實(shí)現(xiàn)定制化服務(wù)。
以及可開箱即用的大模型生產(chǎn)應(yīng)用流水線產(chǎn)品“慧聚”,它預(yù)置多種基礎(chǔ)大模型、開發(fā)環(huán)境、數(shù)據(jù)訓(xùn)練工具等,使得電信不僅自己生產(chǎn)大模型,還提供能力幫其他企業(yè)開發(fā)大模型。
而這一切,基于的是電信已歷經(jīng)10年的AI能力建設(shè)。
在軟件算法領(lǐng)域,中國(guó)電信的人臉識(shí)別、動(dòng)作檢測(cè)、對(duì)象跟蹤檢測(cè)等多項(xiàng)技術(shù)斬獲世界大獎(jiǎng),數(shù)字人技術(shù)所支撐的智能客服產(chǎn)品也在國(guó)際賽事DCASE2023 task-A賽道中獲得季軍,此外還與華為聯(lián)合發(fā)布了AI高性能推理框架UniStream。
這無比體現(xiàn)著中國(guó)電信扎實(shí)的AI基礎(chǔ)實(shí)力。
其次,有人才有大牛。
如前文介紹,為了搭星辰AI大模型,中國(guó)電信快速組建了一支近800人的研發(fā)團(tuán)隊(duì),成員來自國(guó)內(nèi)外頂尖高校,如清華、北大、斯坦福和哥倫比亞等,平均年齡31.79歲。
其中純技術(shù)人員占比75%,碩博占比超54.9%,這波人才幫助電信在對(duì)內(nèi)對(duì)外業(yè)務(wù)中取代外部算法能力,實(shí)現(xiàn)核心算法能力自主可控。
在廣納基礎(chǔ)人才之外,電信也坐擁一批大牛,其中包括去年年底全職加盟中國(guó)電信擔(dān)任CTO以及首席科學(xué)家的李學(xué)龍。
作為AI領(lǐng)域Fellow大滿貫選手、“多模態(tài)認(rèn)知計(jì)算”的提出者,他將帶領(lǐng)電信人工智能研究院,繼續(xù)開展基礎(chǔ)、前沿研究。
最后,我們了解到,其實(shí)不止于AI和大模型,中國(guó)電信在很多技術(shù)上都進(jìn)行了投入,并且也取得了同行優(yōu)勢(shì)。
例如量子通信,中國(guó)電信不久前發(fā)布了具備“量子優(yōu)越性”能力的“天衍”量子計(jì)算云平臺(tái),此前還開通了國(guó)內(nèi)規(guī)模最大、用戶最多、應(yīng)用最全的量子保密通信城域網(wǎng),并主導(dǎo)制定了中央企業(yè)第一牽頭立項(xiàng)的7項(xiàng)量子通信行業(yè)標(biāo)準(zhǔn)(含團(tuán)標(biāo))中的5項(xiàng)。
再例如在新一代信息通信技術(shù)上,中國(guó)電信發(fā)布了全球首個(gè)支持消費(fèi)級(jí)5G終端雙向語(yǔ)音和短信的運(yùn)營(yíng)級(jí)產(chǎn)品。
可以看出,中國(guó)電信雖為傳統(tǒng)運(yùn)營(yíng)商,但在技術(shù)上一貫都很重視,并且在其中的投入可能比我們想象得還要深。
因此,對(duì)于本段提出的問題:
為什么中國(guó)電信能做到央企中第一個(gè)發(fā)布大模型?
答案也就情理之中了。