國產(chǎn)開源模型標(biāo)桿大升級,重點(diǎn)能力比肩ChatGPT!書生·浦語2.0發(fā)布,支持免費(fèi)商用
1月17日,新一代大語言模型書?·浦語2.0(InternLM2)正式發(fā)布并開源。
2種參數(shù)規(guī)格、3種模型版本,共計(jì)6個(gè)模型,全部免費(fèi)可商用。
它支持200K超長上下文,可輕松讀200頁財(cái)報(bào)。200K文本全文范圍關(guān)鍵信息召回準(zhǔn)確率達(dá)95.62%。
不借助任何外部工具,內(nèi)生數(shù)理能力超過ChatGPT。配合代碼解釋器,可達(dá)到和GPT-4相仿水平。
同時(shí)還帶來工具多輪調(diào)用、更高共情等能力。
據(jù)了解,這些都得益于書生·浦語2.0在基礎(chǔ)建模能力上完成大幅升級,語料質(zhì)量更高、信息密度更大。
所以,書生·浦語2.0帶來哪些升級?又是如何做到?
上海AI實(shí)驗(yàn)室領(lǐng)軍科學(xué)家林達(dá)華教授,向我們披露了背后機(jī)密。
重點(diǎn)能力比肩ChatGPT
書生·浦語2.0共包含2種參數(shù)規(guī)格:7B和20B。
7B面向輕量級研究和應(yīng)用,20B綜合性能更強(qiáng)可支持更復(fù)雜的使用場景。
每個(gè)規(guī)格中包含3個(gè)模型版本。
- InternLM2-Base
- InternLM2
- InternLM2-Chat
Base版本是2.0中新增加的版本,它是標(biāo)準(zhǔn)版InternLM2 在進(jìn)行能力強(qiáng)化前的版本,更加基礎(chǔ)、可塑性也更高,因此更適合做探索研究。
標(biāo)準(zhǔn)版InternLM2是在Base基礎(chǔ)上,對多個(gè)能力進(jìn)行強(qiáng)化。它的評測成績更好,同時(shí)保持了很好的通用語言能力,適合大部分應(yīng)用。
Chat版本在Base基礎(chǔ)上經(jīng)過SFT和RLHF,在對話能力上進(jìn)行加強(qiáng),具有很好的指令遵循、共情、調(diào)用工具等能力。
具體能力方面,相較于上一代,InternLM2核心加強(qiáng)了基礎(chǔ)語言建模能力。
可以看到兩代模型在大規(guī)模高質(zhì)量驗(yàn)證語料上的loss分布,第二代分布整體左移,表明語言建模能力實(shí)質(zhì)性增強(qiáng)。
由此下游任務(wù)實(shí)現(xiàn)全方位提升,包括:
- 有效支持200K tokens超長上下文
- 支持復(fù)雜智能體搭建、工具多輪調(diào)用
- 內(nèi)生數(shù)理能力超越ChatGPT
- 綜合性能處于同規(guī)模開源模型領(lǐng)先水平
InternLM2現(xiàn)在有效支持20萬字超長上下文,同時(shí)保持很高的信息召回成功率,相較于上一代提升明顯。
對InternLM2進(jìn)行“大海撈針”實(shí)驗(yàn),通過將關(guān)鍵信息隨機(jī)插入一段長文本的不同位置構(gòu)造問題,測試模型是否能從長文本中提取關(guān)鍵信息。
結(jié)果顯示,InternLM2-Chat召回準(zhǔn)確率始終保持在高位,16K以內(nèi)的平均準(zhǔn)確率達(dá)到 95.65%。
在實(shí)際場景中,InternLM2可以處理長達(dá)3個(gè)小時(shí)的會(huì)議記錄、212頁長的財(cái)報(bào)內(nèi)容。
內(nèi)生計(jì)算能力也有大幅提升。
InternLM2在不依靠計(jì)算器等外部工具的情況下,可進(jìn)行部分復(fù)雜數(shù)學(xué)題的運(yùn)算和求解。
100以內(nèi)數(shù)學(xué)運(yùn)算上可做到接近100%準(zhǔn)確率,1000以內(nèi)達(dá)到80%準(zhǔn)確率。
如果配合代碼解釋器,20B模型已可以求解積分等大學(xué)級別數(shù)學(xué)題。
工具調(diào)用方面,基于更強(qiáng)和更具有泛化性的指令理解、工具篩選與結(jié)果反思等能力,InternLM2可更可靠地支持復(fù)雜智能體搭建,支持工具進(jìn)行有效多輪調(diào)用、完成復(fù)雜任務(wù)。
綜合性能方面,InternLM2在推理、數(shù)學(xué)、代碼方面表現(xiàn)突出。
不僅相較于上一代提升明顯,而且在標(biāo)準(zhǔn)測評集上,部分指標(biāo)已經(jīng)超越ChatGPT。
比如InternLM2-Chat-20B在MATH、GSM8K上,表現(xiàn)都超過ChatGPT。在配合代碼解釋器的條件下,則能達(dá)到和GPT-4相仿水平。
在AGIEval、 BigBench-Hard(BBH)等對推理能力有較高要求的評測上,新一代20B模型的表現(xiàn)優(yōu)于ChatGPT。
同時(shí)InternLM2還和其他開源模型進(jìn)行了全方位性能對比。
對比規(guī)格相近基座模型和對話模型,結(jié)果如下:
6B-7B基座模型對比
13B-20B基座模型對比
注:Mixtral-8x7B每次推理會(huì)激活約 13B 參數(shù),而且這個(gè)模型近期也備受關(guān)注,因此其表現(xiàn)也列在此處作為參考。
6B-7B對話模型對比
13B-20B對話模型對比
從各項(xiàng)數(shù)據(jù)來看,InternLM2已經(jīng)完成了全方位升級,給開源社區(qū)帶來了“ChatGPT級別”的大模型選擇。
那么它是如何做到的?技術(shù)上做了哪些創(chuàng)新?
核心在于提升數(shù)據(jù)質(zhì)量
和許多大模型迭代升級的路線不同,InternLM2并沒有卷參數(shù)規(guī)模,而是把重點(diǎn)放在了數(shù)據(jù)方面。
上海AI實(shí)驗(yàn)室領(lǐng)軍科學(xué)家林達(dá)華教授介紹,這是出于整體策略的考量。
提煉出一版非常好的數(shù)據(jù)后,它可以支持不同規(guī)格模型的訓(xùn)練。所以首先把很大一部分精力花在數(shù)據(jù)迭代上,讓數(shù)據(jù)在一個(gè)領(lǐng)先的水平。在中輕量級模型上迭代數(shù)據(jù),可以讓我們走得更快。
為此,上海AI實(shí)驗(yàn)室研發(fā)了新一代數(shù)據(jù)清洗過濾體系,主要工作有3方面:
- 多維數(shù)據(jù)價(jià)值評估
- 高質(zhì)量語料驅(qū)動(dòng)的數(shù)據(jù)富集
- 有針對性的數(shù)據(jù)補(bǔ)齊
首先在數(shù)據(jù)價(jià)值評估上,基于語言質(zhì)量、信息密度等維度對數(shù)據(jù)價(jià)值進(jìn)行綜合評估與提升。比如研究團(tuán)隊(duì)發(fā)現(xiàn),論壇網(wǎng)頁上的評論給模型能力帶來的提升非常有限。
所以團(tuán)隊(duì)利用高質(zhì)量語料的特征從物理世界、互聯(lián)網(wǎng)以及語料庫中進(jìn)一步富集更多類似語料。
這樣可以引導(dǎo)種子數(shù)據(jù)去匯聚真正有知識量的數(shù)據(jù),加大它們的比重。
最后再針對性補(bǔ)充語料,重點(diǎn)加強(qiáng)世界知識、數(shù)理、代碼等核心能力。
為了打造新一代數(shù)據(jù)清洗體系,研究團(tuán)隊(duì)訓(xùn)練了三位數(shù)的模型數(shù)量。因?yàn)轶w系每一次迭代,都起碼需要訓(xùn)一個(gè)7B規(guī)模上的大模型做驗(yàn)證。
在新一代數(shù)據(jù)清洗技術(shù)的加持下,只使用約60%的訓(xùn)練數(shù)據(jù),即可達(dá)到上一版數(shù)據(jù)訓(xùn)練1T tokens的性能表現(xiàn)。
另外,為了避免數(shù)據(jù)污染導(dǎo)致評測結(jié)果失真,InternLM2通過更嚴(yán)謹(jǐn)?shù)挠?xùn)練集構(gòu)建流程,把各測試集排除在外,同時(shí)通過min-hash去重,去掉訓(xùn)練語料中和測試集接近的部分。
當(dāng)然,InternLM2不僅關(guān)注模型基座能力,也基于當(dāng)下應(yīng)用趨勢需求,針對一些下游任務(wù)能力做提升。
比如近來很火的超長上下文趨勢,林達(dá)華教授介紹工具調(diào)用、數(shù)理推理等場景都需要更長的長下文窗口。
所以InternLM2通過拓展訓(xùn)練窗口大小和位置編碼改進(jìn),并找到足夠長且高質(zhì)量、有結(jié)構(gòu)以來關(guān)系的數(shù)據(jù)做訓(xùn)練,同時(shí)優(yōu)化訓(xùn)練系統(tǒng),將上下文窗口支持延長到了20萬tokens。
在大模型對話體驗(yàn)方面,InternLM2采用Online RLHF,對獎(jiǎng)勵(lì)模型和對話模型進(jìn)行三輪迭代更新,在每一輪更新中對前一輪模型更新偏好數(shù)據(jù)和訓(xùn)練prompt。
在獎(jiǎng)勵(lì)模型訓(xùn)練和PPO階段都平衡地采用各類prompt,使得模型在安全性進(jìn)一步提升的情況下,對話的主觀體驗(yàn)也顯著提升。
值得一提的是,研究團(tuán)隊(duì)同步開源了InternLM2-Chat僅SFT和SFT+RLHF的權(quán)重,供社區(qū)分析對比RLHF前后模型的變化。
總結(jié)來看,對于InternLM2的升級迭代,上海AI實(shí)驗(yàn)室核心關(guān)注模型基座能力,同時(shí)還結(jié)合大模型應(yīng)用趨勢的需求,針對部分下游任務(wù)做重點(diǎn)提升。
在快速演進(jìn)的趨勢里,這種清晰的思路很難得。
它需要團(tuán)隊(duì)對技術(shù)有深入理解、對趨勢有準(zhǔn)確判斷,能大幅提升大模型開發(fā)效率,加速模型迭代升級。
而上海AI實(shí)驗(yàn)室能夠得出如此思路,與其大模型初心有關(guān)。
做真正高質(zhì)量的開源
2023年世界人工智能大會(huì)上,書生·浦語大模型正式開源。
通過書生·浦語的高質(zhì)量全方位開源開放,我們希望可以助力大模型的創(chuàng)新和應(yīng)用,讓更多的領(lǐng)域和行業(yè)受惠于大模型變革的浪潮。
梳理來看,過去7個(gè)月里書生·浦語的一系列開源工作,徹底且全面。
范圍覆蓋通用大模型、專項(xiàng)任務(wù)大模型(書生·浦語靈筆)、全鏈條工具體系(貫穿數(shù)據(jù)、預(yù)訓(xùn)練、微調(diào)、部署、評測、應(yīng)用)、多模態(tài)預(yù)訓(xùn)練語料(書生·萬卷)等。
為什么要這樣做?
上海AI實(shí)驗(yàn)室領(lǐng)軍科學(xué)家林達(dá)華教授,給出了兩方面原因。
直接原因是大模型應(yīng)用趨勢馬上到來,開源高質(zhì)量基座大模型能縮短落地過程的中間鏈條。
林達(dá)華教授分析,無論是公眾還是商業(yè)領(lǐng)域,對大模型的耐心是有限度的。2024年大家必然會(huì)全力把大模型推向真正的應(yīng)用落地。
做高質(zhì)量基礎(chǔ)大模型,能夠讓基礎(chǔ)大模型在一個(gè)具體場景上做到應(yīng)有水平,變得更方便、更迅速。
更加根本的底層原因在于,中國需要自己的高質(zhì)量開源大模型。
大模型趨勢由ChatGPT開啟,但第二波高潮來自Meta開源LLaMA。它讓更多個(gè)人、機(jī)構(gòu)、企業(yè)能進(jìn)入到大模型領(lǐng)域,發(fā)展出豐富的應(yīng)用,給整個(gè)技術(shù)生態(tài)帶來深刻影響。
但由于LLaMA在中文理解方面存在局限、以及合規(guī)性等方面的考慮,國內(nèi)需要一個(gè)中文原生的高質(zhì)量開源基座。
綜合各方面因素,學(xué)術(shù)界力量更能勝任這件事。
開源基座大模型不僅要保證質(zhì)量高,更關(guān)鍵是要長期可持續(xù)。企業(yè)也能做開源,但是它天生存在商業(yè)訴求、關(guān)注點(diǎn)會(huì)逐漸從底層技術(shù)轉(zhuǎn)向商業(yè)應(yīng)用,這本身無可厚非,所以需要上海人工智能實(shí)驗(yàn)室能在這里發(fā)揮自己的價(jià)值。
加之學(xué)術(shù)圈無需考慮構(gòu)建商業(yè)壁壘,因此讓開源更加徹底。
林達(dá)華教授介紹,上海AI實(shí)驗(yàn)室在做大模型時(shí)會(huì)考慮應(yīng)用方面需要的能力,與合作伙伴共同打造具有開創(chuàng)和示范性質(zhì)的創(chuàng)新應(yīng)用,而不是打造To C的商業(yè)化應(yīng)用。。
比如近期升級發(fā)布的醫(yī)療多模態(tài)基礎(chǔ)模型群“浦醫(yī)2.0”。它由上海AI實(shí)驗(yàn)室與上海交通大學(xué)醫(yī)學(xué)院附屬瑞金醫(yī)院等合作伙伴聯(lián)合發(fā)布,旨在為“跨領(lǐng)域、跨疾病、跨模態(tài)”的AI醫(yī)療應(yīng)用提供能力支持。目前已經(jīng)建設(shè)了智能影像診斷、數(shù)字病理科建設(shè)、數(shù)字人虛擬手術(shù)、智慧臨床決策、創(chuàng)新醫(yī)學(xué)科研五大應(yīng)用場景。
這項(xiàng)工作同樣主打開源。最新升級中不僅加入了多個(gè)領(lǐng)先醫(yī)學(xué)大模型,新增5個(gè)開源數(shù)據(jù)集、新增評測模塊等,實(shí)現(xiàn)了醫(yī)療大模型群“產(chǎn)、學(xué)、研、用、評”一站式開源。
△浦醫(yī)2.0中的醫(yī)療基礎(chǔ)模型涵蓋病理、超聲、CT、MR、心電等多個(gè)醫(yī)療領(lǐng)域
透過這些實(shí)際開源腳步,即可洞察到當(dāng)下趨勢正在發(fā)生哪些轉(zhuǎn)變,以及上海AI實(shí)驗(yàn)室如何理解趨勢。
2024年被業(yè)內(nèi)視為大模型應(yīng)用落地元年。開年伊始,上海AI實(shí)驗(yàn)室的動(dòng)作更加聚焦應(yīng)用層面。
林達(dá)華教授認(rèn)為,2024年大模型領(lǐng)域的關(guān)鍵是,誰能找到大模型最具有可持續(xù)應(yīng)用價(jià)值的場景。
這個(gè)應(yīng)用價(jià)值可能并不是我們常見的那種交互形態(tài),比如聊天APP。
我手機(jī)上裝了十幾個(gè)大模型對話APP,平均使用時(shí)長只有2個(gè)小時(shí),因?yàn)樗⒉皇俏姨貏e需要的應(yīng)用。
所以對于整個(gè)業(yè)界來說,怎樣找到一個(gè)大家公認(rèn)的、真正有用的場景,是一個(gè)比較大的挑戰(zhàn)。
一旦找到,大模型技術(shù)革命就會(huì)真正在歷史上沉淀下來?!?/p>
而想要走到這一步,底層基礎(chǔ)大模型是最根本、最關(guān)鍵的影響因素。
回歸到技術(shù)發(fā)展上,林達(dá)華教授對于2024年也給出了一些預(yù)測和判斷:
- 大模型基礎(chǔ)能力會(huì)逐漸收斂,之后模型間的關(guān)鍵區(qū)別在于誰的質(zhì)量更高。
- 目前大模型領(lǐng)域任何趨勢熱度都不會(huì)超過3個(gè)月,比如超長上下文能力很快會(huì)成為各家大模型標(biāo)配。
- 24年上半年會(huì)涌現(xiàn)一批開源多模態(tài)大模型。
- 當(dāng)下MoE還只是初級設(shè)計(jì),發(fā)展到最高效設(shè)計(jì)仍需一段時(shí)間。
- 24年國內(nèi)很有希望出現(xiàn)比肩GPT-4的開源大模型。
總之,2024年,很有可能迎來開源大模型的高潮。
這不,開年第一槍已經(jīng)由上海AI實(shí)驗(yàn)室打響了。
書生·浦語2.0開源鏈接:https://github.com/InternLM/InternLM。
免費(fèi)商用授權(quán)許可申請:https://wj.qq.com/s2/12725412/f7c1。