20B量級大模型性能媲美Llama2-70B!完全開源,從基座到工具全安排明白了
就在剛剛,國內(nèi)開源模型參數(shù)量紀錄,又被刷新了!
9月20日,上海人工智能實驗室(上海AI實驗室)與商湯科技聯(lián)合香港中文大學(xué)和復(fù)旦大學(xué),正式開源了200億參數(shù)的InternLM-20B模型。
項目地址:https://github.com/InternLM/InternLM
魔搭社區(qū):https://modelscope.cn/organization/Shanghai_AI_Laboratory
這次的200億參數(shù)版書生·浦語大模型,可以說是「加量不加價」,參數(shù)量還不到三分之一,性能卻可以劍挑當今開源模型的標桿——Llama2-70B。而當前主流的開源13B模型們,則在所有維度上都被InternLM-20B甩在身后。
不僅如此,面向大模型研發(fā)與應(yīng)用的全鏈條工具體系也同時升級。
從開源模型本身,再到全鏈條的開源工具,這一次,上海AI實驗室把自身研發(fā)大模型所沉淀的壓箱底的寶藏,全都拿了出來,希望幫助廣大研究者、機構(gòu)、社會從業(yè)者,都能以極低成本和門檻,參與大模型帶來的這場技術(shù)革命。
性能「同級領(lǐng)先」,門檻「開箱即用」,InternLM-20B,就是大模型走向千行百業(yè)的催化劑和新支點!
這股大模型的浪潮,將惠及每個人。
我們用的,全部開源
眾所周知,在大模型的整個研發(fā)體系中,有串在一起的多個環(huán)節(jié),這是十分復(fù)雜的一套閉環(huán)。
如何用更規(guī)范的代碼方式去組織?拿到基座模型該怎么用?落地到應(yīng)用的一步步過程中,有哪些注意事項?到處都是問題。
在經(jīng)過日常工作中真正的實踐后,上海AI實驗室的團隊沉淀出來一套寶貴經(jīng)驗。
現(xiàn)在,他們?yōu)榱朔睒s開源生態(tài),干脆把模型從數(shù)據(jù)準備,到預(yù)訓(xùn)練、部署,再到評測應(yīng)用,這整套流程中會涉及到的工具,全部開源了。
解密「獨家配方」
數(shù)據(jù),之于大模型重要性,就好比生產(chǎn)的原材料,沒有動力來源,無法驅(qū)動智能AI系統(tǒng)運轉(zhuǎn)。尤其,高質(zhì)量的數(shù)據(jù)更是大模型產(chǎn)業(yè)化的關(guān)鍵要素之一。
在收集上,不僅需要有效地過濾和清洗從網(wǎng)頁、書籍、專業(yè)報告論文等各種渠道中爬取的原始素材,還需要充分利用模型內(nèi)測用戶提供的反饋。
不過,要想讓LLM能夠獲取關(guān)鍵能力,比如理解、編程、邏輯推理,成為真正的「六邊形戰(zhàn)士」,更重要的是自己去構(gòu)建數(shù)據(jù)。
在這一方面,學(xué)術(shù)界的研究也是非?;钴S,比如微軟「Textbooks Are All You Need」,通過構(gòu)建數(shù)據(jù)訓(xùn)練后的模型phi-1,能夠在基準上取得相對領(lǐng)先優(yōu)勢。
就上海AI實驗室團隊來說,他們沒有選擇從單點方向去構(gòu)建數(shù)據(jù),而是從「全維度」,對整個知識體系梳理后構(gòu)建語料。
因此,這些語料在知識和邏輯的密度上,是非常高的。
在大量的常規(guī)內(nèi)容中加入少量的「催化劑」,不僅可以更好地激發(fā)出LLM的關(guān)鍵能力,而且模型對于相關(guān)信息的吸收和理解也會更強。
用上海AI實驗室領(lǐng)軍科學(xué)家林達華的話來說,「從某種意義上來說,這里的1個token,可以等同于10個,甚至100個傳統(tǒng)token的效力」。
就算力方面,除了互聯(lián)網(wǎng)大廠坐擁著豐富的資源外,開源社區(qū)大部分的開發(fā)者很難獲取更多的算力。
「希望能夠有輕量級的工具,能夠把模型用起來」。這是上海AI實驗室收到最多的社區(qū)反饋。
通過開源XTuner輕量級微調(diào)工具,用戶可以在8GB消費級GPU上,用自己的數(shù)據(jù)就能微調(diào)上海AI實驗室開源的模型。
此外,在模型應(yīng)用方向上,「聊天對話」依舊是模型非常重要的能力的一部分。
上海AI實驗室還想突出一點是,大模型作為中央Hub,使用工具解決問題,類似于Code Interpreter的方式去調(diào)用工具。
同時,在這個過程中,大模型還能進行自我反思,這便是LLM加持下智能體展現(xiàn)的巨大潛力。
林達華認為,Agent會是一個長期發(fā)展非常有價值的需要去探索的方向。
最終智能體的世界,整個組織分工也會在不斷的升級和演進,未來肯定是非常多的智能體的共同存在,有各自擅長的領(lǐng)域,相互之間會有很多技術(shù)能夠促進它們之間的交流。
那么,此次工具鏈具體升級的地方在何處?
- 數(shù)據(jù):OpenDataLab開源「書生·萬卷」預(yù)訓(xùn)練語料
數(shù)據(jù)上,書生·萬卷1.0多模態(tài)訓(xùn)練語料8月14日正式開源,數(shù)據(jù)總量超總量超過2TB,包含了文本數(shù)據(jù)集、圖文數(shù)據(jù)集、視頻數(shù)據(jù)集三部分。
通過對高質(zhì)量語料的「消化」,書生系列模型在語義理解、知識問答、視覺理解、視覺問答等各類生成式任務(wù)表現(xiàn)出的優(yōu)異性能。
截止目前,已經(jīng)有近10萬的下載量。
- 預(yù)訓(xùn)練:InternLM高效預(yù)訓(xùn)練框架
預(yù)訓(xùn)練階段,InternLM倉庫也開源了預(yù)訓(xùn)練框架InternLM-Train。
一方面,深度整合了Transformer模型算子,使得訓(xùn)練效率得到提升,另一方面則提出了獨特的Hybrid Zero技術(shù),實現(xiàn)了計算和通信的高效重疊,訓(xùn)練過程中的跨節(jié)點通信流量大大降低。
得益于極致的性能優(yōu)化,這套開源體系實現(xiàn)了千卡并行計算的高效率,訓(xùn)練性能達到了行業(yè)領(lǐng)先水平。
- 微調(diào):InternLM全參數(shù)微調(diào)、XTuner輕量級微調(diào)
低成本大模型微調(diào)工具箱XTuner也在近期開源,支持了Llama等多種開源大模型,以及LoRA、QLoRA等微調(diào)算法。
硬件要求上,XTuner最低只需8GB顯存,就可以對7B模型進行低成本微調(diào),20B模型的微調(diào)也能在24G顯存的消費級顯卡上完成。
XTuner為各類開源模型提供了多樣的微調(diào)框架
- 部署:LMDeploy支持十億到千億參數(shù)語言模型的高效推理
部署方面,LMDeploy涵蓋了大模型的全套輕量化、推理部署和服務(wù)解決方案。
它支持了從十億到千億參數(shù)的高效模型推理,在吞吐量等性能上超過了社區(qū)主流開源項目FasterTransformer,vLLM,Deepspeed等。
- 評測:OpenCompass一站式、全方位大模型評測平臺
評測部分,開源的大模型評測平臺OpenCompass提供了學(xué)科、語言、知識、理解、推理五大維度的評測體系。
同時,它還支持50+評測數(shù)據(jù)集、30萬道評測題目,支持零樣本、小樣本及思維鏈評測,是目前最全面的開源評測平臺。
- 應(yīng)用:Lagent輕量靈活的智能體框架
在最后的應(yīng)用環(huán)節(jié),上海AI實驗室團隊將重點放在了智能體上,開發(fā)并開源了Lagent輕量靈活的智能體框架。
它能夠支持用戶快速地將一個大語言模型轉(zhuǎn)變?yōu)槎喾N類型的智能體,并提供典型工具為大語言模型賦能。
這套開源框架集合了多種類型的智能體能力,包括經(jīng)典的ReAct、AutoGPT和ReWoo等。
這個框架的代碼結(jié)構(gòu)不僅清晰,而且簡單。只用不到20行代碼,開發(fā)者就能創(chuàng)建一個屬于自己的智能體。
另外,Lagent支持包括InternLM,Llama,ChatGPT在內(nèi)的多個大模型。
在Lagent加持下,這些智能體能夠調(diào)用大語言模型進行規(guī)劃推理和工具調(diào)用,并在執(zhí)行過程中及時進行反思和自我修正。
國內(nèi)首發(fā)16k上下文,200億參數(shù)打平Llama2-70B
除了全套的大模型工具鏈外,上海AI實驗室還全新開源了高達200億參數(shù)的InternLM-20B。
評測結(jié)果顯示,在同量級開源模型中,InternLM-20B是當之無愧的綜合性能最優(yōu)。
- 超長上下文支持
首先,在語境長度上,InternLM-20B可以支持高達16K的上下文窗口。
如下圖所示,InternLM-20B閱讀了某知名咖啡品牌的長新聞后,能夠?qū)θ齻€提問做出準確回答。
對于超級長篇的論文和報告,InternLM-20B也能準確地提取摘要。
比如,輸入經(jīng)典的ResNet論文后,它立馬寫出了摘要,準確概括了ResNet的核心思想和實驗效果。
- 調(diào)用工具,自學(xué)成才
其次,在長語境的支持下,模型的能力被大大拓展,無論是工具調(diào)用、代碼解釋,還是反思修正,都有了更大的空間。而這也成了在InternLM-20B之上打造智能體的關(guān)鍵技術(shù)。
現(xiàn)在,InternLM-20B不僅可以支持日期、天氣、旅行、體育等數(shù)十個方向的內(nèi)容輸出,以及上萬個不同的API,而且還能過類似Code Interpreter的方式去進行工具的調(diào)用。
與此同時,在這個過程中,它還能進行反思修正,跟現(xiàn)實場景產(chǎn)生聯(lián)系。
在清華等機構(gòu)聯(lián)合發(fā)布的大模型工具調(diào)用評測集ToolBench中,InternLM-20B和ChatGPT相比,達到了63.5%的勝率,在該榜單上取得了最優(yōu)結(jié)果。
而且,InternLM-20B模型還展現(xiàn)出一定的零樣本泛化能力。即使模型在訓(xùn)練過程中并沒有學(xué)過一些工具,它竟然也能根據(jù)工具描述和用戶提問來調(diào)用工具。
如下圖所示,給它提供一些AI工具,它就可以自己進行規(guī)劃和推理,完成用戶問題。
- 同量級全面領(lǐng)先
在多達50款各個維度的主流評測集上,InternLM-20B也一舉實現(xiàn)了同量級開源模型的綜合性能最優(yōu)。
與此同時,在平均成績上也明顯超越了規(guī)模更大的Llama-33B,甚至在部分評測中還能小勝Llama2-70B。
具體來說,InternLM-20B在MMLU、C-Eval、AGIEval綜合性學(xué)科評測中成績優(yōu)異,在同量級開源模型中處于領(lǐng)先位置。
尤其是在包含中文學(xué)科考試的C-Eval和AGIEval上,表現(xiàn)明顯超過了Llama2-70B。
在考驗事實性知識的評測上,InternLM-20B全面超越了13B模型,并且能與Llama-33B一較高下。
但相比于Llama-65B或者Llama2-70B仍有一定差距。
在理解能力維度,InternLM-20B的表現(xiàn)更是突出,全面超越了包括Llama2-70B在內(nèi)的各量級開源模型。
推理,是考倒了不少模型的「攔路虎」,考驗的是大模型真金白銀的本事,也很大程度上決定了模型是否能支撐實際應(yīng)用。
在下述四個推理測評集上,InternLM-20B的成績均超越了主流的13B開源模型,甚至已經(jīng)接近了Llama-65B的推理能力。
編程能力上,InternLM-20B也有了顯著提升。在HumanEval和MBPP兩個典型評測集上,接近了Llama2-70B。
注:上述截圖中的粗體為13B-33B量級范圍內(nèi),各項最佳成績。
在HuggingFace最新公布的Open LLM Leaderboard評測榜單上,InternLM-20B在參數(shù)量60B以下基模型中平均成績領(lǐng)先,也超過了Llama-65B。
- 更安全的開源模型
最后,在價值對齊上,InternLM-20B也更加完善、更為安全。
如果你向它提出帶有偏見的問題,它就會立馬識別出其中的不安全因素,給出正確的價值引導(dǎo)。
大模型,從來都不是大廠的專利
大模型浪潮掀起后,我們需要關(guān)注的,不僅僅是在測評榜單上拔得頭籌,還有如何讓大模型從「AI皇冠上的明珠」,成為千行百業(yè)都可用的「全新生產(chǎn)力」。
縱觀歷史,真正引領(lǐng)時代的技術(shù),不只是顛覆性的創(chuàng)新,更重要的,是做到低成本、低門檻、人人可用。但OpenAI、谷歌這樣的大廠是絕對不會把其中具體的細節(jié)公之于眾。
而這,正是上海AI實驗室的初心之所在。
自6月首發(fā)以來,書生·浦語已經(jīng)完成了多輪升級,在開源社區(qū)和產(chǎn)業(yè)界產(chǎn)生了廣泛影響。
而且,除了把代碼在GitHub上開放、把模型放在HuggingFace和魔搭社區(qū),上海AI實驗室甚至每天都會派專人去看社區(qū)里的反饋,對用戶提問悉心解答。
此前,Meta的LLaMA模型開源,引爆了ChatGPT替代狂潮,讓文本大模型迎來了Stable Diffustion時刻。
就如同今天羊駝家族的繁榮生態(tài),上海AI實驗室的開源努力,必將給社區(qū)帶來不可估量的價值。
對于全球范圍內(nèi)活躍的開發(fā)者和研究者,書生·浦語會提供一個體量適中、但能力非常強的基座。
大部分企業(yè),尤其是中小企業(yè),雖然看到了大模型的趨勢,但是不太可能像大廠一樣花很大代價去購買算力,并且吸引最頂尖的人才。
實際上,從7月6號的人工智能大會開始,上海AI實驗室就已經(jīng)在做全鏈條地做開源。比如XTuner能以非常輕量級的方式,讓用戶只用自己的一些數(shù)據(jù),就能訓(xùn)出自己的模型。
不僅如此,一個團隊把開源社區(qū)的問題、語料、文檔和XTuner模型結(jié)合,訓(xùn)練出了一個開源社區(qū)客服。這就是對開源社區(qū)實打?qū)嵉呢暙I。
甚至,上海AI實驗室把自己的整個技術(shù)體系,都分享給了社區(qū)(也就是上文提到的全鏈條工具體系)。
全社會如此多的行業(yè),如此多的企業(yè),如此多的機構(gòu)和研發(fā)者,如果能實實在在把大模型的價值落地,將是非常重要的力量。
他們擁有無窮的創(chuàng)造力,唯一缺的就是資源。
而上海AI實驗室的「雪中送炭」,必然會讓大模型在落地領(lǐng)域發(fā)揮出巨大的價值。
正如林達華所言——
作為實驗室,我們能提供基礎(chǔ)模型以及將各行業(yè)的know-how融匯成數(shù)據(jù)、模型能力的一系列工具,并且將它們做得非常易用、教會更多人用,讓它們能在各個行業(yè)里開花結(jié)果。
全鏈條工具體系開源鏈接
「書生·萬卷」預(yù)訓(xùn)練語料:
https://github.com/opendatalab/WanJuan1.0
InternLM預(yù)訓(xùn)練框架:
https://github.com/InternLM/InternLM
XTuner微調(diào)工具箱:
https://github.com/InternLM/xtuner
LMDeploy推理工具鏈:
https://github.com/InternLM/lmdeploy
OpenCompas大模型評測平臺:
https://github.com/open-compass/opencompass
Lagent智能體框架:
https://github.com/InternLM/lagent