自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<strike id="ojnsa"><rt id="ojnsa"><strong id="ojnsa"></strong></rt></strike>

<legend id="ojnsa"><track id="ojnsa"></track></legend>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

200億「書生·浦語2.0」正式開源！數(shù)推性能比肩ChatGPT，200K超長上下文完美召回

作者：新智元 2024-01-17 13:59:00

人工智能新聞

新一代國產(chǎn)開源大語言模型來了！200K超長上下文「完美」支持，20B版本綜合性能全面領(lǐng)先。

就在今天，上海人工智能實(shí)驗(yàn)室與商湯科技聯(lián)合香港中文大學(xué)和復(fù)旦大學(xué)，正式發(fā)布新一代大語言模型書?·浦語2.0（InternLM2）。

Github：https://github.com/InternLM/InternLM

HuggingFace：https://huggingface.co/internlm

ModelScope：https://modelscope.cn/organization/Shanghai_AI_Laboratory

新一代InternLM2經(jīng)過2.6萬億token高質(zhì)量語料訓(xùn)練，包含7B及20B兩種參數(shù)規(guī)格，以及基座、對話等版本。

它可以支持200K超長上下文，約30萬字文本，在「大海撈針實(shí)驗(yàn)」中實(shí)現(xiàn)了完美的召回率。

相較于初代InternLM，新一代大模型輕量級(jí)（7B）及中量級(jí)（20B）性能在同量級(jí)模型中表現(xiàn)優(yōu)異。尤其在數(shù)學(xué)推理方面，20B參數(shù)模型在GSM8K和MATH評測中性能超越ChatGPT（GPT-3.5）。

研究團(tuán)隊(duì)表示，InternLM2的核心理念在于「回歸語言建模的本質(zhì)」，致力于通過提高語料質(zhì)量及信息密度，實(shí)現(xiàn)模型基座語言建模能力獲得質(zhì)的提升。

InternLM2的輕量級(jí)及中量級(jí)版本性能在同量級(jí)開源模型中表現(xiàn)優(yōu)異

可以看到，InternLM2在數(shù)理、代碼、對話、創(chuàng)作等各方面都取得了長足進(jìn)步，綜合性能達(dá)到同量級(jí)開源模型的領(lǐng)先水平。而上海AI實(shí)驗(yàn)室也秉持著「以高質(zhì)量開源賦能創(chuàng)新」理念，繼續(xù)提供InternLM2免費(fèi)商用授權(quán)。

此外，為促進(jìn)AI生態(tài)發(fā)展，推動(dòng)大模型在各行業(yè)的應(yīng)用落地，書生·浦源大模型挑戰(zhàn)賽同日啟動(dòng)。

賽事由上海市經(jīng)濟(jì)和信息化委員會(huì)、上海市科學(xué)技術(shù)委員會(huì)、徐匯區(qū)人民政府共同指導(dǎo)，上海人工智能實(shí)驗(yàn)室（上海AI實(shí)驗(yàn)室）主辦，上海市人工智能行業(yè)協(xié)會(huì)承辦，首期賽事包含行業(yè)應(yīng)用和創(chuàng)新創(chuàng)意兩個(gè)賽道，即日起面向全球進(jìn)行場景和賽隊(duì)征集。

回歸語言建模本質(zhì)，筑牢大模型能力基礎(chǔ)

過去一段時(shí)間，國內(nèi)外機(jī)構(gòu)開源了多個(gè)優(yōu)秀的大語言模型，并帶來豐富的下游應(yīng)用，有力推動(dòng)了全球大模型開源生態(tài)的繁榮。大模型應(yīng)用生態(tài)的發(fā)展和繁榮是建立在模型基座強(qiáng)大的通用基礎(chǔ)能力之上的。

上海AI實(shí)驗(yàn)室聯(lián)合團(tuán)隊(duì)研究認(rèn)為，大模型各項(xiàng)性能提升的基礎(chǔ)在于語言建模能力的增強(qiáng)，對于大模型的研究應(yīng)回歸語言建模本質(zhì)，通過更高質(zhì)量的語料以及更高的信息密度，筑牢大模型能力基礎(chǔ)。

為此，聯(lián)合團(tuán)隊(duì)提出了新一代的數(shù)據(jù)清洗過濾技術(shù)，主要發(fā)展了以下幾個(gè)方面的技術(shù)方法：

- 多維度數(shù)據(jù)價(jià)值評估：基于語言質(zhì)量、信息密度等維度對數(shù)據(jù)價(jià)值進(jìn)行綜合評估與提升；

- 高質(zhì)量語料驅(qū)動(dòng)的數(shù)據(jù)富集：利用高質(zhì)量語料的特征從物理世界、互聯(lián)網(wǎng)以及語料庫中進(jìn)一步富集類似語料；

- 針對性的數(shù)據(jù)補(bǔ)齊：針對性補(bǔ)充語料，重點(diǎn)加強(qiáng)現(xiàn)實(shí)世界知識(shí)、數(shù)理、代碼等核心能力。

目前，浦語背后的數(shù)據(jù)清洗過濾技術(shù)已經(jīng)歷三輪迭代升級(jí)，僅使用約60%的訓(xùn)練數(shù)據(jù)即可達(dá)到使用第二代數(shù)據(jù)訓(xùn)練1T token的性能表現(xiàn)，模型訓(xùn)練效率大幅提升。

第三代數(shù)據(jù)清洗過濾技術(shù)大幅度提升模型訓(xùn)練效率

基于第三代數(shù)據(jù)清洗過濾技術(shù)，InternLM2語言建模能力顯著增強(qiáng)。

與第一代InternLM相比，InternLM2在大規(guī)模高質(zhì)量的驗(yàn)證語料上的Loss分布整體左移，表明了其語言建模能力的實(shí)質(zhì)性增強(qiáng)

支持200K超長上下文，「大海撈針」近乎完美

長語境輸入及理解能力能夠顯著拓展大模型的應(yīng)用場景，比如支持大型文檔的處理、復(fù)雜的推理演算和實(shí)際場景的工具調(diào)用等。

然而，大模型有限的上下文長度仍為當(dāng)前學(xué)界及業(yè)界面臨的重要難題。

為此，InternLM2通過拓展訓(xùn)練窗口大小和改進(jìn)位置編碼，實(shí)現(xiàn)了對200K token上下文的支持，能夠一次性接受并處理約30萬漢字（約五六百頁的文檔）的輸入內(nèi)容，準(zhǔn)確提取關(guān)鍵信息，實(shí)現(xiàn)長文本中「大海撈針」。

參考業(yè)界范例，研究人員對InternLM2進(jìn)行了「大海撈針」試驗(yàn)：將關(guān)鍵信息隨機(jī)插入一段長文本的不同位置并設(shè)置問題，測試模型能否從中提取出關(guān)鍵信息。

InternLM2「大海撈針」試驗(yàn)效果

上圖展示了InternLM2在不同長度的上下文（橫軸）及上下文中不同位置（縱軸）上召回關(guān)鍵信息的準(zhǔn)確率（Recall）。紅色代表較低的召回準(zhǔn)確率，而綠色則代表較高的召回率。

試驗(yàn)結(jié)果表明，InternLM2在上下文長度延展到200K時(shí)依舊保持了近乎完美的召回成功率，驗(yàn)證了InternLM2對于超長上下文堅(jiān)實(shí)的支持能力。

為測試InternLM2在真實(shí)長文本處理任務(wù)中的能力，研究人員將一份時(shí)長3小時(shí)的公開會(huì)議錄音轉(zhuǎn)錄稿輸入模型中，并要求InternLM2從中提取出關(guān)鍵信息。

測試結(jié)果表明，盡管在未校對的文本中存在較多錯(cuò)別字，但I(xiàn)nternLM2仍從中準(zhǔn)確提煉出了關(guān)鍵信息，并總結(jié)了發(fā)言人的主要觀點(diǎn)。

InternLM2準(zhǔn)確總結(jié)「聯(lián)合國2023年10月2日召開的聯(lián)合國貿(mào)易和發(fā)展會(huì)議會(huì)議記錄」

性能全面提升，綜合能力領(lǐng)先的開源模型

InternLM2的各項(xiàng)能力獲得全面進(jìn)步，相比于初代InternLM，在推理、數(shù)學(xué)、代碼等方面的能力提升尤為顯著，綜合能力領(lǐng)先于同量級(jí)開源模型。

根據(jù)大語言模型的應(yīng)用方式和用戶關(guān)注的重點(diǎn)領(lǐng)域，研究人員定義了語言、知識(shí)、推理、數(shù)學(xué)、代碼、考試等六個(gè)能力維度，在55個(gè)主流評測集上對多個(gè)同量級(jí)模型的表現(xiàn)進(jìn)行了綜合評測。

結(jié)果顯示，InternLM2的輕量級(jí)（7B）及中量級(jí)（20B）版本性能在同量級(jí)模型中表現(xiàn)優(yōu)異。

InternLM2的輕量級(jí)及中量級(jí)版本性能在同量級(jí)開源模型中表現(xiàn)優(yōu)異

下面的表格對比了InternLM2各版本與ChatGPT（GPT-3.5）以及GPT-4在典型評測集上的表現(xiàn)?？梢钥吹?，InternLM2只用20B參數(shù)的中等規(guī)模，即在整體表現(xiàn)上達(dá)到了與ChatGPT比肩的水平。

其中，在AGIEval、 BigBench-Hard（BBH）、GSM8K、MATH等對推理能力有較高要求的評測上，InternLM2表現(xiàn)甚至優(yōu)于ChatGPT。

InternLM2與ChatGPT的評測結(jié)果對比

與此同時(shí)，綜合性能的增強(qiáng)帶來了下游任務(wù)的全方位能力提升。新發(fā)布的InternLM2提供優(yōu)秀的對話及創(chuàng)作體驗(yàn)，支持多輪任務(wù)規(guī)劃及工具調(diào)用，并提供實(shí)用的數(shù)據(jù)分析能力。

對話及創(chuàng)作：更溫情、更富想象力

InternLM2不僅在客觀性能指標(biāo)上提升顯著，在主觀體驗(yàn)上也有明顯改善，可以為用戶提供優(yōu)秀的對話和交互體驗(yàn)。

研究測試表明，InternLM2-Chat可以精準(zhǔn)地理解和遵循用戶意圖，具備較強(qiáng)的共情能力和豐富的結(jié)構(gòu)化創(chuàng)作能力。下面展示幾個(gè)示例：

1. 在嚴(yán)格的格式要求下編制課程大綱

InternLM2設(shè)計(jì)的課程大綱精準(zhǔn)遵循用戶要求（比如格式、數(shù)量、內(nèi)容等）

2. 以富有人文關(guān)懷的回答開解用戶

InternLM2能夠在對話中與用戶「共情」

3. 展開想象力，編寫《流浪地球3》的劇本

InternLM2設(shè)計(jì)的具備充滿豐富的合理想象，比如外星遺跡、量子糾纏的引入等。同時(shí)整個(gè)故事表現(xiàn)了人類面對危機(jī)時(shí)的勇氣和團(tuán)結(jié)精神

對話和創(chuàng)造的體驗(yàn)進(jìn)步的原因，一方面是基礎(chǔ)語言能力的顯著增強(qiáng)，另一方面也得益于微調(diào)技術(shù)的提升。

在微調(diào)的過程中，InternLM2不僅使用了經(jīng)過第三代數(shù)據(jù)清洗過濾技術(shù)處理的指令微調(diào)語料，同時(shí)也采用了更強(qiáng)的Online RLHF。

期間，研究人員還對獎(jiǎng)勵(lì)模型和對話模型進(jìn)行了三輪迭代更新，每一輪更新均針對前一輪模型的表現(xiàn)更新偏好數(shù)據(jù)與提示詞。

在獎(jiǎng)勵(lì)模型訓(xùn)練（RM）和近端策略優(yōu)化（PPO）階段，研究人員均衡采用各類提示詞，不僅提高了對話的安全性，也提升了用戶體驗(yàn)。

工具調(diào)用：能力升級(jí)，更精準(zhǔn)的工具選用，更可靠的多步規(guī)劃

基于更強(qiáng)大、更具泛化性的指令理解、工具篩選與結(jié)果反思等能力，InternLM2可支持復(fù)雜智能體的搭建，支持對工具進(jìn)行多輪有效調(diào)用及多步驟規(guī)劃，完成復(fù)雜任務(wù)。

為了便于評估，聯(lián)合團(tuán)隊(duì)針對多種任務(wù)構(gòu)建了細(xì)粒度工具調(diào)用評測集T-Eval。

項(xiàng)目地址：https://open-compass.github.io/T-Eval/

結(jié)果顯示，InternLM2-Chat-7B在該評測集上的表現(xiàn)已經(jīng)超越了Claude-2.1和目前的開源模型，性能接近GPT-3.5。

InternLM2工具調(diào)用能力全面提升

通過工具的調(diào)用，大語言模型便可以利用搜索、計(jì)算、代碼解釋器等來獲取知識(shí)并處理更復(fù)雜的問題，從而拓展應(yīng)用邊界。

針對模型調(diào)用工具流程，研究人員還實(shí)施了細(xì)粒度的拆解和分析，針對規(guī)劃、推理、工具選擇、理解、執(zhí)行、反思等步驟進(jìn)行了針對性增強(qiáng)和優(yōu)化。

基于InternLM2通過開源智能體框架 Lagent搭建的用戶助手智能體，能夠在一次指令回應(yīng)中完成地圖查詢、路線規(guī)劃、發(fā)郵件等任務(wù)

數(shù)理推理：會(huì)做題，還會(huì)可視化分析

數(shù)學(xué)能力是大模型邏輯思維和推理能力的重要體現(xiàn)。

為此，上海AI實(shí)驗(yàn)室通過構(gòu)建更加科學(xué)的預(yù)訓(xùn)練語料，對InternLM2的數(shù)學(xué)能力進(jìn)行全面提升，使其達(dá)到了當(dāng)前開源模型的標(biāo)桿水平。

在不依靠計(jì)算器等外部工具的情況下，擁有著極強(qiáng)內(nèi)生計(jì)算能力的InternLM2在100以內(nèi)的簡單數(shù)學(xué)運(yùn)算上能夠做到接近100%的準(zhǔn)確率，在1000以內(nèi)達(dá)到80%左右的運(yùn)算準(zhǔn)確率。

在GSM8K和MATH評測中，InternLM2-20B的表現(xiàn)更是超過了ChatGPT（GPT-3.5）。

InternLM2在100以內(nèi)的簡單數(shù)學(xué)運(yùn)算上能夠做到接近100%的準(zhǔn)確率

為應(yīng)對各類復(fù)雜計(jì)算，InternLM2-Chat還可借助代碼解釋器（Code-Interpreter）編寫代碼進(jìn)行計(jì)算，或?qū)ν评淼慕Y(jié)果進(jìn)行形式化驗(yàn)證，從而解決計(jì)算要求更高或者演算過程更加復(fù)雜的問題。

在典型的數(shù)學(xué)評測集 GSM8K 和 MATH 上，配合代碼解釋器，InternLM2取得了更高的評測分?jǐn)?shù)。

其中，對于難度更高的 MATH 數(shù)據(jù)集，InternLM2的計(jì)算精度從 32.5 大幅提升到 51.2，甚至超過了 GPT-4 的表現(xiàn)。

InternLM2與ChatGPT的數(shù)學(xué)能力評測結(jié)果對比

下面的示例展示了InternLM2可以和代碼解釋器結(jié)合解決較復(fù)雜的高等數(shù)學(xué)問題。

InternLM2能夠完成積分求解等高等數(shù)學(xué)題目

基于在計(jì)算及工具調(diào)用方面強(qiáng)大的基礎(chǔ)能力，InternLM2在語言模型中具備了數(shù)據(jù)分析和可視化實(shí)用能力，進(jìn)一步貼近用戶使用場景。

向InternLM2輸入國家統(tǒng)計(jì)局公布的「2023年3-11月份規(guī)模以上工業(yè)企業(yè)主要財(cái)務(wù)指標(biāo)（分行業(yè)）」，InternLM2能夠分析數(shù)據(jù)并繪制折線圖

責(zé)任編輯：張燕妮來源：新智元

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<dfn id="etfd1"></dfn>

<cite id="etfd1"><rp id="etfd1"></rp></cite>