自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

“中文版GPT-3”來了:會(huì)算術(shù)、可續(xù)寫紅樓夢,用64張V100訓(xùn)練了3周

新聞 人工智能
今年,OpenAI推出的自然語言模型GPT-3引起了巨大的轟動(dòng)。這是迄今為止最大的NLP模型,包含1750億參數(shù),光是訓(xùn)練就調(diào)用上萬塊GPU,花費(fèi)了460萬美元的成本。

 本文經(jīng)AI新媒體量子位(公眾號(hào)ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。

今年,OpenAI推出的自然語言模型GPT-3引起了巨大的轟動(dòng)。

這是迄今為止最大的NLP模型,包含1750億參數(shù),光是訓(xùn)練就調(diào)用上萬塊GPU,花費(fèi)了460萬美元的成本。

但GPT-3是基于英語語料庫進(jìn)行訓(xùn)練,而且并不開源,業(yè)內(nèi)一直期待著能有一個(gè)中文的超大型NLP模型。

現(xiàn)在,它終于來了!

最近,北京智源人工智能研究院和清華大學(xué)研究團(tuán)隊(duì),合作開展了一項(xiàng)大規(guī)模預(yù)訓(xùn)練模型開源計(jì)劃——清源CPM (Chinese Pretrained Models)

11 月中旬,CPM將開放第一階段的26億參數(shù)規(guī)模的中文語言模型 (CPM-LM) 和217億參數(shù)規(guī)模的結(jié)構(gòu)化知識(shí)表示模型 (CPM-KM) 下載,以及相應(yīng)的Demo。

該項(xiàng)目的源代碼和模型已經(jīng)在GitHub和官網(wǎng)開放下載。

“中文版GPT-3”來了:會(huì)算術(shù)、可續(xù)寫紅樓夢,用64張V100訓(xùn)練了3周

CPM中文語言模型與GPT-3模型類似,僅需要通過少次、單次學(xué)習(xí)甚至零次學(xué)習(xí),就能完成不同自然語言處理任務(wù),具備一定的常識(shí)和認(rèn)知的泛化能力。

官方表示,清源CPM計(jì)劃所有模型免費(fèi)向?qū)W術(shù)界和產(chǎn)業(yè)界開放下載,供研究使用。

模型特點(diǎn)

與已有的中文預(yù)訓(xùn)練模型相比,本次發(fā)布的清源 CPM 大規(guī)模預(yù)訓(xùn)練模型具有以下特點(diǎn):

“中文版GPT-3”來了:會(huì)算術(shù)、可續(xù)寫紅樓夢,用64張V100訓(xùn)練了3周

1、語料豐富多樣:收集大量豐富多樣的中文語料,包括百科、小說、對話、問答、新聞等類型。

2、模型規(guī)模大:本次發(fā)布的 CPM-LM 的參數(shù)規(guī)模為 26 億,預(yù)訓(xùn)練中文數(shù)據(jù)規(guī)模100 GB,使用了 64 塊 V100 GPU 訓(xùn)練時(shí)間約為 3 周。

3、學(xué)習(xí)能力強(qiáng):能夠在多種自然語言處理任務(wù)上,進(jìn)行零次學(xué)習(xí)或少次學(xué)習(xí)達(dá)到較好的效果。

4、行文自然流暢:基于給定上文,模型可以續(xù)寫出一致性高、可讀性強(qiáng)的文本,達(dá)到現(xiàn)有中文生成模型的領(lǐng)先效果。

Demo展示

為了更直觀地展示清源CPM預(yù)訓(xùn)練模型的效果,官方提供了一些文本生成的Demo。

GPT-3能勝任的常識(shí)性問答,CPM預(yù)訓(xùn)練模型一樣可以應(yīng)對:

“中文版GPT-3”來了:會(huì)算術(shù)、可續(xù)寫紅樓夢,用64張V100訓(xùn)練了3周

它能夠根據(jù)真實(shí)的天氣預(yù)報(bào)內(nèi)容,生成天氣預(yù)報(bào)文本模板:

“中文版GPT-3”來了:會(huì)算術(shù)、可續(xù)寫紅樓夢,用64張V100訓(xùn)練了3周

除了生成文字外,清源CPM還具有一定的數(shù)理推理,根據(jù)之前的規(guī)律生成計(jì)算結(jié)果:

“中文版GPT-3”來了:會(huì)算術(shù)、可續(xù)寫紅樓夢,用64張V100訓(xùn)練了3周

甚至可以續(xù)寫紅樓夢片段:

“中文版GPT-3”來了:會(huì)算術(shù)、可續(xù)寫紅樓夢,用64張V100訓(xùn)練了3周

另外,智源和清華團(tuán)隊(duì)還在幾項(xiàng)基準(zhǔn)測試中驗(yàn)證了清源CPM的實(shí)際性能。

1、中文成語填空

ChID 是 2019 年清華大學(xué)對話交互式人工智能實(shí)驗(yàn)室(CoAI)收集的中文成語填空數(shù)據(jù)集,其目標(biāo)是對于給定的段落,在 10 個(gè)候選項(xiàng)中選擇最符合段意的成語進(jìn)行填空。

“中文版GPT-3”來了:會(huì)算術(shù)、可續(xù)寫紅樓夢,用64張V100訓(xùn)練了3周

表中匯報(bào)了預(yù)測的準(zhǔn)確率,可以看到,CPM(大) 在無監(jiān)督的設(shè)定下甚至達(dá)到了比有監(jiān)督的 CPM (小) 更好的結(jié)果,反應(yīng)了清源 CPM 強(qiáng)大的中文語言建模能力。

2、對話生成

STC是2015年華為諾亞方舟實(shí)驗(yàn)室提出的短文本對話數(shù)據(jù)集,要求在給定上文多輪對話的條件下預(yù)測接下來的回復(fù)。

“中文版GPT-3”來了:會(huì)算術(shù)、可續(xù)寫紅樓夢,用64張V100訓(xùn)練了3周

在無監(jiān)督的設(shè)定下,清源 CPM 具有更好的泛化性,在有監(jiān)督設(shè)定下,清源 CPM 能達(dá)到比 CDial-GPT 更優(yōu)的效果,尤其在多樣性指標(biāo)上表現(xiàn)更佳。以下為生成的對話樣例。

“中文版GPT-3”來了:會(huì)算術(shù)、可續(xù)寫紅樓夢,用64張V100訓(xùn)練了3周

3、文本分類

清源 CPM 使用頭條新聞標(biāo)題分類 (TNEWS,采樣為4分類),IFLYTEK應(yīng)用介紹分類 (IFLYTEK,采樣為4分類),中文自然語言推斷 (OCNLI,3分類) 任務(wù)作為文本分類任務(wù)的基準(zhǔn)。

“中文版GPT-3”來了:會(huì)算術(shù)、可續(xù)寫紅樓夢,用64張V100訓(xùn)練了3周

可以看出,清源CPM能夠在無監(jiān)督的設(shè)定下達(dá)到比隨機(jī)預(yù)測 (TNEWS/IFLYTEK/OCNLI 隨機(jī)預(yù)測精確度分別為0.25/0.25/0.33) 好得多的精確度。

4、自動(dòng)問答

CPM 使用 DuReader 和CMRC2018 作為自動(dòng)問答任務(wù)的基準(zhǔn),要求模型從給定的段落中抽取一個(gè)片段作為對題目問題的答案。其中DuReader 由百度搜索和百度知道兩部分?jǐn)?shù)據(jù)組成。

“中文版GPT-3”來了:會(huì)算術(shù)、可續(xù)寫紅樓夢,用64張V100訓(xùn)練了3周

在單樣本設(shè)定下,CPM 能從給定的樣本中學(xué)習(xí)到生成答案的模式,因此效果總是比零樣本設(shè)定更好。由于模型的輸入長度有限,多樣本輸入的場景將在未來進(jìn)行探索。

5、實(shí)體生成

CPM 采用 XLORE 中的幾種常見的關(guān)系三元組作為實(shí)體生成任務(wù)的基準(zhǔn)。在少樣本設(shè)定 (把少量真實(shí)樣本拼在待預(yù)測樣本前作為提示) 下,不同規(guī)模的 CPM 模型的 BLEU-1 值如下表所示。

“中文版GPT-3”來了:會(huì)算術(shù)、可續(xù)寫紅樓夢,用64張V100訓(xùn)練了3周

可以看出參數(shù)量越大時(shí),模型對于預(yù)測實(shí)體效果越好。同時(shí),模型在給定 2 個(gè)樣本時(shí)就可以達(dá)到不錯(cuò)的效果,大部分時(shí)候 N=2 和 N=4 的效果是接近的。

“中文版GPT-3”來了:會(huì)算術(shù)、可續(xù)寫紅樓夢,用64張V100訓(xùn)練了3周

 

64塊V100訓(xùn)練3周

智源和清華本次發(fā)布的大規(guī)模預(yù)訓(xùn)練模型,難以在單塊GPU上運(yùn)行,因此需要將模型在多個(gè) GPU之間分配參數(shù),進(jìn)行并行化訓(xùn)練。

CPM正是基于英偉達(dá)的大規(guī)模并行計(jì)算訓(xùn)練項(xiàng)目Megatron-LM。

CPM模型預(yù)訓(xùn)練過程分布在多塊 GPU 上,采用層內(nèi)并行的方法進(jìn)行訓(xùn)練,并基于當(dāng)前已有的成熟技術(shù),減少同步提高通訊速率。

本次發(fā)布的CPM-LM的參數(shù)規(guī)模為26億,預(yù)訓(xùn)練中文數(shù)據(jù)規(guī)模100GB,使用64塊英偉達(dá)V100 GPU,訓(xùn)練時(shí)間約為3周。

而CPM-KG的參數(shù)規(guī)模為217億,預(yù)訓(xùn)練結(jié)構(gòu)化知識(shí)圖譜為WikiData全量數(shù)據(jù),包含近 1300 個(gè)關(guān)系、8500萬實(shí)體、4.8 億個(gè)事實(shí)三元組,使用了8塊英偉達(dá)V100 GPU訓(xùn)練時(shí)間約為2周。

未來計(jì)劃

今年年底開源的兩個(gè)項(xiàng)目只是清源NLP研究計(jì)劃的第一步,據(jù)了解,清源 CPM 未來一年的研究和開源計(jì)劃是:

“中文版GPT-3”來了:會(huì)算術(shù)、可續(xù)寫紅樓夢,用64張V100訓(xùn)練了3周

  • 階段1 (2020年10月-12月):中文大規(guī)模預(yù)訓(xùn)練語言模型,含約 30 億參數(shù),訓(xùn)練數(shù)據(jù)包括 100GB 中文數(shù)據(jù)。
  • 階段2 (2021年01月-06月):以中文為核心多語言大規(guī)模預(yù)訓(xùn)練語言模型,含約 200 億參數(shù),訓(xùn)練數(shù)據(jù)包括 500GB 以中文為核心的多語言數(shù)據(jù)。
  • 階段3 (2021年07月-09月):知識(shí)指導(dǎo)的大規(guī)模預(yù)訓(xùn)練語言模型,含約 1000 億參數(shù),訓(xùn)練數(shù)據(jù)包括 1TB 以中文為核心的多語言數(shù)據(jù)和億級實(shí)體關(guān)系圖譜。

清源 CPM 計(jì)劃將積極配備算力、數(shù)據(jù)和人力,注重開展原創(chuàng)研究,盡早實(shí)現(xiàn)與國際頂尖機(jī)構(gòu)在超大規(guī)模預(yù)訓(xùn)練模型技術(shù)方面并跑,提升中文自然語言的深度理解和生成能力。

與此同時(shí),智源研究院也將積極與產(chǎn)業(yè)界合作,在智能客服、個(gè)性推薦、文本生成、自動(dòng)編程等方面,探索新型的人工智能應(yīng)用和商業(yè)模式。

關(guān)于清源CPM計(jì)劃

清源CPM計(jì)劃是以中文為核心的大規(guī)模預(yù)訓(xùn)練模型。

首期開源內(nèi)容包括預(yù)訓(xùn)練中文語言模型和預(yù)訓(xùn)練知識(shí)表示模型,可廣泛應(yīng)用于中文自然語言理解、生成任務(wù)以及知識(shí)計(jì)算應(yīng)用。

清源CPM計(jì)劃由北京智源人工智能研究院和清華大學(xué)研究團(tuán)隊(duì)合作開展。“自然語言處理”是智源研究院重點(diǎn)支持的重大研究方向之一。

智源在該方向上集結(jié)了大量國內(nèi)權(quán)威學(xué)者,這些學(xué)者在NLP領(lǐng)域積累了豐富的研究成果。

如清華大學(xué)孫茂松、劉知遠(yuǎn)團(tuán)隊(duì)和李涓子唐杰團(tuán)隊(duì)提出了知識(shí)指導(dǎo)的預(yù)訓(xùn)練模型 ERNIE 和 KEPLER,循環(huán)智能楊植麟團(tuán)隊(duì)提出了性能顯著優(yōu)于 BERT 的 XLNet 模型,清華大學(xué)朱小燕黃民烈團(tuán)隊(duì)提出了面向情感分析的預(yù)訓(xùn)練模型 SentiLARE,融合常識(shí)知識(shí)的預(yù)訓(xùn)練語言生成模型 StoryGPT,面向中文對話生成的 CDial-GPT模型,等等。

研究團(tuán)隊(duì)將在智源研究院大規(guī)模算力平臺(tái)的支持下,開展以中文為核心的超大規(guī)模預(yù)訓(xùn)練模型研究,包括跨語言學(xué)習(xí)、文本生成、知識(shí)融合、模型并行和壓縮等前沿課題,并將相關(guān)模型及時(shí)通過智源社區(qū)開源共享。

 

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2021-03-23 15:21:00

人工智能機(jī)器學(xué)習(xí)技術(shù)

2022-08-09 08:02:36

Python人物關(guān)系紅樓夢

2023-04-18 16:07:11

人工智能

2011-01-07 11:34:34

職場

2010-07-23 15:42:20

職場生存

2020-08-21 13:22:12

GPT-3AI機(jī)器

2022-12-12 10:28:40

ChatGPTAI

2023-04-07 09:53:02

量子AI

2020-09-02 10:10:37

AI 數(shù)據(jù)人工智能

2023-03-01 16:15:16

2021-07-19 10:56:36

GPE-3OpenAI微軟

2024-04-25 09:41:24

項(xiàng)目模型

2019-09-02 14:58:03

深度學(xué)習(xí)編程人工智能

2023-02-14 08:00:00

人工智能GPT-3語言模型

2021-01-19 16:34:30

開源技術(shù) GPT-3

2020-09-23 18:04:41

微軟開發(fā)代碼

2011-05-27 15:52:13

2023-06-08 15:33:31

人工智能GPT-3

2021-02-25 15:43:43

AI 數(shù)據(jù)人工智能

2022-06-02 15:10:35

AI數(shù)據(jù)模型
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)