自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

26億參數(shù),智源、清華開源中文大規(guī)模預訓練模型

新聞 人工智能
近日,北京智源人工智能研究院和清華大學研究團隊聯(lián)合發(fā)布了以中文為核心的大規(guī)模預訓練語言模型 CPM-LM,參數(shù)規(guī)模達 26 億,預訓練中文數(shù)據(jù)規(guī)模 100 GB。

 近日,北京智源人工智能研究院和清華大學研究團隊聯(lián)合發(fā)布了以中文為核心的大規(guī)模預訓練語言模型 CPM-LM,參數(shù)規(guī)模達 26 億,預訓練中文數(shù)據(jù)規(guī)模 100 GB。

[[352853]]

自 2018 年谷歌發(fā)布 BERT 以來,預訓練模型在自然語言處理(NLP)領域逐漸成為主流。今年 5 月份,OpenAI 推出的史上最大 AI 模型 GPT-3更是引起了大量討論。但是,目前 NLP 領域的預訓練模型多針對英語語言,以英語語言數(shù)據(jù)為訓練數(shù)據(jù),例如 GPT-3:

26億參數(shù),智源、清華開源中文大規(guī)模預訓練模型

用于訓練 GPT-3 的數(shù)據(jù)集。

近日,北京智源人工智能研究院和清華大學研究團隊合作開展了一項名為「清源 CPM (Chinese Pretrained Models)」的大規(guī)模預訓練模型開源計劃,旨在構建以中文為核心的大規(guī)模預訓練模型。首期開源內(nèi)容包括預訓練中文語言模型和預訓練知識表示模型,可廣泛應用于中文自然語言理解、生成任務以及知識計算應用,所有模型免費向?qū)W術界和產(chǎn)業(yè)界開放下載,供研究使用。

清源 CPM 主頁:https://cpm.baai.ac.cn/

清源 CPM Github 托管代碼主頁:https://github.com/TsinghuaAI/

模型特點

根據(jù)清源 CPM 主頁介紹,該計劃發(fā)布的預訓練模型具備以下特點:

模型規(guī)模大:本次發(fā)布的CPM-LM 參數(shù)規(guī)模達 26 億,預訓練中文數(shù)據(jù)規(guī)模 100 GB,使用了 64 塊 V100 GPU,訓練時間約為 3 周;CPM-KG 的參數(shù)規(guī)模為 217 億,預訓練結構化知識圖譜為 WikiData 全量數(shù)據(jù),包含近 1300 個關系、8500 萬實體、4.8 億個事實三元組,使用了 8 塊 V100 GPU 訓練時間約為 2 周。

語料豐富多樣:收集大量豐富多樣的中文語料,包括百科、小說、對話、問答、新聞等類型。

學習能力強:能夠在多種自然語言處理任務上進行零次學習或少次學習,并達到較好的效果。

行文自然流暢:基于給定上文,模型可以續(xù)寫出一致性高、可讀性強的文本,達到現(xiàn)有中文生成模型的領先效果。

在模型訓練方面,CPM 模型預訓練過程分布在多塊 GPU 上,采用層內(nèi)并行的方法進行訓練,并基于當前已有的成熟技術,減少同步提高通訊速率。

在硬件設施方面,為訓練該 CPM 模型,共有 64 塊 V100 顯卡投入使用。經(jīng)過預訓練的 CPM 模型可以用來促進諸多下游中文任務,如對話、論文生成、完形填空和語言理解等。

為了促進中文自然語言處理研究的發(fā)展,該項目還提供了 CPM-LM (2.6B) 模型的文本生成代碼,可用于文本生成的本地測試,并以此為基礎進一步研究零次學習 / 少次學習等場景,詳情參見項目 GitHub 主頁。

模型性能

清源 CPM 使用新聞、百科、對話、網(wǎng)頁、故事等不同類型的中文語料數(shù)據(jù)進行預訓練。在多個公開的中文數(shù)據(jù)集上的實驗表明,清源 CPM 在少樣本或無樣本的情況下均能夠?qū)崿F(xiàn)較好的效果。

中文成語填空 ChID

ChID 是 2019 年清華大學對話交互式人工智能實驗室(CoAI)收集的中文成語填空數(shù)據(jù)集,其目標是對于給定的段落,在 10 個候選項中選擇最符合段意的成語進行填空。

26億參數(shù),智源、清華開源中文大規(guī)模預訓練模型

其中有監(jiān)督設定是指在 ChID 的訓練集上進行訓練,隨后在測試集上測試;無監(jiān)督設定是指不經(jīng)過任何額外訓練,直接使用預訓練模型進行測試。具體做法是,將候選項依次填入段落中,計算填充后段落的困惑度 (Perplexity),選擇困惑度最小的候選項作為預測結果。表中匯報了預測的準確率,可以看到,CPM (大) 在無監(jiān)督設定下甚至達到了比有監(jiān)督 CPM (小) 更好的結果,反映出清源 CPM 強大的中文語言建模能力。

對話生成 STC

STC 是 2015 年華為諾亞方舟實驗室提出的短文本對話數(shù)據(jù)集,要求在給定上文多輪對話的條件下預測接下來的回復。

26億參數(shù),智源、清華開源中文大規(guī)模預訓練模型

其中 CDial-GPT 是清華大學對話交互式人工智能(CoAI)實驗室 2020 年提出的中文對話預訓練模型。用于衡量多樣性的 Dist-n 指標的兩個數(shù)字分別是所有不重復的 N-Gram 的數(shù)量及占所有 N-Gram 的比例??梢钥吹?,在無監(jiān)督的設定下,清源 CPM 具有更好的泛化性,在有監(jiān)督設定下,清源 CPM 能達到比 CDial-GPT 更優(yōu)的效果,尤其在多樣性指標上表現(xiàn)更佳。

文本分類

清源 CPM 使用頭條新聞標題分類(TNEWS,采樣為 4 分類)、IFLYTEK 應用介紹分類(IFLYTEK,采樣為 4 分類)、中文自然語言推斷(OCNLI,3 分類)任務作為文本分類任務的基準。具體做法是,先輸入分類樣本,再輸入「該文章的類別為 / 該介紹的類別為 / 兩句話的關系為」,要求模型直接生成標簽,四個標簽中概率最高的標簽作為預測結果。在無監(jiān)督設定下,不同規(guī)模的清源 CPM 在文本分類任務上的精確度如下表所示:

26億參數(shù),智源、清華開源中文大規(guī)模預訓練模型

清源 CPM 能夠在無監(jiān)督的設定下達到比隨機預測好得多的精確度(TNEWS/IFLYTEK/OCNLI 隨機預測精確度分別為 0.25/0.25/0.33)。

自動問答

CPM 使用 DuReader 和 CMRC2018 作為自動問答任務的基準,要求模型從給定段落中抽取一個片段作為對題目問題的答案,其中 DuReader 由百度搜索和百度知道兩部分數(shù)據(jù)組成。在無監(jiān)督的設定下,不同規(guī)模的 CPM 模型的表現(xiàn)如下表所示:

26億參數(shù),智源、清華開源中文大規(guī)模預訓練模型

其中單樣本是指在測試時,從數(shù)據(jù)集中隨機抽取一個正確的「(段落,問題,答案)」三元組,插入到用于評價的樣例前,作為 CPM 模型生成答案的提示;零樣本是指直接使用 CPM 模型預測給定段落和問題的答案。在單樣本設定下,CPM 能從給定的樣本中學習到生成答案的模式,因此效果總是比零樣本設定更好。由于模型的輸入長度有限,多樣本輸入的場景將在未來進行探索。

模型效果展示

我們可以從以下示例中,觀察 CPM 預訓練中文語言模型的效果。比如基于對單個常識性問題的學習,依照規(guī)律進行提問和正確回答:

26億參數(shù),智源、清華開源中文大規(guī)模預訓練模型

根據(jù)前文真實的天氣預報,繼續(xù)報道天氣預報(不保證正確性):

26億參數(shù),智源、清華開源中文大規(guī)模預訓練模型

執(zhí)行數(shù)理推理:

26億參數(shù),智源、清華開源中文大規(guī)模預訓練模型

甚至續(xù)寫《紅樓夢》片段:

26億參數(shù),智源、清華開源中文大規(guī)模預訓練模型

據(jù)了解,清源 CPM 未來計劃開源發(fā)布更大規(guī)模的預訓練中文語言模型、以中文為核心的多語言預訓練模型、融合大規(guī)模知識的預訓練語言模型等。

責任編輯:張燕妮 來源: 機器之心Pro
相關推薦

2021-11-15 10:00:22

模型人工智能NLP

2022-12-06 14:11:32

開源模型

2024-09-29 13:10:08

2021-01-12 15:11:01

AI 數(shù)據(jù)人工智能

2023-07-18 15:05:00

開源大模型

2021-04-19 11:02:06

阿里云達摩院AI

2022-03-21 08:30:13

開源模型訓練預測引擎

2021-03-22 11:16:50

人工智能應用基礎設施

2021-06-28 12:01:01

預訓練模型

2022-07-01 18:50:32

英特爾

2021-09-02 18:41:48

智源研究院人工智能

2024-03-18 09:53:40

GPD神經(jīng)網(wǎng)絡模型

2023-09-15 13:08:56

AI訓練

2021-01-12 11:06:44

阿里巴巴AI人機交互

2021-11-26 10:18:37

AI 數(shù)據(jù)機器學習

2023-03-05 15:51:54

AIGCChatGPT

2023-11-27 13:51:00

模型訓練

2023-09-16 13:31:25

模型訓練

2020-09-25 09:52:48

機器學習人工智能計算機

2020-11-12 09:55:10

百度
點贊
收藏

51CTO技術棧公眾號