10大類、142條數(shù)據(jù)源,中文NLP數(shù)據(jù)集線上搜索開(kāi)放
有了這個(gè)開(kāi)源項(xiàng)目,再也不用擔(dān)心找不到好用的中文 NLP 數(shù)據(jù)集,142 條數(shù)據(jù)集,總有適合你的那一款。
中文 NLP 數(shù)據(jù)集搜索:https://www.cluebenchmarks.com/dataSet_search.html
在學(xué)習(xí) NLP 的這條不歸路上,我們總會(huì)發(fā)現(xiàn)大多數(shù)先進(jìn)算法與優(yōu)質(zhì)示例代碼都是用英文數(shù)據(jù)集。而當(dāng)我們滿懷希望地把模型遷移到中文世界時(shí),缺少公開(kāi)的優(yōu)質(zhì)數(shù)據(jù)集簡(jiǎn)直就是天塹。比如說(shuō)最簡(jiǎn)單的語(yǔ)言模型與詞嵌入模型,只需要一段段自然的中文文本就行了,然而實(shí)際上我們會(huì)發(fā)現(xiàn)好用的公開(kāi)大型語(yǔ)料真的很少。
我們需要在 GitHub 等平臺(tái)上找收集中文 NLP 數(shù)據(jù)集的各種項(xiàng)目,再根據(jù)需求進(jìn)行選擇。值得注意的是,很多國(guó)內(nèi)中文數(shù)據(jù)集已經(jīng)非常老了,它們的使用會(huì)比較麻煩,這時(shí)候就需要我們自行判斷與試錯(cuò)了。
不過(guò)在本文中,我們將介紹一項(xiàng)新的中文 NLP 數(shù)據(jù)搜索項(xiàng)目,它可能是目前最全的中文 NLP 數(shù)據(jù)集信息收集項(xiàng)目。該項(xiàng)目收集了一百多條中文 NLP 數(shù)據(jù)信息,并以搜索的形式展示結(jié)果。我們只要鍵入關(guān)鍵詞,或者數(shù)據(jù)集所屬的領(lǐng)域等信息,就能找到對(duì)應(yīng)的數(shù)據(jù)集。
每一條搜索結(jié)果都會(huì)展示數(shù)據(jù)集的基本信息、訪問(wèn)鏈接等關(guān)鍵信息,能幫助我們快速篩選數(shù)據(jù)集。因?yàn)槊恳粋€(gè)領(lǐng)域都能找到非常多的同類數(shù)據(jù)集,因此這些簡(jiǎn)述非常有意義。
如果讀者想看看到底有哪些數(shù)據(jù)集,可以直接查看該搜索項(xiàng)目的 GitHub 地址,所有數(shù)據(jù)集的信息都在上面。
這非常全的中文 NLP 數(shù)據(jù)集合
本項(xiàng)目中的 NLP 數(shù)據(jù)集囊括了 NER、QA、情感分析、文本分類、文本分配、文本摘要、機(jī)器翻譯、知識(shí)圖譜、語(yǔ)料庫(kù)以及閱讀理解等 10 大類共 142 個(gè)數(shù)據(jù)集。
具體而言,對(duì)于每一個(gè)數(shù)據(jù)集,項(xiàng)目作者都提供了數(shù)據(jù)集名稱、更新時(shí)間、數(shù)據(jù)集提供者、說(shuō)明、關(guān)鍵字、類別以及論文地址等幾方面的信息。
項(xiàng)目地址:https://github.com/CLUEbenchmark/CLUEDatasetSearch
本項(xiàng)目中文 NLP 數(shù)據(jù)集分類。
但由于整個(gè)項(xiàng)目包含的數(shù)據(jù)集種類很多,機(jī)器之心只對(duì)其中的情感分析和文本分類數(shù)據(jù)集進(jìn)行以下簡(jiǎn)要介紹。
情感分析
作為自然語(yǔ)言處理(NLP)的一種常見(jiàn)應(yīng)用,情感分析特別適用于以提取文本情感內(nèi)容為目的的分類方法中。本項(xiàng)目中介紹了 11 個(gè)情感分析數(shù)據(jù)集來(lái)源,其中包括 NLPCC 2013/2014、Weibo Emotions Corpus、之江杯電商評(píng)論觀點(diǎn)挖掘大賽以及 2019 搜狐校園算法大賽數(shù)據(jù)集。
項(xiàng)目中部分情感分析中文數(shù)據(jù)集詳情。
文本分類
作為自然語(yǔ)言處理中最常用和最基礎(chǔ)的應(yīng)用,文本分類方面的數(shù)據(jù)集已經(jīng)有很多。本項(xiàng)目中介紹了 19 個(gè)文本分類數(shù)據(jù)集來(lái)源,其中包括今日頭條中文新聞(文本)分類、THUCNews 中文文本分類、2017 知乎看山杯機(jī)器學(xué)習(xí)挑戰(zhàn)賽 以及中科大新聞分類語(yǔ)料庫(kù)等。
項(xiàng)目中部分文本分類數(shù)據(jù)集詳情。
最后,開(kāi)發(fā)者也可以上傳數(shù)據(jù)集信息貢獻(xiàn)自己的力量,上傳 5 個(gè)(含)以上數(shù)據(jù)集信息即可在審核通過(guò)后成為本項(xiàng)目的貢獻(xiàn)者。目前似乎 142 個(gè)數(shù)據(jù)集已經(jīng)很全了,但對(duì)于更多 NLP 子領(lǐng)域任務(wù),還需要大家共同維護(hù)。