自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

10大類、142條數(shù)據(jù)源,中文NLP數(shù)據(jù)集線上搜索開(kāi)放

新聞 人工智能
有了這個(gè)開(kāi)源項(xiàng)目,再也不用擔(dān)心找不到好用的中文 NLP 數(shù)據(jù)集,142 條數(shù)據(jù)集,總有適合你的那一款。

 有了這個(gè)開(kāi)源項(xiàng)目,再也不用擔(dān)心找不到好用的中文 NLP 數(shù)據(jù)集,142 條數(shù)據(jù)集,總有適合你的那一款。

[[316857]]

中文 NLP 數(shù)據(jù)集搜索:https://www.cluebenchmarks.com/dataSet_search.html

在學(xué)習(xí) NLP 的這條不歸路上,我們總會(huì)發(fā)現(xiàn)大多數(shù)先進(jìn)算法與優(yōu)質(zhì)示例代碼都是用英文數(shù)據(jù)集。而當(dāng)我們滿懷希望地把模型遷移到中文世界時(shí),缺少公開(kāi)的優(yōu)質(zhì)數(shù)據(jù)集簡(jiǎn)直就是天塹。比如說(shuō)最簡(jiǎn)單的語(yǔ)言模型與詞嵌入模型,只需要一段段自然的中文文本就行了,然而實(shí)際上我們會(huì)發(fā)現(xiàn)好用的公開(kāi)大型語(yǔ)料真的很少。

我們需要在 GitHub 等平臺(tái)上找收集中文 NLP 數(shù)據(jù)集的各種項(xiàng)目,再根據(jù)需求進(jìn)行選擇。值得注意的是,很多國(guó)內(nèi)中文數(shù)據(jù)集已經(jīng)非常老了,它們的使用會(huì)比較麻煩,這時(shí)候就需要我們自行判斷與試錯(cuò)了。

不過(guò)在本文中,我們將介紹一項(xiàng)新的中文 NLP 數(shù)據(jù)搜索項(xiàng)目,它可能是目前最全的中文 NLP 數(shù)據(jù)集信息收集項(xiàng)目。該項(xiàng)目收集了一百多條中文 NLP 數(shù)據(jù)信息,并以搜索的形式展示結(jié)果。我們只要鍵入關(guān)鍵詞,或者數(shù)據(jù)集所屬的領(lǐng)域等信息,就能找到對(duì)應(yīng)的數(shù)據(jù)集。

10大类、142条数据源,中文NLP数据集线上搜索开放

每一條搜索結(jié)果都會(huì)展示數(shù)據(jù)集的基本信息、訪問(wèn)鏈接等關(guān)鍵信息,能幫助我們快速篩選數(shù)據(jù)集。因?yàn)槊恳粋€(gè)領(lǐng)域都能找到非常多的同類數(shù)據(jù)集,因此這些簡(jiǎn)述非常有意義。

10大类、142条数据源,中文NLP数据集线上搜索开放

如果讀者想看看到底有哪些數(shù)據(jù)集,可以直接查看該搜索項(xiàng)目的 GitHub 地址,所有數(shù)據(jù)集的信息都在上面。

這非常全的中文 NLP 數(shù)據(jù)集合

本項(xiàng)目中的 NLP 數(shù)據(jù)集囊括了 NER、QA、情感分析、文本分類、文本分配、文本摘要、機(jī)器翻譯、知識(shí)圖譜、語(yǔ)料庫(kù)以及閱讀理解等 10 大類共 142 個(gè)數(shù)據(jù)集。

具體而言,對(duì)于每一個(gè)數(shù)據(jù)集,項(xiàng)目作者都提供了數(shù)據(jù)集名稱、更新時(shí)間、數(shù)據(jù)集提供者、說(shuō)明、關(guān)鍵字、類別以及論文地址等幾方面的信息。

項(xiàng)目地址:https://github.com/CLUEbenchmark/CLUEDatasetSearch

10大类、142条数据源,中文NLP数据集线上搜索开放

本項(xiàng)目中文 NLP 數(shù)據(jù)集分類。

但由于整個(gè)項(xiàng)目包含的數(shù)據(jù)集種類很多,機(jī)器之心只對(duì)其中的情感分析和文本分類數(shù)據(jù)集進(jìn)行以下簡(jiǎn)要介紹。

情感分析

作為自然語(yǔ)言處理(NLP)的一種常見(jiàn)應(yīng)用,情感分析特別適用于以提取文本情感內(nèi)容為目的的分類方法中。本項(xiàng)目中介紹了 11 個(gè)情感分析數(shù)據(jù)集來(lái)源,其中包括 NLPCC 2013/2014、Weibo Emotions Corpus、之江杯電商評(píng)論觀點(diǎn)挖掘大賽以及 2019 搜狐校園算法大賽數(shù)據(jù)集。

10大类、142条数据源,中文NLP数据集线上搜索开放

項(xiàng)目中部分情感分析中文數(shù)據(jù)集詳情。

文本分類

作為自然語(yǔ)言處理中最常用和最基礎(chǔ)的應(yīng)用,文本分類方面的數(shù)據(jù)集已經(jīng)有很多。本項(xiàng)目中介紹了 19 個(gè)文本分類數(shù)據(jù)集來(lái)源,其中包括今日頭條中文新聞(文本)分類、THUCNews 中文文本分類、2017 知乎看山杯機(jī)器學(xué)習(xí)挑戰(zhàn)賽 以及中科大新聞分類語(yǔ)料庫(kù)等。

10大类、142条数据源,中文NLP数据集线上搜索开放

項(xiàng)目中部分文本分類數(shù)據(jù)集詳情。

最后,開(kāi)發(fā)者也可以上傳數(shù)據(jù)集信息貢獻(xiàn)自己的力量,上傳 5 個(gè)(含)以上數(shù)據(jù)集信息即可在審核通過(guò)后成為本項(xiàng)目的貢獻(xiàn)者。目前似乎 142 個(gè)數(shù)據(jù)集已經(jīng)很全了,但對(duì)于更多 NLP 子領(lǐng)域任務(wù),還需要大家共同維護(hù)。

 

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2010-04-21 16:47:05

Oracle數(shù)據(jù)

2010-12-27 09:59:11

ODBC數(shù)據(jù)源

2009-06-15 13:24:46

JBoss數(shù)據(jù)源

2009-12-29 14:36:55

ADO.NET 數(shù)據(jù)集

2017-09-04 14:52:51

Tomcat線程數(shù)據(jù)源

2017-06-14 23:42:27

大數(shù)據(jù)數(shù)據(jù)源架構(gòu)

2023-11-27 09:16:53

Python數(shù)據(jù)源類型

2021-08-11 14:48:32

數(shù)據(jù)分析大數(shù)據(jù)算法

2016-11-08 16:42:03

算法AI大數(shù)據(jù)

2015-03-03 09:52:02

2020-12-07 10:56:20

大數(shù)據(jù)源大數(shù)據(jù)數(shù)據(jù)源

2009-09-08 11:09:39

LINQ數(shù)據(jù)源

2024-10-30 10:22:17

2009-09-15 17:15:33

Linq排序

2020-12-08 13:25:06

大數(shù)據(jù)數(shù)據(jù)源

2022-05-16 14:19:31

谷歌數(shù)據(jù)3D

2013-06-09 10:15:09

2021-10-18 06:54:47

數(shù)據(jù)源數(shù)據(jù)預(yù)處理

2022-02-25 23:38:29

開(kāi)源數(shù)據(jù)庫(kù)算法

2011-08-30 15:10:47

Tomcat 6.0Oracle 10g數(shù)據(jù)源連接測(cè)試
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)