自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

100+個自然語言處理數(shù)據(jù)集大放送，再不愁找不到數(shù)據(jù)！

作者：文摘菌 2018-05-10 08:20:23

大數(shù)據(jù) 自然語言處理

奉上100多個按字母順序排列的開源自然語言處理文本數(shù)據(jù)集列表（原始未結(jié)構(gòu)化的文本數(shù)據(jù)），快去按圖索驥下載數(shù)據(jù)自己研究吧！

大數(shù)據(jù)文摘作品

編譯：晚君、VVN、張禮俊、云舟

奉上100多個按字母順序排列的開源自然語言處理文本數(shù)據(jù)集列表(原始未結(jié)構(gòu)化的文本數(shù)據(jù))，快去按圖索驥下載數(shù)據(jù)自己研究吧!

數(shù)據(jù)集

1. Apache軟件基金會公開郵件檔案：截止到2011年7月11日全部公開可用的Apache軟件基金會郵件檔案。(200 GB)

http://aws.amazon.com/de/datasets/apache-software-foundation-public-mail-archives/

2. 博主原創(chuàng)語料庫：包含2004年8月從blogger.com網(wǎng)站收集的19,320位博主的帖子。681,288個帖子以及140多萬字。(298 MB)

http://u.cs.biu.ac.il/~koppel/BlogCorpus.htm

3. 亞馬遜美食評論[Kaggle]：包含亞馬遜用戶在2012年10月前留下的568,454條食評。(240MB)

https://www.kaggle.com/snap/amazon-fine-food-reviews

4. 亞馬遜評論：斯坦福收集了3500萬條亞馬遜評論。(11GB)

https://snap.stanford.edu/data/web-Amazon.html

5. ArXiv上：所有收錄論文全文(270GB)+源文件(190GB)

http://arxiv.org/help/bulk_data_s3

6. ASAP自動作文評分[Kaggle]：在本次比賽中，有8個作文集。每個作文都由一個單獨提示所得回答所生成。所選作文長度為150到550個字不等。部分作文依賴于源信息，而另其他則不是。所有論文都是由7年級到10年級的學(xué)生所寫。所有的作文都由人工打分，并采用雙評分制。(100MB)

https://www.kaggle.com/c/asap-aes/data

7. ASAP簡答題評分[Kaggle]：每個數(shù)據(jù)集都是由單個提示所得回答生成的。所選回答的平均長度為50個字。某些回答依賴于源信息，而其他則不是。所有回答由10年級學(xué)生所寫。所有回答均為人工打分，并采用雙評分制。(35MB)

https://www.kaggle.com/c/asap-sas/data

8. 政治社交媒體分類：按內(nèi)容分類來自政客的社交媒體消息。(4MB)

https://www.crowdflower.com/data-for-everyone/

9. CLiPS文體學(xué)研究(CSI)語料庫：每年擴展兩種類型的學(xué)生寫作：文章和綜述。這個語料庫的目的主要在于文體學(xué)研究，當(dāng)然也可用于其他研究。(數(shù)據(jù)集需要申請獲得)

http://www.clips.uantwerpen.be/datasets/csi-corpus

10. ClueWeb09 FACC：帶有Freebase注釋的ClueWeb09(72GB)

http://lemurproject.org/clueweb09/FACC1/

11. ClueWeb11 FACC：帶有Freebase注釋的ClueWeb11(92GB)

http://lemurproject.org/clueweb12/FACC1/

12. 常見爬蟲語料庫：由超過50億個網(wǎng)頁(541TB)爬蟲數(shù)據(jù)構(gòu)成。

http://aws.amazon.com/de/datasets/common-crawl-corpus/

13. 康奈爾電影對話語料庫(Cornell Movie Dialog Corpus)：包含大量豐富的元數(shù)據(jù)，從原始電影劇本中提取的對話集合：617部電影，10,292對電影人物之間的220,579次會話交流。(9.5MB)

http://www.cs.cornell.edu/~cristian/Cornell_Movie-Dialogs_Corpus.html

14. 企業(yè)信息：分類企業(yè)在社交媒體上到底談?wù)摿耸裁吹墓ぷ?。要求志愿者將企業(yè)陳述分類為信息(關(guān)于公司或其活動的客觀陳述)，對話(回復(fù)用戶等)或行動(要求投票或要求用戶點擊鏈接等的信息)。(600KB)

http://aws.amazon.com/de/datasets/common-crawl-corpus/

15. Crosswikis：關(guān)聯(lián)英語短語與維基百科文章的數(shù)據(jù)庫。(11GB)

http://nlp.stanford.edu/data/crosswikis-data.tar.bz2/

16. 一個網(wǎng)絡(luò)社區(qū)關(guān)于從維基百科中提取結(jié)構(gòu)化信息并使得此信息在網(wǎng)絡(luò)上可用的共同成果。(17GB)

http://aws.amazon.com/de/datasets/dbpedia-3-5-1/?tag=datasets%23keywords%23encyclopedic

17. Death Row：自1984年以來處決的每個犯人的遺言。(HTML表格)

http://www.tdcj.state.tx.us/death_row/dr_executed_offenders.html

18. Del.icio.us：delicious.com上的125萬個書簽。

http://arvindn.livejournal.com/116137.html

19. 社交媒體上的災(zāi)難推文：1萬條推文，注釋了是否涉及災(zāi)難事件。(2MB)

https://www.crowdflower.com/data-for-everyone/

20. 經(jīng)濟(jì)新聞相關(guān)文章：確定新聞文章與美國經(jīng)濟(jì)是否相關(guān)，如果相關(guān)，文章的基調(diào)是什么。時間范圍從1951年到2014年。(12MB)

https://www.crowdflower.com/data-for-everyone/

21. 安然公司電子郵件數(shù)據(jù)：包含1,227,255封電子郵件，其中493,384個附件覆蓋151位管理者。(210GB)

http://aws.amazon.com/de/datasets/enron-email-data/

22. 事件注冊：免費工具，可以實時訪問全球100,000個媒體的新聞文章。有API接口。(查詢工具)

http://eventregistry.org/

23. Examiner.com—用新聞頭條釣魚的垃圾郵件[Kaggle]：現(xiàn)已停用的釣魚網(wǎng)站The Examiner從2010年到2015年發(fā)布的3百萬眾包新聞頭條。(200MB)

https://www.kaggle.com/therohk/examine-the-examiner

24. 聯(lián)邦采購數(shù)據(jù)中心的聯(lián)邦合同(USASpending.gov)：來自USASpending.gov的聯(lián)邦采購數(shù)據(jù)中心所有聯(lián)邦合同的數(shù)據(jù)庫。(180GB)

http://aws.amazon.com/de/datasets/federal-contracts-from-the-federal-procurement-data-center-usaspending-gov/

25. Flickr個人分類法：個人標(biāo)簽的樹結(jié)構(gòu)數(shù)據(jù)集。(40MB)

http://www.isi.edu/~lerman/downloads/flickr/flickr_taxonomies.html

26. Freebase數(shù)據(jù)庫：Freebase中所有當(dāng)前事實和推斷的數(shù)據(jù)庫(26GB)

http://aws.amazon.com/de/datasets/freebase-data-dump/

27. Freebase簡單主題庫：Freebase中每個主題中基本的可識別事實的數(shù)據(jù)庫(5GB)

http://aws.amazon.com/de/datasets/freebase-simple-topic-dump/

28. Freebase四元庫：Freebase中所有當(dāng)前事實和推斷的數(shù)據(jù)庫[LZ1]。(35GB)

http://aws.amazon.com/de/datasets/freebase-quad-dump/

29. GigaOM Wordpress挑戰(zhàn)賽[Kaggle]：博客文章，元數(shù)據(jù)，用戶喜好。(1.5GB)

https://www.kaggle.com/c/predict-wordpress-likes/data

30. 谷歌圖書n元語法：也可通過亞馬遜S3上hadoop格式文件獲取。(2.2TB)

http://storage.googleapis.com/books/ngrams/books/datasetsv2.html

31. 谷歌網(wǎng)頁5元語法：含有英文單詞的n元序列，及其觀測頻率計數(shù)(24GB)

https://catalog.ldc.upenn.edu/LDC2006T13

32. Gutenberg電子書清單：帶注釋電子書清單(2MB)

http://www.gutenberg.org/wiki/Gutenberg:Offline_Catalogs

33. 加拿大議會文本塊：來自加拿大第36屆議會正式記錄(Hansards)的130萬標(biāo)準(zhǔn)文本塊(句子或更小的片段)。(82MB)

http://www.isi.edu/natural-language/download/hansard/

34. 哈佛圖書館：超過1,200萬冊哈佛圖書館所藏資料的書目記錄，包括書籍，期刊，電子資源，手稿，檔案資料，樂譜，音頻，視頻和其他資料。(4GB)

http://library.harvard.edu/open-metadata#Harvard-Library-Bibliographic-Dataset

35. 仇恨言論識別：志愿人查看短文，并確定它是否a)包含仇恨言論，b)冒犯性的，但沒有仇恨言論，或c)一點也沒有冒犯性。包含近15千行，每個文本字符串有三個志愿者判斷。(3MB)

https://github.com/t-davidson/hate-speech-and-offensive-language

36. 希拉里克林頓的電子郵件[Kaggle]：整理了近7,000頁克林頓的電子郵件。(12MB)

https://www.kaggle.com/kaggle/hillary-clinton-emails

37. 家得寶公司產(chǎn)品搜索關(guān)聯(lián)[Kaggle]：包含家得寶公司網(wǎng)站的許多產(chǎn)品和客戶搜索條款。挑戰(zhàn)是預(yù)測搜索條目組合和產(chǎn)品的相關(guān)性分?jǐn)?shù)。為了創(chuàng)建真實標(biāo)簽，家得寶公司將搜索/產(chǎn)品配對眾包給多個評分者打分。(65MB)

https://www.kaggle.com/c/home-depot-product-search-relevance/data

38. 確定文本中的關(guān)鍵短語：問題/答案對和文本組成;判斷上下文文本是否與問題/答案相關(guān)。(8MB)

https://www.crowdflower.com/data-for-everyone/

39. 美國電視節(jié)目‘危險’：216930個過去出現(xiàn)在‘危險’節(jié)目的問題合集。(53MB)

http://www.reddit.com/r/datasets/comments/1uyd0t/200000_jeopardy_questions_in_a_json_file/

40. 200k英語明文笑話：208000種不同來源的明文笑話存檔。

https://github.com/taivop/joke-dataset

41. 歐洲語言機器翻譯：(612MB)

http://statmt.org/wmt11/translation-task.html#download

42. 材料安全數(shù)據(jù)表：230000材料安全數(shù)據(jù)表。(3GB)

http://aws.amazon.com/de/datasets/material-safety-data-sheets/

43. 百萬新聞頭條-澳大利亞ABC[Kaggle]：由澳大利亞ABC新聞發(fā)布的從2003到2017年的130萬新聞。(56MB)

https://www.kaggle.com/therohk/million-headlines

44. MCTest：可免費使用的660個故事集和相關(guān)問題，可用于研究文本機器理解、問答(1MB)。

http://research.microsoft.com/en-us/um/redmond/projects/mctest/index.html

45. Negra：德國報紙文本的語法標(biāo)注語料庫?？晒┧写髮W(xué)及非營利機構(gòu)免費使用。需要簽署協(xié)議并發(fā)送申請才能獲得。

http://www.coli.uni-saarland.de/projects/sfb378/negra-corpus/negra-corpus.html

46. 新聞頭條-印度時報[Kaggle]：印度時報發(fā)表的從2001到2017年的270萬類新聞頭條。(185MB)

https://www.crowdflower.com/data-for-everyone/

47. 新聞文章/維基百科頁面配對：志愿者閱讀一篇短文，被問及最匹配的兩篇維基百科文章是哪一篇。(6MB)

https://www.kaggle.com/benhamner/nips-2015-papers/version/2

48. 2015 NIPS論文(版本2)[Kaggle]：所有2015年nips論文全文。(335MB)

https://www.kaggle.com/benhamner/nips-2015-papers/version/2

49. 紐約時報臉譜網(wǎng)數(shù)據(jù)：所有紐約時報在臉譜網(wǎng)的帖子。(5MB)

http://minimaxir.com/2015/07/facebook-scraper/

50. 全球新聞一周供稿[Kaggle]：在2017年8月的一周，用20多種語言全球發(fā)表的140萬篇新聞事件數(shù)據(jù)集。(115MB)

https://www.kaggle.com/therohk/global-news-week

51. 句子/概念對的正確性：志愿者讀關(guān)于兩個概念的句子。例如，“狗是一種動物”，或者“船長可以和主人有同樣的意思”，然后他們被問到這個句子是否正確，并將其1-5評級。(700KB)

https://www.crowdflower.com/data-for-everyone/

52. 公開圖書館數(shù)據(jù)庫：公開圖書館中所有記錄的修改合集。(16GB)

https://openlibrary.org/developers/dumps

53. 人物語料庫：收集了作者文章風(fēng)格和個性預(yù)測的實驗。由145名學(xué)生的145篇荷蘭語文章組成。(獲得需要申請)

http://www.clips.uantwerpen.be/datasets/personae-corpus

54. Reddit評論：截至2015年7月，reddit論壇所有公開的評論。共計17億條評論。(250GB)

https://www.reddit.com/r/datasets/comments/3bxlg7/i_have_every_publicly_available_reddit_comment/

55. Reddit評論(2015年5月)：Kaggle子數(shù)據(jù)集(8GB)

https://www.kaggle.com/reddit/reddit-comments-may-2015

56. Reddit提交語料庫：2006年1月-2015年8月31日所有公開可得的Reddit提交內(nèi)容。(42GB)

https://www.reddit.com/r/datasets/comments/3mg812/full_reddit_submission_corpus_now_available_2006/

57. 路透社語料庫：一個包含路透社新聞報道的數(shù)據(jù)集，用于自然語言處理的研究開發(fā)、信息檢索和機器學(xué)習(xí)系統(tǒng)。該語料庫又被稱為“路透社語錄1”或RCV1，它遠(yuǎn)遠(yuǎn)大于原來在文本分類中被廣泛使用的著名的路透社21578數(shù)據(jù)集。該語料庫數(shù)據(jù)需要通過簽署協(xié)議和發(fā)送郵件獲取。(2.5GB)

https://trec.nist.gov/data/reuters/reuters.html

58. SaudiNewsNet：31030條從不同沙特阿拉伯的網(wǎng)絡(luò)報紙上摘取的標(biāo)題和元數(shù)據(jù)。(2MB)

https://github.com/ParallelMazen/SaudiNewsNet

59. 垃圾短信數(shù)據(jù)集：5574條被標(biāo)記為合法/不合法的、未經(jīng)編碼的真實英文短信消息。(200KB)

http://www.dt.fee.unicamp.br/~tiago/smsspamcollection/

60. 《南方公園》數(shù)據(jù)集：csv格式文件，包含季、集、角色和臺詞的劇本信息。(3.6MB)

https://github.com/BobAdamsEE/SouthParkData

61. Stackoverflow：730萬條stackoverflow問題和其他stackexchange(問答工具)上的問答。

http://data.stackexchange.com/

62. Twitter的Cheng-Caverlee-lee用戶定位數(shù)據(jù)集：2009年9月-2010年1月的推文定位。(400MB)

https://archive.org/details/twitter_cikm_2010

63. Twitter上關(guān)于新英格蘭愛國者隊“放氣門”事件的輿情：在2015年超級碗比賽前，人們對被放了氣的橄欖球以及愛國者隊是否存在欺騙行為議論紛紛。該數(shù)據(jù)集提供了丑聞發(fā)生的這段時間里Twitter上的輿情，以便評估公眾對整個事件的感受。(2MB)

https://www.figure-eight.com/data-for-everyone/

64. Twitter上對于左傾相關(guān)事件的輿情分析：關(guān)于墮胎合法化、女權(quán)主義、希拉里·克林頓等各種左傾相關(guān)事件的推文，推文將根據(jù)內(nèi)容推斷被分類為For(支持)、Against(反對)、Neutral(中立)或None of the above(以上都不是)。(600KB)

https://www.figure-eight.com/data-for-everyone/

65. Twitter的Sentiment140(情感分析數(shù)據(jù)集)：關(guān)于品牌/關(guān)鍵詞的推文，網(wǎng)站包括論文和研究想法。(77MB)

http://help.sentiment140.com/for-students/

66. Twitter上關(guān)于自動駕駛汽車的輿情分析：貢獻(xiàn)者們閱讀推文后，將推文里對于自動駕駛的態(tài)度分為非常積極、較積極、中立、較消極和非常消極。如果推文與自動駕駛汽車無關(guān)，他們也要標(biāo)記出來。(1MB)

https://www.figure-eight.com/data-for-everyone/

67. Twitter上定位于東京的推文：20萬條來自東京的推文。(47MB)

http://followthehashtag.com/datasets/200000-tokyo-geolocated-tweets-free-twitter-dataset/

68. Twitter上定位于英國的推文：17萬條來自英國的推文。(47MB)

http://followthehashtag.com/datasets/170000-uk-geolocated-tweets-free-twitter-dataset/

69. Twitter上定位于美國的推文：20萬條來自美國的推文。(45MB)

http://followthehashtag.com/datasets/free-twitter-dataset-usa-200000-free-usa-tweets/

70. Twitter上對于美國各大航空公司的態(tài)度(Kaggle數(shù)據(jù)集)：這是一個對于美國各大航空公司存在問題的情感分析任務(wù)。該數(shù)據(jù)集爬取了2015年2月的推文，貢獻(xiàn)者們將其分類為積極、消極和中立，對于那些分類為消極態(tài)度的推文，還會給出原因(例如“飛機晚點”或“服務(wù)態(tài)度差”等)。(2.5MB)

https://www.kaggle.com/crowdflower/twitter-airline-sentiment

71. 基于新聞標(biāo)題的美國經(jīng)濟(jì)表現(xiàn)：根據(jù)新聞標(biāo)題頭條和摘要，對新聞和美國經(jīng)濟(jì)的相關(guān)性進(jìn)行排序。(5MB)

https://www.figure-eight.com/data-for-everyone/

72. 城市詞典(美國在線俚語詞典)里的單詞和定義：一個經(jīng)過清洗的CSV語料庫，包含截至2016年5月的城市詞典內(nèi)所有260萬個詞匯、定義、作者和投票情況。(238MB)

https://www.kaggle.com/therohk/urban-dictionary-words-dataset

73. 亞馬遜的Wesbury Lab Usenet語料庫：2005-2010的47,860個英文新聞組的郵件匿名匯編(40GB)

http://aws.amazon.com/de/datasets/the-westburylab-usenet-corpus/

74. 維基百科的Wesbury Lab語料庫：2010年4月維基百科英文部分中所有文章的快照。網(wǎng)站詳細(xì)描述了數(shù)據(jù)是如何被處理的——即去除所有鏈接和不相關(guān)的材料(如導(dǎo)航文本等)。語料庫是未經(jīng)標(biāo)記的原始文本，它被用于Stanford NLP。

http://www.psych.ualberta.ca/~westburylab/downloads/westburylab.wikicorp.download.html

75. Stanford NLP跳轉(zhuǎn)的鏈接：

https://scholar.google.com/scholar?oi=bibs&hl=en&cites=9060444488071171966&as_sdt=5

76. 維基百科提取(WEX)：經(jīng)處理后的英文版維基百科(66GB)

http://aws.amazon.com/de/datasets/wikipedia-extraction-wex/

77. 維基百科的XML格式數(shù)據(jù)：所有維基媒體(Wikimedia)的完整復(fù)制，以維基文本元(wikitext source)和元數(shù)據(jù)的形式嵌入到XML中。(500GB)

http://aws.amazon.com/de/datasets/wikipedia-xml-data/

78. 雅虎問答中的綜合問題與答案：截至2007年10月25日的雅虎問答語料庫，包含4,483,032條問答。(3.6GB)

http://webscope.sandbox.yahoo.com/catalog.php?datatype=l

79. 雅虎問答中用法語提問的問題：2006-2015年雅虎問答語料庫的子數(shù)據(jù)集，包含170萬條法語問答。(3.8GB)

https://webscope.sandbox.yahoo.com/catalog.php?datatype=l

80. 雅虎問答中的關(guān)于“如何做”的問題[LZ2]：根據(jù)語言屬性從2007年10月25日雅虎問答語料庫選出的子集，包含142,627條問答。(104MB)

https://webscope.sandbox.yahoo.com/catalog.php?datatype=l

81. 雅虎從公開網(wǎng)頁中提取的HTML格式頁面：包含少量復(fù)雜HTML格式的頁面和267萬個復(fù)雜格式的頁面。(50+ GB)

https://webscope.sandbox.yahoo.com/catalog.php?datatype=l

82. 雅虎從公開網(wǎng)頁頁面中提取的元數(shù)據(jù)：1億個RDF格式數(shù)據(jù)的三元組(2GB)

https://webscope.sandbox.yahoo.com/catalog.php?datatype=l

83. 雅虎的N元語法模型表示(N-Gram Representations)數(shù)據(jù)：該數(shù)據(jù)集包含N元語法表示數(shù)據(jù)，這些數(shù)據(jù)可以用于IR研究中常見的查詢重寫(query rewriting)任務(wù)，也可以用于NLP研究中常見的詞語和句子相似性分析任務(wù)。(2.6GB)

https://webscope.sandbox.yahoo.com/catalog.php?datatype=l

84. 雅虎的N元語法模型數(shù)據(jù)(版本2.0)：n元語法模型數(shù)據(jù)(n=1-5)，從一個包含1460萬個文檔(1.26億條不重復(fù)的語句，34億個運行詞)的語料庫中提取，這些文檔是從12000個面向新聞的站點里爬取的(12 GB)

https://webscope.sandbox.yahoo.com/catalog.php?datatype=l

85. 雅虎搜索日志的相關(guān)性判斷：匿名雅虎搜索日志的相關(guān)性判斷(1.3GB)

https://webscope.sandbox.yahoo.com/catalog.php?datatype=l

86. 雅虎的英語維基百科語義注釋快照：包含從2006年11月4日開始的經(jīng)一些公開的NLP工具處理后的英文維基百科，共有1,490,688個條目。(6GB)

https://webscope.sandbox.yahoo.com/catalog.php?datatype=l

87. Yelp：包含餐廳排名和220萬條評論

https://www.yelp.com/dataset

88. Youtube：170萬條YouTube視頻描述(torrent格式)

https://www.reddit.com/r/datasets/comments/3gegdz/17_millions_youtube_videos_description/

資源

89. 優(yōu)秀的公開NLP數(shù)據(jù)集(包含更多清單)

https://github.com/awesomedata/awesome-public-datasets

90. 亞馬遜公開數(shù)據(jù)集

https://aws.amazon.com/de/datasets/

91. CrowdFlower數(shù)據(jù)集(包含大量小調(diào)查和對特定任務(wù)以眾包方式獲得的數(shù)據(jù))

https://www.crowdflower.com/data-for-everyone/

92. Kaggle數(shù)據(jù)集

https://www.kaggle.com/datasets

93. Kaggle比賽(請確保這些kaggle比賽數(shù)據(jù)可以在比賽之外使用)

https://www.kaggle.com/competitions

94. 開放圖書館

https://openlibrary.org/developers/dumps

95. Quora(大部分為已標(biāo)注好的語料庫)

https://www.quora.com/Datasets-What-are-the-major-text-corpora-used-by-computational-linguists-and-natural-language-processing-researchers-and-what-are-the-characteristics-biases-of-each-corpus

96. reddit數(shù)據(jù)集(無數(shù)個數(shù)據(jù)集，大部分由業(yè)余愛好者爬取，但數(shù)據(jù)的整理和許可可能不夠規(guī)范)

https://www.reddit.com/r/datasets

97. Rs.io：也是一個很長的數(shù)據(jù)集清單

http://rs.io/100-interesting-data-sets-for-statistics/

98. Stackexchange：公開數(shù)據(jù)

http://opendata.stackexchange.com/

99. 斯坦福NLP組(大部分為已標(biāo)注的語料庫和TreeBanks，以及實用的NLP工具)

https://nlp.stanford.edu/links/statnlp.html

100. 雅虎研究院的數(shù)據(jù)集匯總Webscope(還包含了使用了這些數(shù)據(jù)的論文列表)

http://webscope.sandbox.yahoo.com/

相關(guān)報道：https://github.com/niderhoff/nlp-datasets/blob/master/README.md

【本文是51CTO專欄機構(gòu)大數(shù)據(jù)文摘的原創(chuàng)譯文，微信公眾號“大數(shù)據(jù)文摘（ id: BigDataDigest）”】

戳這里，看該作者更多好文

責(zé)任編輯：趙寧寧來源： 51CTO專欄

自然語言數(shù)據(jù)集數(shù)據(jù)

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營