用于文本分類的10大開源數(shù)據(jù)集
譯文【51CTO.com快譯】文本分類是熱門的研究領(lǐng)域之一,這是一種分析文本數(shù)據(jù)以獲得寶貴信息的方法。據(jù)消息人士聲稱,預(yù)計(jì)全球文本分析市場(chǎng)在2020年至2024年的年復(fù)合增長率(CAGR)將超過20%。文本分類可用于許多應(yīng)用領(lǐng)域,比如自動(dòng)執(zhí)行CRM任務(wù)、改善上網(wǎng)瀏覽和電子商務(wù)等。
本文列出了可用于文本分類的10個(gè)開源數(shù)據(jù)集,按首字母順序介紹。
1. Amazon Reviews Dataset(亞馬遜評(píng)論數(shù)據(jù)庫)
Amazon Review Dataset包含數(shù)百萬條亞馬遜客戶評(píng)論(輸入文本)和星級(jí)評(píng)定(輸出標(biāo)簽),用于了解如何訓(xùn)練fastText用于情感分析。該數(shù)據(jù)集的大小為493MB。
相關(guān)鏈接:https://www.kaggle.com/bittlingmayer/amazonreviews
2. Enron Email Dataset(安然電子郵件數(shù)據(jù)集)
Enron Email Dataset包含來自大約150個(gè)用戶的電子郵件數(shù)據(jù),這些用戶大多是安然公司的高級(jí)管理層。該數(shù)據(jù)集由CALO項(xiàng)目(擁有學(xué)習(xí)和組織功能的認(rèn)知助手)收集和準(zhǔn)備,總共含有約50萬則郵件。
相關(guān)鏈接:https://www.cs.cmu.edu/~./enron/
3. Goodreads Book Reviews(Goodreads書評(píng))
該數(shù)據(jù)集包含Goodreads書評(píng)網(wǎng)站上的評(píng)論以及描述圖書的眾多屬性,包括評(píng)論、閱讀、評(píng)論操作及書籍屬性等。圖書總數(shù)包括1561465本。
相關(guān)鏈接:https://cseweb.ucsd.edu/~jmcauley/datasets.html#goodreads
4. IMDB Dataset(IMDB數(shù)據(jù)集)
IMDB數(shù)據(jù)集包含用于自然語言處理或文本分析的5萬條影評(píng)。這是用于二進(jìn)制情緒分類的數(shù)據(jù)集,包括用于訓(xùn)練的25000條觀點(diǎn)鮮明的影評(píng)和用于測(cè)試的25000條影評(píng)。
相關(guān)鏈接:http://ai.stanford.edu/~amaas/data/sentiment/
5. MovieLens Latest Datasets(MovieLens最新數(shù)據(jù)集)
該數(shù)據(jù)集是電影、評(píng)論、所作標(biāo)簽和用戶的集合。該數(shù)據(jù)有兩組數(shù)據(jù)集,它們是在一段時(shí)間內(nèi)收集的。小數(shù)據(jù)集包括100000條評(píng)論和600個(gè)用戶為9000部電影所作的3600個(gè)標(biāo)簽,而大數(shù)據(jù)集包括27000000條評(píng)論和280000個(gè)用戶為58000部電影所作的1100000個(gè)標(biāo)簽。大數(shù)據(jù)集還包括標(biāo)簽基因組數(shù)據(jù),涉及1100個(gè)標(biāo)簽。
相關(guān)鏈接:https://grouplens.org/datasets/movielens/latest/
6. OpinRank Dataset(OpinRank數(shù)據(jù)集)
該數(shù)據(jù)集包含從Tripadvisor和Edmunds收集的汽車和酒店的完整評(píng)論。該數(shù)據(jù)集包含10個(gè)不同城市的酒店的完整評(píng)論,以及2007年、2008年和2009年款汽車的完整評(píng)論。在數(shù)據(jù)集中,汽車評(píng)論的總數(shù)約42230條,酒店評(píng)論的總數(shù)約259000條。
相關(guān)鏈接:https://github.com/kavgan/OpinRank/tree/master
7. SMS Spam Collection(垃圾短信數(shù)據(jù)集)
SMS Spam Collection是含有垃圾短信的公共數(shù)據(jù)集,它們被收集用于手機(jī)垃圾短信方面的研究。該數(shù)據(jù)集有一個(gè)集合由5574條真實(shí)和未編碼的英文短信組成,根據(jù)合法或垃圾短信加以標(biāo)記。該數(shù)據(jù)集有明文格式和ARFF格式兩種。
相關(guān)鏈接:http://www.dt.fee.unicamp.br/~tiago/smsspamcollection/
8. The Blog Authorship Corpus(博客作者語料庫)
The Blog Authorship Corpus包含2004年8月從blogger.com收集的19320個(gè)博客作者的帖子。該語料庫包含總共681288個(gè)帖子,超過1.4億個(gè)單詞,相當(dāng)于每人約35個(gè)帖子和7250個(gè)單詞。在該數(shù)據(jù)集中,每個(gè)博客以一個(gè)單獨(dú)的文件加以顯示,文件名表示博客作者ID#以及博客作者自己提供的性別、年齡、行業(yè)和星座。
相關(guān)鏈接:http://u.cs.biu.ac.il/~koppel/BlogCorpus.htm
9. WordNet(詞網(wǎng))
WordNet是一個(gè)大型的英語詞匯數(shù)據(jù)庫,其中名詞、動(dòng)詞、形容詞和副詞被分組為不同的認(rèn)知同義詞(同義詞集),每一組表示不同的概念。在該數(shù)據(jù)集中,同義詞集的總數(shù)是117000,每個(gè)同義詞集通過少量概念關(guān)系與其他同義詞集關(guān)聯(lián)起來。
相關(guān)鏈接:https://wordnet.princeton.edu/
10. Yelp Reviews(Yelp評(píng)論)
Yelp數(shù)據(jù)集是用于學(xué)習(xí)的通用數(shù)據(jù)集,它是Yelp的一小部分商家、評(píng)論和用戶數(shù)據(jù),可用于個(gè)人、教育和學(xué)術(shù)等用途。該數(shù)據(jù)集包括來自10個(gè)大都市區(qū)的6685900條評(píng)論、200000張圖片和192609戶商家。
相關(guān)鏈接:https://www.yelp.com/dataset
原文標(biāo)題:10 Open-Source Datasets For Text Classification,作者:Ambika Choudhury
【51CTO譯稿,合作站點(diǎn)轉(zhuǎn)載請(qǐng)注明原文譯者和出處為51CTO.com】