雅虎面向研究人員發(fā)布大規(guī)模機(jī)器學(xué)習(xí)數(shù)據(jù)集
據(jù)外媒報(bào)道,日前,雅虎推出了一個(gè)全新的“雅虎新聞推薦(Yahoo News Recommendation)”數(shù)據(jù)集,它被稱為是有史以來對(duì)外公布***的機(jī)器學(xué)習(xí)數(shù)據(jù)集。雅虎表示,這套數(shù)據(jù)集主要針對(duì)學(xué)術(shù)研究社團(tuán)推出,這樣他們?cè)谘芯恐性僖膊恍枰獮闊o法獲得大規(guī)模數(shù)據(jù)集而發(fā)愁了。
據(jù)悉,公開的數(shù)據(jù)集包括了1100億個(gè)事件,其在未壓縮的狀態(tài)下總?cè)萘窟_(dá)13.5TB。
研究人員可以在數(shù)據(jù)集中找到匿名用戶新聞交互數(shù)據(jù)等數(shù)據(jù),這些數(shù)據(jù)則都是在去年早幾個(gè)月從2000萬名用戶那里收集得到。
在Yahoo News Feed數(shù)據(jù)集中有來自用戶與雅虎多個(gè)不同版塊的互動(dòng)數(shù)據(jù),如雅虎電影、雅虎新聞、雅虎金融等。
另外,雅虎還在這套數(shù)據(jù)集中添加了一些人口分布數(shù)據(jù),如性別、年齡及地理位置等。雅虎在一份聲明中說道:“我們的目標(biāo)是在大規(guī)模機(jī)器學(xué)習(xí)和推薦系統(tǒng)中促進(jìn)獨(dú)立研究的發(fā)展,并還要幫助在工業(yè)和學(xué)術(shù)研究之間創(chuàng)造一個(gè)公平競(jìng)爭(zhēng)的環(huán)境。