收集數(shù)據(jù)太困難?這里為你準(zhǔn)備了71個(gè)免費(fèi)數(shù)據(jù)集
AI 研習(xí)社按,日前,KDnuggets 上的一篇文章總結(jié)了七十多個(gè)免費(fèi)的數(shù)據(jù)集,內(nèi)容涉及到政府、金融、衛(wèi)生、新聞傳媒等各個(gè)方面,除了這些數(shù)據(jù),文中還提供數(shù)據(jù)提取地址。雷鋒網(wǎng) AI 研習(xí)社將文章編譯整理如下。
進(jìn)行良好的數(shù)據(jù)可視化的前提是數(shù)據(jù)的質(zhì)量較高并且比較干凈。大多數(shù)人認(rèn)為收集大量數(shù)據(jù)是一件很困難的事情,事實(shí)并非如此。網(wǎng)上有成千上萬(wàn)的免費(fèi)數(shù)據(jù)集,我們可以利用這些數(shù)據(jù)進(jìn)行分析和可視化。
下面是 70 多個(gè)免費(fèi)的數(shù)據(jù)集,涉及到政府、犯罪、衛(wèi)生、金融和經(jīng)濟(jì)數(shù)據(jù)、市場(chǎng)和社交媒體、新聞傳媒、房地產(chǎn)、公司名錄和評(píng)價(jià)等各個(gè)方面。
有了這些數(shù)據(jù),希望能節(jié)省大家的時(shí)間和精力,避免在網(wǎng)上進(jìn)行盲目的搜索。
政府方面
1、Data.gov(https://data.gov/):美國(guó)政府提供的數(shù)據(jù)集門(mén)戶網(wǎng)站,大家可以通過(guò)這個(gè)網(wǎng)站直達(dá)從氣候到犯罪等各種奇妙的數(shù)據(jù)集。
2、Data.gov.uk(https://data.gov.uk/):來(lái)自英國(guó)所有中央機(jī)關(guān)和部分公共部門(mén)及地方政府的數(shù)據(jù)集。這個(gè)門(mén)戶網(wǎng)站涉及商業(yè)和經(jīng)濟(jì)、犯罪與正義、國(guó)防、教育、環(huán)境、政府、衛(wèi)生、社會(huì)和交通等方面各種類別的信息。
3、US. Census Bureau(https://www.census.gov/data.html):美國(guó)政府針對(duì)國(guó)民生活的統(tǒng)計(jì)數(shù)據(jù),包括人口、經(jīng)濟(jì)、教育、地理信息等。
4、The CIA World Factbook(https://www.cia.gov/library/publications/the-world-factbook/):各國(guó)狀況。重點(diǎn)關(guān)注歷史、政府、人口、經(jīng)濟(jì)、能源、地理、通信、交通、軍事和跨國(guó)問(wèn)題(267 個(gè)國(guó)家)。
5、Socrata(https://socrata.com/):Socrata 是一家任務(wù)驅(qū)動(dòng)型軟件公司。在該網(wǎng)站上,可以用內(nèi)置的可視化工具來(lái)搜索政府?dāng)?shù)據(jù)。該公司提供數(shù)據(jù)服務(wù),目前已經(jīng)有超過(guò) 1200 家政府機(jī)構(gòu)與其達(dá)成合作。
6、European Union Open Data Portal(https://open-data.europa.eu/en/data/):歐盟各個(gè)機(jī)構(gòu)的數(shù)據(jù)正在不斷增長(zhǎng)中,該網(wǎng)站是獲取這些數(shù)據(jù)的唯一途徑。里面的數(shù)據(jù)包括地理、地緣政治和金融數(shù)據(jù)、統(tǒng)計(jì)數(shù)據(jù)、選舉結(jié)果、法律行為,還有與犯罪、衛(wèi)生、環(huán)境、交通和科學(xué)研究相關(guān)的數(shù)據(jù)。
大家可以在不同的數(shù)據(jù)庫(kù)和報(bào)告中重利用這些數(shù)據(jù)。此外,歐盟的各個(gè)機(jī)構(gòu)和組織也提供了多種數(shù)字格式。該網(wǎng)站提供標(biāo)準(zhǔn)化的目錄、一些重利用數(shù)據(jù)的 app 和 web 工具、SPARQL 后端查詢編輯器和 rest API 接入,此外也有使用該站點(diǎn)的相關(guān)技巧。
7、Canada Open Data(https://www.data.gc.ca/):這是一個(gè)試點(diǎn)項(xiàng)目,包含許多政府和地理空間數(shù)據(jù)集。利用這一數(shù)據(jù)集,可以探索加拿大政府在推動(dòng)創(chuàng)新、創(chuàng)造更多經(jīng)濟(jì)機(jī)會(huì)方面是如何做的。比如如何創(chuàng)造出高度透明的社會(huì),怎么去增加公民的參與積極性和責(zé)任心。
8、Datacatalogs.org(https://opengovernmentdata.org/):提供美國(guó)、歐盟、加拿大、CKAN 數(shù)據(jù)平臺(tái)等各個(gè)地方的開(kāi)放政府?dāng)?shù)據(jù)。
9、U.S. National Center for Education Statistics(https://nces.ed.gov/):美國(guó)國(guó)家教育統(tǒng)計(jì)中心(NCES),負(fù)責(zé)收集和分析美國(guó)與教育相關(guān)的數(shù)據(jù)。
10、UK Data Service(https://www.ukdataservice.ac.uk/):包括英國(guó)政府發(fā)起的調(diào)查、跨國(guó)調(diào)查、縱向研究、英國(guó)人口普查數(shù)據(jù)、國(guó)際貿(mào)易額、商業(yè)數(shù)據(jù)和定性數(shù)據(jù)。
犯罪數(shù)據(jù)
11、Uniform Crime Reporting(https://ucr.fbi.gov/):執(zhí)法人員、學(xué)生、研究人員、媒體和公眾一般都會(huì)在這里尋找美國(guó)的相關(guān)犯罪信息。
12、FBI Crime Statistics(https://www.fbi.gov/stats-services/crimestats):一些關(guān)于犯罪的統(tǒng)計(jì)報(bào)告和出版物,詳細(xì)描述了犯罪行為,并從地區(qū)和國(guó)家級(jí)層面概述了人們面臨犯罪威脅的趨勢(shì)。
13、Bureau of Justice Statistics(https://www.bjs.gov/index.cfm?ty=dca):這里有關(guān)于美國(guó)司法系統(tǒng)的一切信息,包括逮捕引起的死亡、監(jiān)獄人口普查、DNA 犯罪實(shí)驗(yàn)室的全國(guó)調(diào)查、執(zhí)法部門(mén)的調(diào)查等等。
14、National Sex Offender Search(https://www.nsopw.gov/en):這是一份前所未有的公共安全資源,在這里可以看到美國(guó)的性犯罪數(shù)據(jù)。這里也有司法局提供的最新信息。
衛(wèi)生數(shù)據(jù)
15、U.S. Food & Drug Administration(https://www.fda.gov/Drugs/InformationOnDrugs/ucm079750.htm):這里提供美國(guó)食品藥品監(jiān)督管理局(FDA)數(shù)據(jù)庫(kù)的壓縮數(shù)據(jù)文件,F(xiàn)DA 每天都會(huì)更新他們的數(shù)據(jù)集,這個(gè)壓縮數(shù)據(jù)文件會(huì)在每周二更新。
16、UNICEF(https://www.unicef.org/statistics/):UNICEF(聯(lián)合國(guó)兒童基金會(huì))會(huì)收集世界各地兒童和婦女的相關(guān)數(shù)據(jù)。這些數(shù)據(jù)中包括來(lái)自于家庭調(diào)查等可靠信源的具有代表性的數(shù)據(jù)。
17、World Health Organisation(https://www.who.int/en/):150 多個(gè)國(guó)家的營(yíng)養(yǎng)、疾病和衛(wèi)生統(tǒng)計(jì)數(shù)據(jù)。
18、Healthdata.gov(https://www.healthdata.gov/):涵蓋美國(guó) 125 年來(lái)的衛(wèi)生保健數(shù)據(jù),包括醫(yī)療保險(xiǎn)數(shù)據(jù)、傳染病和人口統(tǒng)計(jì)數(shù)據(jù)。
19、NHS Health and Social Care Information Centre(https://www.hscic.gov.uk/home):英國(guó)國(guó)家衛(wèi)生服務(wù)部門(mén)(NHS)提供的衛(wèi)生數(shù)據(jù)。NHS 編制了 260 多份正式的國(guó)家統(tǒng)計(jì)出版物。這里有長(zhǎng)期以來(lái)的醫(yī)院統(tǒng)計(jì)數(shù)據(jù),這些數(shù)據(jù)可以幫助當(dāng)?shù)貨Q策者提高前線醫(yī)療質(zhì)量和效率。
金融和經(jīng)濟(jì)數(shù)據(jù):
20、World Bank Open Data(https://data.worldbank.org/):涵蓋世界各地的金融、服務(wù)指標(biāo)等數(shù)據(jù)。
21、IMF Economic Data(https://www.imf.org/en/Data):這是一個(gè)非常有用的信息源,包括全球金融穩(wěn)定報(bào)告、地區(qū)經(jīng)濟(jì)報(bào)告、國(guó)際金融統(tǒng)計(jì)數(shù)據(jù)、匯率、貿(mào)易方向等。
22、UN Comtrade Database(https://comtrade.un.org/):用戶可以以可視化的形式免費(fèi)訪問(wèn)詳細(xì)的全球貿(mào)易數(shù)據(jù)。它是國(guó)際貿(mào)易組織統(tǒng)計(jì)數(shù)據(jù)和相關(guān)分析表的官方資源庫(kù)。大家可以通過(guò) API 訪問(wèn)上面的所有數(shù)據(jù)。
23、Global Financial Data(https://www.globalfinancialdata.com/):涵蓋超過(guò) 6 萬(wàn)家公司的數(shù)據(jù),時(shí)間跨度為 300 年左右,為分析全球經(jīng)濟(jì)的變化提供了獨(dú)特的來(lái)源。
24、Google Finance(https://finance.google.com/finance):包括實(shí)時(shí)股票報(bào)價(jià)和圖表、財(cái)經(jīng)新聞、外匯匯率、投資組合等。
25、Google Public Data Explorer(https://www.google.com/publicdata/directory):提供來(lái)自世界銀行、OECD、歐盟統(tǒng)計(jì)局和丹佛大學(xué)等一系列國(guó)際組織和學(xué)術(shù)機(jī)構(gòu)的公開(kāi)數(shù)據(jù)和預(yù)測(cè)。這些數(shù)據(jù)可以以曲線圖、條形圖、橫截面圖的形式顯示,也可以在地圖上顯示。
26、U.S. Bureau of Economic Analysis(https://www.bea.gov/index.htm):美國(guó)官方宏觀經(jīng)濟(jì)和工業(yè)統(tǒng)計(jì)數(shù)據(jù),包括美國(guó)各地 GPU 相關(guān)報(bào)告。此外還包括在國(guó)民收入和生產(chǎn)賬戶(NIPA)上的個(gè)人收入、公司利潤(rùn)和政府支出信息。
27、Financial Data Finder at OSU(https://guides.osu.edu/c.php?g=280921&p=2281286):這里提供一切與金融相關(guān)的數(shù)據(jù)的鏈接,包括在線世界發(fā)展指標(biāo)(World Development Indicators Online)、世界銀行公開(kāi)數(shù)據(jù)(World Bank Open Data)、全球金融數(shù)據(jù)(Global Financial Data)、國(guó)際貨幣基金組織統(tǒng)計(jì)數(shù)據(jù)(International Monetary Fund Statistical Databases)和 EMIS 情報(bào)。
28、National Bureau of Economic Research(https://www.nber.org/):宏觀數(shù)據(jù)、行業(yè)數(shù)據(jù)、生產(chǎn)率數(shù)據(jù)、貿(mào)易數(shù)據(jù)、國(guó)際金融數(shù)據(jù)等。
29、U.S. Securities and Exchange Commission(https://www.sec.gov/):該數(shù)據(jù)集以季度為單位,涵蓋從外部數(shù)據(jù)到公司財(cái)務(wù)報(bào)告中提取出來(lái)的信息。
30、Visualizing Economics(http://visualizingeconomics.com/):與經(jīng)濟(jì)相關(guān)的可視化數(shù)據(jù)。
31、Financial Times(https://markets.ft.com/data/):為全球商界提供廣泛的信息、新聞和服務(wù)。
市場(chǎng)和社交媒體
32、Amazon API(https://docs.aws.amazon.com/apigateway/latest/developerguide/welcome.html):可以按分類瀏覽 AWS 上的公共數(shù)據(jù)集,獲取大量信息。
33、American Society of Travel Agents(https://www.asta.org/):ASTA 是世界上最大的旅游協(xié)會(huì)。該網(wǎng)站提供旅游代理信息,還提供旅游、郵輪、酒店、租車等產(chǎn)品信息。
34、Social Mention(https://socialmention.com/): Social Mention 是一個(gè)社交媒體搜索和分析平臺(tái),它將來(lái)自世界各地的用戶產(chǎn)生的內(nèi)容聚合成單一信息流。
35、Google Trends(https://trends.google.com/trends/):展示了在世界上不同地區(qū),特定的搜索詞出現(xiàn)的頻率。
36、Facebook API(https://developers.facebook.com/?locale=en_US):大家可以學(xué)習(xí)如何利用 Graph API 發(fā)布和檢索數(shù)據(jù)。
37、Twitter API(https://developer.twitter.com/en/docs):利用 Twitter 平臺(tái),大家可以在 Twitter 上接入網(wǎng)站或應(yīng)用程序。
38、Instagram API(https://www.instagram.com/developer/):大家可以利用 Instagram API 平臺(tái)構(gòu)建非自動(dòng)化的、真實(shí)的、高質(zhì)量的應(yīng)用和服務(wù)。
39、Foursquare API(https://developer.foursquare.com/):支持訪問(wèn) Foursquare 數(shù)據(jù)庫(kù),能與 Foursquare 上的用戶和商家進(jìn)行互動(dòng)。
40、HubSpot(https://www.hubspot.com/marketing-statistics):大型市場(chǎng)數(shù)據(jù)庫(kù)。你可以在這里找到最新的市場(chǎng)統(tǒng)計(jì)數(shù)據(jù)和趨勢(shì)。這里也為社交媒體營(yíng)銷、內(nèi)容管理、網(wǎng)頁(yè)分析、登陸頁(yè)面和搜索引擎優(yōu)化提供相關(guān)工具。
41、Moz(https://moz.com/):關(guān)于 SEO 的相關(guān)見(jiàn)解,包括關(guān)鍵詞研究、鏈接建設(shè)、網(wǎng)站審計(jì)和頁(yè)面優(yōu)化,可以幫助公司直接地分析他們?cè)谒阉饕嫔系奈恢?,改進(jìn)排名。
42、Content Marketing Institute(https://contentmarketinginstitute.com/):關(guān)于內(nèi)容營(yíng)銷的最新新聞、專著和研究。
新聞傳媒
43、The New York Times Developer Network(https://developer.nytimes.com/):可以搜索到從 1851 年到現(xiàn)在的文章,支持檢索標(biāo)題、摘要,可以鏈接到相關(guān)的多媒體資源。此外,還能搜索書(shū)評(píng)、紐約事件列表、電影評(píng)論、熱門(mén)圖片故事等等。
44、Associated Press API(https://developer.ap.org/ap-content-api):無(wú)需訪問(wèn)美聯(lián)社站點(diǎn),該 API 支持大家用自己的編輯工具搜索和下載內(nèi)容。大家可以下載美聯(lián)社、網(wǎng)站成員和來(lái)自第三方的圖片,還可以下載美聯(lián)社和選定的第三方制作的視頻。
45、Google Books Ngram Viewer(https://books.google.com/ngrams):在線搜索引擎,提供谷歌文本語(yǔ)料庫(kù)在 1500-2008 年間的 n-gram 數(shù)據(jù)??梢砸詧D例的形式顯示查詢?cè)~在這些年間出現(xiàn)頻率的變化情況。
46、Wikipedia Database(https://en.wikipedia.org/wiki/Main_Page):向用戶免費(fèi)提供平臺(tái)上的所有數(shù)據(jù)。
47、FiveThirtyEight(https://fivethirtyeight.com/):它是一個(gè)關(guān)注民意調(diào)查分析、政治、經(jīng)濟(jì)和體育的網(wǎng)站。Github 上的數(shù)據(jù)和代碼基于 FiveThirtyEight 上的故事和內(nèi)容。
48、Google Scholar(https://scholar.google.com/):Google 推出的面向?qū)W術(shù)資源的免費(fèi)搜索引擎,能夠幫助用戶查找包括期刊論文、學(xué)位論文、書(shū)籍、預(yù)印本、文摘和技術(shù)報(bào)告在內(nèi)的學(xué)術(shù)文獻(xiàn),內(nèi)容涵蓋自然科學(xué)、人文科學(xué)、社會(huì)科學(xué)等多種學(xué)科。
房地產(chǎn)
49、Castles(https://www.castles-estateagents.co.uk/):一家運(yùn)營(yíng)良好的私營(yíng)獨(dú)立機(jī)構(gòu),成立于 1981 年,提供包括住宅銷售、出租、管理、調(diào)查和估價(jià)在內(nèi)的綜合服務(wù)。
50、Realestate.com(https://www.realestate.com/):RealEstate.com 是首次購(gòu)房者的不二之選,會(huì)在購(gòu)房的每個(gè)階段為大家提供易于理解的工具和專業(yè)建議。
51、Gumtree(https://www.gumtree.com.au/):Gumtree 是英國(guó)首家免費(fèi)分類公告網(wǎng)站。在這個(gè)網(wǎng)站上可以購(gòu)買和出售小物品、汽車、房產(chǎn)等,也可以在這個(gè)網(wǎng)站上找工作或進(jìn)行招聘。
52、James Hayward(https://www.james-hayward.com/):針對(duì)住宅銷售、出租和管理,提供了一種創(chuàng)新的數(shù)據(jù)庫(kù)方法。
53、Lifull Home’s(https://www.homes.co.jp/):日本房地產(chǎn)網(wǎng)站。
54、Immobiliare.it(https://www.immobiliare.it/):意大利房地產(chǎn)網(wǎng)站。
55、Subito(https://www.subito.it/):意大利房地產(chǎn)網(wǎng)站。
56、Immoweb(https://www.immoweb.be/en/): 比利時(shí)最大的房地產(chǎn)網(wǎng)站。
公司名錄和評(píng)價(jià)
57、LinkedIn(https://www.linkedin.com/):LinkedIn 是一家以公司和就業(yè)為導(dǎo)向的社交網(wǎng)絡(luò)服務(wù)商,可以通過(guò)網(wǎng)站和移動(dòng)端訪問(wèn)。它在 200 多個(gè)國(guó)家擁有 5 億會(huì)員,你可以在這里搜索各種公司。
58、OpenCorporates(https://opencorporates.com/):OpenCorporates 是世界上最大的關(guān)于公司和公司內(nèi)部數(shù)據(jù)的公開(kāi)數(shù)據(jù)庫(kù),它有超過(guò) 1 億家公司的數(shù)據(jù)管轄權(quán)。其主要目的是讓這些公司的信息更加有用,造福于大眾,打擊違法行為(例如腐敗、洗錢(qián)和有組織犯罪)。
59、Yellowpages(https://www.yellowpages.com/):它最初是為了更方便地聯(lián)系到當(dāng)?shù)厮芄と?、雜物工人、技工、律師、牙醫(yī)等而建立的。
60、Craigslist(https://www.craigslist.org/about/sites):Craigslist 是一個(gè)分類公告網(wǎng)站,其中有工作、住房、物品銷售、求購(gòu)、服務(wù)、社區(qū)、演出、論壇等不同模塊。
61、GAF Master Elite Contractor(https://www.gaf.com/Roofing/Contractors):1886 年成立,現(xiàn)在已經(jīng)成為北美最大的商業(yè)和住宅屋頂制造商 (該數(shù)據(jù)源于 Fredonia Group 研究報(bào)告)。該公司的銷售額現(xiàn)在已經(jīng)增加到近 30 億美元。
62、CertainTeed(https://www.certainteed.com/find-a-pro):如果你想要自建房子或手頭有商業(yè)建筑項(xiàng)目,可以在這里找到美國(guó)或加拿大的承包商、改造者、安裝者或建筑商。
63、Companies in California(http://t.cn/RQxS26m):加州各類公司的相關(guān)信息。
64、Manta(https://www.manta.com/):Manta 是最大的在線資源商之一,提供產(chǎn)品、服務(wù)和教育機(jī)會(huì)。每個(gè)月都有數(shù)百萬(wàn)人訪問(wèn) Manta 名錄,搜索資源庫(kù)中的個(gè)體企業(yè)、行業(yè)信息和基于地理因素的特定名單。
65、EU-Startups(https://www.eu-startups.com/directory/):歐盟國(guó)家的初創(chuàng)公司名錄。
66、Kansas Bar Association(http://t.cn/RQxSzYc):律師名錄。KBA 成立于 1882 年,是法律從業(yè)者自發(fā)組織的志愿者協(xié)會(huì),目前擁有超過(guò) 7000 名會(huì)員,包括律師、法官、法律專業(yè)學(xué)生和律師助理。
其他門(mén)戶網(wǎng)站
67、Capterra(https://www.capterra.com/):商業(yè)軟件和評(píng)論名錄。
68、Monster(https://www.monster.com/):招聘網(wǎng)站。
69、Glassdoor(https://www.glassdoor.com/index.htm):工作名錄,涵蓋員工對(duì)公司的評(píng)論,工資等信息。
70、The Good Garage Scheme(https://www.goodgaragescheme.com/):汽車服務(wù)、汽車修理名錄。
71、OSMOZ(https://www.osmoz.com/):關(guān)于香味的信息。
72、Octoparse(https://www.octoparse.com/):免費(fèi)的數(shù)據(jù)提取工具,可以收集上面提到的所有網(wǎng)站的數(shù)據(jù)。
另外,大家要是知道有什么好用的免費(fèi)數(shù)據(jù)資源也可以后臺(tái)留言,期待大家的分享。
via:KDnuggets