自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

什么是數(shù)據(jù)科學(xué)?如何把數(shù)據(jù)變成產(chǎn)品?

大數(shù)據(jù)
據(jù)哈爾•瓦里安(Hal Varian)說(shuō),統(tǒng)計(jì)學(xué)家是下一個(gè)性感的工作。五年前,在《什么是Web 2.0》里蒂姆•奧萊利(Tim O’Reilly)說(shuō)“數(shù)據(jù)是下一個(gè)Intel Inside”。但是這句話(huà)到底是什么意思?為什么我們突然間開(kāi)始關(guān)注統(tǒng)計(jì)學(xué)和數(shù)據(jù)?在這篇文章里,我會(huì)檢視數(shù)據(jù)科學(xué)的各個(gè)方面,技術(shù)、企業(yè)和獨(dú)特技能集合。

[[170075]]

未來(lái)屬于那些知道如何把數(shù)據(jù)變成產(chǎn)品的企業(yè)和個(gè)人。

——麥克·羅克德斯(Mike Loukides)

據(jù)哈爾•瓦里安(Hal Varian)說(shuō),統(tǒng)計(jì)學(xué)家是下一個(gè)性感的工作。五年前,在《什么是Web 2.0》里蒂姆•奧萊利(Tim O’Reilly)說(shuō)“數(shù)據(jù)是下一個(gè)Intel Inside”。但是這句話(huà)到底是什么意思?為什么我們突然間開(kāi)始關(guān)注統(tǒng)計(jì)學(xué)和數(shù)據(jù)?

在這篇文章里,我會(huì)檢視數(shù)據(jù)科學(xué)的各個(gè)方面,技術(shù)、企業(yè)和獨(dú)特技能集合。

互聯(lián)網(wǎng)上充斥著“數(shù)據(jù)驅(qū)動(dòng)的應(yīng)用”。

幾乎任何的電子商務(wù)應(yīng)用都是數(shù)據(jù)驅(qū)動(dòng)的應(yīng)用。這里面前端的頁(yè)面靠背后的數(shù)據(jù)庫(kù)來(lái)支持,它們兩者之間靠中間件來(lái)連接其他的數(shù)據(jù)庫(kù)和數(shù)據(jù)服務(wù)(信用卡公司、銀行等等)。但是僅僅使用數(shù)據(jù)并不是我們所說(shuō)的真正的“數(shù)據(jù)科學(xué)”。一個(gè)數(shù)據(jù)應(yīng)用從數(shù)據(jù)里獲取價(jià)值,同時(shí)創(chuàng)造更多的數(shù)據(jù)作為產(chǎn)出。它不只是帶有數(shù)據(jù)的一個(gè)應(yīng)用,它就是一個(gè)數(shù)據(jù)產(chǎn)品。而數(shù)據(jù)科學(xué)則是能創(chuàng)建這樣的數(shù)據(jù)產(chǎn)品。

互聯(lián)網(wǎng)上早期的數(shù)據(jù)產(chǎn)品之一就是CDDB數(shù)據(jù)庫(kù)。CDDB數(shù)據(jù)庫(kù)的開(kāi)發(fā)者意識(shí)到基于CD(音頻光盤(pán))里面的每首歌曲的確切長(zhǎng)度,任何CD都有一個(gè)唯一的數(shù)字簽名。Gracenote公司創(chuàng)建了一個(gè)數(shù)據(jù)庫(kù),記錄著歌曲的長(zhǎng)度,并和專(zhuān)輯的元數(shù)據(jù)(歌曲名稱(chēng)、歌手和專(zhuān)輯名稱(chēng))數(shù)據(jù)庫(kù)關(guān)聯(lián)。如果你曾經(jīng)使用iTunes來(lái)找CD,你就是在使用這個(gè)數(shù)據(jù)庫(kù)服務(wù)。iTunes會(huì)先獲取每首歌的長(zhǎng)度,然后發(fā)給CDDB,從而得到歌曲的名稱(chēng)。如果你有一些CD(比如你自制的CD)在數(shù)據(jù)庫(kù)里沒(méi)有記錄,你也可以在CDDB里創(chuàng)造一個(gè)無(wú)名專(zhuān)輯的題目。盡管看起來(lái)很簡(jiǎn)單,但這是革命性的。CDDB把音樂(lè)看成是數(shù)據(jù),而不僅僅是聲音,并從中創(chuàng)造了新的價(jià)值。他們的商業(yè)模式和傳統(tǒng)的銷(xiāo)售音樂(lè)、共享音樂(lè)或者分析音樂(lè)口味等業(yè)務(wù)的模式截然不同,盡管這些業(yè)務(wù)也可以是“數(shù)據(jù)產(chǎn)品”。CDDB完全是視音樂(lè)的問(wèn)題為數(shù)據(jù)的問(wèn)題。

谷歌是創(chuàng)造數(shù)據(jù)產(chǎn)品的專(zhuān)家,這里列幾個(gè)例子。

谷歌的創(chuàng)新是在于其意識(shí)到搜索引擎可以使用入鏈接而不是網(wǎng)頁(yè)上的文字。谷歌的PageRank算法是最早一批使用網(wǎng)頁(yè)以外的數(shù)據(jù)的算法之一,特別是網(wǎng)頁(yè)的入鏈接數(shù),即其他網(wǎng)頁(yè)指向某網(wǎng)頁(yè)的數(shù)量。記錄鏈接讓谷歌的搜索引擎比其他的引擎更好,而PageRank則是谷歌的成功因素中非常關(guān)鍵的一條。

拼寫(xiě)檢查不是一個(gè)非常難的任務(wù),但是通過(guò)在用戶(hù)輸入搜索關(guān)鍵詞時(shí),向錯(cuò)誤拼寫(xiě)推薦正確的用法并查看用戶(hù)是如何回應(yīng)推薦,谷歌讓拼寫(xiě)檢查的準(zhǔn)確率大幅提高。他們還建立起了常見(jiàn)錯(cuò)誤拼寫(xiě)的字典,其中還包括對(duì)應(yīng)的正確拼寫(xiě)以及錯(cuò)誤拼寫(xiě)常見(jiàn)的上下文。

語(yǔ)音識(shí)別也是一個(gè)非常艱難的任務(wù),而且也還沒(méi)有完全被解決。但谷歌通過(guò)使用自己收集的語(yǔ)音數(shù)據(jù),已經(jīng)開(kāi)始了針對(duì)這個(gè)難題的一個(gè)宏大的嘗試。并已把語(yǔ)音搜索集成到了核心搜索引擎里。

在2009年豬流感的傳播期,谷歌能夠通過(guò)跟蹤與流感相關(guān)的搜索來(lái)跟蹤這次豬流感的爆發(fā)和傳播過(guò)程。

通過(guò)分析搜索跟流感相關(guān)的用戶(hù)在不同地區(qū)的情況,谷歌能夠比美國(guó)國(guó)家疾病控制中心提前兩周發(fā)現(xiàn)豬流感的爆發(fā)和傳播趨勢(shì)。

谷歌并不是唯一一家知道如何使用數(shù)據(jù)的公司。臉書(shū)和領(lǐng)英都是用朋友關(guān)系來(lái)建議用戶(hù)他們可能認(rèn)識(shí)或應(yīng)該認(rèn)識(shí)的其他人。亞馬遜會(huì)保存你的搜素關(guān)鍵詞,并使用別人的搜索詞來(lái)關(guān)聯(lián)你的搜索,從而能令人驚訝地做出恰當(dāng)?shù)纳唐吠扑]。這些推薦就是數(shù)據(jù)產(chǎn)品,能幫助推進(jìn)亞馬遜的傳統(tǒng)的零售業(yè)務(wù)。所有這些都是因?yàn)閬嗰R遜明白書(shū)不僅僅是書(shū),而相機(jī)也不僅僅是相機(jī),用戶(hù)也不僅僅就是一個(gè)用戶(hù)。用戶(hù)會(huì)產(chǎn)生一連串“數(shù)據(jù)排氣”,挖據(jù)它并使用它,那么相機(jī)就變成了一堆數(shù)據(jù)可以用來(lái)和用戶(hù)的行為進(jìn)行關(guān)聯(lián)。每次用戶(hù)訪(fǎng)問(wèn)他們的網(wǎng)站就會(huì)留下數(shù)據(jù)。

把所有這些應(yīng)用聯(lián)系到一起的紐帶就是從用戶(hù)那里采集的數(shù)據(jù)來(lái)提供附加價(jià)值。無(wú)論這個(gè)數(shù)據(jù)是搜索關(guān)鍵詞、語(yǔ)音樣本或者產(chǎn)品評(píng)價(jià),現(xiàn)在用戶(hù)已經(jīng)成為他們所使用的產(chǎn)品的反饋環(huán)中重要的一環(huán)。這就是數(shù)據(jù)科學(xué)的開(kāi)端。

在過(guò)去的幾年里,可用的數(shù)據(jù)量呈爆炸性的增長(zhǎng)。不管是網(wǎng)頁(yè)日志數(shù)據(jù)、推特流、在線(xiàn)交易數(shù)據(jù)、“公民科學(xué)”、傳感器數(shù)據(jù)、政府?dāng)?shù)據(jù)或其他什么數(shù)據(jù),現(xiàn)在找到數(shù)據(jù)已經(jīng)不再是問(wèn)題,如何使用這些數(shù)據(jù)才是關(guān)鍵。不僅僅是企業(yè)在使用它自己的數(shù)據(jù)或者用戶(hù)貢獻(xiàn)的數(shù)據(jù)。越來(lái)越常見(jiàn)的是把來(lái)自多個(gè)數(shù)據(jù)源的數(shù)據(jù)進(jìn)行“聚合”?!对赗里進(jìn)行數(shù)據(jù)聚合》分析了費(fèi)城郡的房屋抵押贖回權(quán)的情況。它從郡長(zhǎng)辦公室獲得了房屋抵押贖回權(quán)的公開(kāi)記錄,抽取了其中的地址信息,再使用雅虎把地址信息轉(zhuǎn)換成了經(jīng)緯度。然后使用這些地理位置信息把房屋抵押贖回權(quán)的情況繪制在地圖上(另外一個(gè)數(shù)據(jù)源)。再把它們按社區(qū)、房屋估值、社區(qū)人均收入和其他社會(huì)—-經(jīng)濟(jì)因素進(jìn)行分組。

現(xiàn)在每個(gè)企業(yè)、創(chuàng)業(yè)公司、非營(yíng)利組織或項(xiàng)目網(wǎng)站,當(dāng)他們想吸引某個(gè)社群的時(shí)候所面臨的問(wèn)題是,如何有效的使用數(shù)據(jù)。不僅僅是他們自己的數(shù)據(jù),還包括所有可用的和相關(guān)的數(shù)據(jù)。有效的使用數(shù)據(jù)需要與傳統(tǒng)的統(tǒng)計(jì)不同的技能。傳統(tǒng)的穿職業(yè)西裝的精算師們進(jìn)行著神秘但其實(shí)是早已明確定義的分析。而數(shù)據(jù)科學(xué)與統(tǒng)計(jì)的不同是數(shù)據(jù)科學(xué)是一種全盤(pán)考慮的方法。我們?cè)絹?lái)越多的在非正規(guī)的渠道里找到數(shù)據(jù),數(shù)據(jù)科學(xué)正隨著數(shù)據(jù)的不斷收集、把數(shù)據(jù)轉(zhuǎn)換為可處理的形式、讓數(shù)據(jù)自己講故事以及把故事展現(xiàn)給別人不斷演進(jìn)。

為了能感受到什么樣的技術(shù)是數(shù)據(jù)科學(xué)需要的,讓我們首先看看數(shù)據(jù)的生命周期:數(shù)據(jù)從哪里來(lái),如何使用,以及數(shù)據(jù)到哪里去。

數(shù)據(jù)從哪里來(lái)

數(shù)據(jù)無(wú)處不在,政府、網(wǎng)站、商業(yè)伙伴、甚至你自己的身體。雖然我們不是完全淹沒(méi)在數(shù)據(jù)的海洋里,但可以看到幾乎所有的東西都可以(甚至已經(jīng))被測(cè)量了。在O’Reilly傳媒公司,我們經(jīng)常會(huì)把來(lái)自Nielsen BookScan的行業(yè)數(shù)據(jù)和我們自己的銷(xiāo)售數(shù)據(jù)、公開(kāi)的亞馬遜數(shù)據(jù)、甚至就業(yè)數(shù)據(jù)組合起來(lái)研究出版行業(yè)發(fā)生了什么。一些網(wǎng)站,比如Infochimps和Factual,可以提供很多大型數(shù)據(jù)集的連接,包括天氣數(shù)據(jù)、MySpace的活動(dòng)流數(shù)據(jù)、體育活動(dòng)比賽記錄等。Factual網(wǎng)站還招募用戶(hù)來(lái)更新和改進(jìn)它的數(shù)據(jù)集。這些數(shù)據(jù)集覆蓋了從內(nèi)分泌學(xué)家到徒步小道等的廣泛內(nèi)容。

很多我們現(xiàn)在所用的數(shù)據(jù)都是Web 2.0的產(chǎn)物,也遵守摩爾定律。Web讓人們花更多的時(shí)間在線(xiàn),同時(shí)也留下了他們的瀏覽軌跡。移動(dòng)端應(yīng)用則留下了更豐富的數(shù)據(jù)軌跡,因?yàn)楹芏鄳?yīng)用都被標(biāo)注了地理位置信息或附帶著音頻和視頻。這些數(shù)據(jù)都可以被挖據(jù)。結(jié)帳點(diǎn)設(shè)備和經(jīng)常購(gòu)物者購(gòu)物卡使得獲取消費(fèi)者的所有交易信息(不光是在線(xiàn)信息)成為可能。如果我們不能存儲(chǔ)這些數(shù)據(jù),那么所有這些數(shù)據(jù)就將沒(méi)有用處。這里就是摩爾定律起作用的地方。自80年代早期開(kāi)始,處理器的速度就從10Mhz增加到了3.6GHz,增加了360倍(這還沒(méi)考慮處理位數(shù)和核數(shù)的增加)。但是我們看到存儲(chǔ)能力的增加則更為巨大。內(nèi)存價(jià)格從1000美元每兆字節(jié)降到25美元每吉字節(jié),幾乎是40000倍的降低。這還沒(méi)考慮內(nèi)存尺寸的減少和速途的增加。日立公司在1982年制造了第一個(gè)吉字節(jié)的硬盤(pán),重大概250磅?,F(xiàn)在千吉字節(jié)級(jí)別的硬盤(pán)已經(jīng)是普通消費(fèi)品,而32吉字節(jié)的微存儲(chǔ)卡只有半克重。無(wú)論是每克重的比特?cái)?shù)、每美元比特?cái)?shù)或者總存儲(chǔ)量,存儲(chǔ)能力的提升已經(jīng)超過(guò)了CPU速度的增幅。

摩爾定律應(yīng)用于數(shù)據(jù)的重要性不僅是極客的技巧。數(shù)據(jù)的增長(zhǎng)總是能填充滿(mǎn)你的存儲(chǔ)。硬盤(pán)容量越大,也就能找到更多的數(shù)據(jù)把它填滿(mǎn)。瀏覽網(wǎng)頁(yè)后留下的“數(shù)據(jù)排氣”、在臉書(shū)上添加某人為朋友或是在本地超市買(mǎi)東西,這些數(shù)據(jù)都被仔細(xì)的收集下來(lái)并進(jìn)行分析。數(shù)據(jù)存儲(chǔ)的增加就要求有更精致的分析來(lái)使用這些數(shù)據(jù)。這就是數(shù)據(jù)科學(xué)的基石。

那么,我們?cè)趺茨茏寯?shù)據(jù)有用?任何數(shù)據(jù)分析項(xiàng)目的第一步都是“數(shù)據(jù)調(diào)節(jié)”,即把數(shù)據(jù)變換成有用的狀態(tài)。我們已經(jīng)看到了很多數(shù)據(jù)的格式都是易用的:Atom數(shù)據(jù)發(fā)布、網(wǎng)絡(luò)服務(wù)業(yè)務(wù)、微格式和其他的新技術(shù)使得數(shù)據(jù)可以直接被機(jī)器消費(fèi)。但是老式的“屏幕抓取”方法并沒(méi)有消亡,而且也不會(huì)消亡。很多“非正規(guī)”數(shù)據(jù)源來(lái)的數(shù)據(jù)都是很混亂的。他們都不是很好構(gòu)建的XML文件(并帶有所有的元數(shù)據(jù))。在《在R里做數(shù)據(jù)聚合》里使用的房屋抵押贖回權(quán)數(shù)據(jù)都是發(fā)布在費(fèi)城郡長(zhǎng)辦公司的網(wǎng)站上。這些數(shù)據(jù)都是HTML文件,很可能是從某個(gè)數(shù)據(jù)表格文件里自動(dòng)生成的。如果曾經(jīng)見(jiàn)過(guò)這些由Excel生產(chǎn)的HTML文件,你就知道處理這個(gè)會(huì)是很有趣的。

數(shù)據(jù)調(diào)節(jié)也包括用類(lèi)似Beautiful Soup這樣的工具來(lái)清理混亂的HTML文件,用自然語(yǔ)言處理技術(shù)來(lái)分析英語(yǔ)和其他語(yǔ)言的純文本,或用人工來(lái)干苦活和臟活。你有可能會(huì)處理一系列數(shù)據(jù)源,而他們各自的格式都不同。如果能有一個(gè)標(biāo)準(zhǔn)的工具集來(lái)處理這些就太好了,可實(shí)際上這是不現(xiàn)實(shí)的。為了做數(shù)據(jù)調(diào)節(jié),你需要準(zhǔn)備好處理任何的數(shù)據(jù)格式,并愿意使用任何的工具,從原始的Unix工具(如awk)到XML語(yǔ)義分析器和機(jī)器學(xué)習(xí)庫(kù)。腳本語(yǔ)言,比如Perl和Python,就很重要了。

一旦你分析了數(shù)據(jù),就可以開(kāi)始思考數(shù)據(jù)的質(zhì)量問(wèn)題了。數(shù)據(jù)經(jīng)常會(huì)有缺失和不一致。如果數(shù)據(jù)缺失了,你是要簡(jiǎn)單地忽略他們嗎?這也不總是可以的。如果出現(xiàn)數(shù)據(jù)不一致,你是否要決定某些表現(xiàn)不好的數(shù)據(jù)(是設(shè)備出錯(cuò)了)是錯(cuò)的,或者這些不一致的數(shù)據(jù)恰恰是在講述它自己的故事,而這就更有趣。有報(bào)道說(shuō),臭氧層消耗的發(fā)現(xiàn)被延誤了,因?yàn)樽詣?dòng)數(shù)據(jù)收集工具丟棄了那些數(shù)值過(guò)低的讀數(shù)1。在數(shù)據(jù)科學(xué)里,你能有的經(jīng)常是你將會(huì)拿到的。通常你不可能得到更好的數(shù)據(jù),你可能沒(méi)有其他的選擇除了使用你手頭有的數(shù)據(jù)。

如果研究的問(wèn)題涉及到人類(lèi)的語(yǔ)言,那理解數(shù)據(jù)就又給問(wèn)題增加了一個(gè)維度。O’Reilly的數(shù)據(jù)分析組的主管羅杰.馬古拉斯(Roger Magoulas)最近在為蘋(píng)果公司招聘公告列表搜尋數(shù)據(jù)庫(kù),這需要有地理位置技能。這聽(tīng)起來(lái)像是個(gè)簡(jiǎn)單任務(wù),這里的坑就是從很多招聘公告列表里去發(fā)現(xiàn)真正的“蘋(píng)果”的工作,而不是那些大量增加的蘋(píng)果附屬的工業(yè)企業(yè)。為了能更好的完成這個(gè)任務(wù),就需要能理解一個(gè)招聘公告的語(yǔ)法結(jié)構(gòu),即你需要能解析英語(yǔ)語(yǔ)義。這樣的問(wèn)題已經(jīng)變的越來(lái)越常見(jiàn)。比如你試著去用谷歌趨勢(shì)(Google Trend)去查看Cassandra數(shù)據(jù)庫(kù)或者Python語(yǔ)言正在發(fā)生什么,你就能感受到這個(gè)問(wèn)題了。因?yàn)楣雀枰呀?jīng)為很多關(guān)于大型蛇類(lèi)的網(wǎng)站建立了索引。歧義消除從來(lái)都不是一個(gè)簡(jiǎn)單的任務(wù),但是類(lèi)似于Natural Language Toolkit這樣的庫(kù)可以讓這個(gè)工作簡(jiǎn)單一點(diǎn)。

當(dāng)自然語(yǔ)言處理失效時(shí),你可以用人的智能來(lái)代替人工智能。這就是類(lèi)似亞馬遜的Mechanical Turk這樣的業(yè)務(wù)所服務(wù)的目標(biāo)。如果你能把你的任務(wù)分解成非常多的容易表述子任務(wù),你就可以使用Mechanical Turk的市場(chǎng)來(lái)招募很便宜的工人。例如,你想查看招聘公告列表并發(fā)現(xiàn)哪些是真正來(lái)自蘋(píng)果公司,你可以招募工人來(lái)做分類(lèi),價(jià)格大概是一美分一個(gè)公告。如果你已經(jīng)把這個(gè)列表的數(shù)目降到一萬(wàn)條有蘋(píng)果字樣的公告,那么只要付100美元就可以讓人工來(lái)分類(lèi)了。

處理海量的數(shù)據(jù)

我們已經(jīng)聽(tīng)說(shuō)了很多的“大數(shù)據(jù)”,但是“大”只是轉(zhuǎn)移注意力的話(huà)。石油公司、電信公司和其他數(shù)據(jù)密集型的行業(yè)早就已經(jīng)在相當(dāng)長(zhǎng)的時(shí)間里擁有了海量的數(shù)據(jù)集。伴隨著存儲(chǔ)能力的持續(xù)增長(zhǎng),今天的“大數(shù)據(jù)”肯定會(huì)變成明天的“中數(shù)據(jù)”或者日后的“小數(shù)據(jù)”。我所聽(tīng)到的最有意義的定義是:“大數(shù)據(jù)”是指數(shù)據(jù)的量本身成為問(wèn)題的一部分。我們討論數(shù)據(jù)量的問(wèn)題可從吉字節(jié)級(jí)到千吉字節(jié)不等,在某些時(shí)刻,傳統(tǒng)的數(shù)據(jù)處理技術(shù)已經(jīng)不能勝任了。

面對(duì)這樣不同的數(shù)據(jù),我們正試圖做什么?根據(jù)杰夫·哈默巴赫爾(Jeff Hammebacher)2所說(shuō),我們正在構(gòu)建信息平臺(tái)或數(shù)據(jù)空間。信息平臺(tái)和傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)類(lèi)似,但不同。他們暴露了很豐富的API(應(yīng)用程序接口),并被設(shè)計(jì)為用來(lái)支持探索和分析理解這些數(shù)據(jù),而不是只為傳統(tǒng)的分析和報(bào)表。這些平臺(tái)接收所有的數(shù)據(jù)格式,包括最混亂的那些,他們的數(shù)據(jù)模式隨著對(duì)數(shù)據(jù)理解的改變而不斷進(jìn)化。

大部分構(gòu)建數(shù)據(jù)平臺(tái)的企業(yè)都發(fā)現(xiàn)很有必要超越傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)。傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)系統(tǒng)在到一定數(shù)據(jù)量級(jí)后開(kāi)始效率降低,甚至無(wú)效。管理在一群數(shù)據(jù)庫(kù)服務(wù)器間分享和復(fù)制數(shù)據(jù)是很困難的,且很慢。同時(shí)關(guān)系型數(shù)據(jù)庫(kù)需要預(yù)先定義好數(shù)據(jù)模式,而這與多數(shù)據(jù)源的非結(jié)構(gòu)化數(shù)據(jù)現(xiàn)狀是沖突的,因?yàn)槟闵踔炼疾恢朗裁词亲钪匾闹钡侥汩_(kāi)始分析數(shù)據(jù)。關(guān)系型數(shù)據(jù)庫(kù)被設(shè)計(jì)來(lái)滿(mǎn)足一致性的,這是為了支持復(fù)雜的交易過(guò)程,以便于當(dāng)交易過(guò)程中的任何一個(gè)環(huán)節(jié)出錯(cuò)時(shí),可以很方便的回滾。盡管?chē)?yán)格一致性對(duì)于很多應(yīng)用是很重要的,但這對(duì)于我們這里所談?wù)摰姆治鋈蝿?wù)并不是完全必須的。你真的會(huì)在乎是有1010個(gè)或者1012個(gè)推特的關(guān)注者?精確是很誘人的,但是對(duì)于絕大部分金融領(lǐng)域以外的數(shù)據(jù)驅(qū)動(dòng)的應(yīng)用,精確是個(gè)偽命題。大部分?jǐn)?shù)據(jù)分析都是比較性的,如果你想知道是否東歐地區(qū)的銷(xiāo)售增長(zhǎng)比南歐地區(qū)快,你并不關(guān)心這個(gè)差別是5.92%年增長(zhǎng),還是5.93%。

為了能有效地存儲(chǔ)數(shù)據(jù),出現(xiàn)了不少新型的數(shù)據(jù)庫(kù)。他們經(jīng)常被叫做NoSQL數(shù)據(jù)庫(kù),或非關(guān)系型(Non-Relational)數(shù)據(jù)庫(kù),盡管兩個(gè)名詞都沒(méi)什么用。這些名詞把本質(zhì)上完全不同的產(chǎn)品歸到一類(lèi)里,但其實(shí)只說(shuō)明了他們不是什么。很多的這些數(shù)據(jù)庫(kù)都是谷歌的BigTable和亞馬遜的Dynamo的后代。它們被設(shè)計(jì)來(lái)實(shí)現(xiàn)分布于多節(jié)點(diǎn),并提供“最終一致性”而不是絕對(duì)一致性,同時(shí)也支持非常靈活的數(shù)據(jù)模式。盡管有多達(dá)二十個(gè)這樣的數(shù)據(jù)庫(kù)產(chǎn)品,大部分都是開(kāi)源的,只有少數(shù)幾個(gè)已經(jīng)在業(yè)界確立了他們的地位。

Cassandra:由臉書(shū)開(kāi)發(fā),已經(jīng)在推特、Rackspace、Reddit和其他大型網(wǎng)站的生產(chǎn)系統(tǒng)上使用。Cassandra被設(shè)計(jì)成高性能、高可靠性和可自動(dòng)復(fù)制。它有一個(gè)非常靈活的數(shù)據(jù)模型。創(chuàng)業(yè)公司Riptano提供對(duì)它的商業(yè)化支持。

HBase:是基于谷歌的BigTable,并變成Apache Hadoop的一個(gè)子項(xiàng)目。設(shè)計(jì)用于極大的數(shù)據(jù)庫(kù)(超過(guò)十億行、百萬(wàn)列),分布式存儲(chǔ)于上千個(gè)節(jié)點(diǎn)。它跟Hadoop一起,可由Cloudera公司提供商業(yè)化的支持。

存儲(chǔ)數(shù)據(jù)只是構(gòu)建數(shù)據(jù)平臺(tái)的一部分,數(shù)據(jù)的價(jià)值只有在被使用后才能出現(xiàn),而巨大的數(shù)據(jù)量又帶來(lái)了新的計(jì)算難題。谷歌讓MapReduce方法變得流行。MapReduce方法本質(zhì)上是一種分而治之的策略,用以處理在一個(gè)超大的集群上的超級(jí)大的問(wèn)題。在“Map”階段,一個(gè)單一的計(jì)算任務(wù)被分成了眾多的相同的子任務(wù),然后這些子任務(wù)被分配到很多的處理節(jié)點(diǎn)上運(yùn)行。子任務(wù)產(chǎn)生的中間結(jié)果隨后被匯聚,交給Reduce任務(wù)們來(lái)處理。事后看,MapReduce任務(wù)似乎是對(duì)于谷歌的最大的問(wèn)題(建立大的搜索引擎)的一個(gè)顯而易見(jiàn)的解決方案。很容易把一個(gè)搜索分布到上千個(gè)節(jié)點(diǎn)里,然后在把結(jié)果匯聚成一個(gè)單一的答案。沒(méi)有那么顯而易見(jiàn)的是MapReduce已被證明對(duì)于很多大型數(shù)據(jù)的問(wèn)題都可用,不管是搜索還是機(jī)器學(xué)習(xí)。

最流行的MapReduce的開(kāi)源實(shí)現(xiàn)是Hadoop項(xiàng)目。雅虎宣傳他們已經(jīng)構(gòu)建了世界上最大的生產(chǎn)Hadoop集群,有一萬(wàn)個(gè)CPU內(nèi)核,運(yùn)行在Linux上。很多Hadoop開(kāi)發(fā)者也認(rèn)可了Cloudera的商業(yè)版Hadoop。亞馬遜的Elastic MapReduce是在亞馬遜的EC2集群上提供了預(yù)先配置好的Hadoop鏡像文件,這讓部署Hadoop非常簡(jiǎn)單,也不用客戶(hù)自己購(gòu)買(mǎi)Linux服務(wù)器??蛻?hù)可以按需增加和減少處理器,而只需按使用時(shí)間來(lái)付費(fèi)。

Hadoop已經(jīng)遠(yuǎn)遠(yuǎn)超越了單純的MapReduce的實(shí)現(xiàn),他是一個(gè)數(shù)據(jù)平臺(tái)的核心部件。它包括了HDFS,一個(gè)保證高性能和可靠性需求的超大數(shù)據(jù)分布式文件系統(tǒng);HBase數(shù)據(jù)庫(kù);Hive,一個(gè)可以讓開(kāi)發(fā)者使用類(lèi)SQL的查詢(xún)來(lái)探索Hadoop數(shù)據(jù)的工具;一個(gè)叫Pig的高級(jí)數(shù)據(jù)流語(yǔ)言;以及其他很多的部件。如果有任何的東西可以叫一站式信息平臺(tái),Hadoop就是一個(gè)。

Hadoop被設(shè)計(jì)成了可以支持“敏捷”數(shù)據(jù)分析。在軟件開(kāi)發(fā)領(lǐng)域,“敏捷實(shí)踐”是與快速產(chǎn)品開(kāi)發(fā)周期、開(kāi)發(fā)者和用戶(hù)的更緊密的交互、并與測(cè)試相關(guān)的。傳統(tǒng)的數(shù)據(jù)分析已經(jīng)被異常長(zhǎng)的運(yùn)行時(shí)間所耽擱,一個(gè)計(jì)算可能在幾小時(shí)或者幾天內(nèi)都無(wú)法完成。但是Hadoop(特別是Elastic MapReduce)讓構(gòu)建一個(gè)可以處理超大數(shù)據(jù)集的集群成為可能。快速的計(jì)算使得測(cè)試不同的假設(shè)、不同的數(shù)據(jù)集和不同的算法成為可能。這就讓跟客戶(hù)的溝通變的容易了,因?yàn)榭梢钥焖俚陌l(fā)現(xiàn)你是否問(wèn)了正確的問(wèn)題。同時(shí)也讓探索那些有趣的可能性成為可能,而不再受限于分析時(shí)間了。

Hadoop本質(zhì)上是一個(gè)批處理系統(tǒng),但是Hadoop在線(xiàn)原型(HOP,Hadoop Online Prototype)是一個(gè)實(shí)驗(yàn)項(xiàng)目,來(lái)應(yīng)對(duì)流計(jì)算。HOP在數(shù)據(jù)到來(lái)的時(shí)候就處理數(shù)據(jù),并以準(zhǔn)實(shí)時(shí)的速度算出中間結(jié)果。準(zhǔn)實(shí)時(shí)數(shù)據(jù)分析可以應(yīng)用在推特的話(huà)題趨勢(shì)追蹤這樣的應(yīng)用里。這樣的應(yīng)用只要求近似實(shí)時(shí),比如話(huà)題趨勢(shì)追蹤的報(bào)表不會(huì)需要毫米級(jí)的準(zhǔn)確度。像推特上的關(guān)注者的數(shù)目一樣,一個(gè)“話(huà)題趨勢(shì)”報(bào)表也只需要能在五分鐘內(nèi)更新即可,甚至是一小時(shí)內(nèi)。據(jù)bit.ly的數(shù)據(jù)科學(xué)家希拉里.梅森(Hillary Mason)所說(shuō),也可以先計(jì)算很多的變量值,再使用實(shí)時(shí)MapReduce來(lái)計(jì)算最近的結(jié)果。

機(jī)器學(xué)習(xí)是數(shù)據(jù)科學(xué)家的另外一種重要的工具。我們現(xiàn)在期待網(wǎng)絡(luò)和移動(dòng)應(yīng)用會(huì)結(jié)合推薦引擎。而構(gòu)建一個(gè)推薦引擎是人工智能問(wèn)題的精華之一。不用看很多的網(wǎng)頁(yè)應(yīng)用,你就能發(fā)現(xiàn)分類(lèi)、錯(cuò)誤檢測(cè)、圖像匹配(如在谷歌眼鏡和SnapTell里)甚至是人臉識(shí)別。一個(gè)不動(dòng)腦子的移動(dòng)應(yīng)用可以讓你用手機(jī)來(lái)給某人拍照,然后在用這張照片來(lái)在搜索這個(gè)人的身份。吳恩達(dá)(Andrew Ng)的機(jī)器學(xué)習(xí)課程是斯坦福大學(xué)的最流行的計(jì)算機(jī)課程之一,有著數(shù)百名學(xué)生(他的這個(gè)視頻也是強(qiáng)烈推薦的)。

有很多機(jī)器學(xué)習(xí)的庫(kù)可供使用:Python的PyBrain,Elefant,Java的Weka和Hadoop里的Mahout。谷歌最近剛剛發(fā)布他們的預(yù)測(cè)性分析的API,通過(guò)RESTful接口為大眾提供了谷歌的機(jī)器學(xué)習(xí)算法的能力。對(duì)于計(jì)算機(jī)視覺(jué),OpenCV則是事實(shí)上的標(biāo)準(zhǔn)。

Mechanical Turk也是工具庫(kù)里的一個(gè)重要部分。機(jī)器學(xué)習(xí)幾乎總是需要一個(gè)“訓(xùn)練集”,即已知結(jié)果的數(shù)據(jù),供開(kāi)發(fā)和調(diào)優(yōu)應(yīng)用。Turk就是一個(gè)很好的方法來(lái)獲得訓(xùn)練集。一旦你得到了數(shù)據(jù)集(可能就是從推特里收集的很多公共圖片),你可以用很少的花費(fèi)來(lái)進(jìn)行人工分類(lèi),比如分到不同的列表里,在臉上或者車(chē)上畫(huà)個(gè)圈,或者任何你感興趣的結(jié)果。花費(fèi)幾分錢(qián)來(lái)分類(lèi)幾千條記錄是個(gè)不錯(cuò)的選擇。即使是相對(duì)大的工作,也只花費(fèi)不到幾百美元。

盡管我沒(méi)有強(qiáng)調(diào)傳統(tǒng)的統(tǒng)計(jì)分析,但構(gòu)建統(tǒng)計(jì)模型在任何數(shù)據(jù)分析里都很重要。據(jù)麥克.德里斯科爾(Mike Driscoll),統(tǒng)計(jì)是“數(shù)據(jù)科學(xué)的語(yǔ)法”。讓數(shù)據(jù)能一致性的講故事是很重要的。我們都聽(tīng)說(shuō)了這個(gè)笑話(huà),吃泡菜會(huì)死人,因?yàn)槊總€(gè)死的人都吃過(guò)泡菜。如果你理解關(guān)聯(lián)的意思,你就不會(huì)去理會(huì)這個(gè)笑話(huà)。更進(jìn)一步,很容易可以看到為《R技術(shù)手冊(cè)》做廣告使得這本書(shū)的銷(xiāo)量的轉(zhuǎn)化率比其他書(shū)多2%。但需要用統(tǒng)計(jì)的結(jié)果來(lái)判斷這個(gè)差別是不是夠顯著,或只是一個(gè)隨機(jī)的波動(dòng)。數(shù)據(jù)科學(xué)不僅僅只是關(guān)于數(shù)據(jù)的保存,或猜測(cè)數(shù)據(jù)可能的意義,它是關(guān)于假定檢驗(yàn)和確保來(lái)自數(shù)據(jù)的結(jié)論是可信的和可靠的。從傳統(tǒng)的商業(yè)智能到理解谷歌的拍賣(mài)機(jī)制,統(tǒng)計(jì)在幾乎所有的任務(wù)里都扮演重要的角色。統(tǒng)計(jì)已經(jīng)成為了一個(gè)基本技能。它不是被來(lái)自機(jī)器學(xué)習(xí)里的新技術(shù)所替代,它是他們的補(bǔ)充。

盡管有很多的商業(yè)化統(tǒng)計(jì)軟件包,但開(kāi)源的R語(yǔ)言,包括他的豐富的包庫(kù)CRAN,是非常重要的一個(gè)工具。雖然對(duì)學(xué)計(jì)算機(jī)的人而言,R是一種奇怪的詭異的語(yǔ)言,但它幾乎是提供了一站式的統(tǒng)計(jì)工具包。它包括了非常好的圖形處理工具,CRAN里包括了非常多的數(shù)據(jù)解析器,以及針對(duì)分布式計(jì)算的新的擴(kuò)展包。如果有一個(gè)工具能提供端到端的統(tǒng)計(jì)解決方案,R就是。

讓數(shù)據(jù)來(lái)講它自己的故事

一圖或許值千言,或許不值,但一圖絕對(duì)值千數(shù)。很多數(shù)據(jù)分析算法的問(wèn)題都是他們僅僅只是產(chǎn)生了一堆數(shù)字。為了理解這些數(shù)字的意思(它們要說(shuō)的真實(shí)故事),你需要制作好的圖表。愛(ài)德華.塔夫特(Edward Tufte)的《量化信息的可視化顯示》就是數(shù)據(jù)可視化的經(jīng)典書(shū)籍,也是任何希望從事數(shù)據(jù)科學(xué)的人要看的基礎(chǔ)教材。據(jù)馬丁.瓦滕伯格(Martin Wattenberg,F(xiàn)lowing Media的創(chuàng)始人),可視化對(duì)數(shù)據(jù)調(diào)節(jié)很重要,如果你想發(fā)現(xiàn)數(shù)據(jù)的質(zhì)量如何,那就把它畫(huà)出來(lái)??梢暬步?jīng)常是是數(shù)據(jù)分析的第一步。希拉里.梅森說(shuō)當(dāng)她拿到新的數(shù)據(jù)后,她會(huì)首先畫(huà)很多的散點(diǎn)圖,試圖去找到那些有趣的東西。一旦你發(fā)現(xiàn)某些數(shù)據(jù)有價(jià)值的線(xiàn)索,就可以繼續(xù)用更詳細(xì)的分析來(lái)繼續(xù)了。

有很多軟件和工具可以用來(lái)制作圖表展現(xiàn)數(shù)據(jù)。GnuPlot是非常有效的一個(gè)。R也有很豐富的圖表庫(kù);凱西.瑞斯和本.弗萊的Processing是最先進(jìn)的一個(gè),特別是如果你想制作可隨時(shí)間變化的動(dòng)畫(huà)。IBM的Many Eyes里的很多可視化都是完全可以交互的應(yīng)用。

內(nèi)森·姚(Nathan Yau)的FlowingData博客是一個(gè)很好的地方可以來(lái)學(xué)習(xí)制作可視化。我最喜歡的動(dòng)畫(huà)之一是沃爾瑪?shù)某砷L(zhǎng)。它里面不僅僅是可視化自己的美學(xué),還有藝術(shù)的部分,可以幫助理解數(shù)據(jù)。它看起來(lái)像是身體里的癌癥在擴(kuò)散嗎?或是流感在人群里的爆發(fā)傳播?讓數(shù)據(jù)來(lái)說(shuō)它自己的故事不僅僅是展現(xiàn)結(jié)果,它還包括制作連接,連到其他的數(shù)據(jù)源來(lái)證實(shí)這些結(jié)果。一個(gè)成功的零售連鎖店的發(fā)展和一個(gè)傳染病的發(fā)展類(lèi)似嗎?如果是這樣,這是不是給了我們一個(gè)新的洞察,理解經(jīng)濟(jì)是如何發(fā)展的?這個(gè)問(wèn)題我們幾年前甚至都不能問(wèn)。因?yàn)闆](méi)有足夠的計(jì)算能力,而數(shù)據(jù)則各自被鎖定在各自的環(huán)境里,同時(shí)能處理這些數(shù)據(jù)的工具也不成熟。現(xiàn)在類(lèi)似這樣的問(wèn)題每天都被問(wèn)出來(lái)。

數(shù)據(jù)科學(xué)家

數(shù)據(jù)科學(xué)要求很多技能,從傳統(tǒng)的計(jì)算機(jī)科學(xué)、數(shù)學(xué)到藝術(shù)。杰夫.哈默巴赫爾在描述他在臉書(shū)組建的數(shù)據(jù)科學(xué)團(tuán)隊(duì)(可能也是面向消費(fèi)者的網(wǎng)站里的第一個(gè)數(shù)據(jù)科學(xué)團(tuán)隊(duì))時(shí)說(shuō):

在某一天,團(tuán)隊(duì)的成員可以在Python里寫(xiě)出多個(gè)階段的數(shù)據(jù)處理管道,設(shè)計(jì)一個(gè)假設(shè)檢驗(yàn)的測(cè)試,用R來(lái)對(duì)數(shù)據(jù)樣本所回歸分析,為一些數(shù)據(jù)密集型的產(chǎn)品和服務(wù)在Hadoop上設(shè)計(jì)和實(shí)現(xiàn)一種算法?;蚴蔷臀覀兎治龅慕Y(jié)果和其他的成員或部門(mén)進(jìn)行溝通。

哪里去找到這些多才多藝的人哪?按領(lǐng)英的首席科學(xué)家DJ.帕蒂爾(DJ Patil)的說(shuō)法,最好的數(shù)據(jù)科學(xué)家應(yīng)該是“理科科學(xué)家”,特別是物理學(xué)家,而不是計(jì)算機(jī)專(zhuān)業(yè)的人員。物理學(xué)家一般有很好的數(shù)學(xué)背景、計(jì)算機(jī)技能,同時(shí)物理學(xué)也是一個(gè)非常依賴(lài)從數(shù)據(jù)里獲得發(fā)現(xiàn)的學(xué)科。他們必須思考大畫(huà)面,大問(wèn)題。如果你花費(fèi)了很多的科學(xué)基金來(lái)獲取數(shù)據(jù),即使數(shù)據(jù)沒(méi)有想要的那么清晰,你也不會(huì)隨意丟棄。你必須要想辦法來(lái)讓數(shù)據(jù)講故事。當(dāng)數(shù)據(jù)講的故事不是你所想要它講的時(shí)候,你就需要一些創(chuàng)造性。

科學(xué)家也需要知道如何把大問(wèn)題分解成一些小一點(diǎn)的問(wèn)題。帕蒂爾描述了在領(lǐng)英創(chuàng)建一些推薦特性的過(guò)程。這種任務(wù)可能很容易變成一個(gè)高光的開(kāi)發(fā)項(xiàng)目,花費(fèi)幾千個(gè)人天的開(kāi)發(fā)時(shí)間加上幾千小時(shí)的計(jì)算時(shí)間來(lái)發(fā)現(xiàn)領(lǐng)英成員的相互間的關(guān)聯(lián)關(guān)系。但是帕蒂爾他們的工作過(guò)程卻很不一樣。他們從一個(gè)相對(duì)小的項(xiàng)目開(kāi)始,簡(jiǎn)單地編程來(lái)查看成員的畫(huà)像并做相應(yīng)的推薦。問(wèn)諸如你上過(guò)康奈爾大學(xué)嗎這樣的問(wèn)題,就可以幫助推薦是否成員需要加入康奈爾校友會(huì)。然后就可以逐漸地?cái)U(kuò)展出去。除了查看用戶(hù)的畫(huà)像,領(lǐng)英的數(shù)據(jù)科學(xué)家開(kāi)始查看會(huì)員參加過(guò)的活動(dòng),隨后是他們參加的圖書(shū)館的讀書(shū)俱樂(lè)部。結(jié)果就產(chǎn)生了一個(gè)能分析海量數(shù)據(jù)的有價(jià)值的數(shù)據(jù)產(chǎn)品,但它最初也不是按這個(gè)思路設(shè)計(jì)的。這是一個(gè)敏捷地、靈活地過(guò)程,逐漸地實(shí)現(xiàn)最終的目標(biāo),而不是一開(kāi)始就直接去爬高山。

這就是帕蒂爾所說(shuō)的“數(shù)據(jù)柔道”的核心思想。即用一些附帶的小問(wèn)題來(lái)解決那些看起來(lái)無(wú)法解決的大的困難的難題。CDDB就是一個(gè)數(shù)據(jù)柔道的很好的例子,直接分析歌曲音軌來(lái)識(shí)別音樂(lè)是非常難的(盡管不是不可能,例如midomi)。但CDDB的員工創(chuàng)造性地用更好追蹤的方法解決了這個(gè)問(wèn)題。基于音軌的長(zhǎng)度來(lái)計(jì)算一個(gè)音軌的簽名,然后在數(shù)據(jù)庫(kù)里搜索這個(gè)簽名,非常簡(jiǎn)單直接!

并不容易來(lái)發(fā)現(xiàn)數(shù)據(jù)科學(xué)工作的指標(biāo)。但是來(lái)自O(shè)’Reilly研究的數(shù)據(jù)顯示了一個(gè)穩(wěn)定Hadoop和Cassandra招聘公告的逐年增長(zhǎng)。這可以算是對(duì)“數(shù)據(jù)科學(xué)”總體市場(chǎng)的一個(gè)好的表征。本圖顯示了Cassandra招聘數(shù)量的增長(zhǎng)和排列Cassandra職位的公司的數(shù)量。

創(chuàng)業(yè)精神是整個(gè)問(wèn)題的另外重要一塊。帕蒂爾對(duì)問(wèn)題“當(dāng)你準(zhǔn)備招聘一個(gè)數(shù)據(jù)科學(xué)家的時(shí)候,什么樣的人你會(huì)找?”時(shí)的第一反應(yīng)是“那些你想跟著一起創(chuàng)業(yè)的人”。這是一個(gè)重要的洞察:我們進(jìn)入了一個(gè)構(gòu)建于數(shù)據(jù)上的產(chǎn)品的時(shí)代。我們還不知道這些產(chǎn)品是什么,但是我們知道勝出者會(huì)是那些能發(fā)現(xiàn)這些產(chǎn)品的企業(yè)和個(gè)人。希拉里.梅森也給出了同樣的結(jié)論。她作為bit.ly的數(shù)據(jù)科學(xué)家的主要工作就是研究bit.ly所產(chǎn)生的數(shù)據(jù),并從中發(fā)現(xiàn)如何構(gòu)建有趣的產(chǎn)品。在尚不成熟的數(shù)據(jù)行業(yè),沒(méi)有人試圖去制造2012的尼桑Stanza或者Office 2015,相反的,這個(gè)行業(yè)的從業(yè)者都在盡力去發(fā)現(xiàn)新產(chǎn)品。除了是物理學(xué)家、數(shù)學(xué)家、程序員和藝術(shù)家,他們還是創(chuàng)業(yè)者。

數(shù)據(jù)科學(xué)家把創(chuàng)業(yè)精神和耐心、愿意逐步地制造數(shù)據(jù)產(chǎn)品的意愿、探索的能力和能就一個(gè)解決方案進(jìn)行反復(fù)迭代的能力結(jié)合起來(lái)。他們是天生的交叉學(xué)科。他們能從所有方面來(lái)探索問(wèn)題,從最初的數(shù)據(jù)收集、數(shù)據(jù)調(diào)節(jié)到得出結(jié)論。他們能創(chuàng)造性的找到新的方法來(lái)解決問(wèn)題,同時(shí)去回答一個(gè)非常寬泛定義的問(wèn)題:“這里有很多很多的數(shù)據(jù),你能從中找到什么?”

未來(lái)屬于那些能知道如何成功收集和使用數(shù)據(jù)的企業(yè)。谷歌、亞馬遜、臉書(shū)和領(lǐng)英都已經(jīng)在利用他們的數(shù)據(jù)流并形成了他們的核心業(yè)務(wù),且獲得了成功。他們是先鋒,但更新的企業(yè)(像bit.ly)正在追隨著他們的腳步。無(wú)論是挖掘你個(gè)人的生物群落,還是從幾百萬(wàn)旅游者分享的經(jīng)驗(yàn)里繪制地圖,或者研究人們分享給別人的URL,新一代的生意將會(huì)是依靠數(shù)據(jù)來(lái)成功。哈爾.瓦里安的采訪(fǎng)里有一段可能沒(méi)人能記住的引用:

這個(gè)能拿到數(shù)據(jù)的能力—能理解數(shù)據(jù)、處理數(shù)據(jù)、從中抽取價(jià)值、可視化數(shù)據(jù)并能和別人交流結(jié)果—將會(huì)是下一個(gè)十年里極度重要的技能。

責(zé)任編輯:趙寧寧 來(lái)源: 36大數(shù)據(jù)
相關(guān)推薦

2019-07-12 12:50:31

數(shù)據(jù)科學(xué)數(shù)據(jù)轉(zhuǎn)化分析

2015-08-18 13:33:16

r語(yǔ)言

2012-03-07 08:54:45

移動(dòng)應(yīng)用交易型元數(shù)據(jù)

2017-07-03 15:47:57

大數(shù)據(jù)電信網(wǎng)絡(luò)安全法

2017-07-04 13:35:05

大數(shù)據(jù)應(yīng)用

2012-07-25 09:15:16

盜版者客戶(hù)

2020-05-27 11:16:49

數(shù)據(jù)科學(xué)機(jī)器學(xué)習(xí)Python

2015-06-11 10:27:29

數(shù)據(jù)科學(xué)家

2022-05-20 11:41:00

數(shù)據(jù)科學(xué)編程語(yǔ)言Python

2009-12-21 09:40:47

微軟云計(jì)算

2020-03-09 10:54:34

大數(shù)據(jù)小數(shù)據(jù)數(shù)據(jù)

2020-08-17 08:17:00

大數(shù)據(jù)人工智能技術(shù)

2022-03-15 17:12:03

大數(shù)據(jù)機(jī)器學(xué)習(xí)人工智能

2021-10-07 20:24:16

AIBI大數(shù)據(jù)

2016-09-16 22:40:25

Hadoop數(shù)據(jù)湖

2021-03-18 10:21:45

數(shù)據(jù)科學(xué)大數(shù)據(jù)機(jī)器學(xué)習(xí)

2015-07-29 11:14:20

r語(yǔ)言數(shù)據(jù)科學(xué)

2022-06-27 17:40:14

大數(shù)據(jù)數(shù)據(jù)科學(xué)

2014-05-09 15:01:37

2018-02-01 16:25:55

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)