自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

從《當(dāng)我們變成一堆數(shù)字》談到《大數(shù)據(jù)時代》

云計算
先談《當(dāng)我們變成一堆數(shù)字》,大家是否注意到?每當(dāng)我們在谷歌或百度上搜索一個詞匯或一個事件后,你再次上網(wǎng)瀏覽別的網(wǎng)站時,在邊欄或者屏幕上方的橫條上出現(xiàn)的廣告都和我們剛剛搜索的內(nèi)容相關(guān)。比如你搜了一個數(shù)碼相機(jī)的信息,馬上你就在接下來的瀏覽中發(fā)現(xiàn)在屏幕的上方或右方出現(xiàn)的廣告都和數(shù)碼相機(jī)有關(guān)。

 [[69586]]

 

最近IT界把“大數(shù)據(jù)”從一個普通名詞變成了專有名詞。但是一般人卻分不清“把我們變成一堆數(shù)字”和“大數(shù)據(jù)”之間的關(guān)系與差異。所以這篇文章借用這兩本書來介紹這兩個概念。

先談《當(dāng)我們變成一堆數(shù)字》,大家是否注意到?每當(dāng)我們在谷歌或百度上搜索一個詞匯或一個事件后,你再次上網(wǎng)瀏覽別的網(wǎng)站時,在邊欄或者屏幕上方的橫條上出現(xiàn)的廣告都和我們剛剛搜索的內(nèi)容相關(guān)。比如你搜了一個數(shù)碼相機(jī)的信息,馬上你就在接下來的瀏覽中發(fā)現(xiàn)在屏幕的上方或右方出現(xiàn)的廣告都和數(shù)碼相機(jī)有關(guān)。

除了上網(wǎng)搜索,我們在使用Web郵箱時,也會發(fā)生同樣的事。當(dāng)你發(fā)了一個郵件給朋友討論下一個長假到哪個旅游勝地去度假,你會發(fā)現(xiàn)下次你再打開郵箱時,旁邊的廣告都和當(dāng)?shù)囟燃倬频昊蛲刀燃俚氐臋C(jī)票有關(guān)。這些都與一個網(wǎng)絡(luò)專有名詞“Cookie”有關(guān)。

Cookies是什么意思?字面上Cookies是“小甜餅”,但在網(wǎng)絡(luò)世界,Cookies就是服務(wù)器暫存放在你的電腦里的資料(.txt格式的文本文件),好讓服務(wù)器用來辨認(rèn)你的計算機(jī)。當(dāng)你在瀏覽網(wǎng)站或發(fā)送Web郵件的時候,Web服務(wù)器會先送一個小資料放在你的計算機(jī)上,Cookies 會幫你在網(wǎng)站上所打的文字或是一些選擇都記錄下來。當(dāng)下次你再訪問同一個網(wǎng)站,Web服務(wù)器會先看看有沒有它上次留下的Cookies資料,有的話,就會依據(jù)Cookie里的內(nèi)容來判斷使用者,送出特定的網(wǎng)頁內(nèi)容給你。

透過Cookies,我們每個人都被數(shù)字化了,我們的個人資料,個人喜好,日?;顒臃秶?,購買偏好,通通以一串?dāng)?shù)字的形式展現(xiàn)在網(wǎng)絡(luò)世界。

也就因?yàn)檫@個Cookies,每當(dāng)我們在卓越網(wǎng)或當(dāng)當(dāng)網(wǎng)購買一本書后(甚至只是在他們網(wǎng)站上瀏覽了幾本書),下次再去他們的網(wǎng)站,網(wǎng)站就會推薦和你上次購買有相關(guān)主題的書籍。好像知道你的喜好一樣。

大家若帶著筆記本電腦去國外旅游,當(dāng)你進(jìn)了度假村,安頓下來后,打開電腦透過WiFi檢查Web郵箱時(譬如Gmail),往往就會收到一封從Web郵箱服務(wù)器發(fā)來警告,告訴你的電腦在一個以前沒有出現(xiàn)過的地方登錄了,假如的確是你自己登錄的,那么請操作下列指定的步驟以激活你的郵箱。這又是一個借由Cookies工作的例子。

《當(dāng)我們變成一堆數(shù)字》這本書就是舉了很多這類案例,詳細(xì)闡述了網(wǎng)絡(luò)怪杰,網(wǎng)絡(luò)企業(yè)家如何利用從網(wǎng)絡(luò)上搜集來的數(shù)字化信息,他們還花了很多的精力研究各組數(shù)據(jù)之間的相關(guān)性與因果性。于是創(chuàng)造新的商機(jī),提高社會的效率,或改善我們生活的點(diǎn)點(diǎn)滴滴。

那么“大數(shù)據(jù)”又是怎么回事呢?

隨著智能手機(jī),平板電腦,還有筆記本電腦的普及,加速了我們“身份的數(shù)字化”,在Web服務(wù)器面對這樣海量的數(shù)據(jù)信息時,卻遇上了新難題:處理能力和儲存容量的需求都爆炸性增加。大家還記得嗎?15年前我們PC的硬盤都是200M或500M的容量,但是5年前,PC硬盤都是250G或500G。一個G是1000個M。而現(xiàn)在市場上賣的移動硬盤常常都是幾個T,一個T是多大?是1000個G。但現(xiàn)在Web服務(wù)器面對網(wǎng)絡(luò)上的大量數(shù)據(jù)卻需要的儲存量是以P(Peta)為基本單位的。大家應(yīng)該可以猜到:一個P是1000個T。

以目前的技術(shù)水平,很少有單個計算機(jī)可以處理這么大的數(shù)據(jù)量,也很少有單個儲存設(shè)備可以有這么大容量。幸虧“云”的概念和技術(shù)正好在最近很成熟了,于是利用“云計算”和“云儲存”的海量計算能力和海量儲存能力,網(wǎng)絡(luò)怪杰和網(wǎng)絡(luò)企業(yè)家順利的邁入“大數(shù)據(jù)時代”!

大數(shù)據(jù)的開發(fā)與應(yīng)用有著三個特點(diǎn):

1、數(shù)據(jù)樣本,不再是抽樣,而就是數(shù)據(jù)的總體。分析數(shù)據(jù)是把所有搜集到的數(shù)據(jù)包括在內(nèi)。

2、數(shù)據(jù)不必百分之百地準(zhǔn)確,不必剔除特例,而是從“海量”的數(shù)據(jù)中總結(jié)出絕大部分人的共同特性。用“絕大多數(shù)的特性”代表“總體的特性”。

3、不再注重數(shù)據(jù)之間的“因果性”,而只注重于它們之間的“相關(guān)性”。

在《大數(shù)據(jù)時代》中舉了很多實(shí)例講解以上的觀點(diǎn)。

1、語言的翻譯:

傳統(tǒng)翻譯軟件是設(shè)定了很多的語法規(guī)則,用這些僵化的規(guī)則拆解每個句子,然后再逐字翻譯生成不同語文的語句。但這往往使翻譯出來的語句非常生硬拗口,甚至錯誤率極高。業(yè)界還盛傳一個有關(guān)微軟公司“機(jī)器翻譯部門”的一個笑話:部門每有一個語言專家辭職,翻譯質(zhì)量就會提高一些。

谷歌的翻譯軟件卻不是這么做,他們翻譯團(tuán)隊(duì)的成員大多不但不是語文學(xué)家,甚至連翻譯成的那種語言都一竅不通。他們都是一些統(tǒng)計學(xué)家,從大量的已存的翻譯文章中對比,尋求規(guī)律,然后產(chǎn)生翻譯的文字。事實(shí)證明雖然網(wǎng)上搜集來的翻譯文章有不少是錯誤的,是低質(zhì)量的,但由于數(shù)據(jù)量極大,這些錯誤自然就被忽略了,這種方法的確大大提高了翻譯的質(zhì)量和準(zhǔn)確性。也就是說“不百分之百”精確的大數(shù)據(jù)用簡單算法比精確的小數(shù)據(jù)用復(fù)雜算法要有效地多!

2、流感的預(yù)測

以前衛(wèi)生單位發(fā)布流感成災(zāi)的信息,往往都是從各大醫(yī)院和衛(wèi)生所搜集來的數(shù)據(jù),這個方法的最大缺點(diǎn)是“信息是滯后的”!是“災(zāi)”已成事實(shí)了,衛(wèi)生單位才警告社會,這時已經(jīng)有很多人被感染。

又是谷歌提出了不同的預(yù)測辦法。他們是以有多少人搜索“咳嗽怎么辦?”或“發(fā)燒怎么辦?”來警示流感可能發(fā)生了!除了注意到搜索這些詞語的頻率大幅增高外,還可以鎖定是哪個區(qū)域的人開始大量搜索這類問題的答案。于是谷歌就能提早告訴大眾有流感開始盛行,而且傳染區(qū)是向哪個方向遷移。這個項(xiàng)目使得衛(wèi)生單位及早研制預(yù)防疫苗,及早控制疫情的擴(kuò)散,大幅降低了流感的傳播。

3、飛機(jī)票價高低和多早預(yù)購的關(guān)系

也許大家會直覺地認(rèn)為越早買機(jī)票就越可以買到較便宜的機(jī)票。一家叫Farecast公司的創(chuàng)始人從他的親身經(jīng)驗(yàn)啟發(fā)了一個新的服務(wù)。他發(fā)現(xiàn)坐他旁邊的人比他晚好幾天購買機(jī)票卻比他的購買價格還低。于是他搜集了所有航空公司的票價與提前訂購時間的數(shù)據(jù)關(guān)系,并建立了數(shù)學(xué)模型?,F(xiàn)在我們?nèi)魏稳丝梢陨系剿木W(wǎng)站:farecast.com,輸入你的出發(fā)地和目的地,加上你要出發(fā)的時間,馬上這個網(wǎng)頁能告訴你是現(xiàn)在就趕快買票還是再等幾天才買。 #p# 

由于“大數(shù)據(jù)”產(chǎn)業(yè)的興起,對于數(shù)據(jù)庫管理有了六個創(chuàng)新的方向:

1、數(shù)據(jù)的再利用

過去我們搜集到一組市場占有率的排行數(shù)據(jù)后,一但報告發(fā)表了,這組數(shù)據(jù)就丟棄不用了;一個訂單處理完了,這組數(shù)據(jù)也就丟棄不用了;我們搜索到一個詞或答案后,這個數(shù)據(jù)的處理也就終止了。其實(shí)這些數(shù)據(jù)暗藏了用戶的喜好,以及現(xiàn)在流行的趨勢。懂得利用這些數(shù)據(jù)寶庫的企業(yè)就會脫穎而出,掌握無限商機(jī)。

最近移動運(yùn)營商和微信展開“商業(yè)角力”,在技術(shù)層面也和數(shù)據(jù)的再利用有間接關(guān)系。

普通一個城市通常需要上百個基站來分布完成無線覆蓋。至于大城市就可能需要近千個基站服務(wù)區(qū)來覆蓋。那么一個手機(jī)是如何“被叫”的?總不能一個朋友給你打電話,移動運(yùn)營商就在全國每個城市的每個服務(wù)區(qū)尋找你吧?還有若你出國度假了,那系統(tǒng)是怎么找到你的?答案很簡單,每當(dāng)你開車從一個服務(wù)區(qū)進(jìn)入一個新的服務(wù)區(qū),或是你下飛機(jī)一打開手機(jī)電源,手機(jī)就會透過信令信道發(fā)送一個“我在這里”的信號給基站。所以有電話要找你的時候,系統(tǒng)會優(yōu)先在這個服務(wù)區(qū)呼叫你。

微信給運(yùn)營商產(chǎn)生的困擾是它讓手機(jī)也透過信令信道頻繁的發(fā)出“我在這里”的信息,它占了“有限、寶貴”信令信道60%的資源,卻給運(yùn)營商的流量收入貢獻(xiàn)不到10%。所以現(xiàn)在運(yùn)營商要求微信向他們付資源占用費(fèi)。

我們先不管“微信事件”,大家想想上面的技術(shù)解釋有什么商機(jī)?那就是運(yùn)營商完全掌握用戶“在哪里”的數(shù)據(jù)呀!我們怎么利用呢?

大家現(xiàn)在在手機(jī)上查看地圖時,往往也會顯示出各個道路的交通暢通與否的情況?谷歌地圖是如何做到的?就是利用手機(jī)“我在這里”的數(shù)據(jù)轉(zhuǎn)換成密集度來決定車流量的!

同樣的,由于我們知道用戶在哪里,我們就能針對不同的用戶推送不同的促銷廣告。這些都是“大數(shù)據(jù)時代”對數(shù)據(jù)的再利用。

2、重組數(shù)據(jù)

在“數(shù)據(jù)墳?zāi)?rdquo;中我們還可以挖出歷史數(shù)據(jù)研究它們的相關(guān)性。書中提到丹麥研究了“使用手機(jī)”和“得腦癌”是沒有相關(guān)性的。但是往往這類正式又嚴(yán)謹(jǐn)?shù)?ldquo;正面”報告得不到媒體的注意。反而任何一個江湖術(shù)士做了一個不嚴(yán)謹(jǐn)實(shí)驗(yàn)而宣告使用手機(jī)會導(dǎo)致腦癌,馬上就會有媒體報道,然后很多“家庭自修成才”的科學(xué)家就在郵件或微博上瘋傳。

同樣的美國也有類似的報告。在1988年幾乎沒有手機(jī),在2008年3億人口里面有2.5億手機(jī)。根據(jù)“美國癌癥協(xié)會”的正式統(tǒng)計,各個族裔在1988年時每100萬人里不超過8人得腦癌。那么2008年呢?每百萬人還是不超過8人,甚至好像還有一點(diǎn)兒下降。這又表明了使用手機(jī)和是否致癌是兩個不相關(guān)事件。但是每隔一陣既有江湖術(shù)士聲明他又證明了使用和手機(jī)會致癌。

這類大數(shù)據(jù)的重組開發(fā),一定能幫助我們正確的面對很多無稽之談。

3、可擴(kuò)展的數(shù)據(jù)庫利用

大家都聽說過谷歌地圖的街景,它讓我們不只看到傳統(tǒng)地圖,還可以看到具體的街景和附件建筑物的長相。(在港臺街道上你能經(jīng)常看到有谷歌標(biāo)識的小車,車頂架著攝像機(jī)沿街一路拍攝。)但是谷歌獲取了這些“數(shù)據(jù)”后絕對不止于展示給網(wǎng)民街景,這些數(shù)據(jù)還為谷歌下一步的無人駕駛汽車的推出打好了堅實(shí)的基礎(chǔ)。

4、數(shù)據(jù)的折舊值

數(shù)據(jù)并不是保留越久越好,比如我們看書的興趣會變,所以亞馬遜不能依據(jù)我們十年前的購買記錄來推薦我們可能感興趣。但是他們也不能簡單靠著數(shù)據(jù)年齡來取舍數(shù)據(jù),所以決定什么數(shù)據(jù)需要“折舊”也變成了一個商機(jī)。

5、數(shù)據(jù)廢氣

我們在搜索時,不小心輸入了一個錯誤的關(guān)鍵詞,也許搜索網(wǎng)站簡單回復(fù)你:找不到相關(guān)資料。但是谷歌卻建立了自動反饋機(jī)制,它會在網(wǎng)頁上端出現(xiàn):你是不是要搜索XXXX?經(jīng)過這個反饋,谷歌不但提供了用戶方便,而且還可持續(xù)不斷改進(jìn)它“校正拼寫”軟件的準(zhǔn)確率。

同樣的,聰明的網(wǎng)站會搜集用戶瀏覽時,鼠標(biāo)停留在哪的時間較長?最頻繁點(diǎn)擊哪個圖標(biāo)?假若對搜索的結(jié)果,用戶通常都不會點(diǎn)擊第8個建議結(jié)果,是否網(wǎng)站下次碰到類似的搜索就應(yīng)把第8條從建議答案中剔除?這些都是在完善大數(shù)據(jù)管理和應(yīng)用時呈現(xiàn)給軟件開發(fā)者和網(wǎng)絡(luò)企業(yè)家的新挑戰(zhàn)和新商機(jī)。

以往設(shè)計網(wǎng)游的大師坐在多個屏幕之間設(shè)計游戲,用自己的藝術(shù)直覺決定如何改進(jìn)并推出升級產(chǎn)品。有些時候也會加入一些有限用戶群的反饋。但是在新一代的游戲中,軟件設(shè)計師會植入很多監(jiān)測點(diǎn),搜集到:用戶什么時候會容易放棄而且不再玩這款游戲了?在哪一關(guān)卡會給用戶挫折感而總是升不了級?有了這些“廢氣”反饋機(jī)制,就能大大提高游戲受歡迎度。

6、開放數(shù)據(jù)

FlyOnTime.us這個網(wǎng)站搜集了很多美國航空史上的“正點(diǎn)率”數(shù)據(jù)和當(dāng)時的氣象數(shù)據(jù)。它發(fā)現(xiàn)飛機(jī)因?yàn)榇箪F而誤點(diǎn)的時間是風(fēng)雪而延誤時間的兩倍。同時它用這兩組數(shù)據(jù)幫助乘客預(yù)測今天航班延誤的可能性。上述兩組數(shù)據(jù)都不是該公司自有的,而是兩個官方機(jī)構(gòu)所保存的。將來我們一定還會想到很多類似官方數(shù)據(jù)庫的有效利用,但這很大程度上取決于政府愿意開放多少數(shù)據(jù)給大眾。

綜合上面所說的各種應(yīng)用和未來的創(chuàng)新,可以看出大數(shù)據(jù)產(chǎn)業(yè)包括了三類型的機(jī)構(gòu):

1、數(shù)據(jù)搜集者也是擁有者

2、技術(shù)分析者

3、數(shù)據(jù)使用者

在目前發(fā)展階段是使用者獲利最多。比如一個普通合格的婦產(chǎn)科醫(yī)生,她不必是一位名醫(yī),也不必是一個產(chǎn)前保健專家。只要她能隨手取得“大數(shù)據(jù)”,照樣可以為孕婦提供最佳的生產(chǎn)和醫(yī)療方案。

書中還用電影《點(diǎn)球成金》(Money Ball)解釋了利用“大數(shù)據(jù)”的實(shí)例。這是美國職業(yè)棒球界的一個真事故事。由于大陸朋友不太熱衷棒球運(yùn)動,所以這部電影沒在大陸賣座,但是在臺灣卻是大家非常喜歡的一部電影。

電影描述奧克蘭運(yùn)動家隊(duì)由于對球員薪資的總預(yù)算很低,所以雇不起大牌明星球員,未來的賽季前途渺茫。球隊(duì)經(jīng)理暗下決心改造球隊(duì)。他不靠球隊(duì)智囊團(tuán)的直覺和球員的身價來挑選優(yōu)秀的球員,而是在球員過去上場表現(xiàn)的大量數(shù)據(jù)中挖掘“高上壘率”的潛在明星,并通過軟磨硬泡將他們招致麾下。這個新陣容的球隊(duì)在各方壓力和冷嘲熱諷下漸漸打出較好的成績。終于在那個賽季從敬陪末座打到MLB的西部冠軍。從此以后很多球隊(duì)也都開始用這種“大數(shù)據(jù)”的方法決定招攬哪位球員加盟,很多隊(duì)伍也因此獲得總決賽的冠軍。

這是一個活生生“大數(shù)據(jù)使用者”獲得成功的例子。不過當(dāng)大眾越來越理解“大數(shù)據(jù)”的重要性時,最終應(yīng)該是擁有數(shù)據(jù)的企業(yè)才會是最值錢的企業(yè)。

也希望大家從這兩本書中得到啟發(fā),打造一個既有益社會又能獲利甚豐的企業(yè)。

責(zé)任編輯:王程程 來源: 中云網(wǎng)
相關(guān)推薦

2016-09-22 16:09:36

大數(shù)據(jù)PB級NoSQL

2016-11-22 23:44:56

2022-12-08 08:40:25

大數(shù)據(jù)Hadoop存儲

2015-08-27 10:05:56

大數(shù)據(jù)時代

2012-12-28 13:34:16

大數(shù)據(jù)數(shù)據(jù)中心高效

2015-07-29 17:02:27

大數(shù)據(jù)隱私

2016-08-22 12:50:11

2022-06-05 23:49:41

大數(shù)據(jù)人臉識別監(jiān)視

2019-04-11 19:11:27

root手機(jī)安卓

2015-01-28 13:32:51

百度人工智能

2013-08-05 10:19:34

小時代電影大數(shù)據(jù)

2021-11-19 23:15:38

大數(shù)據(jù)零售交通

2022-03-11 21:28:31

部署開發(fā)服務(wù)器

2020-07-12 15:29:58

Windows工具微軟

2021-12-25 23:39:37

大數(shù)據(jù)科技疫情

2014-06-11 09:22:19

大數(shù)據(jù)

2011-11-23 10:01:43

虛擬化軟件許可IIS

2016-11-16 13:10:10

2019-12-24 11:19:44

容器DockerLinux

2020-11-16 15:47:05

SaaS軟件轉(zhuǎn)型
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號