自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

大數(shù)據(jù)謬誤 —— 為什么我們需要收集更多的數(shù)據(jù)

云計(jì)算
Michael Wu博士從人們對(duì)大數(shù)據(jù)的誤解入手,詳細(xì)的分析了數(shù)據(jù)與信息的不同。并提出了:雖然大數(shù)據(jù)的作用被夸大了,但是人們卻是要更加的重視大數(shù)據(jù)。只有收集更多的數(shù)據(jù),才會(huì)有更多的機(jī)會(huì)得到有價(jià)值的見(jiàn)解,從而做出正確的決策取得領(lǐng)先。

[[98958]]

Michael Wu(博士) —— Lithium首席科學(xué)分析師,為L(zhǎng)ithium提供社交網(wǎng)絡(luò)數(shù)據(jù)復(fù)雜性探索和理解的方法。

數(shù)據(jù)的價(jià)值等同于從中挖掘到的信息和見(jiàn)解;并根據(jù)它們做出正確的決策,從而獲得一定的競(jìng)爭(zhēng)優(yōu)勢(shì)。而我們對(duì)于大數(shù)據(jù)的期望也是收集足夠多的信息并獲得有價(jià)值的見(jiàn)解。然而人們還沒(méi)有意識(shí)到數(shù)據(jù)和信息的不同 —— 你從海量數(shù)據(jù)中提取到的信息并不一定都有意義和價(jià)值。

數(shù)據(jù)不等于信息

許多人口中的數(shù)據(jù)和信息都是等價(jià)的,然而兩者之間卻有著很微妙的區(qū)別。數(shù)據(jù)只是事情發(fā)生的簡(jiǎn)單記錄,它只是記錄了事情發(fā)生的時(shí)間、地點(diǎn)以及涉及人物的原始數(shù)據(jù)。是的,數(shù)據(jù)中確實(shí)包含著大量的信息。

這也正是對(duì)大數(shù)據(jù)理解的謬誤所在:大數(shù)據(jù)雖然給你帶來(lái)了大量的信息,但是數(shù)據(jù)的增長(zhǎng)卻沒(méi)有帶來(lái)成比例的信息增長(zhǎng)。實(shí)際的情況就是:收集的數(shù)據(jù)越多,從中提取到的信息比例越低。這就意味著隨著數(shù)據(jù)體積激增,你從中提取到信息比例會(huì)逐漸的縮減。雖然聽(tīng)起來(lái)很不可思議,但是事實(shí)就是這樣的。下面來(lái)看一些例子:

例1:數(shù)據(jù)的備份和復(fù)制。如果你認(rèn)真查看你的電腦,你會(huì)發(fā)現(xiàn):這些年的使用,你創(chuàng)建了成千上萬(wàn)的文件。不論它們是如何產(chǎn)生的(拍的照片、寫(xiě)的博客或者是發(fā)送的電子郵件),其中必然包含著一定數(shù)量的信息。這些文件儲(chǔ)存在你的硬盤(pán)中,并占用一定的空間。

事情發(fā)生了:不出意外,你一定會(huì)定期的給數(shù)據(jù)做備份。這里我們可以想象一下在第一次給硬盤(pán)做備份中花掉的時(shí)間。單純針對(duì)數(shù)據(jù)的本身而言,你已經(jīng)擁有雙倍量的數(shù)據(jù)了。如果你備份之前擁有50GB數(shù)據(jù),那么備份以后你則擁有了100GB。然而經(jīng)過(guò)了備份,你就可以獲得雙倍的信息量了?結(jié)果是否定的。事實(shí)上完成這個(gè)操作以后你沒(méi)有額外的獲得任何信息,因?yàn)閭浞葜械奈募统跏即疟P(pán)上的文件包含的信息是完全相同的。

盡管我們的私人數(shù)據(jù)和大數(shù)據(jù)不搭邊,但是這個(gè)例子卻闡明了數(shù)據(jù)和信息之間微妙的差別。下面我們來(lái)看一下涉及到更大體積數(shù)據(jù)的例子。

例2:機(jī)場(chǎng)視頻監(jiān)視記錄。首先,視頻文件已經(jīng)是相當(dāng)之大了;其次,機(jī)場(chǎng)使用的是24/7閉路式監(jiān)測(cè)系統(tǒng),而HD設(shè)備會(huì)進(jìn)一步增加數(shù)據(jù)的體積;最終,機(jī)場(chǎng)可能擁有成千上萬(wàn)的攝像頭。如你所見(jiàn),這些檢測(cè)攝像頭記創(chuàng)建的視頻記錄可以輕松的獲得“大數(shù)據(jù)”的資格。

不妨設(shè)想一下如果我們把攝像頭的數(shù)量提升兩倍會(huì)發(fā)生什么 —— 雙倍體積的數(shù)據(jù)。然而很顯然你可能還是得不到雙倍的信息。有許多的監(jiān)視設(shè)備拍到的東西都是重復(fù)的,可能會(huì)有一些微小的區(qū)別 —— 不同的地區(qū)在些許不同的時(shí)間內(nèi)會(huì)拍到完全不同的畫(huà)面。在信息量這個(gè)方面,我們可能永遠(yuǎn)都得不到2倍。而且隨著監(jiān)視設(shè)備的增加,信息重疊的可能性也會(huì)隨之增高。這就是為什么隨著數(shù)據(jù)的增加,信息的收益卻在減少 —— 其中的冗余越來(lái)越多。

用不等式表達(dá)就是:信息 ≤ 數(shù)據(jù)。所以信息不應(yīng)該是數(shù)據(jù),而是沒(méi)有冗余的數(shù)據(jù)。這也是為什么給數(shù)據(jù)備份卻無(wú)法增加信息量的原因,因?yàn)榭截愂侨哂嗟摹?/p>

例3:社交渠道的更新。那么社交中的大數(shù)據(jù)又是什么情況呢,比如:Twitter。對(duì)比平時(shí)我們不妨多推特一倍的內(nèi)容,那么Twitter肯定會(huì)獲得兩倍的數(shù)據(jù)。但是Twitter有獲得兩倍的信息嗎?很顯然沒(méi)有,決定信息量的是你推特的內(nèi)容而不是次數(shù)。當(dāng)然如果我們推特的內(nèi)容是完全無(wú)冗余的,那么Twitter毫無(wú)疑問(wèn)的將獲得雙倍的信息。但是這永遠(yuǎn)都不可能發(fā)生!我們來(lái)看一下其中的原因:

首先,我們會(huì)相互轉(zhuǎn)發(fā)。因此在互相的轉(zhuǎn)發(fā)中,會(huì)產(chǎn)生很多冗余;即使我們拒絕轉(zhuǎn)發(fā),而在同一時(shí)間發(fā)布同樣內(nèi)容的幾率也是很高的,因?yàn)槭褂肨witter的人太多了。雖然每個(gè)推特使用的措辭可能會(huì)完全不同,但是包含相同網(wǎng)絡(luò)內(nèi)容的不同推特所(可能是條博客、很酷的電影或者爆炸性新聞)所造成的冗余是非常高的。此外,一段時(shí)間內(nèi)我們很可能對(duì)同類(lèi)的新聞感興趣。因?yàn)槲覀兺铺氐膬?nèi)容更趨向于我們的品味和興趣,所以同一個(gè)人推特不同的內(nèi)容都會(huì)存在一些冗余。

所以很清楚的看到:即使對(duì)比平時(shí)我們多推特了一倍的內(nèi)容,卻因?yàn)橹虚g存在著相當(dāng)多的冗余導(dǎo)致Twitter不會(huì)獲得雙倍的信息。此外我們還會(huì)通過(guò)不同的渠道獲得相同的內(nèi)容,但是因?yàn)閮H僅是拷貝我們不會(huì)多獲得任何信息。

所以盡管數(shù)據(jù)會(huì)帶來(lái)信息,但是數(shù)據(jù)不等于信息。信息只是數(shù)據(jù)中不重復(fù)的部分。這樣的話,我們從數(shù)據(jù)中提取到信息只占數(shù)據(jù)總量的一小部分。

所以雖然理論上信息是小于等于數(shù)據(jù)的,但是現(xiàn)實(shí)中往往是信心遠(yuǎn)小于數(shù)據(jù)。因此大數(shù)據(jù)可以捕捉大量信息的想無(wú)疑是天真和不切實(shí)際的,大數(shù)據(jù)的價(jià)值完全被夸大了。  

 

 #p# 

 

信息不等于見(jiàn)解

盡管我們從大數(shù)據(jù)中提取的信息量有可能被高估了,但是從大數(shù)據(jù)中獲得的見(jiàn)解仍然是極其寶貴的。那么信息和見(jiàn)解兩者又有著是什么樣的關(guān)系呢?所有的見(jiàn)解都源于信息,但是不代表所有的信息都可以提供見(jiàn)解。對(duì)于能給出有價(jià)值見(jiàn)解的信息,我們有3個(gè)標(biāo)準(zhǔn):

首先,可解釋的。因?yàn)榇髷?shù)據(jù)包含如此多的非結(jié)構(gòu)化數(shù)據(jù)和不同的媒體類(lèi)型數(shù)據(jù),導(dǎo)致其中大量的數(shù)據(jù)和信息都不可解釋。

舉個(gè)例子:123,243,187,89,157這組數(shù)據(jù),它們能代表什么?它可能是你在TechCruncn上讀過(guò)前五篇文章的like數(shù)目,也可能是一個(gè)黑白圖像上5個(gè)像素點(diǎn)的亮度。沒(méi)有更多的信息和元數(shù)據(jù),是無(wú)法解釋這樣的數(shù)據(jù)的。因此不能解釋的數(shù)據(jù)和信息是不會(huì)給你提供任何見(jiàn)解的 —— 見(jiàn)解只存在于提取出信息中的可解釋部分。

其次,關(guān)聯(lián)性。必須是和用途與價(jià)值緊密相關(guān)的信息。相關(guān)的信息通常被看作是信號(hào),而不相關(guān)的則被作為噪音。然而關(guān)聯(lián)性有著相當(dāng)?shù)闹饔^成分,對(duì)一個(gè)人很重要的信息可能完全和另一個(gè)人無(wú)關(guān)。這也是Edward Ng(一個(gè)著名的數(shù)學(xué)家)說(shuō)過(guò)的:“一個(gè)人的的信號(hào)恰好是另一個(gè)人的噪音。”

此外,關(guān)聯(lián)還不僅是主觀的;同樣是前后聯(lián)系的。關(guān)聯(lián)還可能是人從一個(gè)環(huán)境中換到了另一個(gè)。打個(gè)比方:如果我下星期將要去NYC的話,那么NYC的交通將會(huì)關(guān)聯(lián)到我。但是當(dāng)我回到SF,那么同樣的信息將會(huì)和我有關(guān)聯(lián)。因此見(jiàn)解又是關(guān)聯(lián)信息中一個(gè)非常小的子集,這里別忘記相關(guān)信息已經(jīng)是可解釋信息中非常小的一個(gè)子集。

最后,得是“新出爐”的。必須是有遠(yuǎn)見(jiàn)的信息。這就意味著它必須提供一些你以前不曾擁有的新知識(shí)。

顯然這個(gè)標(biāo)準(zhǔn)也是主觀的。因?yàn)橐粋€(gè)人知道的東西另一個(gè)人不一定也知道,而新鮮也是因人而異的。這種主觀性中有一部分繼承于關(guān)聯(lián)的主觀性。如果有些信息和你是關(guān)聯(lián)的,而且之前又并不知道;那么當(dāng)你去學(xué)習(xí)的時(shí)候,它將是新的。假如這個(gè)信息和你沒(méi)有關(guān)系的話,那么再新奇你也不可能想去了解它。這樣的話這些信息對(duì)你來(lái)說(shuō)就是毫無(wú)價(jià)值的。

然而這個(gè)見(jiàn)解一旦被你獲知,那么當(dāng)下次你獲得的時(shí)候就不會(huì)再覺(jué)得那么新奇和深刻。因此隨著我們不斷的從大數(shù)據(jù)中捕獲知識(shí),新的見(jiàn)解就越來(lái)越難以發(fā)現(xiàn)。那么見(jiàn)解這個(gè)關(guān)聯(lián)信息中的子集又將繼續(xù)縮減。

在見(jiàn)解這個(gè)子集層層的縮減后,就會(huì)發(fā)現(xiàn)大數(shù)據(jù)的價(jià)值被徹底的夸大了。當(dāng)然這里不是說(shuō)大數(shù)據(jù)是沒(méi)有價(jià)值的,只是說(shuō)它的價(jià)值被夸大了,因?yàn)榘l(fā)現(xiàn)有價(jià)值見(jiàn)解的可能性非常小。

這樣來(lái)看大數(shù)據(jù)可能會(huì)讓人失望,但是這同樣是我們需要大數(shù)據(jù)的理由!因?yàn)閺臄?shù)據(jù)中獲得的見(jiàn)解越來(lái)越少,所以我們必須收集越來(lái)越多的數(shù)據(jù)讓我們擁有更多的機(jī)會(huì)獲得見(jiàn)解。雖然更多的數(shù)據(jù)也不能保證一定會(huì)揭露許多有價(jià)值的見(jiàn)解,但是增加數(shù)據(jù)量無(wú)疑會(huì)增加我們獲得見(jiàn)解的機(jī)會(huì)。

責(zé)任編輯:王程程 來(lái)源: TechCrunch
相關(guān)推薦

2022-08-31 15:40:13

云原生數(shù)據(jù)

2013-01-07 11:31:11

大數(shù)據(jù)大數(shù)據(jù)應(yīng)用

2013-01-08 10:19:35

大數(shù)據(jù)數(shù)據(jù)分析大數(shù)據(jù)全球技術(shù)峰會(huì)

2015-01-07 14:04:25

2020-02-19 15:01:30

數(shù)據(jù)庫(kù)SQL技術(shù)

2014-07-02 09:56:33

2024-04-11 13:18:44

AIGCAGI技術(shù)

2020-07-22 11:41:14

數(shù)據(jù)架構(gòu)大數(shù)據(jù)技術(shù)

2023-06-28 10:22:50

數(shù)據(jù)中心服務(wù)器

2020-04-06 14:45:22

云計(jì)算邊緣計(jì)算網(wǎng)絡(luò)

2022-12-01 14:43:56

物聯(lián)網(wǎng)智慧城市

2018-09-14 18:00:29

無(wú)損網(wǎng)絡(luò)

2019-08-05 08:42:37

物聯(lián)網(wǎng)IOT技術(shù)

2022-08-26 08:00:19

企業(yè)架構(gòu)IT

2023-09-05 09:49:03

2015-10-09 16:14:37

數(shù)據(jù)開(kāi)放

2012-11-08 09:32:24

2018-05-30 14:49:51

編程語(yǔ)言API語(yǔ)法

2020-11-17 07:55:22

大數(shù)據(jù)殺熟

2013-11-12 09:27:01

大數(shù)據(jù)科學(xué)家大數(shù)據(jù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)