自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

大數(shù)據(jù)與熵:臨界分析

大數(shù)據(jù)
本文通過研究數(shù)據(jù)對象的熵,對大數(shù)據(jù)方法和傳統(tǒng)抽樣方法的臨界關(guān)系做了分析,得到一個理論公式:S = λ*2 ^H(X),并給出了詳細(xì)解釋。

大數(shù)據(jù)

引言:

大數(shù)據(jù)的概念一經(jīng)提出,立即獲得業(yè)界追捧,一時間各個高科技論壇言必稱大數(shù)據(jù)。邁克—舍恩伯格在其《大數(shù)據(jù)時代》[Big Data: A Revolution That Will Transform
How We Live, Work and Think]一書中提出的三個重大思維轉(zhuǎn)變更是被追隨者奉為圭臬,即:“首先,要分析與某事物相關(guān)的所有數(shù)據(jù),而不是依靠分析少量的數(shù)據(jù)樣本。其次,我們樂于接受數(shù)據(jù)的紛繁復(fù)雜,而不再追求精確性。***,我們的思想發(fā)生了轉(zhuǎn)變,不再探求難以捉摸的因果關(guān)系,轉(zhuǎn)而關(guān)注事物的相關(guān)關(guān)系。”

大數(shù)據(jù)的踐行者們不僅在思維上進(jìn)行了轉(zhuǎn)變,在數(shù)據(jù)處理上同樣采取“大數(shù)據(jù)”的方法:分析全體而不是樣本,不追求精確性,“知其然,不知其所以然”(注:第三句是筆者歸納,原文意思是只要知道“是什么”,不必知道“為什么”,或只問相關(guān)性,不問因果關(guān)系)。同時宣布傳統(tǒng)的抽樣方法已經(jīng)過時,不能適應(yīng)當(dāng)今互聯(lián)網(wǎng)信息社會的要求。

上述斷言過于武斷。如果斷言的目的是為了強(qiáng)調(diào)面對信息爆炸,人們必須不斷地尋找新的方法,包括“大數(shù)據(jù)方法”,來分析和處理數(shù)據(jù),那么如何夸大和渲染,都是可以理解并接受的;但是,如果斷言的目的是為了勸導(dǎo)人們放棄傳統(tǒng)的抽樣理論,轉(zhuǎn)而皈依“大數(shù)據(jù)思維”,這就值得商榷。

縱觀科技史,人們對物體運(yùn)動規(guī)律的研究,牛頓定律曾被認(rèn)為絕對正確。但隨著科學(xué)家們對微觀粒子世界,高速運(yùn)動(近似光速)物體的研究,牛頓定律不再適用,而代之以量子力學(xué)和相對論。但這并不意味著牛頓定律的死亡,在人們生活所及的物理社會里,仍然是牛頓定律起主導(dǎo)作用。

信息社會也是如此,信息的不斷膨脹、變化、繁雜使得傳統(tǒng)抽樣統(tǒng)計(jì)方法顯得力不從心,于是所謂的“大數(shù)據(jù)思維”出現(xiàn)了。但“大數(shù)據(jù)”究竟是要取代傳統(tǒng)方法,還只是傳統(tǒng)方法的補(bǔ)充,有待于進(jìn)一步的觀察。

質(zhì)疑:

對于“大數(shù)據(jù)思維”的三個轉(zhuǎn)變,可以提出三點(diǎn)質(zhì)疑:首先,如果通過分析少量的樣本數(shù)據(jù)就可以得到事物的準(zhǔn)確性質(zhì),是否還有必要花費(fèi)成本去搜集全體數(shù)據(jù)?其次,如果能夠得到準(zhǔn)確數(shù)據(jù),還有必要刻意追求不準(zhǔn)確嗎?***,如果能夠了解到因果關(guān)系,會視而不見,只去分析相關(guān)嗎?

合理的解釋是:首先,如果通過分析少量的樣本數(shù)據(jù)無法得到事物的性質(zhì),人們不得不花費(fèi)更多成本去搜集全體數(shù)據(jù)來分析。其次,如果得不到準(zhǔn)確數(shù)據(jù),人們不得不接受不那么準(zhǔn)確的、差強(qiáng)人意的數(shù)據(jù)來進(jìn)行分析。***,如果不能夠了解到因果關(guān)系,人們會退而求其次,以分析相關(guān)關(guān)系來了解事物。

基于上述解釋,大數(shù)據(jù)方法不應(yīng)該是刻意為之,而應(yīng)該是不得已而為之。換言之,大數(shù)據(jù)方法僅在傳統(tǒng)的抽樣統(tǒng)計(jì)方法不起作用的時候有其用武之地。這就像只有當(dāng)物體的運(yùn)動速度接近于光速時我們才用相對論取代牛頓定律。

當(dāng)然,不可否認(rèn),在飛速發(fā)展的網(wǎng)絡(luò)空間里,人們的研究對象,即數(shù)據(jù),變得越來越龐大,越來越繁雜模糊,越來越非結(jié)構(gòu)化,這一大趨勢使人們樂于接受大數(shù)據(jù)思維。舉個不太恰當(dāng)?shù)睦?,?dāng)人們不能解釋許多自然現(xiàn)象時,更容易接受某種宗教的解釋。

在信息爆炸的今天,傳統(tǒng)的抽樣統(tǒng)計(jì)方法不僅不應(yīng)該被拋棄,而應(yīng)該通過一系列改進(jìn)得到加強(qiáng),成為高效、實(shí)時反映事物狀態(tài)的主要手段之一。同時,我們歡迎并樂意采用新的方法,比如如日中天的“大數(shù)據(jù)方法”以及可能的“模糊數(shù)據(jù)方法”等等。

至此,一個關(guān)鍵問題出現(xiàn)了:面對一個具體事物,如何確定應(yīng)該用傳統(tǒng)方法還是大數(shù)據(jù)方法?當(dāng)物理學(xué)家研究微觀粒子之間的作用力時,會采用量子力學(xué);研究一個橋梁受力時,會采用牛頓力學(xué)。信息或數(shù)據(jù)專家們有這樣的理論或判別標(biāo)準(zhǔn)嗎?本文下一小節(jié)將對此展開討論。

分析:

首先,考察一般意義上的選取樣本大小的規(guī)則。

定理:設(shè)X1,X2…Xn為獨(dú)立同分布隨機(jī)變量,分布為p(x), x∈(x1,x2..xn),則一般抽樣樣本大小S為:

     S = λ*2 ^H(X) …………………………(1)

其中:λ是常數(shù),H(X)= -∑p(xi)*log
p(xi),即隨機(jī)變量X的熵。

例1:了解總體為N個人對某事物的看法,是或否兩個選擇,其熵約為1,(假設(shè)兩種回答人數(shù)基本相當(dāng)),則在一定的置信度、置信區(qū)間的要求下(本文不做精確的抽樣理論推導(dǎo),僅舉例定性說明,以下同),S隨著N的增加(比如到10萬)逐步趨向?yàn)橐粋€常數(shù);400,此時λ=200。 可以證明,當(dāng)其它條件不變,隨著熵增加,S指數(shù)增加,λ保持不變。

換一個方式解釋λ。

定義1:λ是在一次抽樣中,“典型狀態(tài)”出現(xiàn)的期望值。

定義2:典型狀態(tài)指該狀態(tài)出現(xiàn)概率等于或近似等于相同熵值平均分布下各狀態(tài)出現(xiàn)概率的那個狀態(tài)。

舉例來說,X服從一個8狀態(tài)平均分布,其熵為3比特,其每個狀態(tài)都是“典型狀態(tài)”,其出現(xiàn)概率都是1/8。

如果X服從一個12個狀態(tài)的分布,其狀態(tài)分布概率為

p(x1,x2,x3,x4,x5…x12)=(1/3,1/5,1/6,1/7,1/8,1/15…1/50),H(X) ~=3 比特。其典型狀態(tài)是 x5, 出現(xiàn)概率為1/8.

基于上述規(guī)定,如果λ取1,H(X)=3,則樣本大小S =8,在一次抽樣中,典型狀態(tài)(出現(xiàn)概率1/8)出現(xiàn)次數(shù)的期望值為1,等于λ。但狀態(tài)出現(xiàn)是依概率的,盡管期望值為1,但觀察值也可能為0,2,3…,這樣的估計(jì)誤差過大。

如果λ取100,H(X)=3,則樣本大小S =800,在一次抽樣中,典型狀態(tài)出現(xiàn)的期望值為100,等于λ。其實(shí)際觀察值在極大概率下落在95-105之間,如果誤差可接受,取λ=100,否則,加大λ。

另外一個影響λ的因素是分層。將例1中的總體N分為高收入(20%),中等收入(50%),低收入(30%)3類人來調(diào)查對某事物看法。如果采用純隨機(jī)抽樣,要保證每層的分布得到準(zhǔn)確的估計(jì)結(jié)果,就要使得最少個體的層能夠抽到足夠數(shù)量,因此λ要乘5(20%的倒數(shù))。但事實(shí)上,人們更關(guān)心總體結(jié)果,兼顧分層的結(jié)果,因此,為了節(jié)約成本,實(shí)際的λ修正系數(shù)會小一些,比如取3,這時,樣本大小約為1200 。這時,不管總體是10萬人還是3億人,對1200人的樣本進(jìn)行的調(diào)查結(jié)果可以在3%的誤差范圍內(nèi)反映出實(shí)際情況。

通過以上分析可以看出,λ是一個100-1000之間的常數(shù),具體數(shù)值取決于調(diào)查方希望在一次抽樣中得到多少個典型狀態(tài)(或分層的)的個體(期望值),并滿足誤差要求。在確定了λ之后,樣本的大小就只和系統(tǒng)熵相關(guān),呈指數(shù)增長關(guān)系,即公式(1)。

采用傳統(tǒng)抽樣方法時,研究對象的隨機(jī)狀態(tài)和變化有限,或通過人為的分類使之變得有限,導(dǎo)致熵值很小,因此,使用較小的樣本就可以準(zhǔn)確地估計(jì)總體。加之那時的取樣成本很高,調(diào)查方要花費(fèi)很大精力設(shè)計(jì)抽樣方案,在不失精度的前提下,使得樣本規(guī)模盡量縮小。

互聯(lián)網(wǎng)時代的狀況恰恰相反,研究對象是互聯(lián)網(wǎng)的行為,獲取數(shù)據(jù)非常容易,因?yàn)閿?shù)據(jù)已經(jīng)產(chǎn)生,不管你用不用它,它就在那里。而互聯(lián)網(wǎng)上許多研究對象的狀態(tài)***多,也很難統(tǒng)計(jì)歸類(比如“長尾現(xiàn)象”),系統(tǒng)熵值很大,導(dǎo)致樣本規(guī)模巨大或根本無法確定規(guī)模。此時,采用總體分析,即大數(shù)據(jù)方法就具有優(yōu)勢。當(dāng)然,即使總體數(shù)據(jù)已經(jīng)存在,對其整理和運(yùn)算也相當(dāng)消耗資源。一些情況下,采用抽樣的方法仍然是***的選擇。

現(xiàn)在,讓我們嘗試回答上節(jié)***提出的問題:面對一個具體問題如何選取分析方法?

首先,考察研究對象所需的數(shù)據(jù)是否已經(jīng)在應(yīng)用中自動被收集,比如,用戶的線上購物行為。如果不是,比如線下購物,需要研究者設(shè)計(jì)方法去收集數(shù)據(jù),此時,應(yīng)該采用傳統(tǒng)抽樣方法。

其次,面對互聯(lián)網(wǎng)已經(jīng)(或可以實(shí)時在線)獲得的海量數(shù)據(jù),當(dāng)研究對象熵值小于5,建議仍采用傳統(tǒng)抽樣方式,可以得到更高效率;當(dāng)熵值介于5-15之間,總體分析或抽樣分析都可以考慮,視具體情況;熵值大于15,建議采用總體分析,即大數(shù)據(jù)方法。

上述建議仍然很抽象。在下一小節(jié)中,我們借用長尾理論的描述方法,將統(tǒng)計(jì)研究對象分為4種類型,分別討論適用的方法。

分類:

***類:“無尾模型”。此時,研究對象的狀態(tài)明確且數(shù)量有限,出現(xiàn)概率最小的狀態(tài)仍然具有統(tǒng)計(jì)意義。如民主投票,狀態(tài)有贊成、反對、棄權(quán)3個狀態(tài),或是有限個被選舉人的支持率;再如收視率調(diào)查,狀態(tài)有幾十或幾百個電視臺。統(tǒng)計(jì)結(jié)果的描述方法通常是分布直方圖,即將狀態(tài)出現(xiàn)的頻次從高向低順序以柱狀圖的方式表示出來。連接直方圖的各個頂點(diǎn),就得到總體的概率分布曲線。按照相同順序排列頻次累計(jì)數(shù)并將頂點(diǎn)相連,就得到所謂“帕累托曲線”。兩個曲線表現(xiàn)為凹函數(shù),或二階導(dǎo)數(shù)恒為負(fù)值(借用連續(xù)的分析,實(shí)際上是離散的),在曲線尾部沒有出現(xiàn)變化。隨著狀態(tài)數(shù)的增多,“二八現(xiàn)象”會顯著,即少數(shù)狀態(tài)(比如20%)占到了多數(shù)頻次(比如80%)。

第二類:“翹尾模型”。此時,研究對象的狀態(tài)較明確且數(shù)量較多,出現(xiàn)概率很小的狀態(tài)相對失去統(tǒng)計(jì)意義,在統(tǒng)計(jì)上把這些狀態(tài)統(tǒng)一歸類為“其它”狀態(tài)。絕大多數(shù)情況下,由于其它狀態(tài)是由許多狀態(tài)構(gòu)成的,其出現(xiàn)概率的和高于排列在前的某些較小概率狀態(tài)的概率,因此,總體概率分布曲線及帕累托曲線在尾部會出現(xiàn)上翹,即所謂“翹尾模型”。為了保證統(tǒng)計(jì)效果,其它狀態(tài)總的概率一般不超過5%。這時,二八現(xiàn)象極為顯著,便于“ABC分析”和重點(diǎn)管理,因此翹尾模型在企業(yè)管理上應(yīng)用極為廣泛。如質(zhì)量管理(缺陷分析),庫存管理(零配件庫、商店、賣場,特別是實(shí)體書店,可與后面網(wǎng)絡(luò)書店的長尾現(xiàn)象比較)等。

以上兩種模型運(yùn)用傳統(tǒng)的抽樣方法均可以取得良好的統(tǒng)計(jì)結(jié)果。隨著對象狀態(tài)數(shù)量增加,并不存在明顯界限。以收視率調(diào)查為例:選擇3萬個調(diào)查樣本戶進(jìn)行收視調(diào)查,當(dāng)有二、三十個電視臺臺時,收視率***的電視臺也能得到顯著的觀察值,可以認(rèn)為是無尾模型。當(dāng)電視臺數(shù)量超過100,許多收視率達(dá)不到0.3%的電視臺在一次抽樣中就無法達(dá)到可以保證相對精度的觀測值,此時,既可以擴(kuò)大樣本范圍來滿足精度要求,也可以將小于0.3%的狀態(tài)合并為“其它”,采用“翹尾模型”。

隨著三網(wǎng)融合的進(jìn)展,絕大多數(shù)電視機(jī)將具有雙向功能,總體數(shù)據(jù)變得唾手可得,此時,抽樣方法仍然有效,它可以用來做實(shí)時的、頻繁的統(tǒng)計(jì),而采用總體的大數(shù)據(jù)方法可以定時進(jìn)行校正,畢竟處理幾萬個樣本比處理幾億條總體數(shù)據(jù)要迅速、便宜得多。

第三類:“長尾模型”。此時,研究對象的狀態(tài)不夠明確且數(shù)量很多,出現(xiàn)概率很小、相對失去統(tǒng)計(jì)意義的狀態(tài)眾多。但是,這些小概率狀態(tài)的全部或部分和占到總體狀態(tài)的30%-40%,甚至更多。反映在概率分布或帕累托圖上就形成一個長長的尾巴(漸進(jìn)于X軸或Y=1的直線)。如果采用翹尾模型,用抽樣的辦法,會使總體的30%-40%,甚至更多的狀態(tài)無法描述。從而必須采用全體數(shù)據(jù)即大數(shù)據(jù)的方法。

舉例來說:一個實(shí)體書店的貨架上有1000種書籍,經(jīng)過統(tǒng)計(jì),老板會發(fā)現(xiàn),賣得好的前200種書占到其銷售額的80%以上,而賣得不好的后500種書的占比甚至不到5%,統(tǒng)計(jì)上可以并為一類。這就是所謂“二八現(xiàn)象”,老板采用抽樣統(tǒng)計(jì)的方法可以掌握占銷售額95%的書籍的分布情況。而一個網(wǎng)絡(luò)書店的數(shù)據(jù)庫中可能列有20萬種書籍,其中熱賣的200種占銷售額的20%,前2000種共占到40%。而余下的19.8萬種書籍構(gòu)成其余60%的銷售額,但每種份額是如此之小,以至于無論如何擴(kuò)大樣本,都不易被顯著地觀察到。在這種情況下只能采用大數(shù)據(jù)方法,否則,60%的銷售額都不知道從哪里產(chǎn)生的統(tǒng)計(jì)還有什么作用。

第四類:“全尾模型”。此時,研究對象的狀態(tài)很不明確、甚至未知,而數(shù)量極多甚至***,正常情況下,無論如何選擇樣本都無法在統(tǒng)計(jì)意義上顯著地得到各個狀態(tài)的觀察值,一旦可以觀察到,說明出現(xiàn)異常。其分布曲線是***接近且平行于X軸的直線。所以我們也可以稱之為“平尾”。

典型的例子如關(guān)鍵詞搜索,事先無法確定狀態(tài),即系統(tǒng)事先不知道用戶要搜索什么,且搜索的內(nèi)容可能***多,因此無法事先設(shè)計(jì)抽樣模型。采用分析全體的大數(shù)據(jù)方法,可以在出現(xiàn)異常時即使發(fā)現(xiàn)并加以分析。比如,某種疾病或藥物的名詞在某一地區(qū)的搜索量大增,就可以預(yù)測這一地區(qū)可能流行某種疾病。事實(shí)上,谷歌的大數(shù)據(jù)分析在這方面已經(jīng)比傳統(tǒng)的流行病預(yù)測機(jī)制和機(jī)構(gòu)做得更好、更有效率。

大數(shù)據(jù)方法被認(rèn)為最適于做預(yù)警或預(yù)測某種人們事先不知道的狀態(tài),而抽樣統(tǒng)計(jì)則一般是根據(jù)已知的狀態(tài)安排抽樣規(guī)則。

以上四種模型分析與上節(jié)基于熵的分析是一致的。其中無尾和翹尾模型的熵值分別為小于6、介于5-15之間;而長尾和全尾模型的熵值分別為大于15、趨于無窮。前二者多采用傳統(tǒng)抽樣分析,后二者只能采用大數(shù)據(jù)方法。更為重要的是,隨著量變引起質(zhì)變,大數(shù)據(jù)方法會帶來更多、更新的概念、理論和技術(shù)。

 

責(zé)任編輯:李英杰 來源: 36大數(shù)據(jù)
相關(guān)推薦

2015-08-14 10:28:09

大數(shù)據(jù)

2014-05-29 09:22:57

大數(shù)據(jù)

2024-03-13 10:04:52

2024-03-22 09:56:48

供應(yīng)鏈分析大數(shù)據(jù)

2018-07-23 16:45:36

數(shù)據(jù)分析RFM方法

2013-03-07 10:18:55

大數(shù)據(jù)大數(shù)據(jù)分析隱私安全

2013-06-04 09:32:22

2013-03-11 17:37:36

大數(shù)據(jù)

2015-04-03 11:19:21

大數(shù)據(jù)大數(shù)據(jù)分析師

2014-08-29 09:50:35

大數(shù)據(jù)商業(yè)地理

2021-08-06 11:01:23

大數(shù)據(jù)數(shù)據(jù)分析技術(shù)

2019-09-04 19:58:46

數(shù)據(jù)挖掘數(shù)據(jù)分析學(xué)習(xí)

2018-01-18 22:09:06

數(shù)據(jù)分析數(shù)據(jù)處理企業(yè)

2017-10-11 11:10:02

Spark Strea大數(shù)據(jù)流式處理

2015-09-11 11:33:21

大數(shù)據(jù)百科分析

2015-07-13 09:56:37

2014-08-08 09:41:15

大數(shù)據(jù)

2016-09-23 20:51:28

大數(shù)據(jù)

2012-09-29 09:23:32

2014-07-23 09:26:46

大數(shù)據(jù)安全大數(shù)據(jù)安全分析
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號