終于有人把數(shù)據(jù)的屬性講明白了
1.結構化與非結構化數(shù)據(jù)
某些數(shù)據(jù)集具有很好的結構性,就像數(shù)據(jù)庫中的數(shù)據(jù)表或電子表程序中一樣。而其他的數(shù)據(jù)以更多樣的形式記錄著有關世界狀況的信息。它們可能是像維基百科這樣包含圖像和超級鏈接的文本語料庫,也可能是個人醫(yī)療記錄中出現(xiàn)的復雜的注釋和測試結果的混合數(shù)據(jù)。
數(shù)據(jù)通常由一個矩陣表示,矩陣的行表示不同的條目或記錄,列則表示這些條目的不同屬性特征。例如,關于美國的城市數(shù)據(jù)集中每一行代表一個城市,每列則代表州、人口和地區(qū)等特征。
當面對一個非結構化數(shù)據(jù)源時(例如一組來自Twitter的推文集合),我們通常首先要構建一個矩陣以使這些數(shù)據(jù)結構化。詞袋模型可以構建一個矩陣,每條推文對應矩陣中的一行,每個常用詞匯對應矩陣中的一列。矩陣項M[i, j]則表示推文i中單詞j出現(xiàn)的次數(shù)。
2.定量數(shù)據(jù)與類別數(shù)據(jù)
定量數(shù)據(jù)由數(shù)值組成,如高度和重量。這些數(shù)據(jù)可以被直接帶入代數(shù)公式和數(shù)學模型,也可以在傳統(tǒng)的圖表中進行表示。
相比之下,類別數(shù)據(jù)則由描述被調查對象屬性的標簽組成,如性別、頭發(fā)顏色和職業(yè)。這種描述性信息可以像數(shù)值型數(shù)據(jù)一樣精確而有意義,但不能使用相同的方法進行處理。
類別數(shù)據(jù)通??梢赃M行數(shù)字化編碼。例如,性別可以表示為男=0或女=1。但如果每個特性包含兩個以上字符,尤其當它們之間沒有隱序時,事情會變得更加復雜。我們可以對頭發(fā)的顏色進行數(shù)字化編碼,即為不同顏色匹配不同的數(shù)值,如灰色頭發(fā)=0、紅色頭發(fā)=1以及金色頭發(fā)=2。然而,除了單純地進行特征識別之外,我們并不能真正將這些值視為數(shù)字。討論頭發(fā)的最大或最小顏色有什么意義呢?又如何解釋我的頭發(fā)顏色減去你的頭發(fā)顏色的含義呢?
3.大數(shù)據(jù)與小數(shù)據(jù)
在大眾眼中,數(shù)據(jù)科學已經(jīng)與大數(shù)據(jù)混為一談,數(shù)據(jù)科學以計算機日志和傳感器設備產(chǎn)生的海量數(shù)據(jù)集為分析對象。原則上,擁有更多的數(shù)據(jù)總是比數(shù)據(jù)少要好,因為如果有必要,可以通過抽樣來舍棄其中的一些數(shù)據(jù),從而得到一個更小的數(shù)據(jù)集。
擁有大數(shù)據(jù)是件令人興奮的事。但在實踐中,處理大數(shù)據(jù)存在一定的困難。一般來說,一旦數(shù)據(jù)量過大,事情就會變得更困難。大數(shù)據(jù)的挑戰(zhàn)包括:
一個分析周期所用的時間隨著數(shù)據(jù)規(guī)模的增長而變長:對數(shù)據(jù)集的計算性操作會隨著數(shù)據(jù)量的增加而花費更長的時間。電子表格可以提供即時響應,允許用戶進行實驗測試以及驗證各種假設。但計算大型電子表格時,會變得笨拙而緩慢。處理大規(guī)模數(shù)據(jù)集可能需要數(shù)小時或數(shù)天才能得到結果。為了處理大數(shù)據(jù),要采用高性能算法,這些算法也已展現(xiàn)出驚人的優(yōu)越性。但是絕不能為了獲得更快的計算速度而將大數(shù)據(jù)拆分為小數(shù)據(jù)。
大型數(shù)據(jù)集復雜的可視化過程:在計算機屏幕或打印的圖像上不可能將大數(shù)據(jù)中的數(shù)百萬個要點全部繪制出來,更不要說對這些數(shù)據(jù)進行概念性的理解了。我們無法滿懷希望地去深入理解一個根本無法看到的東西。
簡單的模型不需要大量的數(shù)據(jù)來匹配或評估:典型的數(shù)據(jù)科學任務是基于一小部分變量做出決策,比如,根據(jù)年齡、性別、身高、體重以及現(xiàn)有的醫(yī)療水平來決定是否應該為投保人提供人壽保險。
如果有100萬人的生活相關數(shù)據(jù),那么應該能夠建立一個具有較好保險責任的一般模型。但是當數(shù)據(jù)量擴充到幾千萬人時,可能對于優(yōu)化模型就不再產(chǎn)生作用了?;谏贁?shù)幾個變量(如年齡和婚姻狀況)的決策準則不能太復雜,而且在覆蓋大量的保險申請人數(shù)據(jù)時呈現(xiàn)出魯棒性。那些不易被察覺的發(fā)現(xiàn),需要大量數(shù)據(jù)才能被巧妙地獲得,而這卻與數(shù)據(jù)體量的大小無關。
大數(shù)據(jù)有時被稱為壞數(shù)據(jù)。它們作為已有系統(tǒng)或程序的副產(chǎn)品被收集起來,而不是為了回答我們手頭已經(jīng)設計好的問題而有目的地收集來的。這就使得我們可能不得不努力去解釋一些現(xiàn)象,僅僅是因為我們擁有了這些數(shù)據(jù)。
總統(tǒng)候選人如何從分析選民偏好中獲得收益?大數(shù)據(jù)方法可能會分析大量的Twitter或Facebook上的網(wǎng)絡數(shù)據(jù),并從文本中推測出選民的觀點。而小數(shù)據(jù)方法則通過民意調查,對特定的問題詢問幾百人,并將結果制成表格。哪種方法更準確呢?正確的數(shù)據(jù)集與要完成的任務具有直接相關性,而不一定是那個數(shù)量最大的數(shù)據(jù)集。
不要盲目地渴望分析大型數(shù)據(jù)集。尋找正確的數(shù)據(jù)來回答給定的問題,而不是做沒有必要參與的“大事情”。