大數(shù)據(jù)時(shí)代預(yù)測(cè)更易失敗
納特 西爾弗(Nate Silver)在《信號(hào)與噪聲》一書對(duì)這句話提出了疑問。人們普遍認(rèn)同的邏輯一般是:信息越多,信息流動(dòng)速度越快,人們對(duì)未來的預(yù)測(cè)越準(zhǔn)確,從而越能做出更合理的決策。但是且慢,你怎么知道你 Google 到的“信息”是有用的“信號(hào)”(有用的信息),還是干擾你的“噪聲”(無關(guān)/無用的信息)呢?我的意思是,如果你在時(shí)間充裕,方法/模型適當(dāng)?shù)臈l件下,你可以辨別出信號(hào),做出合理決策。但現(xiàn)實(shí)往往是,你基本上總是不會(huì)擁有充裕的時(shí)間,甚至使用的方法/模型也不合適。在信息增長(zhǎng)越來越快的現(xiàn)在,我們面臨這樣的困境會(huì)越來越多。
《自然》雜志曾刊登過一項(xiàng)研究,研究發(fā)現(xiàn):美國(guó)幾大政黨對(duì)全球變暖的問題了解越多,他們之間達(dá)成共識(shí)的可能性就越小。 我們現(xiàn)在(這里的“現(xiàn)在”得比《信號(hào)與噪聲》出版時(shí)間的2012年9月更早)每天產(chǎn)生250兆億字節(jié),如果信息每天以這個(gè)速度增長(zhǎng),其中有用的信息肯定接近于零。其中大部分信息都只是噪聲而已,而且噪聲的增長(zhǎng)速度要比信號(hào)快得多。其中有太多假設(shè)需要驗(yàn)證,有太多數(shù)據(jù)需要發(fā)掘,但客觀事實(shí)的數(shù)量卻是個(gè)相對(duì)恒量。人腦能力非凡,但根據(jù)IBM的分析,人腦的存儲(chǔ)量不過是全球每天所產(chǎn)生信息量的百萬分之一而已。我們對(duì)自己記憶的信息一定需要精心挑選才行。
以美國(guó)經(jīng)濟(jì)預(yù)測(cè)為例。美國(guó)政府每年公布的數(shù)據(jù),與經(jīng)濟(jì)指標(biāo)直接相關(guān)的有4.5萬個(gè),而私人數(shù)據(jù)提供者要追蹤高達(dá)400萬個(gè)統(tǒng)計(jì)數(shù)據(jù)。一些經(jīng)濟(jì)學(xué)家忍不住想要把所有數(shù)據(jù)都混合在一起,并給一般的數(shù)據(jù)穿上優(yōu)質(zhì)的“外衣”。第二次世界大戰(zhàn)之后只出現(xiàn)了11次經(jīng)濟(jì)衰退的情況,如果一個(gè)統(tǒng)計(jì)模型試圖解釋這11次衰退帶來的后果,就必須從400萬個(gè)數(shù)據(jù)中選擇數(shù)據(jù),由此得出的許多相關(guān)性都將會(huì)帶有欺騙性。大數(shù)據(jù)專家熱愛相關(guān)性,但如果我們不能分析出因果,我們永遠(yuǎn)無法確定該采用哪些指標(biāo)去判斷下一次經(jīng)濟(jì)衰退的跡象。
人們將噪聲誤認(rèn)為信號(hào)的行為,在統(tǒng)計(jì)學(xué)上被稱為“過度擬合”(overfit)。人類大腦的工作方式是捕捉規(guī)律,并且預(yù)測(cè)。一般來講,智商高的人的神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)能力更強(qiáng),這意味著他捕捉規(guī)律的能力也越強(qiáng)。捕捉規(guī)律能力強(qiáng)意味著,對(duì)于很少的樣本中隱含的不明顯的“規(guī)律”他們也能捕捉出來。
但從很少的樣本或噪聲過多的樣本中總結(jié)出“規(guī)律”來是極為危險(xiǎn)的事——自然界的運(yùn)行很多時(shí)候并沒有確定的規(guī)律,我們帶著一雙為了發(fā)現(xiàn)規(guī)律的眼睛去挖掘總結(jié),結(jié)果卻聰明反被聰明誤了。關(guān)于過度擬合的解釋,馮 諾伊曼曾有一個(gè)形象的描述:給我4個(gè)參數(shù),我就能擬合出一頭大象,如果再加1個(gè)參數(shù),我就可以讓這頭大象甩動(dòng)它的鼻子。除了人類大腦,現(xiàn)在的機(jī)器學(xué)習(xí)也容易發(fā)生這樣過度擬合的現(xiàn)象。
過度擬合在現(xiàn)實(shí)中往往是被鼓勵(lì)的。無論汶川地震還是雅安地震之后,地震云或豬亂跳、羊亂叫之類的怪現(xiàn)象總會(huì)在微博、貼吧或論壇上流行。比如百度貼吧還有人整理了一份地震前兆大全,如果僅靠這些所謂前兆就能預(yù)測(cè)地震,那每年也不至于死傷那么多人、損失無數(shù)財(cái)產(chǎn)了。這是最為糟糕和最為淺顯的過度擬合例子——把毫無關(guān)系的噪聲當(dāng)成了信號(hào),從而認(rèn)為噪聲與事實(shí)相關(guān)。過度擬合現(xiàn)象在學(xué)術(shù)上也經(jīng)常發(fā)生,邏輯非常好理解:提煉出模型總是引人關(guān)注,引人關(guān)注則更容易在學(xué)術(shù)期刊得到推介,也更容易被人引用,從而將其它可靠但可能沒有模型化的理論排擠出市場(chǎng)。
預(yù)測(cè)失敗,除了與我們將噪聲當(dāng)成信號(hào)以外,還跟我們對(duì)科技的發(fā)展無法預(yù)判有關(guān)。比如在19世紀(jì)末,一位《倫敦時(shí)報(bào)》的作家在研究倫敦街道上的馬糞問題時(shí)說到:大約到20世紀(jì)40年代,倫敦每條街道會(huì)被厚達(dá)2.7米的馬糞覆蓋。但他所沒預(yù)料到的是,大約十年后,亨利 福特開始生產(chǎn) T型汽車。
倫敦不僅避免了馬糞危機(jī),與馬和汽車周邊的產(chǎn)業(yè)都發(fā)生了變革——鐵匠工人失業(yè),馬場(chǎng)關(guān)門,油田工人、制造工人與裝配工人卻成為市場(chǎng)稀缺資源。舉個(gè)更近的例子吧,在iPhone發(fā)布之前的2006年,誰又能知道諾基亞會(huì)在僅僅七年后以72億美元的價(jià)格出售?
科技進(jìn)步最大的悖論在于,科技進(jìn)步既讓我們邁入能更準(zhǔn)確預(yù)測(cè)未來的大數(shù)據(jù)時(shí)代,但科技的進(jìn)步也成為我們預(yù)測(cè)未來的最大變數(shù)。
原文鏈接:http://www.36dsj.com/archives/5732