三個案例透析大數(shù)據(jù)思維的核心
邏輯推理能力是人類特有的本領(lǐng),給出原因,我們能夠通過邏輯推理得到結(jié)果。在過去,我們一直非常強調(diào)因果關(guān)系,一方面是因為我們常常是先有原因,再有結(jié)果,另一方面是因為如果我們找不出原因,常常會覺得結(jié)果不是非常可信。而大數(shù)據(jù)時代,大數(shù)據(jù)思維要求我們從探求因果聯(lián)系到探索強相關(guān)關(guān)系。
以下三個案例分別來自藥品研發(fā)、司法判決與廣告投放,從三個不同的角度了解大數(shù)據(jù)思維的核心。
大數(shù)據(jù)與藥品研發(fā):尋找特效藥的方法
比如在過去,現(xiàn)代醫(yī)學(xué)里新藥的研制,就是典型的利用因果關(guān)系解決問題的例子。
青霉素的發(fā)明過程就非常具有代表性。首先,在19世紀中期,奧匈帝國的塞麥爾維斯(Ignaz Philipp Semmelweis,1818—1865)a、法國的巴斯德等人發(fā)現(xiàn)微生物細菌會導(dǎo)致很多疾病,因此人們很容易想到殺死細菌就能治好疾病,這就是因果關(guān)系。不過,后來弗萊明等人發(fā)現(xiàn),把消毒劑涂抹在傷員傷口上并不管用,因此就要尋找能夠從人體內(nèi)殺菌的物質(zhì)。
最終在1928年弗萊明發(fā)現(xiàn)了青霉素,但是他不知道青霉素殺菌的原理。而牛津大學(xué)的科學(xué)家錢恩和亞伯拉罕搞清楚了青霉素中的一種物質(zhì)—青霉烷—能夠破壞細菌的細胞壁,才算搞清楚青霉素有效性的原因,到這時青霉素治療疾病的因果關(guān)系才算完全找到,這時已經(jīng)是1943年,離賽麥爾維斯發(fā)現(xiàn)細菌致病已經(jīng)過去近一個世紀。
兩年之后,女科學(xué)家多蘿西·霍奇金(Dorothy Hodgkin)搞清楚了青霉烷的分子結(jié)構(gòu),并因此獲得了諾貝爾獎,這樣到了1957年終于可以人工合成青霉素。當然,搞清楚青霉烷的分子結(jié)構(gòu),有利于人類通過改進它來發(fā)明新的抗生素,亞伯拉罕就因此而發(fā)明了頭孢類抗生素。
在整個青霉素和其他抗生素的發(fā)明過程中,人類就是不斷地分析原因,然后尋找答案(結(jié)果)。當然,通過這種因果關(guān)系找到的答案非常讓人信服。
其他新藥的研制過程和青霉素很類似,科學(xué)家們通常需要分析疾病產(chǎn)生的原因,尋找能夠消除這些原因的物質(zhì),然后合成新藥。這是一個非常漫長的過程,而且費用非常高。在七八年前,研制一種處方藥已經(jīng)需要花費10年以上的時間,投入10億美元的科研經(jīng)費。
如今,時間和費用成本都進一步提高;一些專家,比如斯坦福醫(yī)學(xué)院院長米納(Lloyd Minor)教授則估計需要20年的時間,20億美元的投入。這也就不奇怪為什么有效的新藥價格都非常昂貴,因為如果不能在專利有效期內(nèi)a賺回20億美元的成本,就不可能有公司愿意投錢研制新藥了。
按照因果關(guān)系,研制一種新藥就需要如此長的時間、如此高的成本。這顯然不是患者可以等待和負擔的,也不是醫(yī)生、科學(xué)家、制藥公司想要的,但是過去沒有辦法,大家只能這么做。
如今,有了大數(shù)據(jù),尋找特效藥的方法就和過去有所不同了。美國一共只有5 000多種處方藥,人類會得的疾病大約有一萬種。如果將每一種藥和每一種疾病進行配對,就會發(fā)現(xiàn)一些意外的驚喜。比如斯坦福大學(xué)醫(yī)學(xué)院發(fā)現(xiàn),原來用于治療心臟病的某種藥物對治療某種胃病特別有效。
當然,為了證實這一點需要做相應(yīng)的臨床試驗,但是這樣找到治療胃病的藥只需要花費3年時間,成本也只有1億美元。這種方法,實際上依靠的并非因果關(guān)系,而是一種強關(guān)聯(lián)關(guān)系,即A藥對B病有效。至于為什么有效,接下來3年的研究工作實際上就是在反過來尋找原因。這種先有結(jié)果再反推原因的做法,和過去通過因果關(guān)系推導(dǎo)出結(jié)果的做法截然相反。無疑,這樣的做法會比較快,當然,前提是有足夠多的數(shù)據(jù)支持。
大數(shù)據(jù)思維與司法:為香煙定罪
在過去,由于數(shù)據(jù)量有限,而且常常不是多維度的,這樣的相關(guān)性很難找得到,即使偶爾找到了,人們也未必接受,因為這和傳統(tǒng)的觀念不一樣。20世紀90年代中期,在美國和加拿大圍繞香煙是否對人體有害這件事情的一系列訴訟上,如何判定吸煙是否有害是這些案子的關(guān)鍵,是采用因果關(guān)系判定,還是采用相關(guān)性判定,決定了那些訴訟案判決結(jié)果。
在今天一般的人看來,吸煙對人體有害,這是板上釘釘?shù)氖聦?。比如美國外科協(xié)會的一份研究報告顯示,吸煙男性肺癌的發(fā)病率是不吸煙男性的23倍,女性則是相應(yīng)的13倍a,這從統(tǒng)計學(xué)上講早已經(jīng)不是隨機事件的偶然性了,而是存在必然的聯(lián)系。但是,就是這樣看似如山的鐵證,依然“不足夠”以此判定煙草公司就是有罪,因為它們認為吸煙和肺癌沒有因果關(guān)系。
煙草公司可以找出很多理由來辯解,比如說一些人之所以要吸煙,是因為身體里有某部分基因缺陷或者身體缺乏某種物質(zhì);而導(dǎo)致肺癌的,是這種基因缺陷或者某種物質(zhì)的缺乏,而非煙草中的某些物質(zhì)。從法律上講,煙草公司的解釋很站得住腳,美國的法律又是采用無罪推定原則a,因此,單純靠發(fā)病率高這一件事是無法判定煙草公司有罪的。
這就導(dǎo)致了在歷史上很長的時間里,美國各個州政府的檢察官在對煙草公司提起訴訟后,經(jīng)過很長時間的法庭調(diào)查和雙方的交鋒,***結(jié)果都是不了了之。其根本原因是提起訴訟的原告一方(州檢察官和受害人)拿不出足夠充分的證據(jù),而煙草公司又有足夠的錢請到很好的律師為它們進行辯護。
這種情況直到20世紀90年代中期美國歷史上的那次世紀大訴訟才得到改變。1994年,密西西比州的總檢察長麥克·摩爾(Michael Moore)又一次提起了對菲利普·莫里斯等煙草公司的集體訴訟,隨后,美國40多個州加入了這場有史以來***的訴訟行動。在訴訟開始以前,雙方都清楚官司的勝負其實取決于各州的檢察官們能否收集到讓人信服的證據(jù)來證明是吸煙而不是其他原因?qū)е铝撕芏嗉膊?比如肺癌)更高的發(fā)病率。
我們在前面講了,單純講吸煙者比不吸煙者肺癌的發(fā)病率高是沒有用的,因為得肺癌可能是由其他更直接的因素引起的。要說明吸煙的危害,***能找到吸煙和得病的因果關(guān)系,但是這件事情短時間內(nèi)又做不到。因此,訴訟方只能退而求其次,他們必須能夠提供在(煙草公司所說的)其他因素都被排除的情況下,吸煙者發(fā)病的比例依然比不吸煙者要高很多的證據(jù),這件事做起來遠比想象的困難。
雖然當時全世界的人口多達60億,吸煙者的人數(shù)也很多,得各種與吸煙有關(guān)疾病的人也不少,但是在以移民為主的美國,尤其是大城市里,人們彼此之間基因的差異相對較大,生活習(xí)慣和收入狀況也千差萬別,即使調(diào)查了大量吸煙和不吸煙的樣本,能夠進行比對的、各方面條件都很相似的樣本并不多。不過在20世紀90年代的那次世紀大訴訟中,各州的檢察長下定決心要打贏官司,而不再是不了了之,為此他們聘請了包括約翰·霍普金斯大學(xué)在內(nèi)的很多大學(xué)的***專家作為訴訟方的顧問,其中既包括醫(yī)學(xué)家,也包括公共衛(wèi)生專家。
這些專家們?yōu)榱耸占C據(jù),派下面的工作人員到世界各地,尤其是第三世界國家的農(nóng)村地區(qū)(包括中國的西南地區(qū)),去收集對比數(shù)據(jù)。在這樣的地區(qū),由于族群相對單一(可以排除基因等先天的因素),收入和生活習(xí)慣相差較小(可以排除后天的因素),有可能找到足夠多的可對比的樣本,來說明吸煙的危害。
各州檢察官們和專家們經(jīng)過三年多的努力,最終讓煙草公司低頭了。1997年,煙草公司和各州達成和解,同意賠償3 655億美元。在這場歷史性勝利的背后,靠的并非是檢察官們找到了吸煙對人體有害的因果關(guān)系的證據(jù),而依然是采用了統(tǒng)計上強相關(guān)性的證據(jù),只是這一次的證據(jù)能夠讓陪審團和法官信服。在這場馬拉松式的訴訟過程中,其實人們的思維方式已經(jīng)從接受因果關(guān)系,轉(zhuǎn)到接受強相關(guān)性上來了。
如果在法律上都能夠被作為證據(jù)接受,那么把相關(guān)性的結(jié)果應(yīng)用到其他領(lǐng)域更是順理成章的事情。
大數(shù)據(jù)思維與廣告:咖啡與信用卡廣告更配哦
2003年Google推出了根據(jù)網(wǎng)頁內(nèi)容安插廣告的AdSense服務(wù),以與那些在網(wǎng)頁中隨機投放廣告的產(chǎn)品競爭。根據(jù)我們的直覺,如果在一個和照相機有關(guān)的網(wǎng)站(或者)網(wǎng)頁中放上照相機的廣告,效果應(yīng)該***。這其實就是用到了相關(guān)性的特點,但是大部分時候,相關(guān)性并不是那么直接,不能一眼就看出來。根據(jù)大量數(shù)據(jù)的統(tǒng)計結(jié)果,我們發(fā)現(xiàn)這樣一些廣告和內(nèi)容的搭配效果非常好,很多和我們的想象不大相同,比如:
在電影租賃和收看視頻的網(wǎng)站上,放上零食的廣告;
在女裝網(wǎng)站上,放男裝的廣告;
在咖啡評論和銷售網(wǎng)站上,放信用卡和房貸的廣告;
在工具(Hardware)評論網(wǎng)站上,放上快餐的廣告;
……
這些搭配,如果沒有大量的數(shù)據(jù)統(tǒng)計作為基礎(chǔ),一般人是想不到的。當然,如果仔細分析有些看似不太相關(guān)的搭配,還是能夠找到合理的解釋,比如電影租賃和視頻播放網(wǎng)站與零食廣告的搭配,符合人在看視頻時喜歡吃零食的習(xí)慣。
但是,有些搭配會讓人完全摸不到頭腦,比如把咖啡和信用卡或者房貸聯(lián)系起來。不管是能夠找到原因的,還是想不出原因的(可能背后存在著我們一時想不到的原因),只要使用了這些相關(guān)性,廣告的效果就好。當然,在利用相關(guān)性時,我們希望是那種可信度比較高的,即數(shù)學(xué)上所謂的強相關(guān)性,而不是隨便把一些看似相關(guān)的東西扯到一起。
我們在前面提到,能通過因果關(guān)系找到答案,根據(jù)因果關(guān)系知道原因固然好,但是對于復(fù)雜的問題,其難度非常大,除了靠物質(zhì)條件、人們的努力,還要靠運氣。
牛頓和愛因斯坦都是運氣很好的人。遺憾的是,大部分時候我們并沒有靈感和運氣,因此很多問題得不到解決。在大數(shù)據(jù)時代,我們能夠得益于一種新的思維方法—從大量的數(shù)據(jù)中直接找到答案,即使不知道原因。