移動醫(yī)療大數(shù)據(jù)的幾個偽命題:大數(shù)據(jù)的陷阱
醫(yī)療是非常特殊的行業(yè),所以單獨強調(diào)大數(shù)據(jù)是一種很片面、盲目的做法。在這個大數(shù)據(jù)時代里,我們要重視傳統(tǒng)的小數(shù)據(jù)研究(或者也可以稱之為抽樣數(shù)據(jù)),其實大數(shù)據(jù)和小數(shù)據(jù)可以相互結(jié)合,相互印證,互為補充,互相借鑒的。
那什么是小數(shù)據(jù)呢?小數(shù)據(jù)研究有幾個方向:
1.搜集一段時間和地點內(nèi)的大量醫(yī)學(xué)資料,進行回顧性研究。
2.根據(jù)所要研究或者驗證的意圖,設(shè)計方案,通常有一比一配對,隨機對照雙盲等方法,進行前瞻性研究。
這兩類分析在搜集資料的時候都要進行統(tǒng)計學(xué)處理,均衡性檢驗,去除很多無效的雜波和噪音干擾,相比一些所謂大數(shù)據(jù)分析的眉毛胡子一把抓,通常得出的結(jié)果更為精準(zhǔn)。
3.還有一類就是持續(xù)追蹤個體的小數(shù)據(jù),也就是我們每個人的數(shù)字化信息。因為人存在很多的個體差異,所以每個人身上的小數(shù)據(jù)也是千差萬別的。它不比大數(shù)據(jù)那樣浩瀚繁雜,卻對我自己至關(guān)重要。當(dāng)然把大量的人的小數(shù)據(jù)整合起來可以視為大數(shù)據(jù)分析,但是前文Dr.2也說過,有的時候整體平均趨勢對個人是無價值的,甚至有害的。前天看個笑話,有個身高1.8米的人問大數(shù)據(jù)科學(xué)家能不能過前面這條河,科學(xué)家經(jīng)過全河流域的大數(shù)據(jù)分析后,得出平均水深1.2米,于是他放心地趟過去,結(jié)果淹死了!
再比如癌癥治療,現(xiàn)在有十分火熱的個體化治療,基因治療和細胞治療,不是僅僅“對癥下藥”,而是要同時“對人下藥”。與其他行業(yè)不同,一些重大疾病的治療是一個“非標(biāo)”的過程,這其中需要組織醫(yī)生、患者、醫(yī)療資源等,治療每個疾病,不同患者所需要的時間、財力、流程和預(yù)后都是不同的,而且每個人的基礎(chǔ)和個性需求也是多樣化的,不可能達到標(biāo)準(zhǔn)化。因此,這些個性化的治療都需要記錄和分析個人的小數(shù)據(jù),并進行預(yù)判和綜合評估。
當(dāng)然,Dr.2從來沒有說過大數(shù)據(jù)不重要。事實上,在醫(yī)學(xué)上發(fā)現(xiàn)的一般規(guī)律,往往是從大量數(shù)據(jù)中隱藏的一些重要線索。歐美各國都在計劃編制患者信息的整體數(shù)據(jù)庫,不僅是為了統(tǒng)計分析,也是為開發(fā)新藥物、新技術(shù)和新方法,更好地服務(wù)整個人群。集成大量的在線數(shù)據(jù)庫也可以指導(dǎo)個性化用藥(如計算安全性的概率),減輕他們的痛苦。
從大數(shù)據(jù)中得到規(guī)律,用小數(shù)據(jù)去驗證,在小數(shù)據(jù)中發(fā)現(xiàn)問題,再觀察相關(guān)大數(shù)據(jù)的變化,交互印證是非常重要的,但是目前很多的商業(yè)行為充斥著我們的移動醫(yī)療圈,過分強調(diào)大數(shù)據(jù)的背后,是有利益驅(qū)動的故事在的!
接下來,我就來跟大家說一說大數(shù)據(jù)的陷阱!
1.?dāng)?shù)據(jù)采集帶有傾向性。
我們在對海量數(shù)據(jù)進行分析,這其中存在了一個概念的偷換,就是你首先假設(shè)了你分析的大數(shù)據(jù)都是有價值的,然后才會去做這個事情。打個不恰當(dāng)?shù)谋扔鳎孟瘳F(xiàn)在的各大媒體,無論結(jié)果如何,不需審判,就可以都對郭美美進行“有罪推定”,而不再考慮什么嚴(yán)謹(jǐn)啊,法律合規(guī)啊,人權(quán)之類的事情(即使是罪犯也有人權(quán)),那么無窮無盡批評中國缺乏法制精神的這批道貌岸然的人,其法制精神何在?一切只為利益、眼球和收視率!
采用嚴(yán)重有偏的數(shù)據(jù)幾乎能夠產(chǎn)生任何人需要的任何結(jié)果。Dr.2在第一章就曾經(jīng)說過,我們經(jīng)常能夠看到有些公司說“通過XX大數(shù)據(jù)分析,得出YY的結(jié)論,而我們的產(chǎn)品符合啥啥的結(jié)論,所以是多么多么好!”你乍一看就不怎么樣,仔細一看還不如乍一看!因為這樣帶來的結(jié)果能給他們帶來商業(yè)價值。
2.大數(shù)據(jù)本身的“陷阱”。
大數(shù)據(jù)“采礦”常犯的錯誤之一,就是由于因為相關(guān)性存在于多種可能性之中,但是你會怎么選擇呢?這是系統(tǒng)性問題,理論上來說,只要有超大樣本和很多變量,我們都可能找到無厘頭式的相關(guān)性。它完全符合統(tǒng)計方法的嚴(yán)格要求,但兩者之間是個什么關(guān)系呢?只要我們對著一堆足夠多的數(shù)據(jù)進行反復(fù)研究,進行不同模型的嘗試,上千次后,一定會找到統(tǒng)計學(xué)意義上成立的相關(guān)性。這就是常見的大數(shù)據(jù)分析所犯的另一個人為的錯誤——由相關(guān)性去論證因果關(guān)系。
在剛剛結(jié)束不久的2014年百度聯(lián)盟峰會中,李彥宏在大數(shù)據(jù)和醫(yī)療的結(jié)合中提到:“未來真正的大數(shù)據(jù)積累應(yīng)該是可以提前預(yù)測人的疾病情況,因為疾病不是一天出現(xiàn)的,而是天長日久累計出來的,各種數(shù)據(jù)一定發(fā)生變化。有價值的數(shù)據(jù),不是無用的信息爆炸,而是有價值的慢數(shù)據(jù),可以預(yù)測個性化信息的數(shù)據(jù)。”Dr.2深表同意,在大數(shù)據(jù)之上的慢數(shù)據(jù),去掉了很多雜波干擾的數(shù)據(jù),才是真正有價值的。
醫(yī)療監(jiān)測是時下行業(yè)內(nèi)很熱的一個話題。現(xiàn)在已經(jīng)出現(xiàn)了某種監(jiān)測技術(shù)通過對周圍的大數(shù)據(jù)進行監(jiān)測并分析周邊疫情動態(tài)來預(yù)測下一場變異性流感等流行病的大規(guī)模爆發(fā)。人們再也不必恐慌和擔(dān)心被傳染,早就有相應(yīng)提示及時應(yīng)對預(yù)防;而與此密切相關(guān)的醫(yī)療行業(yè),可以及時獲悉疾病爆發(fā)趨勢,合理分配和部署好醫(yī)務(wù)人員,同時提醒和建議市民預(yù)防疫病,降低人們?nèi)静茁?hellip;…這是不是看似很美好很強大?其實不然。
大數(shù)據(jù)監(jiān)測流行病忽略了一個事實:大數(shù)據(jù)是根據(jù)所收集到的海量數(shù)據(jù),與目前醫(yī)學(xué)領(lǐng)域中已有的傳統(tǒng)疾病進行對照研究、數(shù)據(jù)分析等一系列工作。所以其通常很難預(yù)測未知的新疾病,像SARS、甲型H1N1流感和現(xiàn)在的埃博拉病毒的爆發(fā)等。去年衛(wèi)生部發(fā)言人就曾提到:“中國面臨傳統(tǒng)流行病威脅持續(xù)存在、新發(fā)流行病不斷出現(xiàn)的嚴(yán)峻形勢。”所以我們要對大數(shù)據(jù)的疾病預(yù)測能力有客觀的評估,一邊倒地鼓吹并無價值,從系統(tǒng)上來說,想預(yù)測黑天鵝,這本身就是一個“mission impossible”的哲學(xué)命題!
3. 統(tǒng)計學(xué)一樣會欺騙你。
統(tǒng)計學(xué)是通過搜索、整理、分析數(shù)據(jù)等手段,以達到推斷所測對象的本質(zhì),甚至預(yù)測對象未來的一門綜合性科學(xué)。它是一種模型,是一種探索未知世界的工具,試圖對事物本身有所認(rèn)知上的突破。但通過統(tǒng)計學(xué)所得來的認(rèn)知是僅供參考的,誰說90%的人說它正確,它就一定正確了?就像千百年前,所有人都認(rèn)為太陽圍繞地球轉(zhuǎn)一樣。
其實這與“市場失靈”是一個道理,再比如物理課上我們還總是假設(shè)一個小球從沒有摩擦的斜坡上滾下,然后以此來計算小球的各種數(shù)據(jù)……然在現(xiàn)實生活中,怎么可能呢?所以統(tǒng)計學(xué)經(jīng)常會出錯的,黑天鵝無處不在。
谷歌雖然在09年的流感預(yù)測上做出了漂亮的成績,但是在2013年初,谷歌流感趨勢被媒體大量批評,原因就在于其數(shù)據(jù)總是大幅偏高于真實的流感數(shù)據(jù)。因為在進行數(shù)據(jù)分析的時候,我們需要盡可能地利用各種統(tǒng)計分析方法來剔除系統(tǒng)誤差。但是在谷歌流感案例中因為它無法剔除殘差的“自相關(guān)性”以及季節(jié)性(因為到了換季時節(jié)容易感冒,所以即使我沒有生病,那時也會去進行相關(guān)的檢索),也就是Dr.2前文中提到的“大數(shù)據(jù)反作用于大數(shù)據(jù)”,所以導(dǎo)致它的分析結(jié)果出現(xiàn)系統(tǒng)性誤差。
4. 無法確定“主觀性數(shù)據(jù)”是否經(jīng)過數(shù)據(jù)來源者的美化。
移動醫(yī)療大數(shù)據(jù)分析確實有一部分是客觀資料,但是也有很多是來自于受眾的“主觀性數(shù)據(jù)”。如果普通大眾愿意配合提供自身數(shù)據(jù),那我們?nèi)绾伪WC這些數(shù)據(jù)都是真實有效的目標(biāo)數(shù)據(jù)呢?這也是移動醫(yī)療需要提前考慮的一個重要問題。
我們假設(shè)某移動醫(yī)療企業(yè),不帶偏向性地深入市場調(diào)研然后進行大數(shù)據(jù)分析證明,20~40歲群體中有20%的人每日鍛煉時間在2小時以上。從該公司的整個調(diào)查和分析過程中,確實是沒有什么問題,均衡性檢驗我們也發(fā)現(xiàn)不了異常。但是!有時候我們忽略了,被調(diào)查的人他們自己會虛報情況!出于這樣那樣的原因,比如跟別人說自己從來不運動,是不是不好啊,沒面子啊,感覺很low啊,于是就會將自己的數(shù)據(jù)向上統(tǒng)計。
所以喬布斯說,我從來不做所謂的市場調(diào)查,這是有原因的。因為主觀性數(shù)據(jù)非常容易出現(xiàn)虛假!在進行街頭調(diào)查的時候,你可能會得出,喜歡閱讀各類時尚雜志和財經(jīng)雜志的人特別多,但是當(dāng)大伙冷靜地看一下銷售量,你就會發(fā)現(xiàn)故事會、知音和青年文摘這種有深度的期刊,其月銷量是某些“高大上”雜志的幾十倍!
全文連載至現(xiàn)在將告一段路,Dr.2收到了很多小伙伴們的反饋、鼓勵與批評,我將其整理了一下,發(fā)現(xiàn)這也是一個有意思的小規(guī)模“大數(shù)據(jù)分析”。一般移動醫(yī)療從業(yè)者,他們中性或者批評意見比較多,不明真相的群眾一般都是“好,太棒了,漲姿勢”之類的話,專業(yè)人士多會針對某一點進行辯論和探討,并給我列出不少參考文獻,在此一并感謝,我會繼續(xù)努力學(xué)習(xí),與時俱進的!
最近我讀了美國頗有影響力的預(yù)測專家納特·西爾弗的《信號與噪聲》,他在書中分析到:“如果信息的數(shù)量以每天250兆億字節(jié)的速度增長,其中有用的信息肯定接近于零。大部分信息都只是噪聲而已,而且噪聲的增長速度要比信號快得多。”由此看來,當(dāng)數(shù)據(jù)信息鋪天蓋地而來之時,我們也有可能距離真相越來越遠。最后我也提出一個問題讓大家進行思考,因為批評一件事很容易,構(gòu)建一個體系很困難,在現(xiàn)實中,對于一個想以大數(shù)據(jù)分析來運營驅(qū)動的移動醫(yī)療企業(yè)來說,到底該如何去做才能一步一步實現(xiàn)我們的理想呢?