大數(shù)據算法天花亂墜的時代,如何識別“數(shù)據陷阱”?
過去的一周,你心情咋樣?
除了股票基金過山車般的漲跌之外,工作例會上,你使用的數(shù)據PPT模板讓展示更加美觀有趣,獲得老板好評。
一把游戲結束,系統(tǒng)自動送上戰(zhàn)力統(tǒng)計,你的隊友明顯拖了后腿,下次不要和ta組隊了。
此時手機又提醒你視屏時間過長,建議休息一下,因為科學研究表明,連續(xù)視屏超過x小時便會使視力下降y%……
我們信任數(shù)據,認為數(shù)據總是客觀情況的客觀反映??墒聦嵳娴娜绱藛?
2018年,復旦大學開設了一門新的通識課程,邀請學校多個專業(yè)的教授對學生每天可能接觸到的信息進行“真?zhèn)舞b定”,向學生闡述什么是“偽科學”,一經開課便節(jié)節(jié)爆滿。
這門名叫“似是而非”的新課并非復旦大學首創(chuàng),它的靈感來源于美國華盛頓大學的“拆穿胡扯”(Calling Bullshit)公開課。
這門課由生物學教授卡爾·伯格斯特龍和信息學副教授杰文·韋斯特聯(lián)合主講,他們從邏輯和傳播渠道的角度揭開數(shù)據偽科學如何產生與傳播。課程信息一掛在官網就被搶光名額。
這兩門課如此火爆,原因是相同的:識別數(shù)據陷阱,已然成為當代生活的剛需。數(shù)據信息真的可以為“偽科學”操控,雖然我們已經能夠識別出披著“震驚×××”外衣的老式胡扯,但它們分裂出來的新亞種令人眼花繚亂。
伯格斯特龍和韋斯特將這些把戲統(tǒng)稱為“胡扯”,這門教大家識別并指斥胡扯的課程廣受好評,講義的衍生書籍保留了課程辛辣的原名,中文版便是《拆穿數(shù)據胡扯》。
何為胡扯?
那么胡扯到底指什么呢?
作者伯格斯特龍和韋斯特認為:
- 胡扯就是全然不顧事實、邏輯連貫性或實際傳遞的信息,而是利用語言、統(tǒng)計數(shù)字、數(shù)據圖表和其他表現(xiàn)形式,通過分散注意力、震懾或恐嚇等方法,達到說服或打動聽話人的目的。
數(shù)據胡扯的最終目的,是通過有意為之的操作,使本應該客觀的數(shù)據,為己所用。
我們暴露在胡扯面前的時間和機率可能遠遠超過我們所認為的,形式也是五花八門。
胡扯的視覺把戲
“大鴨子”是一個養(yǎng)鴨戶于1931年建造的鴨子形商店,如今已經成為一個受人喜愛的地標。
但是作為一座建筑,大鴨子并沒有什么特別的功能。在建筑理論中,它已經成為形式優(yōu)先于功能的標志,“鴨子”也由此成了裝飾超過用途的建筑的代名詞。
相似地,形式大于數(shù)據的圖形就可被稱為“鴨子”。
下面這個圖形的設計者用兩個餐叉的尖齒代表條形圖中的條形。
這樣做有什么壞處呢?壞處很多:
- 條形是圖形中承載信息的部分,但它們在這張圖中只占了很小一部分空間;
- 傾斜的角度也會引發(fā)爭議,因為我們不習慣解讀這種角度的條形圖;
- 兩把餐叉并排,但底部水平線并沒有對齊,容易造成錯覺;
幸好數(shù)值被寫出來了。但如果必須依靠數(shù)值來解讀圖形,為什么不直接用表格避免前三個壞處呢?
我們說胡扯就是公然無視事實和邏輯連貫性,企圖通過分散注意力、震懾或恐嚇來說服或打動受眾。
但可愛有什么不對嗎?其實“鴨子”真正讓我們擔心的原因在于,試圖裝得可愛會讓讀者更難理解它表示的數(shù)據,逐漸變成胡扯。
比如這張圖,創(chuàng)意可嘉,但是把一個餅形圖扭曲成羊角,只會在讀者對這些數(shù)量進行視覺比較時增加難度。
數(shù)據可視化的“鴨子”只是有胡扯的影子,那么被我們稱為“水晶鞋”的那一類數(shù)據可視化就是完美的胡扯。
“水晶鞋”是將一種類型的數(shù)據硬套上用于展示另一類數(shù)據的視覺形式。這樣做的目的是借用好的可視化形式的權威性表現(xiàn)自己的權威性,完全不考慮數(shù)據本身與形式的兼容性。
就像格林兄弟的原版《灰姑娘》故事中,繼姐為了穿上水晶鞋切掉了腳趾,削平了腳后跟。
其中最被濫用的形式之一就是地鐵線路圖,它甚至引發(fā)了元層級的評論——“以地鐵線路圖作為象征的地圖的地鐵線路圖”。
以地鐵線路圖作為象征的地圖的地鐵線路圖
另一種流行的圖表形式是帶標簽的示意圖。這種圖的“重災區(qū)”之一,就是PPT。
誰沒用過幾個看起來豐富、有趣又清晰的PPT模板呢?或者自創(chuàng)一些可愛的模型,就像這只獨角獸。
然而圖表上的標簽毫無道理可言。前肢與“機器學習”和“可視化”有什么關系?為什么“R編程”與后腿有關呢?右后腿為什么沒有加標簽?為什么頭部的“分析型思想者”指的是一種人,而身體的其他部分指的是技能?……
扭曲的數(shù)字黑箱
如果我們給“鴨子”們“拔毛”,讓數(shù)據赤裸裸地呈現(xiàn)在我們眼前,是不是就可以規(guī)避掉胡扯了?一定意義上是的,但不絕對。因為還存在著另一種更加隱形的欺詐——數(shù)據的來源本身。
當科學家測量元素的原子質量時,這些元素不會密謀增加自己的重量,以便把自己在元素周期表上的位置悄悄往后挪一點兒。
順便說一句,元素周期表也是一款常用“水晶鞋”
但是,管理者往往會有所體會——當他們衡量員工的工作效率時,員工往往會在量化數(shù)據上做文章,以讓工作表現(xiàn)更好看一些。
我們在很多領域都能看到這個現(xiàn)象。
當汽車銷售人員按達成的銷售額獲得獎金時,他們就會為客戶提供更大的折扣,以便快速完成銷售額;而當銷售數(shù)量成為目標時,銷售人員也會提供更大的折扣,以快速增加銷售量。
這兩個方式并不能都保證利潤成正比增長,而利潤往往是企業(yè)最看重的。
這便是“古德哈特定律”:
- 指標變成目標后,就不再是一個好的指標。
如果某個指標附加有足夠多的獎勵,人們就會想方設法地提高自己的得分,而這樣做就會削弱該指標原本的評估價值。正是量化指標本身改變了需要量化的對象的行為。
還有一種更接近純粹胡扯的現(xiàn)象——數(shù)學濫用,而且它并不罕見。
數(shù)學濫用(Mathiness)指的是那些看起來都像是數(shù)學表達式的東西,但它們和數(shù)學可以說是毫無關系。
比如信任方程:
按照這個方程,當自利感降到最低時,信任度就會非常高,那么我們是不是應該根據拋硬幣的結果決定一切呢?畢竟硬幣真實可靠又不會自私自利。
又如“一年中最悲傷的一天”(一月的第三個星期一)的公式:
W代表天氣,d代表債務,T代表圣誕節(jié)以來的時間,Q代表放棄新年決心以來的時間,M代表干勁不足,Na代表采取行動的必要性。(不清楚D在公式中代表什么。)
看起來多么像是一種嚴謹?shù)臄?shù)學方法!但它到底是什么意思呢?這些量如何測量,單位又是什么?如果只是要表達正相關還是負相關,那么大可不必采取這種形式,它不但無用,還會讓人費解。
數(shù)據胡扯,科學領域也不能幸免
是的,科學領域也會屢屢中招。
還記得古德哈特定律嗎?“指標變成目標后,就不再是一個好的指標?!痹诳茖W領域,使用引文指標來衡量期刊質量已經導致編輯鉆制度空子。
有的期刊會在1月份發(fā)表更多文章,這樣一來,這些文章本年度被引用的機會就會增加。所有這些反常的行為都違背了期刊的使命,削弱了引用數(shù)作為質量指標的有效性。
類似地,對科研人士的論文數(shù)量指標催生了只要給錢便可發(fā)表文章的“掠奪性期刊”,也讓科研領域成為了胡扯的高發(fā)地帶。
雖然掠奪性期刊的主要客戶是給簡歷增色的邊緣學術人,但也包括氣候懷疑論者、反對疫苗者、神創(chuàng)論者和艾滋病否認論者。
他們以版面費為代價換取在科研領域的“一面之地”,然后說他們的邊緣信仰通過了“同行評議”的科學。這是典型的胡扯污染。
作為讀者,我們沒有任何萬無一失的方法,可以確定無疑地知道一篇科學論文是否完全正確。但伯格斯特龍和韋斯特提醒我們,至少要保持合理的懷疑,這是辨別胡扯的第一步。
比如注意論文中的論斷與它是在哪兒發(fā)表的是否相匹配,尤其要警惕低層次期刊上出現(xiàn)的異乎尋常的論斷。
拆穿胡扯,你需要一些技巧
辨別可能的胡扯的最終目的,是指斥胡扯。
然而清除胡扯的代價要遠遠高于制造胡扯,哪怕真正符合科研方法論的論文也是如此。
伯格斯特龍和韋斯特就借助一個精彩的駁斥案例,反證了這種“高端胡扯”的屏蔽性與危險。他們給這種方法取名為“令人難忘駁斥法”。
這個令人難忘的針對功能磁共振成像技術(fMRI)的駁斥出現(xiàn)在一次神經科學會議上。
fMRI能夠幫助神經科學家探索哪些大腦區(qū)域參與了哪些認知,典型的研究會比較對象和對照組的fMRI圖像,并思考為什么大腦的某些部分亮度有所不同。
但是,實驗軟件必須對評估結果的統(tǒng)計學意義做出假設。而最近的一項研究表明,這些假設有時會嚴重夸大差異。問題已經暴露,但科學家們并未對這個問題的嚴重性達成一致。
于是一份標題為《通過死大西洋鮭魚研究人類神經活動:論多重比較校正的重要性》的學術墻報登場了。你沒看錯:一條死鮭魚。
這是一個故意為之的愚蠢實驗。研究人員跟那條死魚交談,還給它看了人們在不同社交環(huán)境中的照片。結果令人震驚。當鮭魚被問及人們的情緒時,影像顯示它腦干的幾個區(qū)域表現(xiàn)出來的活躍性高于它在“休息”時的活躍性。
這還只是對人類社交場景的“反應”,想象一下,如果這條鮭魚被問及鮭魚的情緒,這些區(qū)域會多么明亮。
要么是我們在死魚認知方面取得了驚人發(fā)現(xiàn),要么是我們未經修正的統(tǒng)計方法出了問題。
指斥胡扯不只是為了增強自信,它還是一種道義上的責任。正如我們在開頭所說,世界充斥著各式各樣的胡扯,有些是無傷大雅的,有些是小麻煩,還有一些甚至很有趣,但很多胡扯會給科學的誠實和生死攸關的決策帶來嚴重的后果。
“數(shù)據成了新式胡扯者的殺手锏”。但我們絕不否認科學是理解物理世界的一個成功的標準手段。不管我們抱怨什么,不管我們發(fā)現(xiàn)了什么偏見,不管我們遇到什么問題,不管我們說了什么廢話,科學最終還是會成功的。
部分內容摘編自《拆穿數(shù)據胡扯》,中信出版社出版。