自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

大數(shù)據算法天花亂墜的時代,如何識別“數(shù)據陷阱”?

大數(shù)據
“數(shù)據成了新式胡扯者的殺手锏”。但我們絕不否認科學是理解物理世界的一個成功的標準手段。不管我們抱怨什么,不管我們發(fā)現(xiàn)了什么偏見,不管我們遇到什么問題,不管我們說了什么廢話,科學最終還是會成功的。

過去的一周,你心情咋樣?

除了股票基金過山車般的漲跌之外,工作例會上,你使用的數(shù)據PPT模板讓展示更加美觀有趣,獲得老板好評。

一把游戲結束,系統(tǒng)自動送上戰(zhàn)力統(tǒng)計,你的隊友明顯拖了后腿,下次不要和ta組隊了。

此時手機又提醒你視屏時間過長,建議休息一下,因為科學研究表明,連續(xù)視屏超過x小時便會使視力下降y%……

我們信任數(shù)據,認為數(shù)據總是客觀情況的客觀反映??墒聦嵳娴娜绱藛?

2018年,復旦大學開設了一門新的通識課程,邀請學校多個專業(yè)的教授對學生每天可能接觸到的信息進行“真?zhèn)舞b定”,向學生闡述什么是“偽科學”,一經開課便節(jié)節(jié)爆滿。

這門名叫“似是而非”的新課并非復旦大學首創(chuàng),它的靈感來源于美國華盛頓大學的“拆穿胡扯”(Calling Bullshit)公開課。

這門課由生物學教授卡爾·伯格斯特龍和信息學副教授杰文·韋斯特聯(lián)合主講,他們從邏輯和傳播渠道的角度揭開數(shù)據偽科學如何產生與傳播。課程信息一掛在官網就被搶光名額。

這兩門課如此火爆,原因是相同的:識別數(shù)據陷阱,已然成為當代生活的剛需。數(shù)據信息真的可以為“偽科學”操控,雖然我們已經能夠識別出披著“震驚×××”外衣的老式胡扯,但它們分裂出來的新亞種令人眼花繚亂。

伯格斯特龍和韋斯特將這些把戲統(tǒng)稱為“胡扯”,這門教大家識別并指斥胡扯的課程廣受好評,講義的衍生書籍保留了課程辛辣的原名,中文版便是《拆穿數(shù)據胡扯》。

何為胡扯?

那么胡扯到底指什么呢?

作者伯格斯特龍和韋斯特認為:

  • 胡扯就是全然不顧事實、邏輯連貫性或實際傳遞的信息,而是利用語言、統(tǒng)計數(shù)字、數(shù)據圖表和其他表現(xiàn)形式,通過分散注意力、震懾或恐嚇等方法,達到說服或打動聽話人的目的。

數(shù)據胡扯的最終目的,是通過有意為之的操作,使本應該客觀的數(shù)據,為己所用。

我們暴露在胡扯面前的時間和機率可能遠遠超過我們所認為的,形式也是五花八門。

胡扯的視覺把戲

“大鴨子”是一個養(yǎng)鴨戶于1931年建造的鴨子形商店,如今已經成為一個受人喜愛的地標。

但是作為一座建筑,大鴨子并沒有什么特別的功能。在建筑理論中,它已經成為形式優(yōu)先于功能的標志,“鴨子”也由此成了裝飾超過用途的建筑的代名詞。

相似地,形式大于數(shù)據的圖形就可被稱為“鴨子”。

下面這個圖形的設計者用兩個餐叉的尖齒代表條形圖中的條形。

這樣做有什么壞處呢?壞處很多:

  • 條形是圖形中承載信息的部分,但它們在這張圖中只占了很小一部分空間;
  • 傾斜的角度也會引發(fā)爭議,因為我們不習慣解讀這種角度的條形圖;
  • 兩把餐叉并排,但底部水平線并沒有對齊,容易造成錯覺;

幸好數(shù)值被寫出來了。但如果必須依靠數(shù)值來解讀圖形,為什么不直接用表格避免前三個壞處呢?

我們說胡扯就是公然無視事實和邏輯連貫性,企圖通過分散注意力、震懾或恐嚇來說服或打動受眾。

但可愛有什么不對嗎?其實“鴨子”真正讓我們擔心的原因在于,試圖裝得可愛會讓讀者更難理解它表示的數(shù)據,逐漸變成胡扯。

比如這張圖,創(chuàng)意可嘉,但是把一個餅形圖扭曲成羊角,只會在讀者對這些數(shù)量進行視覺比較時增加難度。

數(shù)據可視化的“鴨子”只是有胡扯的影子,那么被我們稱為“水晶鞋”的那一類數(shù)據可視化就是完美的胡扯。

“水晶鞋”是將一種類型的數(shù)據硬套上用于展示另一類數(shù)據的視覺形式。這樣做的目的是借用好的可視化形式的權威性表現(xiàn)自己的權威性,完全不考慮數(shù)據本身與形式的兼容性。

就像格林兄弟的原版《灰姑娘》故事中,繼姐為了穿上水晶鞋切掉了腳趾,削平了腳后跟。

其中最被濫用的形式之一就是地鐵線路圖,它甚至引發(fā)了元層級的評論——“以地鐵線路圖作為象征的地圖的地鐵線路圖”。

以地鐵線路圖作為象征的地圖的地鐵線路圖

另一種流行的圖表形式是帶標簽的示意圖。這種圖的“重災區(qū)”之一,就是PPT。

誰沒用過幾個看起來豐富、有趣又清晰的PPT模板呢?或者自創(chuàng)一些可愛的模型,就像這只獨角獸。

然而圖表上的標簽毫無道理可言。前肢與“機器學習”和“可視化”有什么關系?為什么“R編程”與后腿有關呢?右后腿為什么沒有加標簽?為什么頭部的“分析型思想者”指的是一種人,而身體的其他部分指的是技能?……

扭曲的數(shù)字黑箱

如果我們給“鴨子”們“拔毛”,讓數(shù)據赤裸裸地呈現(xiàn)在我們眼前,是不是就可以規(guī)避掉胡扯了?一定意義上是的,但不絕對。因為還存在著另一種更加隱形的欺詐——數(shù)據的來源本身。

當科學家測量元素的原子質量時,這些元素不會密謀增加自己的重量,以便把自己在元素周期表上的位置悄悄往后挪一點兒。

順便說一句,元素周期表也是一款常用“水晶鞋”

但是,管理者往往會有所體會——當他們衡量員工的工作效率時,員工往往會在量化數(shù)據上做文章,以讓工作表現(xiàn)更好看一些。

我們在很多領域都能看到這個現(xiàn)象。

當汽車銷售人員按達成的銷售額獲得獎金時,他們就會為客戶提供更大的折扣,以便快速完成銷售額;而當銷售數(shù)量成為目標時,銷售人員也會提供更大的折扣,以快速增加銷售量。

這兩個方式并不能都保證利潤成正比增長,而利潤往往是企業(yè)最看重的。

這便是“古德哈特定律”:

  • 指標變成目標后,就不再是一個好的指標。

如果某個指標附加有足夠多的獎勵,人們就會想方設法地提高自己的得分,而這樣做就會削弱該指標原本的評估價值。正是量化指標本身改變了需要量化的對象的行為。

還有一種更接近純粹胡扯的現(xiàn)象——數(shù)學濫用,而且它并不罕見。

數(shù)學濫用(Mathiness)指的是那些看起來都像是數(shù)學表達式的東西,但它們和數(shù)學可以說是毫無關系。

比如信任方程:

按照這個方程,當自利感降到最低時,信任度就會非常高,那么我們是不是應該根據拋硬幣的結果決定一切呢?畢竟硬幣真實可靠又不會自私自利。

又如“一年中最悲傷的一天”(一月的第三個星期一)的公式:

W代表天氣,d代表債務,T代表圣誕節(jié)以來的時間,Q代表放棄新年決心以來的時間,M代表干勁不足,Na代表采取行動的必要性。(不清楚D在公式中代表什么。)

看起來多么像是一種嚴謹?shù)臄?shù)學方法!但它到底是什么意思呢?這些量如何測量,單位又是什么?如果只是要表達正相關還是負相關,那么大可不必采取這種形式,它不但無用,還會讓人費解。

數(shù)據胡扯,科學領域也不能幸免

是的,科學領域也會屢屢中招。

還記得古德哈特定律嗎?“指標變成目標后,就不再是一個好的指標?!痹诳茖W領域,使用引文指標來衡量期刊質量已經導致編輯鉆制度空子。

有的期刊會在1月份發(fā)表更多文章,這樣一來,這些文章本年度被引用的機會就會增加。所有這些反常的行為都違背了期刊的使命,削弱了引用數(shù)作為質量指標的有效性。

類似地,對科研人士的論文數(shù)量指標催生了只要給錢便可發(fā)表文章的“掠奪性期刊”,也讓科研領域成為了胡扯的高發(fā)地帶。

雖然掠奪性期刊的主要客戶是給簡歷增色的邊緣學術人,但也包括氣候懷疑論者、反對疫苗者、神創(chuàng)論者和艾滋病否認論者。

他們以版面費為代價換取在科研領域的“一面之地”,然后說他們的邊緣信仰通過了“同行評議”的科學。這是典型的胡扯污染。

作為讀者,我們沒有任何萬無一失的方法,可以確定無疑地知道一篇科學論文是否完全正確。但伯格斯特龍和韋斯特提醒我們,至少要保持合理的懷疑,這是辨別胡扯的第一步。

比如注意論文中的論斷與它是在哪兒發(fā)表的是否相匹配,尤其要警惕低層次期刊上出現(xiàn)的異乎尋常的論斷。

拆穿胡扯,你需要一些技巧

辨別可能的胡扯的最終目的,是指斥胡扯。

然而清除胡扯的代價要遠遠高于制造胡扯,哪怕真正符合科研方法論的論文也是如此。

伯格斯特龍和韋斯特就借助一個精彩的駁斥案例,反證了這種“高端胡扯”的屏蔽性與危險。他們給這種方法取名為“令人難忘駁斥法”。

這個令人難忘的針對功能磁共振成像技術(fMRI)的駁斥出現(xiàn)在一次神經科學會議上。

fMRI能夠幫助神經科學家探索哪些大腦區(qū)域參與了哪些認知,典型的研究會比較對象和對照組的fMRI圖像,并思考為什么大腦的某些部分亮度有所不同。

但是,實驗軟件必須對評估結果的統(tǒng)計學意義做出假設。而最近的一項研究表明,這些假設有時會嚴重夸大差異。問題已經暴露,但科學家們并未對這個問題的嚴重性達成一致。

于是一份標題為《通過死大西洋鮭魚研究人類神經活動:論多重比較校正的重要性》的學術墻報登場了。你沒看錯:一條死鮭魚。

這是一個故意為之的愚蠢實驗。研究人員跟那條死魚交談,還給它看了人們在不同社交環(huán)境中的照片。結果令人震驚。當鮭魚被問及人們的情緒時,影像顯示它腦干的幾個區(qū)域表現(xiàn)出來的活躍性高于它在“休息”時的活躍性。

這還只是對人類社交場景的“反應”,想象一下,如果這條鮭魚被問及鮭魚的情緒,這些區(qū)域會多么明亮。

要么是我們在死魚認知方面取得了驚人發(fā)現(xiàn),要么是我們未經修正的統(tǒng)計方法出了問題。

指斥胡扯不只是為了增強自信,它還是一種道義上的責任。正如我們在開頭所說,世界充斥著各式各樣的胡扯,有些是無傷大雅的,有些是小麻煩,還有一些甚至很有趣,但很多胡扯會給科學的誠實和生死攸關的決策帶來嚴重的后果。

“數(shù)據成了新式胡扯者的殺手锏”。但我們絕不否認科學是理解物理世界的一個成功的標準手段。不管我們抱怨什么,不管我們發(fā)現(xiàn)了什么偏見,不管我們遇到什么問題,不管我們說了什么廢話,科學最終還是會成功的。

部分內容摘編自《拆穿數(shù)據胡扯》,中信出版社出版。

責任編輯:未麗燕 來源: 大數(shù)據文摘
相關推薦

2020-03-04 17:19:35

無服務器架構計算

2014-12-01 17:18:29

Teradata 大數(shù)據天睿

2019-08-19 09:35:22

大數(shù)據數(shù)據算法算法崇拜

2015-07-15 10:49:37

SDN管理網絡

2012-11-27 11:10:11

云計算經濟

2018-07-23 14:51:22

2021-10-29 22:45:47

大數(shù)據算法技術

2021-06-30 07:08:14

安全解決方案XDR安全技術

2016-08-22 12:50:11

2014-08-08 09:48:09

2013-06-13 09:42:11

大數(shù)據

2015-12-14 17:52:06

ENI經濟和信息化網

2017-06-09 05:55:56

存儲機器學習人工智能

2021-09-30 16:28:34

大數(shù)據數(shù)據管理企業(yè)

2012-05-14 10:09:19

大數(shù)據Hadoop云計算

2016-09-20 10:15:40

華為

2023-09-20 16:33:09

大數(shù)據數(shù)據指標

2013-09-17 18:24:46

SAP

2013-12-02 10:02:30

大數(shù)據時代

2012-02-27 09:39:11

數(shù)據中心大數(shù)據
點贊
收藏

51CTO技術棧公眾號