數(shù)據(jù)騙子無處不在,教你拆穿所謂“萬金油”
本文轉載自公眾號“讀芯術”(ID:AI_Discovery)
數(shù)據(jù)分析師、機器學習/人工智能工程師、統(tǒng)計學家,這樣的頭銜是不是聽起來很高大上?但小心別被騙了!高薪誘惑之下,不少數(shù)據(jù)騙子也隱藏在其中,這些騙子毀了遵紀守法的數(shù)據(jù)專業(yè)人士的好名聲。
數(shù)據(jù)騙子非常善于在眾目睽睽之下隱藏自己,你甚至可能都沒有意識到他們的存在,他們有可能就藏身于你的公司當中、不過還好,如果你知道該找些什么線索,那么他們是很容易識別的。第一點線索就是,他們無法理解分析學和統(tǒng)計學是兩個截然不同的學科。
不同的學科
統(tǒng)計學家接受的訓練是推斷數(shù)據(jù)之外的內容,而分析師接受的訓練是探究數(shù)據(jù)集中的內容。換句話說,分析師根據(jù)數(shù)據(jù)中包含的內容得出結論,而統(tǒng)計學家根據(jù)未包含于數(shù)據(jù)中的內容得出結論。分析師幫助你提出好問題(假設生成),而統(tǒng)計學家?guī)椭惬@得理想答案(假設測試)。
還有一些神奇的“混血”,會擁有兩種身份……但他們不會同時扮演這兩種角色。為什么呢?數(shù)據(jù)科學的一條核心原則是,如果要處理不確定性,則不能使用相同的數(shù)據(jù)點進行假設生成和假設測試。數(shù)據(jù)有限時,不確定性會迫使你在統(tǒng)計學和分析學之間做出選擇。
沒有統(tǒng)計學,就無法知道自己剛剛產(chǎn)生的觀點是否站得住腳。沒有分析學,就只能在摸索中前進,幾乎無法掌握未知的未知。
這是一個艱難的選擇!是睜開雙眼接受靈感(分析學),發(fā)誓放棄知道新發(fā)現(xiàn)是否能站住腳的滿足感,還是冒著冷汗祈禱自己選擇要問的(在沒有任何數(shù)據(jù)的情況下,一個人在雜物室里冥思苦想出來的)問題值得自己即將得到的嚴密答案(統(tǒng)計學)?
“兜售”后見之明的小販
騙子擺脫這種困境的方式是對其視而不見,發(fā)現(xiàn)一片薯片長得像貓王,然后假裝對這一事實感到驚訝。(統(tǒng)計假設測試的邏輯可以歸結為:我們的數(shù)據(jù)是否讓我們驚訝到改變自己的想法。如果我們已經(jīng)見過這些數(shù)據(jù),我們又怎么會對它們感到驚訝呢?)
在你看來,圖片中的云朵和薯片長得像兔子還是像貓王呢?亦或是像某一位總統(tǒng)?
騙子發(fā)現(xiàn)一個模式并從中得到啟發(fā),然后以相同的模式測試相同的數(shù)據(jù),為的是用一到兩個合理的p值生成可驗證其理論的結果,他們這樣做實際上是在欺騙你(可能也是在欺騙他們自己)。這樣的p值沒有任何意義,除非在查看數(shù)據(jù)之前對假設作出承諾。
騙子模仿分析師和統(tǒng)計學家的一舉一動,卻并不明白其中緣由,這為整個數(shù)據(jù)科學領域帶來了不好的聲譽。
真正的統(tǒng)計學家總是謹慎行事
由于統(tǒng)計學家在嚴密的推理方面享有近乎神秘的聲譽,“萬金油”在數(shù)據(jù)科學領域的出現(xiàn)頻率創(chuàng)下了歷史新高。這種騙術不易被人發(fā)覺,尤其是在那些毫無防備的受害者認為這正關系到方程和數(shù)據(jù)的時候。數(shù)據(jù)集就是數(shù)據(jù)集,對嗎?錯,要看你如何使用數(shù)據(jù)集。
這些騙子身上都帶有冒牌貨的標志,你只需要一個線索就可以識破他們的真面目:騙子只有后見之明——用數(shù)學重新發(fā)現(xiàn)他們已經(jīng)知道的存在于數(shù)據(jù)中的現(xiàn)象,而統(tǒng)計學家提供的是具有先見之明的測試。
與騙子不同,優(yōu)秀的分析師是思想開放的典范,總是將鼓舞人心的見解與提醒相結合,提醒人們觀察到的某種現(xiàn)象可能有多種不同的解釋,而優(yōu)秀的統(tǒng)計學家則會謹慎地做出決定。
分析師帶來靈感
分析師不必負責一切,他們要根據(jù)數(shù)據(jù)中包含的內容得出結論。如果他們想對沒見過的事物提出觀點,那他們擔任的就是另一種工作了。他們應該摘下分析師的“帽子”,帶上“統(tǒng)計學家”的頭盔。畢竟,無論你的正式職位是什么,都沒有這樣一條規(guī)則說你不能投身兩種行業(yè)。只要你想,就可以這么做,只是不要把它們弄混了。
騙子怎樣測試假設
擅長統(tǒng)計并不意味著擅長分析,反之亦然。如果有人跟你說的與之相反,請自行思考。如果這個人告訴你,你可以對你研究過的數(shù)據(jù)進行統(tǒng)計推斷,請再次問問自己。他很有可能是個騙子。
隱藏在天花亂墜的解釋背后
如果你在現(xiàn)實生活中觀察數(shù)據(jù)騙子,你會發(fā)現(xiàn)他們喜歡編造一些天花亂墜的故事來“解釋”觀察到的數(shù)據(jù):故事聽起來越學術越好,并不在乎它們只是(過分)符合事后的數(shù)據(jù)。
騙子這樣做完全是胡扯。再多的方程甚至是夸夸其談也無法彌補這樣一個事實:他們沒有證據(jù)表明他們知道自己談論的內容超過了數(shù)據(jù)的范圍。不要被他們天花亂墜的解釋蒙騙了。如果是統(tǒng)計推斷,他們就必須在看到數(shù)據(jù)之前謹慎做出決定。
這相當于炫耀他們的“通靈”能力,先瞄一眼你出的牌,然后預測你手上拿著什么牌……無論你拿著什么牌,他們都能預測出來。做好準備,聽聽他們的花言巧語:你的面部表情如何將你手中的牌泄露給他們。這是后見之明偏誤,它在數(shù)據(jù)科學領域隨處可見。
分析師說,“這是你剛才出的方塊皇后。”統(tǒng)計學家說,“游戲開始之前,我把我的假設寫在了這張紙片上。我們開始吧,觀察一些數(shù)據(jù),看我假設得對不對。”騙子說,“我早知道你要出方塊皇后,因為……”
機器學習說,“我要一直提前調用它,看看我完成得如何。然后重復再重復。我可能會調整自己的反應,從而適應某個有效的策略。但我會用某個算法來完成這一過程,因為手動追蹤這一切實在太煩人了,”
阻止騙子進入你的生活
要處理的數(shù)據(jù)不算太多時,你必須要在統(tǒng)計學和分析學之間做出選擇。幸運的是,如果你有大量數(shù)據(jù),那么你將有一個絕妙的機會來利用自己的分析和統(tǒng)計信息,而不會上當受騙。你還可以通過一個完美的計策來讓自己免受騙子侵害,這叫做“數(shù)據(jù)拆分”,筆者認為這是數(shù)據(jù)科學中最強大的思想。
為保護自己免受騙子侵害,你要做的就是確保某些測試數(shù)據(jù)處于他們可窺探到的范圍之外,然后將其他所有內容看作分析學(不要當真)。當你面對某種你可能會全盤接受的理論時,可以用它來替你做主,然后打開你的秘密測試數(shù)據(jù),看看這個理論是不是一派胡言。
從人們習慣的時代到“小數(shù)據(jù)”時代,這是一個巨大的文化轉變,你必須解釋自己是如何知道自己所知道的東西,才能以一種輕松的方式-說服人們,你可能確實知道一些東西。
同樣的道理也適用于機器學習/人工智能
一些偽裝成機器學習/人工智能專家的騙子很容易被識破。你可以通過識破蹩腳工程師的方法來識破他們:他們反復嘗試構建的“解決方案”無法交付。(較早的預警信號是他們缺乏行業(yè)標準編程語言和庫的經(jīng)驗。)
但是那些構建出看上去可以正常運行的系統(tǒng)的人呢?你怎么知道事情是否有可疑之處?同樣的道理也適用于此!騙子是陰險的,他會向你展示他們的模型有多好,用的是他們制作模型時使用的數(shù)據(jù)。如果你構建了一個極其復雜的機器學習系統(tǒng),你怎么知道它能不能正常運行呢?你沒法知道,除非你能證明它可以處理以前從未見過的新數(shù)據(jù)。
有足夠的數(shù)據(jù)可以分割時,無需改變工整的公式即可證明項目的合理性(這仍然是一種老習慣,在任何地方都可以看到,不僅僅是在科學領域)。
進行統(tǒng)計工作或保持謙虛的態(tài)度
套用經(jīng)濟學家保羅·薩繆爾森(Paul Samuelson)的一句俏皮話:騙子成功預測了最近五次衰退中的九次衰退。
筆者對數(shù)據(jù)騙子沒有耐心。“了解”一些長得像貓王的薯片又怎樣?沒人在乎你的觀點是不是符合原來的“薯片”。解釋再天花亂墜,筆者也不為所動??纯蠢碚?模型能不能適用于(而且能夠一直適用于)一大堆從未見過的新“薯片”,這才是對該觀點的真正考驗。
給數(shù)據(jù)科學專業(yè)人士的建議
數(shù)據(jù)科學專業(yè)人士,如果你想得到那些明白此處幽默的人的重視,請不要再用花哨的方程式來支持你的個人偏見。讓我們看看你的真才實學。如果你想讓那些“了解”你理論/模型的人將這些理論/模型看作是鼓舞人心的詩歌,那么就請大膽地在他們面前用全新的數(shù)據(jù)集進行一次偉大的展示吧!
給領導者的建議
領導者不愿認真看待任何與數(shù)據(jù)有關的“見解”,除非這些見解已經(jīng)通過了新數(shù)據(jù)的測試。不想付出努力嗎?要堅持利用分析學,但不要依賴于這些見解——它們站不住腳,而且其可信度尚未通過檢查。
此外,公司擁有大量數(shù)據(jù)時,將分割數(shù)據(jù)作為科學文化的核心部分,甚至通過對專用于統(tǒng)計數(shù)據(jù)的測試數(shù)據(jù)的訪問加以控制,從而將其應用于基礎架構,這不會有任何壞處。這是一個將“萬金油”扼殺于搖籃之中的好辦法!
數(shù)據(jù)過少而無法分割時,只有數(shù)據(jù)騙子才會嚴格追隨他們的靈感,用數(shù)學方法重新發(fā)現(xiàn)他們已知的存在于數(shù)據(jù)中的現(xiàn)象,宣稱他們的驚人發(fā)現(xiàn)具有統(tǒng)計學意義,這便是后見之明。這讓他們有別于思想開放的分析師和細心的統(tǒng)計學家。
數(shù)據(jù)充足時,要養(yǎng)成數(shù)據(jù)分割的習慣,一定要對原始數(shù)據(jù)堆的不同子集分別進行分析和統(tǒng)計。這樣你就可以在不受騙的情況下占據(jù)雙重優(yōu)勢了!