自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

丘吉爾與數(shù)據(jù)分析

大數(shù)據(jù)
數(shù)據(jù)分析已經(jīng)存在有相當(dāng)長一段時(shí)間了。早在二戰(zhàn)期間,它便是同盟國勝利的關(guān)鍵因素之一。同盟國數(shù)據(jù)分析活動著名的例子,包括破譯Enigma密碼避免德軍潛艇攻擊、使用噴火式戰(zhàn)斗機(jī)拍攝的2D圖片重構(gòu)3D圖像,幫助英國皇家空軍的情報(bào)人員分析如何在霸王行動中規(guī)避德軍V1和V2的攻擊。

[[177377]]

數(shù)據(jù)分析已經(jīng)存在有相當(dāng)長一段時(shí)間了。早在二戰(zhàn)期間,它便是同盟國勝利的關(guān)鍵因素之一。同盟國數(shù)據(jù)分析活動著名的例子,包括破譯Enigma密碼避免德軍潛艇攻擊、使用噴火式戰(zhàn)斗機(jī)拍攝的2D圖片重構(gòu)3D圖像,幫助英國皇家空軍的情報(bào)人員分析如何在霸王行動中規(guī)避德軍V1和V2的攻擊。

從與那個(gè)時(shí)代中數(shù)據(jù)分析相關(guān)的活動和人物那里學(xué)到的經(jīng)驗(yàn),對我們具有無比重要的意義。二戰(zhàn)同盟國領(lǐng)導(dǎo)人之一、英國首相丘吉爾,很多人會誤認(rèn)為“我只相信我自己篡改的數(shù)據(jù)”這句話是出自他之口。盡管這句話蘊(yùn)含了典型的“英國佬式的智慧”,但實(shí)際上,這是德國納粹宣傳部門的杜撰,用以諷刺丘吉爾。即使是這樣,丘吉爾依舊教給了我們一些與數(shù)據(jù)分析相關(guān)的有用的東西。

一個(gè)好的數(shù)據(jù)分析模型應(yīng)該滿足應(yīng)用領(lǐng)域的基本要求,遵循一定的流程。數(shù)據(jù)驅(qū)動分析CRISP-DM體系為此提供了一種結(jié)構(gòu)化的方法路徑。CRISP-DM包括了商業(yè)理解、數(shù)據(jù)理解、數(shù)據(jù)準(zhǔn)備、模型設(shè)計(jì)、模型評估、模型部署等部分。作為1953年諾貝爾文學(xué)獎的得主,丘吉爾有很多名言,可以幫助我們更好地理解這個(gè)流程。

丘吉爾與數(shù)據(jù)分析

具有可操作的方法—旨在解決現(xiàn)實(shí)的商業(yè)問題

任何數(shù)據(jù)分析項(xiàng)目都應(yīng)該起始于一個(gè)商業(yè)問題,然后提供解決問題的方案。數(shù)據(jù)分析不是純粹的技術(shù)、統(tǒng)計(jì)或是計(jì)算機(jī)練習(xí),任何數(shù)據(jù)分析模型都需要是可操作的。例如我們可以通過一個(gè)模型來預(yù)測信用卡詐騙或客戶流失率這些問題。

經(jīng)理和政治家一樣是決策者,因此他們需要有像丘吉爾所說的“預(yù)言明天、下周、下個(gè)月、下一年…將會發(fā)生什么的能力,還需要有解釋事情為什么沒有發(fā)生的能力”。換句話說,即使模型沒有預(yù)測成功,但它擁有一種以易懂的方式解釋流程的能力,這一點(diǎn)仍然至關(guān)重要。

為了將模型和業(yè)務(wù)聯(lián)系起來,相關(guān)各方需要在進(jìn)行分析尋找解決方案之前,界定和描述問題。例如,嘗試去預(yù)測10年后或者更長時(shí)間后會發(fā)生什么,從日常運(yùn)營的角度來看沒有任何意義。正如丘吉爾所言“預(yù)測太過遙遠(yuǎn)也是一種錯誤,一次只能處理命運(yùn)鏈條中一環(huán)”。很多在企業(yè)中使用的數(shù)據(jù)分析模型預(yù)測范圍不超過2-3年。

理解你掌握的數(shù)據(jù)

數(shù)據(jù)和理解之間有相當(dāng)大的鴻溝,丘吉爾認(rèn)為“真正的天才擁有處理不確定、危險(xiǎn)、沖突信息的能力”。對大多數(shù)的商業(yè)問題而言,大數(shù)據(jù)是一個(gè)復(fù)雜而且不快捷的解決途徑。它要花費(fèi)大量時(shí)間去運(yùn)作,而且起初甚至看不太清楚前景。商業(yè)數(shù)據(jù)分析專家的職責(zé)是去真正地理解數(shù)據(jù)并且選擇最重要的數(shù)據(jù)源和變量。

準(zhǔn)備數(shù)據(jù)

一旦有用數(shù)據(jù)的全景浮現(xiàn)了,分析專家將會通過整合不同數(shù)據(jù)源、選擇相關(guān)變量、清理數(shù)據(jù)集來為建模做準(zhǔn)備。這通常是一個(gè)耗時(shí)且單調(diào)乏味的任務(wù),但必須完成,如那句名言所說“如果你正在經(jīng)歷煉獄,那么請繼續(xù)走下去”。

一定記得盡可能多地去借鑒歷史信息。當(dāng)嘗試預(yù)測未來事件時(shí),使用過去的交易數(shù)據(jù)是非常有效的,因?yàn)榇蟛糠值念A(yù)測力都來自于這類型數(shù)據(jù)“越是回顧歷史,越能預(yù)見未來”。

建模:要精簡

數(shù)據(jù)分析模型不僅要有效,而且要容易解釋。

模型一定要有統(tǒng)計(jì)顯著性和預(yù)測力:“誠實(shí)是件好事,但保證正確性也很重要”。如何度量取決于分析模型類型。例如,在分類模型中(比如客戶流失或者欺詐),模型要有好的判別能力。在聚類模型中,同一類應(yīng)該盡可能保持同質(zhì)性。

但是,如果一個(gè)人太過注重統(tǒng)計(jì)精度,就有得到黑箱模型風(fēng)險(xiǎn),黑箱模型在多數(shù)商業(yè)情景中不容易被接受。典型的例子就是神經(jīng)網(wǎng)絡(luò),它的模型效果很好,但是沒有提供對數(shù)據(jù)模式的洞察力。相反,線性回歸模型非常容易被理解,但只提供了有限的建模效果。

可解釋性指數(shù)據(jù)分析模型和它描繪的模式能夠很靈活、很容易被理解。對一般的商業(yè)使用者而言模型不能太過復(fù)雜。例如,在信用卡風(fēng)險(xiǎn)模型或者醫(yī)學(xué)診斷中,需要的是具有可解釋性的模型,以提供對內(nèi)在數(shù)據(jù)模式的洞察力。“所有偉大的東西都是簡單的,很多能被表述成幾個(gè)簡單的詞匯”。

為了獲得可解釋性,模型需要簡潔,它需要找到一個(gè)模型效果(如描繪復(fù)雜過程的能力)和可解釋性的平衡點(diǎn),讓模型如同專家一樣有一種以綜合方式提供相關(guān)內(nèi)容的能力。任何人不想讓模型處于這樣一種境地“文件的長度很好地抵御了被讀的風(fēng)險(xiǎn)”。

評估模型

“無論戰(zhàn)略有多漂亮,你也應(yīng)該偶爾看看結(jié)果”換句話說,數(shù)據(jù)分析模型應(yīng)該同時(shí)具備經(jīng)濟(jì)效率和運(yùn)營效率。

為了獲得經(jīng)濟(jì)效率,商業(yè)數(shù)據(jù)分析專家需要把分析中產(chǎn)生的成本考慮進(jìn)去,這包括收集、預(yù)處理、分析數(shù)據(jù)和模型產(chǎn)品化等成本。軟件成本、人力資源流失和硬件投入都應(yīng)該考慮在內(nèi)。在項(xiàng)目開始時(shí),要做一個(gè)投入產(chǎn)出分析。

運(yùn)營效率指在實(shí)際應(yīng)用收集數(shù)據(jù)、數(shù)據(jù)預(yù)處理、評估模型、滿足產(chǎn)量所付出的努力。在現(xiàn)實(shí)中,線上評估(如欺詐監(jiān)測)可能至關(guān)重要。另外,運(yùn)營效率也指監(jiān)控和后驗(yàn)測試、必要時(shí)重新測試模型需要付出的努力。

持續(xù)完善的過程

分析模型本來就在持續(xù)的演進(jìn)中,“改進(jìn)是為了完善,經(jīng)常改進(jìn)是為了完美”。有時(shí)候甚至在第一個(gè)模型版本出來之前,商業(yè)分析專家就會意識到一些調(diào)整和微調(diào)是必要的。這是由于商業(yè)流程本身就是變化的,所以模型需要適應(yīng)這種變化,或者由于模型不理想需要微調(diào)。“成功是克服一個(gè)個(gè)失敗同時(shí)不失去激情的能力”。

模型部署

最后,在緊張激烈努力和完整透徹的分析之后,你的提議可以付諸實(shí)踐了。你的策略和行動再也不會是基于直覺的了,再也不是模糊概念,它變成事實(shí)和數(shù)據(jù)導(dǎo)向型的。正如丘吉爾先生自己做的,你將“欣慰地從原因和理論的翻騰大海中穿行至結(jié)果和真理的大地”。

數(shù)據(jù)分析:鮮血、牢籠、眼淚和汗水

成功地領(lǐng)導(dǎo)一個(gè)數(shù)據(jù)分析項(xiàng)目需要遵循一定的過程:界定商業(yè)問題來確保你的方法將產(chǎn)生可行的結(jié)果;理解和準(zhǔn)備好數(shù)據(jù);建造一個(gè)簡約、效果好的模型;能夠很容易地不斷完善模型。為次,你需要使數(shù)據(jù)分析具有可操作性、統(tǒng)計(jì)上有效且有可解釋性、具備經(jīng)濟(jì)效率和運(yùn)營效率。

如果這樣過程看起來很復(fù)雜,誰能引導(dǎo)你走向成功?那就是在統(tǒng)計(jì)、IT、編程、商業(yè)洞察力和溝通交流技能等方面具有全方位的平衡能力的數(shù)據(jù)科學(xué)家。他們在這些方面訓(xùn)練有素,將成為未來商業(yè)分析過程的核心。不幸的是,現(xiàn)有的人員中同時(shí)具備項(xiàng)目經(jīng)理、商業(yè)分析師、專業(yè)程序設(shè)計(jì)師、和統(tǒng)計(jì)等專業(yè)知識的人鳳毛麟角。

這是一個(gè)數(shù)據(jù)驅(qū)動經(jīng)濟(jì)時(shí)代,只需要極少的專家就能掌控以前需要整個(gè)團(tuán)隊(duì)管理的活動,正如丘吉爾所言“在人類戰(zhàn)爭史上,從來沒有一次像這樣,以如此少兵力,取得如此大的成就,保護(hù)如此多的眾生”。

作者簡介:

Nicolas Glady, 法國ESSEC商學(xué)院埃森哲講席教授,數(shù)字商務(wù)中心主任。主要從事市場細(xì)分、定價(jià)、客戶價(jià)值分析及大數(shù)據(jù)分析研究,同時(shí)擔(dān)任多家銀行、保險(xiǎn)、電信、快速消費(fèi)品企業(yè)的咨詢顧問。Nicolas Glady教授被Poets&Quants 網(wǎng)站評為世界上最有影響力的40位商學(xué)院教授之一。

Bart Baesens, 比利時(shí)魯汶大學(xué)教授, 主要從事大數(shù)據(jù)分析、客戶關(guān)系管理、欺詐檢測和信用風(fēng)險(xiǎn)管理等領(lǐng)域研究。Bart Baesens教授還擔(dān)任多家國際性公司數(shù)據(jù)分析咨詢顧問。更多相關(guān)信息可參見網(wǎng)站www.dataminingapps.com。

朱兵, 四川大學(xué)商學(xué)院副教授,比利時(shí)魯汶大學(xué)信息管理系博士后,主要從事金融與營銷數(shù)據(jù)分析研究。

責(zé)任編輯:未麗燕 來源: 36大數(shù)據(jù)
相關(guān)推薦

2015-08-14 10:28:09

大數(shù)據(jù)

2022-11-14 10:36:55

數(shù)據(jù)科學(xué)數(shù)據(jù)分析

2023-07-28 08:11:28

數(shù)據(jù)分析開源框架

2023-11-24 08:47:36

ScipyPython

2017-02-16 10:00:26

python數(shù)據(jù)加載

2021-01-26 11:57:46

數(shù)據(jù)挖掘數(shù)據(jù)分析大數(shù)據(jù)

2013-03-07 10:18:55

大數(shù)據(jù)大數(shù)據(jù)分析隱私安全

2023-08-23 15:33:15

數(shù)據(jù)倉庫數(shù)據(jù)分析

2013-03-11 17:37:36

大數(shù)據(jù)

2015-04-03 11:19:21

大數(shù)據(jù)大數(shù)據(jù)分析師

2017-04-11 09:08:02

數(shù)據(jù)分析Python

2023-09-05 16:30:53

數(shù)據(jù)倉庫數(shù)據(jù)分析

2017-10-11 11:10:02

Spark Strea大數(shù)據(jù)流式處理

2017-10-14 14:49:46

RPython數(shù)據(jù)分析

2021-12-24 10:45:19

PandasLambda數(shù)據(jù)分析

2015-10-26 10:41:10

數(shù)據(jù)分析思想指南

2019-09-04 19:58:46

數(shù)據(jù)挖掘數(shù)據(jù)分析學(xué)習(xí)

2020-06-08 10:17:37

數(shù)據(jù)分析冠狀病毒機(jī)器學(xué)習(xí)

2015-10-30 13:57:20

烹飪數(shù)據(jù)分析

2015-08-11 15:52:52

大數(shù)據(jù)數(shù)據(jù)分析
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號