分析成熟度模型:阻礙數(shù)據(jù)科學(xué)團(tuán)隊(duì)發(fā)展的“罪魁禍?zhǔn)住?/h1>
本文轉(zhuǎn)載自公眾號(hào)“讀芯術(shù)”(ID:AI_Discovery)
下面這種模型你肯定見(jiàn)過(guò),高德納優(yōu)勢(shì)分析模型在數(shù)據(jù)分析和數(shù)據(jù)科學(xué)會(huì)議上實(shí)在是太常見(jiàn)了。
不要與卡內(nèi)基梅隆大學(xué)的能力成熟度模型混淆,該圖表被多樣地稱作成熟度模型、連續(xù)體,甚至是自動(dòng)扶梯。有時(shí),公司也會(huì)顛倒用詞次序使用。而行業(yè)術(shù)語(yǔ)常常將其稱為分析成熟度模型,本文也將使用這種叫法。

分析成熟度模型令人無(wú)法抗拒…
人們太偏愛(ài)這種模型了,主要原因有以下幾個(gè):
(1) 它的比喻是吸引人且能引發(fā)共鳴的。“這就像是一個(gè)孩子在成長(zhǎng)。首先學(xué)著爬,其次是走,最后是跑。”與會(huì)者很容易理解這種比喻,并表示贊同。
(2) 其格式與新聞?dòng)浾呤褂玫慕?jīng)典5W1H技巧十分接近,能夠立即吸引人們的注意。
從據(jù)理力爭(zhēng)的創(chuàng)業(yè)數(shù)據(jù)極客到身著細(xì)條紋套裝的企業(yè)銷售分析人員,任何人都可以傳達(dá)典型的套話:“我們從‘發(fā)生了什么’開(kāi)始,接著直觀地轉(zhuǎn)到‘為什么發(fā)生’,再到‘將要發(fā)生什么’,并以令人滿意的‘我們?nèi)绾螌?shí)現(xiàn)這一目標(biāo)’結(jié)束。”
(3) 它有助于公司發(fā)展。常見(jiàn)的介入式咨詢模式始于在成熟度模型上對(duì)公司所處位置的評(píng)估。然后,公司用對(duì)應(yīng)的級(jí)別來(lái)確定接下來(lái)要優(yōu)先學(xué)習(xí)的能力。
因此,該模型不僅通過(guò)令人印象深刻的能力結(jié)構(gòu),且通過(guò)清晰的提升路線圖,為公司提供了十分清晰的發(fā)展思路。
但該模型包含可能阻礙數(shù)據(jù)科學(xué)發(fā)展的錯(cuò)誤假設(shè)
以這種方式表現(xiàn)模型,在視覺(jué)上引入了許多巧妙的假設(shè)。不幸的是,這些假設(shè)中有許多是錯(cuò)誤的,并且可能嚴(yán)重阻礙數(shù)據(jù)科學(xué)團(tuán)隊(duì)的發(fā)展。
這就很諷刺了,該模型旨在幫助公司做出更好的數(shù)據(jù)驅(qū)動(dòng)型決策,卻導(dǎo)致了建立數(shù)據(jù)科學(xué)團(tuán)隊(duì)的錯(cuò)誤決策。
成熟度模型被構(gòu)造為一系列效益級(jí)別。然而,在我們做以下假設(shè)時(shí),風(fēng)險(xiǎn)也隨之而來(lái):
- 從底部開(kāi)始,按順序前進(jìn)到各個(gè)級(jí)別
- 每個(gè)更高級(jí)別都比之前的較低級(jí)別帶來(lái)更多價(jià)值
- 管理這些能力的方式屬于同一領(lǐng)域
這些假設(shè)無(wú)一正確
讓我們來(lái)一次性解構(gòu)這些假設(shè):
在進(jìn)階到高級(jí)分析前,無(wú)需“完成”附加描述型分析。
首先,一家公司如何準(zhǔn)確地“完整擁有”附加報(bào)道、商業(yè)智能和分析能力?數(shù)據(jù)是不斷變化的世界的動(dòng)態(tài)表示,只要世界不斷變化(這當(dāng)然是永遠(yuǎn)的,且速度會(huì)不斷加快),描述型分析就會(huì)有新的要求。
成熟的數(shù)據(jù)管理十分重要,出色的數(shù)據(jù)平臺(tái)是數(shù)據(jù)科學(xué)的有力支持,且擁有所有所需數(shù)據(jù)并進(jìn)行建模是一種難得的樂(lè)趣。擁有良好的數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)湖,為隨機(jī)森林的生長(zhǎng)創(chuàng)造了一片肥沃土壤。
然而,數(shù)據(jù)倉(cāng)庫(kù)項(xiàng)目需要等待多年完成,在此期間還將數(shù)據(jù)科學(xué)團(tuán)隊(duì)部署到從事結(jié)構(gòu)化查詢語(yǔ)言(SQL)和歸檔責(zé)任的工作,這是得不償失,甚至還會(huì)促使數(shù)據(jù)科學(xué)團(tuán)隊(duì)跳槽。
從根本上講,除非正在構(gòu)建產(chǎn)品功能,否則數(shù)據(jù)科學(xué)和數(shù)據(jù)分析的價(jià)值源泉僅來(lái)自于一個(gè)因素——就是決策。
如果數(shù)據(jù)科學(xué)家能通過(guò)數(shù)據(jù)來(lái)影響決策以達(dá)到更好效果,那么就可以創(chuàng)造價(jià)值。如果決策仍沒(méi)有改變,那么就浪費(fèi)了時(shí)間。無(wú)論安全高性能云托管可解釋深度學(xué)習(xí)模型多么強(qiáng)大,都不會(huì)改變決策。整個(gè)團(tuán)隊(duì)極有可能存在數(shù)年,工資照領(lǐng),卻沒(méi)有創(chuàng)造出任何價(jià)值。
在高級(jí)數(shù)據(jù)分析有所進(jìn)展的機(jī)會(huì)渺茫的同時(shí),無(wú)需在成熟度模型的較低級(jí)別上停留。數(shù)據(jù)科學(xué)家在少量但重要的業(yè)務(wù)決策上立即創(chuàng)造價(jià)值也是常見(jiàn)情況。
一個(gè)更好的策略在其簡(jiǎn)單程度方面幾乎是可笑的:讓數(shù)據(jù)科學(xué)家參與到可以接觸到的最高層人員作出的最重要決策中。
坐在高層人員身邊,了解他們的想法和決策過(guò)程。從他們已經(jīng)想到的地方開(kāi)始,繼續(xù)推進(jìn)思路。查看本地訪問(wèn)數(shù)據(jù)庫(kù)、Excel電子表格程序。查找管理會(huì)計(jì)師,并運(yùn)用你儲(chǔ)備的各項(xiàng)技術(shù)來(lái)改善決策。
更高級(jí)別的數(shù)據(jù)分析是否能帶來(lái)更多價(jià)值尚不確定
計(jì)算預(yù)測(cè)或規(guī)范模型的價(jià)值或“提升”有許多完善的方法,例如,可以利用統(tǒng)計(jì)技術(shù)來(lái)預(yù)測(cè)世界狀況,你無(wú)需使用模型進(jìn)行干預(yù),一段時(shí)間后,再將其預(yù)測(cè)值與真值、創(chuàng)造價(jià)值進(jìn)行比較。
例如,在啟動(dòng)數(shù)據(jù)科學(xué)項(xiàng)目以增加零售產(chǎn)品銷售之前,可以預(yù)測(cè)在沒(méi)有任何模型干預(yù)的情況下,下個(gè)月的收入可能是1萬(wàn)美元。執(zhí)行定價(jià)和促銷模型后,收入為1.2萬(wàn)美元,包括2000美元的模型營(yíng)銷增益。
但矛盾的是,計(jì)算描述型或診斷型工作的價(jià)值可能會(huì)非常棘手。人們?nèi)绾螠?zhǔn)確地量化意識(shí)的價(jià)值?如果一個(gè)人被蒙住眼睛行走,那么如何估計(jì)他摘下眼罩的價(jià)值呢?
不同類型工作在完全不同的管理方法下蓬勃發(fā)展
我們知道,不同級(jí)別的團(tuán)隊(duì)可以并行工作,并以不同的方式衡量?jī)r(jià)值。這還沒(méi)完:團(tuán)隊(duì)在成熟度模型下限停滯不前的一個(gè)重要原因就是,使描述型和診斷型分析有效的管理范式可能為預(yù)測(cè)型和規(guī)范型工作敲響“喪鐘”。
簡(jiǎn)而言之,前者在強(qiáng)大的“工程”模式下蓬勃發(fā)展,要求互聯(lián)網(wǎng)技術(shù)風(fēng)格,擁有強(qiáng)大的項(xiàng)目管理和穩(wěn)健的流程。而后者則在定義了起點(diǎn)和終點(diǎn)的項(xiàng)目范圍外工作效果最佳。
二者最大的區(qū)別在于數(shù)據(jù)不確定性。預(yù)測(cè)型和規(guī)范型分析的特殊風(fēng)險(xiǎn)是:無(wú)法保證數(shù)據(jù)中包含足夠的信息,使預(yù)測(cè)型和規(guī)范型分析的應(yīng)用程序變得有價(jià)值。
更復(fù)雜的是,還可以使用多種通常同樣有效的技術(shù),來(lái)解決給定的問(wèn)題。因此,必須有足夠的空間進(jìn)行早期嘗試、試驗(yàn)和失敗,使其影響較小。
如果正在建立用于預(yù)測(cè)型維護(hù)的機(jī)器學(xué)習(xí)模型,并且發(fā)現(xiàn)可用數(shù)據(jù)沒(méi)有任何有用的信號(hào),那么在筆記本電腦上進(jìn)行兩周的實(shí)驗(yàn)后失敗總比在六個(gè)月的預(yù)算項(xiàng)目和十人團(tuán)隊(duì)中試驗(yàn)失敗要好得多。
概言之,成熟度模型對(duì)團(tuán)隊(duì)造成損害的主要方式是:企業(yè)采用用于提供描述型分析解決方案的管理方法,并將其強(qiáng)加于高級(jí)分析工作中,而不去改變導(dǎo)致數(shù)據(jù)不確定性的方法。
通向更好的數(shù)據(jù)科學(xué)團(tuán)隊(duì)成熟度模型
成熟數(shù)據(jù)科學(xué)團(tuán)隊(duì)的選擇是什么呢?
首先,拋棄描述型、診斷型、預(yù)測(cè)型和規(guī)范型兼具的模式。在一線,工作通常在這四項(xiàng)分析模式間無(wú)縫過(guò)渡。數(shù)據(jù)分析和數(shù)據(jù)科學(xué)專業(yè)人士始終在全面地進(jìn)行診斷工作。
而且,每當(dāng)有人從建立可視化轉(zhuǎn)變到建立機(jī)器學(xué)習(xí)模型(反之亦然),并將此作為日常工作的一部分時(shí),把公司的主要流程強(qiáng)加其上是費(fèi)力不討好的。
人們不該將分析成熟度和其價(jià)值比作正在長(zhǎng)個(gè)頭的孩子,這是在單個(gè)維度上的連續(xù)增量。更準(zhǔn)確的出發(fā)點(diǎn)應(yīng)從兩個(gè)維度看待成熟度,即實(shí)際上創(chuàng)造價(jià)值的維度:決策支持或生產(chǎn)系統(tǒng)。
生產(chǎn)中成熟的決策科學(xué)和數(shù)據(jù)科學(xué)
我們真正想要的成熟度是決策科學(xué)成熟度。在這里,“工程學(xué)”就是次要的了。取而代之的是研究數(shù)據(jù)素養(yǎng)和數(shù)據(jù)解析、減輕認(rèn)知偏見(jiàn)、并建立正確的指標(biāo)和激勵(lì)措施和實(shí)際獎(jiǎng)勵(lì)數(shù)據(jù)驅(qū)動(dòng)的決策。
建立數(shù)據(jù)科學(xué)產(chǎn)品或?qū)⒛P屯度肷a(chǎn)是一項(xiàng)十分不同的活動(dòng)。它需要成熟的流程來(lái)確認(rèn)數(shù)據(jù)不確定性,安全的空間進(jìn)行實(shí)驗(yàn)以降低高級(jí)分析工作的風(fēng)險(xiǎn),上線后適當(dāng)?shù)哪P筒僮?,以及針?duì)產(chǎn)品而非項(xiàng)目量身定制的財(cái)務(wù)模型。
本文中還省略了一些現(xiàn)實(shí)生活中數(shù)據(jù)科學(xué)團(tuán)隊(duì)的復(fù)雜性:人工智能的子學(xué)科是否被視為科學(xué)或工程學(xué)?對(duì)于擁有博士學(xué)位的人最應(yīng)該去哪里?僅調(diào)用預(yù)訓(xùn)練模型的人屬于一名數(shù)據(jù)科學(xué)家?數(shù)據(jù)工程應(yīng)該成為一個(gè)單獨(dú)的團(tuán)隊(duì)嗎?
數(shù)據(jù)科學(xué)是一個(gè)不斷發(fā)展著的學(xué)科,這些問(wèn)題都是快速發(fā)展過(guò)程中不斷催生出的問(wèn)題,也是我們必須去適應(yīng)和解決的問(wèn)題。