我的數(shù)據(jù)科學(xué)成果為什么無法商業(yè)化?

在數(shù)據(jù)科學(xué)的實踐應(yīng)用中,有些工作成果可以獲得數(shù)十億級的商業(yè)回報,而絕大多數(shù)的工作成果卻并沒有達(dá)到預(yù)期的效果。本文作者是Nick Elprin,Domino Data Lab公司的創(chuàng)始人兼CEO,擁有哈佛大學(xué)計算機(jī)碩士學(xué)位。他在文中探討了數(shù)據(jù)科學(xué)工作成果不盡如人意的四個可能原因。
當(dāng)前,許多公司都面臨著這樣的困境:把數(shù)據(jù)科學(xué)的工作成果真正轉(zhuǎn)化為商業(yè)價值。
據(jù)一項涉及250位數(shù)據(jù)科學(xué)團(tuán)隊主管和員工們的問卷調(diào)查顯示:60% 的公司計劃在2018年把他們的數(shù)據(jù)科學(xué)團(tuán)隊擴(kuò)大一倍,90% 的公司相信數(shù)據(jù)科學(xué)會帶來商業(yè)創(chuàng)新。但是,少于9% 的公司會量化數(shù)據(jù)模型帶來的商業(yè)價值,僅僅11%的公司能把至少50個預(yù)測模型投入使用。
問卷鏈接:
https://www.dominodatalab.com/resources/key-factors-journey-become-model-driven/
那么造成這種困境的根源是什么?一般來說,運用數(shù)據(jù)科學(xué)的公司可以分為兩種:一種是把數(shù)據(jù)科學(xué)僅看作是一種技術(shù)實踐的公司;另一種是把數(shù)據(jù)科學(xué)作為一個重要部分,進(jìn)一步滲透到商業(yè)實踐的大環(huán)境中的公司。在進(jìn)行決策制定過程中,那些能夠熟練地運用技術(shù)和管理實踐,并且把算法驅(qū)動的決策作為業(yè)務(wù)核心的公司,往往能獲得***的商業(yè)回報。這些公司才能夠被稱為 “模型驅(qū)動商業(yè)價值”型公司,比如亞馬遜、Netflix、Stitch Fix、特斯拉等。
當(dāng)然,說起來容易做起來難。讓我們來看看那些投資數(shù)據(jù)科學(xué)以求商業(yè)回報的公司們正在面對的四大挑戰(zhàn):
團(tuán)隊內(nèi)各自為政1+1<2
聘請數(shù)據(jù)科學(xué)家并不能保證你的公司能從中獲益。對于絕大多數(shù)公司來說,根據(jù)邊際效益遞減規(guī)律,在已經(jīng)有一個數(shù)據(jù)科學(xué)家的團(tuán)隊里,再額外聘用一個數(shù)據(jù)科學(xué)家,并不會有多一倍的產(chǎn)出。然而,少數(shù)擁有表現(xiàn)突出的數(shù)據(jù)科學(xué)團(tuán)隊的公司,會出現(xiàn)增加數(shù)據(jù)科學(xué)家,就能指數(shù)般提高產(chǎn)出的效果。
這里還有一個老生常談的問題,那就是數(shù)據(jù)科學(xué)家們都各自為政,在獨立的工作中,他們經(jīng)常做重復(fù)的工作。因為他們看不到別人已經(jīng)完成了什么工作,所以也沒法通過繼承前人的工作成果,來讓自己的工作變得輕松高效。
舉個例子,在一家知名保險公司里,幾十名數(shù)據(jù)科學(xué)家無組織、無合作地攻克同一個商業(yè)問題,這讓公司在數(shù)據(jù)科學(xué)方面的投資不值,也失去了更多本來可以用這些投資來發(fā)現(xiàn)的新機(jī)會。
換句話來說,一堆單單做模型的人,與一個有機(jī)結(jié)合的數(shù)據(jù)團(tuán)隊是有本質(zhì)區(qū)別的。那些有機(jī)組合在一起的團(tuán)隊成員們能夠熟練運用知識、技能、經(jīng)驗,用更短的時間,創(chuàng)造更好的模型,
模型部署與評估的割裂
運作良好的數(shù)據(jù)科學(xué)團(tuán)隊,在工作中會有持續(xù)迭代的周期(從研究到產(chǎn)出的循環(huán)迭代),以及對模型效果的衡量。但是,模型研究和模型部署,這兩個過程經(jīng)常被完全割裂。并且,當(dāng)一個模型被使用后,也沒有與之對應(yīng)的商業(yè)效果的分析。這會導(dǎo)致模型沒法根據(jù)商業(yè)效果迭代更新,給公司造成損失。有一家主流財務(wù)公司聲稱,他們“讓一個模型產(chǎn)生效用的時間,比建造新總部大樓的時間都要長”.
工具與技術(shù)與不匹配
盡管IT部門在過去十幾年的時間里,構(gòu)建了用來儲存和處理數(shù)據(jù)的大數(shù)據(jù)基礎(chǔ)設(shè)施,但是這些基礎(chǔ)設(shè)施本身并不能完全保證數(shù)據(jù)科學(xué)的成功實踐。數(shù)據(jù)科學(xué)家會在一個月內(nèi)使用多達(dá)3-5種不同的工具包,并時刻追趕最前沿的技術(shù)。僅在2017年,基于流行的開源程序語言Python 的軟件包,就多達(dá)36萬5千次更新!
另外,數(shù)據(jù)科學(xué)家的工作需要使用彈性計算平臺(云計算平臺)來進(jìn)行具體操作實驗,譬如進(jìn)行深度學(xué)習(xí)就需要配備GPU的高性能計算機(jī)。如果團(tuán)隊不能使用彈性計算和最前沿的工具,那么團(tuán)隊的效率會大大下降,研究進(jìn)度會拖后,最終影響整個模型的開發(fā)進(jìn)程。更糟糕的是,一些大公司(比如一家全球性的銀行)的新的Python數(shù)據(jù)包審批速度太慢,導(dǎo)致數(shù)據(jù)科學(xué)家們最終悄悄地用私人電腦來工作。這種在沒有IT部門明確審批的情況下,使用新工具的現(xiàn)象被稱為“影子IT (shadow IT)”。
模型監(jiān)管缺失
生產(chǎn)環(huán)境中的模型如果缺乏有效的管理和監(jiān)控,最終可能會產(chǎn)生弊大于利的后果。如果你經(jīng)常監(jiān)管這種在使用的模型,那么你很有可能已經(jīng)意識到了這一問題。一個沒有嚴(yán)密監(jiān)控或者被密切控制的模型可能對公司的業(yè)務(wù)產(chǎn)生很嚴(yán)重的后果,譬如公司規(guī)章被無視,營業(yè)收入受損失,品牌聲譽被破壞。
舉個例子,一家叫做 “Knight Capital Group”的公司,在一次模型更新失誤之后,在45分鐘內(nèi)共損失了4.4億美金。這雖然是一個很極端的情況,但是說明了公司必須持續(xù)評估和監(jiān)控他們的模型,防止模型的誤用,以及模型性能的退化。
案例鏈接:
https://dealbook.nytimes.com/2012/08/02/knight-capital-says-trading-mishap-cost-it-440-million/
如何克服這四大挑戰(zhàn)決定了一家公司未來5到10年發(fā)展。如果你認(rèn)為自己的公司在數(shù)據(jù)科學(xué)軍備競賽中落后了,不用過分擔(dān)心,并不只有你的公司是這樣:根據(jù)調(diào)查顯示 46% 的公司被歸入“落后”這一檔,40%的公司被認(rèn)為“有潛力”,只有14% 的公司在管理數(shù)據(jù)科學(xué)中顯示出了他們的先進(jìn)性。
所幸,為時未晚。為了評估和使用數(shù)據(jù)科學(xué)帶來商業(yè)價值,公司必須構(gòu)建一套圍繞員工、技術(shù)、工作流程的連續(xù)有效的框架。那些把時間和精力放在這個框架上,并且把數(shù)據(jù)科學(xué)作為核心競爭力的公司,能夠最終收獲商業(yè)回報。譬如,Netflix把模型結(jié)合到每一個業(yè)務(wù)環(huán)節(jié)中。據(jù)估計,僅個性化推薦模型就讓公司的價值上升了十億美金
Netflix案例鏈接:
http://www.businessinsider.com/netflix-recommendation-engine-worth-1-billion-per-year-2016-6
顯而易見的是,應(yīng)用數(shù)據(jù)科學(xué)產(chǎn)生成效并不容易。它必須克服一些明顯的障礙。他們需要搞清楚怎么樣開發(fā)和部署具有很大影響力的模型,并且真正地將數(shù)據(jù)科學(xué)與商業(yè)結(jié)合。最終能夠克服這些困難的公司,才能夠獲得長久的競爭優(yōu)勢。
相關(guān)報道:
https://www.kdnuggets.com/2018/05/data-science-4-reasons-failing-deliver.html
【本文是51CTO專欄機(jī)構(gòu)大數(shù)據(jù)文摘的原創(chuàng)譯文,微信公眾號“大數(shù)據(jù)文摘( id: BigDataDigest)”】