時隔一年當刮目相看的數(shù)據(jù)科學(xué)新格局
本文為數(shù)據(jù)科學(xué)家Christophe Bourguignat在“數(shù)據(jù)科學(xué)家2015”巴黎會議開幕主題演講全文。Christophe Bourguignat目前就職于安盛-數(shù)據(jù)創(chuàng)新實驗室(AXA – Data Innovation Lab)
以下是演講全文:
大家好。
我一直想問自己一個問題:如果我不得不介紹一下這個講稿去年的版本,我當時會提到什么樣的主題呢?到了今天是否仍然有相關(guān)?或者已經(jīng)完全過時了?
例如,去年,我肯定會嘗試 - 是的,我說過試著 - 描述數(shù)據(jù)科學(xué)家是什么。你知道,這個虛構(gòu)的角色,半數(shù)學(xué)的書***,半軟件極客,半溝通技能。三個一半顯示,它并沒有真正存在。今天,我還是更加迷茫。最近的一項調(diào)查描述數(shù)據(jù)科學(xué)家作為一只有25只腳的蜘蛛!也許在今天的會議之后,我們會更加了解這個新角色。并了解它是多么廣泛。
數(shù)據(jù)科學(xué)家,一只有25只腳的蜘蛛
然而,與去年相比,我們開始有數(shù)據(jù)的科學(xué)家。量化自我后,這是量化的數(shù)據(jù)科學(xué)家 -數(shù)據(jù)科學(xué)家 數(shù)據(jù)科學(xué)的時間。2個星期前,一個預(yù)測的數(shù)據(jù)科學(xué)家的工資線性模型公布了。
什么是值得注意的?如果你是一個女孩,不幸的是,你不會出現(xiàn)在榜。這不會讓任何人感到驚訝。糟糕的是即使是數(shù)據(jù)科學(xué)家的工作,也像很多的技術(shù)職位,都無法逃脫這條規(guī)則。
更有趣的是,數(shù)據(jù)科學(xué)家(/分析師/工程師)在會議上花的時間越多,收入就越多。如果他花了太多的時間探索數(shù)據(jù)(4小時/天),他賺的錢就越少了!這一點非常重要!
數(shù)據(jù)科學(xué)家:一個預(yù)測數(shù)據(jù)科學(xué)家的收入是多少的線性模型
幾個月前,關(guān)于什么能代表著數(shù)據(jù)革命,我一直在批評自己缺乏對法國的認識。現(xiàn)在我們應(yīng)認識到情況已經(jīng)改變了。一個新的角色已經(jīng)產(chǎn)生 - 法國的***數(shù)據(jù)官,他最近還成為法國的***信息官,這意味著IT技術(shù)轉(zhuǎn)移到向數(shù)據(jù)為中心靠近了。法國現(xiàn)在也有自己的數(shù)據(jù)科學(xué)團隊,同時一個新的詞誕生了:“mégadonnées”法語:大數(shù)據(jù)。
亨利 維迪爾,來自法國的CDO、CIO
去年,我就談到了創(chuàng)業(yè)公司,數(shù)據(jù)顯示 - 它注定會有一個光明的未來。今天,我將更加細致地談及創(chuàng)業(yè)公司。公司數(shù)據(jù)的成熟度是非常明顯的,但他們的***的優(yōu)勢開始遭到懷疑。75%的創(chuàng)業(yè)公投資大數(shù)據(jù),但只有10%的在制造業(yè)。 “機器學(xué)習(xí)”,一個數(shù)據(jù)項目的重要組成部分,***落在Gartner“成熟度曲線”的末端。
公司面對的幻滅。并問自己:我知道要花多少錢,但我能賺多少?投資回報率是多少?
即使小數(shù)據(jù)項目也會遇到新問題 - 如何使用我的數(shù)據(jù)科學(xué)家的發(fā)現(xiàn)?這意味著改變管理,修改既定的業(yè)務(wù)流程。舉例來說,一個零售商知道通過在打折前后延長商品的在上架時間可以大幅增加利潤。但實施這一變化將需要一個完整的重新設(shè)計的供應(yīng)鏈,這是零售商不愿意承擔(dān)的。
“機器學(xué)習(xí)”***落在Gartner“成熟度曲線”的末端
在另一個層面,這次是關(guān)于純技術(shù)的 - 因為數(shù)據(jù)科學(xué)是關(guān)很多技術(shù)的 - 我可能會提到Map(映射)和Reduce(歸約),這是谷歌在大約10年前設(shè)計的一種算法,目的是實現(xiàn)大量數(shù)據(jù)的分布式處理。前不久,它是一個明星。今天,它已經(jīng)被廣泛稱為:火花。
讓我們拿另一個例子。兩周前,Cloudera宣布其產(chǎn)品Kudu,一個完全繞過HDFS的新的列存儲技術(shù),事實上目前的大數(shù)據(jù)存儲技術(shù)。同時,它有助于提高他們的動物學(xué)知識(數(shù)據(jù)科學(xué)家的捻角羚羚羊是林地分布在東部和南部非洲),捻角羚在新興的“傳統(tǒng)Hadoop項目”中開始探索讓HDFS融入MapReduce…
另一方面,我無疑還未談起過人工智能(AI)的一個分支–深度學(xué)習(xí)。神經(jīng)網(wǎng)絡(luò),功能非常強大,像人類一樣從數(shù)據(jù)中學(xué)習(xí),但有時比人類更強。這一領(lǐng)域最近取得了決定性的進展。這些算法表明,他們是如何能夠繪畫,寫作,或作曲。那下一步將是什么?
深度學(xué)習(xí)-繪畫
我也未談過道德。是的,道德 - 誰會想到它來辯論?一個社會,每一個有獨立想法的公民都能由模型預(yù)測,這越發(fā)令人擔(dān)憂。這是為什么要強調(diào)預(yù)測算法的的良好的透明度,同時人工智能有關(guān)的教育已成目前熱門的主題。
這個演講的結(jié)論是:不要試圖記住太多我剛剛所講的,因為到明年大部都將過時!至少,這是我的預(yù)測。
然而,有一件事將繼續(xù)。最近由巴拉克奧巴馬頒發(fā)“美國***數(shù)據(jù)科學(xué)家”的DJ Patil, 2012年曾在一篇著名的和有遠見的哈佛商業(yè)評論文章中寫道,數(shù)據(jù)科學(xué)家將成為“21世紀最性感的工作”。我也深信這一點。數(shù)據(jù)科學(xué)家是世界上最令人激動的工作之一,這將保持很長一段時間。我們只是故事的開始。
希望你們有精彩的一天。