真實與炒作,發(fā)展與失望并存的一年:大咖共同回首數(shù)據(jù)科學與分析的2018和展望2019
大數(shù)據(jù)文摘出品
編譯:楊威、周家旭、張南星、Aileen
2018即將收尾,2019即將開啟,我們將帶大家縱覽專家們對AI的分析和預測。我們向?qū)<覀兲崃藗€問題:你認為2018年數(shù)據(jù)科學與分析的主要進展是什么?2019年會怎樣發(fā)展?
雖然我們討論的是數(shù)據(jù)科學和數(shù)據(jù)分析,但在大多數(shù)答案中AI都是主要內(nèi)容。這些專家所提到的內(nèi)容包括人工智能的進步(真實情況和炒作參半);數(shù)據(jù)科學和數(shù)據(jù)分析的民主化,例如自助分析;以及“萬事皆自動化”,例如數(shù)據(jù)科學,GDPR,AI風險,實時分析等等。
專家組名單如下:Meta Brown,Tom Davenport,Carla Gentry,Bob E Hayes,Cassie Kozyrkov,Doug Laney,Bill Schmarzo,Kate Strachnyi,Ronald van Loon,F(xiàn)avio Vazquez和Jen Underwood。以下是他們的簡介,推特ID以及對這個問題的解答。
“2018年數(shù)據(jù)科學和數(shù)據(jù)分析的主要進展和2019年發(fā)展趨勢”問答詞云。
Meta Brown(@ metabrown312),《Data Mining for Dummies》(數(shù)據(jù)挖掘入門指南)的作者,A4A Brown.Inc公司總裁,該公司致力于加強管理層和技術人員之間的溝通。
2018年的熱門分析話題非人工智能(AI)莫屬。印象中,人工智能比其他分析學應用技術引起了更多的討論。但令人遺憾的是,大部分討論并未產(chǎn)生多大價值。
計算機科學的先驅(qū)阿蘭·圖靈(Alan Turing)曾展望過,計算機智能將匹敵人類智能,即人們無法區(qū)分是在和計算機對話,還是在和人類對話。
想想我們與現(xiàn)在人工智能應用的交互過程。諸如Siri或Alexa的個人助理雖然挺有用,但和它們溝通的感覺,遠遠無法達到與真人溝通的效果。而在線自助聊天機器人則更令人失望,如果嘗試問一個現(xiàn)實生活中的問題,你將意識到它背后并沒有真正的“大腦”。
按照圖靈的定義,人工智能尚不存在。紐約大學心理學和神經(jīng)科學教授加里·馬庫斯(Gary Marcus)說,人們對人工智能的最大誤解就是“我們離人工智能不遠了”。
的確,我們現(xiàn)實生活中已經(jīng)應用了計算機來進行邏輯運算。雖然它們并不像人一樣思考,但它們足夠快、且連續(xù)性足夠強,這些都是極具價值的優(yōu)勢。這些應用賦能機器完成實際工作,例如標記潛在欺詐交易,操作汽車等。
盡管AI技術的局限顯而易見,但大眾,甚至是科技界都充斥著對人工智能不切實際的主張和期望。這些扭曲的觀點在人群中引發(fā)了恐懼,同時也讓一些人的期望落空,而我們所見之現(xiàn)實則更令人失望。
湯姆·達文波特(@tdav),巴布森學院總統(tǒng)信息技術和管理部門的特聘教授,國際分析研究所聯(lián)合創(chuàng)始人,MIT數(shù)字經(jīng)濟研究所的研究員和Deloitte Analytics公司的高級指導顧問。
我們在國際分析研究所對技術年度發(fā)展趨勢進行了預測分析,下面是我提出的一些觀點:
- 組織機構對模型部署率關注度不斷上升-根據(jù)雷克斯數(shù)據(jù)科學(Rexer Data Science Survey)調(diào)查顯示,只有10%-15%的公司部署率為“幾乎總是”,另外50%的公司僅“經(jīng)常”部署,剩下35% - 40%的公司成功部署分析模型的幾率只有“偶爾或很少”。我曾遇到過一些組織機構表示他們的成功部署率低于10%。當然,未部署的分析模型沒有任何經(jīng)濟價值。企業(yè)需要在2019年評估和提高部署率。
- 民間數(shù)據(jù)科學家和商業(yè)分析師會一直存在,且越來越多。可視化和基于搜索分析的興起,以及數(shù)據(jù)科學前端的機器學習愈加自動化,意味著業(yè)余愛好者將產(chǎn)出大量的分析結果。對抗這種趨勢將失敗無疑,所以不如轉(zhuǎn)向賦能,助力其發(fā)展。這也意味著從事量化工作的專業(yè)人員能夠集中注意力于復雜困難的建模任務,或者轉(zhuǎn)向理解業(yè)務,解決組織性變革問題。
Carla Gentry(@ dat_nerd),咨詢數(shù)據(jù)科學家和Analytical-Solution所有者。
2018年是數(shù)據(jù)分析和數(shù)據(jù)科學輝煌發(fā)展的一年,但我們也看到了人工智能、神經(jīng)網(wǎng)絡和機器學習的爆發(fā),而并不是所有的主張都有相應的人才和經(jīng)驗支撐。我們也看到了人工智能在醫(yī)療領域和治安領域的應用增長,但同樣的,其背后也許并沒有充分考慮偏見所帶來的風險,以及人才和經(jīng)驗的支撐,同時我認為可能有些人忘掉了一個大原則:在這些情境下,依托著可穿戴設備和物聯(lián)網(wǎng)(Google Home,Alexa等),數(shù)據(jù)就是一切,并且這樣的趨勢將持續(xù)不斷。
2019年,業(yè)界將繼續(xù)討論這些流行詞匯,公司將開始落實它們利用神經(jīng)網(wǎng)絡從數(shù)以萬計甚至億計的實例中學到的成果,更糟糕的是,每當你想要神經(jīng)網(wǎng)絡識別新物體時,你必須從頭開始(至少時間的消耗是必須的)-而人才是另一個問題。除了 Geoffrey Hinton,Yejin Choi或 Yann LeCun,你真的不是一個神經(jīng)網(wǎng)絡的專家,所以不要指望著一個人才池的存在。
數(shù)據(jù)科學重點在于網(wǎng)羅各種數(shù)據(jù)并從中獲取洞察,并且在一些情況下,希望自身能夠成為AL、機器學習或者神經(jīng)網(wǎng)絡的專家是不正確的,也沒有這個必要,因此我們必須細心研究差異,并且新入者將不得不重新學習新技術,以在新技術領域具有一些競爭力。我擔心的是,如果沒有真正理解機器如何學習、如何正確應用人工智能,一些公司/算法/企業(yè)的弱點將持續(xù)暴露出來。
讓我們歡天喜地地享用這些新技術吧,但要明白,如果你搞砸了就會有嚴重后果!
Bob E. Hayes(@ bobehayes),研究員、作家兼顧問,Business over Broadway的出版人,擁有工業(yè)組織心理學博士學位。
數(shù)據(jù)科學和數(shù)據(jù)分析領域經(jīng)歷了機器學習相關所有內(nèi)容的熱潮,包括強化學習、聊天機器人及社會影響研究。
在2019年,我預計人們會越來越關注人工智能的道德倫理,包括隱私和安全問題。人們越來越強調(diào)對算法制定特定決策過程的理解;我們不僅需要知道機器學習有助于我們做出決策,而且也需要知道它是如何工作的(它是如何做出決策的)。此外,美國公司將重點關注如何使用消費者的個人數(shù)據(jù)。加利福尼亞州通過了“加利福尼亞州消費者隱私法”(將于2020年1月生效),我期待并且希望其他州能緊隨其后。
但同時,我也擔心人工智能/機器學將導致假新聞創(chuàng)造和傳播的增加。Deep fakes(人工智能的深度換臉技術)表明,人們能夠捏造視頻內(nèi)容,來展示他們從未說過或做過的事情,并且毫無愧疚之意。正如馬克斯·泰格馬克(Max Tegmark)所說,充分認識到人工智能的潛在威脅不在于涅佐,而僅僅是“安全工程”。
現(xiàn)在數(shù)據(jù)從業(yè)者有許多渠道可以學習數(shù)據(jù)科學,諸如集訓營、MOOC以及大學課程,但我也希望非數(shù)據(jù)專從業(yè)者(例如,經(jīng)理和一線員工)能夠更多地嘗試學習數(shù)據(jù)分析課程。
Cassie Kozyrkov(@ quaesita),Google Cloud首席決策工程師。統(tǒng)計學狂熱者,人工智能,數(shù)據(jù),雙關語,藝術,科幻,戲劇,決策科學。
2018年的主要發(fā)展之一是數(shù)據(jù)科學的民主化。利用云技術,人們無需實現(xiàn)建設Kubeflow等工具來構建數(shù)據(jù)中心,就可以為資源密集型大數(shù)據(jù)和AI應用程序提供源源不斷的動力,從而為沒有架構專業(yè)知識的人提供可擴展數(shù)據(jù)科學。這種賦能大眾、讓所有人都能獲取數(shù)據(jù)科學工具的發(fā)展趨勢將在2019年加速發(fā)酵。
Doug Laney(@ Doug_Laney),Gartner公司副總裁、杰出分析師和首席數(shù)據(jù)官研究員,也是《Infonomics》一書的作者。
Gartner公司剛剛發(fā)布2019年數(shù)據(jù)和分析戰(zhàn)略預測報告。其中提到了一個觀點:企業(yè)戰(zhàn)略中明確表示信息是企業(yè)的重要資產(chǎn),而分析是必不可少的能力。不僅IT戰(zhàn)略提到了這一點,企業(yè)戰(zhàn)略和計劃也提到了類似的內(nèi)容。
此外,我們期望數(shù)據(jù)掃盲計劃將變得成為常態(tài),以幫助業(yè)務人員和數(shù)據(jù)分析專業(yè)人員更好地溝通,尤其是在當下數(shù)據(jù)分析需求愈加復雜的背景之下。隨著信息經(jīng)濟學中的原則和實踐得到廣泛傳播,我們期望首席數(shù)據(jù)官能夠更頻繁地與首席財務官們合作,以正式評估組織的信息資產(chǎn)。這樣做可以為許多客戶帶來重要的信息管理和商業(yè)的好處。但分析和數(shù)字倫理仍然是一個問題,我們相信組織將開始為他們的數(shù)據(jù)科學團隊引入專業(yè)行為準則。
此外,我們預計在未來3-5年內(nèi),大多數(shù)新業(yè)務系統(tǒng)將通過充分利用實時環(huán)境數(shù)據(jù)以實現(xiàn)持續(xù)智能的應用;量子計算的POC項目(概念驗證項目)將會使計算機的分析能力大大超過現(xiàn)狀;智能強化和自動化的內(nèi)部分析洞察將取代絕大多數(shù)的預測報告;位置分析的使用率將增長近10倍;機器學習也將緩解對數(shù)據(jù)科學家的人才爭奪。
Gregory Piatetsky,@kdnuggets,KDnuggets總裁,數(shù)據(jù)科學家,KDD會議和SIGKDD的聯(lián)合創(chuàng)始人,LinkedIn 2018數(shù)據(jù)科學與分析領域頂級發(fā)聲者排名首位。
2018年的主要發(fā)展我認為有:
- 通用數(shù)據(jù)保護條例(GDPR)于2018年5月生效,不僅僅在歐洲,在美國乃至其他地區(qū)都是數(shù)據(jù)科學界一個重要的里程碑,在其影響下許多公司都更新了其隱私政策。但同時,新條例下的消費者隱私權益保護是否真的能得到改善,或者在新的保護政策下,是否還能像往常一樣使用消費者隱私數(shù)據(jù)以創(chuàng)造價值,還有待觀察。
- 數(shù)據(jù)科學民主化:隨著訪問工具和途徑的增長,數(shù)據(jù)科學的民主化仍在繼續(xù)。AWS reinvent發(fā)布的新工具就是其中之一。
- 人工智能風險:自動駕汽車的第一次致人死亡的事故原因在于機器未能分辨推著自行車行走的行人。這一事件吸引了社會對于人工智能不可避免風險的關注。與此同時人們需要注意,以零誤差作為評價自動駕駛(和自動化AI)的標準是不現(xiàn)實的,正確看待的方式是其使駕駛風險相對現(xiàn)在大大降低。例如,人類駕駛的事故率就非常高,僅在2017年,美國就有37000人喪生于此。
2019年的主要趨勢:
- 數(shù)據(jù)科學自動化將會加速發(fā)展,但至少在近幾年內(nèi),數(shù)據(jù)科學家的工作還不會被完全的自動化取代。
- 人工智能的進步和炒作:盡管人工智能的發(fā)展是真實的,但人工智能的炒作增長更為迅速。
- 中國已經(jīng)成為人工智能的主要參與者,許多中國公司正開始進行自主創(chuàng)新研發(fā),而不僅僅是從美國復制。
- 強化學習將在人工智能進步中發(fā)揮越來越重要的作用。例如,強化學習算法在為解決Montezuma's Revenge Atari game時,取得了驚人的進展,達到了前所未有的100級,超越此前人類或計算所能達到的最好記錄。
Bill Schmarzo, @schmarzo, Hitachi Vantara 物聯(lián)網(wǎng)與分析首席技術官
2018年大數(shù)據(jù)、數(shù)據(jù)科學與分析的主要發(fā)展情況:
- 通過越來越多成功案例的發(fā)布,利益相關者者對機器學習及深度學習的應用潛力有了更深刻的認識。
- 數(shù)據(jù)湖仍然存在投資誤區(qū)。太多機構將數(shù)據(jù)湖視為驅(qū)逐昂貴的數(shù)據(jù)倉庫及縮減ETL成本的一種方式,卻尚未充分理解其作為價值創(chuàng)造平臺的潛力,以供利益相關者和數(shù)據(jù)科學團隊獲取及商業(yè)價值驅(qū)動。
2019年主要趨勢:
- 對于行業(yè)領跑企業(yè)而言,發(fā)展大數(shù)據(jù)和數(shù)據(jù)科學的主要動因應當是來自于業(yè)務端,而非IT端。龍頭企業(yè)將通過識別,驗證,審查,評估和優(yōu)化業(yè)務成果,使大數(shù)據(jù),物聯(lián)網(wǎng)和數(shù)據(jù)科學(機器學習,深度學習,人工智能)驅(qū)動業(yè)務發(fā)展。
- 除使用數(shù)據(jù)科學優(yōu)化關鍵業(yè)務和運營流程(仍然是開始獲得誘人的投資回報率的好地方)以外,龍頭企業(yè)將意識到,隱藏在數(shù)據(jù)中的客戶、產(chǎn)品和運營的洞察將是未來機會變現(xiàn)的驅(qū)動因素。
Kate Strachnyi(@ StorybyData),數(shù)據(jù)可視化專家,《破壞者:數(shù)據(jù)科學領導者》和《如何成為數(shù)據(jù)科學家》的作者;人類數(shù)據(jù)科學視頻播客。
2018年數(shù)據(jù)科學和分析的主要發(fā)展:
- 通用數(shù)據(jù)保護條例(GDPR):2018年5月生效的歐盟法規(guī)為,為歐盟公民提供了一套個人數(shù)據(jù)保護規(guī)章制度。這一實踐推動了類似標準在其他地方的設置。例如,美國加利福尼亞州通過了自己的數(shù)字隱私法案;,這一法案使消費者了解到相關機構正在收集哪方面的信息,為什么他們要收集這些數(shù)據(jù)以及他們與誰共享數(shù)據(jù)。
- 自助式商業(yè)智能(BI)工具:商業(yè)智能分析工具將在數(shù)據(jù)分析師和商業(yè)分析師中變得更加普遍。但是,這些工具的使用者們是否真的了解這些分析場景的真實含義,我們尚不清晰。在人們學習使用拖拽工具、制作圖表的速度,與人們對真實業(yè)務場景的理解之間,尚存在一定差距。
2019年的主要趨勢:
- 數(shù)據(jù)道德與隱私:在每個數(shù)據(jù)科學的環(huán)節(jié)上,使用數(shù)據(jù)的道德和隱私問題將愈發(fā)得到重視。與數(shù)據(jù)起舞的人,需要對他們所擁有的強大權力與他們工作可能帶來的廣泛影響有清晰的認知。隨著全世界數(shù)字化進程的推進,這些問題應當從個人,公司及政府層面都得到重視。
- 流程自動化:公司將繼續(xù)推進流程自動化,以降低成本并提高效率。這種自動化還可能導致相應自動化流程的個人面臨失業(yè)問題。因此在未來,人們需要專注于不斷學習新技能,以便適應瞬息萬變的環(huán)境。
Ronald van Loon(@ Ronald_vanLoon),Adversitement(一家?guī)椭鷶?shù)據(jù)驅(qū)動型公司取得成功的公司)總監(jiān),大數(shù)據(jù)、數(shù)據(jù)科學、物聯(lián)網(wǎng)、人工智能十大影響人物之一。
2018年,端到端數(shù)據(jù)管理增長的同時,公司一邊提高分析能力的成熟度,一邊充分挖掘所有數(shù)據(jù)資源,來獲取值得信賴的洞見,以及建立適應于當前數(shù)字化經(jīng)濟的基礎設施及商業(yè)模型。機器學習被大眾廣泛接受,軟件供應商在其解決特定問題的產(chǎn)品應用中,大量引用了機器學習技術。
2019年,為支持更加復雜、級別更高的深度學習應用,將會出現(xiàn)更多的集成硬件、軟件框架,以促進更廣泛的創(chuàng)新。深度學習應用需要全面優(yōu)化的硬件和軟件堆棧,以推進全新現(xiàn)代的AI架構。我們將會看到各行各業(yè)供應商開始使用者這種全棧方案,以滿足深度學習最佳性能和功能的需求。
隨著物聯(lián)網(wǎng)設備的增長,實時邊緣分析將呈指數(shù)級增長,這使得使實時分析變得更加容易,也將有助于基于實時洞見獲取即時的反饋。
Favio Vazquez(@ FavioVaz),數(shù)據(jù)科學家。物理學家兼計算工程師,Ciencia y Datos創(chuàng)始人
2018年是數(shù)據(jù)科學(DS)令人驚嘆的一年,無論是在理論方面還是實踐方面。業(yè)界提出了數(shù)據(jù)科學的幾種研究方法,可以幫助將數(shù)據(jù)科學轉(zhuǎn)換為實際科學。我參與其中的討論已經(jīng)一年多了,也在最近看到了更多的人參與討論。相對與機器學習,自動化機器學習的內(nèi)容十分繁雜,其中也包括自動化深度學習。
2019年的主要趨勢:
- AutoX:我們將看到越來越多的公司在它們的堆疊技術以及函數(shù)庫中使用自動化機器學習和深度學習的相關技術。這里的X意味著將這個自動工具將擴展到數(shù)據(jù)攝取,數(shù)據(jù)集成,數(shù)據(jù)清理,探索和部署等各個方面。自動化將存在于此。
- 語義技術:今年我最有趣的發(fā)現(xiàn)是數(shù)據(jù)科學和語義之間的關聯(lián)性。它不是數(shù)據(jù)世界中的新領域,但我發(fā)現(xiàn)越來越多的人對語義、本體、知識圖及其與數(shù)據(jù)科學和機器學習的關聯(lián)性表現(xiàn)出興趣。
- 編程化繁為簡:這是一件很難定義的事情,但是隨著數(shù)據(jù)分析的每一個流程實現(xiàn)自動化,我們的日常編程工作將越來越少。我們將擁有用于創(chuàng)建代碼的工具,這些工具將理解我們對自然語言處理的需求,然后將其轉(zhuǎn)換為查詢、命令和完整程序。我認為編程仍然是非常重要的學習內(nèi)容,但它很快就會變得更簡潔容易。
- 數(shù)字化教育:數(shù)字化教育每年都在增長,但明年我們將看到比以往更多的人參與到MOOC、數(shù)字課程或在線課程之中。有人將其稱之為“教育民主化”,我在很大程度上同意這種說法,但我想對所有人說:注意你的學習內(nèi)容和方式,在投入時間和金錢之前對所學課程進行調(diào)查研究,好的課程將改變你的生活,相反的,它也非常危險。
Jen Underwood(@ idigdata),DataRobot高級總監(jiān),Impact Analytix.LLC創(chuàng)始人。
人工智能炒作和轉(zhuǎn)型影響在2018年無處不在。幾年前,大數(shù)據(jù)風靡一時,然后是云技術,現(xiàn)在機器學習則占據(jù)了主導地位。人工智能在手機應用,機器人和商業(yè)智能解決方案方面被吹得過了頭。在今天,即便是啤酒,也是人工智能驅(qū)動。
今年,我們也看到了自動化市場的急速擴張。如今,許多機器學習解決方案都在推動人工引導的、自動化的數(shù)據(jù)分析向整個全生命周期自動化機器學習轉(zhuǎn)化。從簡單的拖拽、點擊按鈕以創(chuàng)建基本模型,到復雜的特征工程、模型檢索、參數(shù)調(diào)整、部署、模型的管理和監(jiān)控,自動化機器學習的應用范圍十分廣泛-結果也參差不齊。
在2019年,對數(shù)據(jù)科學的公共管理,隱私,偏見,道德問題和更深層次的虛假問題將挑戰(zhàn)我們對人工智能的信心。區(qū)塊鏈等創(chuàng)新技術將開始改變我們存儲、共享和跟蹤數(shù)據(jù)的方式。我還期待人工智能將變得更加公平、更加透明,并且更加負責,使得非數(shù)據(jù)科學家也能理解、解釋并信任人工智能。目前,在將數(shù)據(jù)科學術語轉(zhuǎn)化為普通人可以理解的語言間還存在巨大的差距。許多組織在我們這個不完美的世界中應用人工智能技術,同時為民間數(shù)據(jù)科學家的產(chǎn)生提供了溫床,更多的人需要成為數(shù)據(jù)專家,以保證AI方向沒有走偏。
相關報道:https://www.kdnuggets.com/2018/12/predictions-data-science-analytics-2019.htm
【本文是51CTO專欄機構大數(shù)據(jù)文摘的原創(chuàng)譯文,微信公眾號“大數(shù)據(jù)文摘( id: BigDataDigest)”】