數(shù)據(jù)科學(xué)研究的現(xiàn)狀與趨勢全解
大數(shù)據(jù)時代的到來催生了一門新的學(xué)科——數(shù)據(jù)科學(xué)。首先,本文探討了數(shù)據(jù)科學(xué)的內(nèi)涵、發(fā)展簡史、學(xué)科地位及知識體系等基本問題,并提出了專業(yè)數(shù)據(jù)科學(xué)與專業(yè)中的數(shù)據(jù)科學(xué)之間的區(qū)別與聯(lián)系;其次,分析現(xiàn)階段數(shù)據(jù)科學(xué)的研究特點,并分別提出了專業(yè)數(shù)據(jù)科學(xué)、專業(yè)中的數(shù)據(jù)科學(xué)及大數(shù)據(jù)生態(tài)系統(tǒng)中的相對熱門話題;接著,探討了數(shù)據(jù)科學(xué)研究中的10個爭議及挑戰(zhàn):
- 思維模式的轉(zhuǎn)變(知識范式還是數(shù)據(jù)范式)
- 對數(shù)據(jù)的認識(主動屬性還是被動屬性)
- 對智能的認識(更好的算法還是更多的數(shù)據(jù))
- 主要瓶頸(數(shù)據(jù)密集型還是計算密集型)
- 數(shù)據(jù)準備(數(shù)據(jù)預(yù)處理還是數(shù)據(jù)加工)
- 服務(wù)質(zhì)量(精準度還是用戶體驗)
- 數(shù)據(jù)分析(解釋性分析還是預(yù)測性分析)
- 算法評價(復(fù)雜度還是擴展性)
- 研究范式(第三范式還是第四范式)
- 人才培養(yǎng)(數(shù)據(jù)工程師還是數(shù)據(jù)科學(xué)家)。
再次,提出了數(shù)據(jù)科學(xué)研究的10個發(fā)展趨勢:預(yù)測模型及相關(guān)分析的重視、模型集成及元分析的興起、數(shù)據(jù)在先,模式在后或無模式的出現(xiàn)、數(shù)據(jù)一致性及現(xiàn)實主義的回歸、多副本技術(shù)及靠近數(shù)據(jù)原則的廣泛應(yīng)用、多樣化技術(shù)及一體化應(yīng)用并存、簡單計算及實用主義占據(jù)主導(dǎo)地位、數(shù)據(jù)產(chǎn)品開發(fā)及數(shù)據(jù)科學(xué)的嵌入式應(yīng)用、專家余及公眾數(shù)據(jù)科學(xué)的興起、數(shù)據(jù)科學(xué)家與人才培養(yǎng)的探討。最后,結(jié)合本文工作,為數(shù)據(jù)科學(xué)研究者給出了幾點建議和注意事項。
大數(shù)據(jù)正在改變著人們的工作、生活與思維模式,進而對文化、技術(shù)和學(xué)術(shù)研究產(chǎn)生了深遠影響。一方面,大數(shù)據(jù)時代給各學(xué)科領(lǐng)域帶來了新的機遇——認識論和研究范式的轉(zhuǎn)變,出現(xiàn)了一種區(qū)別于傳統(tǒng)科學(xué)研究中沿用至今的“知識范式”的新研究范式——“數(shù)據(jù)范式”。
“數(shù)據(jù)范式”的廣為應(yīng)用成為現(xiàn)代科學(xué)研究的一個重要轉(zhuǎn)變。另一方面, 大數(shù)據(jù)帶來的挑戰(zhàn)在于數(shù)據(jù)的獲得、存儲、計算不再是瓶頸或難題,各學(xué)科領(lǐng)域中的傳統(tǒng)知識與新興數(shù)據(jù)之間的矛盾日益突出,傳統(tǒng)知識無法解釋和有效利用新興的大數(shù)據(jù),進而促使傳統(tǒng)理論與方法的革命性變化。
目前,大數(shù)據(jù)已受到各學(xué)科領(lǐng)域的高度關(guān)注,成為包括計算機科學(xué)和統(tǒng)計學(xué)在內(nèi)的多個學(xué)科領(lǐng)域的新研究方向,表現(xiàn)出不同專業(yè)領(lǐng)域中的數(shù)據(jù)研究相互高度融合的趨勢,進而即將獨立出一門新興學(xué)科——數(shù)據(jù)科學(xué)。
同時,大數(shù)據(jù)研究中仍存在一些誤區(qū)或曲解,如片面追求數(shù)據(jù)規(guī)模、過于強調(diào)計算架構(gòu)和算法、過度依賴分析工具、忽視數(shù)據(jù)重用、混淆數(shù)據(jù)科學(xué)與大數(shù)據(jù)的概念以及全盤否定大數(shù)據(jù)等。因此,現(xiàn)代社會需要一門新學(xué)科來系統(tǒng)研究大數(shù)據(jù)時代的新現(xiàn)象、理念、理論、方法、技術(shù)、工具和實踐,即“數(shù)據(jù)科學(xué)”。
本文第1節(jié)探討數(shù)據(jù)科學(xué)的內(nèi)涵、發(fā)展簡史、學(xué)科地位和知識體系等四個基本問題,并提出了數(shù)據(jù)科學(xué)的兩個基本類型——專業(yè)數(shù)據(jù)科學(xué)和專業(yè)中的數(shù)據(jù)科學(xué)。
第2節(jié)提出現(xiàn)階段數(shù)據(jù)科學(xué)研究的特點——本質(zhì)問題的系統(tǒng)研究較少,反而周邊問題的討論較多,并分別分析了專業(yè)數(shù)據(jù)科學(xué)、專業(yè)中數(shù)據(jù)科學(xué)以及大數(shù)據(jù)生態(tài)系統(tǒng)中的相對熱門話題。
第3節(jié)探討數(shù)據(jù)科學(xué)研究中的10個爭議——思維模式的轉(zhuǎn)變(知識范式還是數(shù)據(jù)范式)、對數(shù)據(jù)的認識視角(主動屬性還是被動屬性)、對智能的認識側(cè)重點(更好的算法還是更多的數(shù)據(jù))、主要瓶頸(數(shù)據(jù)密集型還是計算密集型)、數(shù)據(jù)準備(數(shù)據(jù)預(yù)處理還是數(shù)據(jù)加工)、服務(wù)質(zhì)量(精準度還是用戶體驗)、數(shù)據(jù)分析(解釋性分析還是預(yù)測性分析)、算法評價(復(fù)雜度還是擴展性)、研究范式(第三范式還是第四范式)和人才培養(yǎng)(數(shù)據(jù)工程師還是數(shù)據(jù)科學(xué)家),并分別提出了研究挑戰(zhàn)。
第4節(jié)分析了數(shù)據(jù)科學(xué)研究的10個發(fā)展趨勢——預(yù)測模型及相關(guān)分析的重視、模型集成及元分析的興起、數(shù)據(jù)在先,模式在后或無模式的出現(xiàn)、數(shù)據(jù)一致性及現(xiàn)實主義的回歸、多副本技術(shù)及靠近數(shù)據(jù)原則的應(yīng)用、多樣化技術(shù)及一體化應(yīng)用并存、簡單計算及實用主義占據(jù)主導(dǎo)地位、數(shù)據(jù)產(chǎn)品開發(fā)及數(shù)據(jù)科學(xué)的嵌入式應(yīng)用、專家余及公眾數(shù)據(jù)科學(xué)的興起以及數(shù)據(jù)科學(xué)家與人才培養(yǎng)的探討。
最后總結(jié)全文,并對數(shù)據(jù)科學(xué)研究者提出了幾點建議。
一、數(shù)據(jù)科學(xué):大數(shù)據(jù)背后的科學(xué)

“數(shù)據(jù)科學(xué)”與“大數(shù)據(jù)”是兩個既有區(qū)別又有聯(lián)系的術(shù)語,可以將數(shù)據(jù)科學(xué)理解為大數(shù)據(jù)時代一門新科學(xué),即以揭示數(shù)據(jù)時代,尤其是大數(shù)據(jù)時代新的挑戰(zhàn)、機會、思維和模式為研究目的,由大數(shù)據(jù)時代新出現(xiàn)的理論、方法、模型、技術(shù)、平臺、工具、應(yīng)用和最佳實踐組成的一整套知識體系。
1. 數(shù)據(jù)科學(xué)的內(nèi)涵及興起
1974年,著名計算機科學(xué)家、圖靈獎獲得者Peter Naur在其著作《計算機方法的簡明調(diào)研(Concise Survey of Computer Methods)》的前言中首次明確提出了數(shù)據(jù)科學(xué)(Data Science)的概念,“數(shù)據(jù)科學(xué)是一門基于數(shù)據(jù)處理的科學(xué)”,并提到了數(shù)據(jù)科學(xué)與數(shù)據(jù)學(xué)(Datalogy)的區(qū)別——前者是解決數(shù)據(jù)(問題)的科學(xué)(the science of dealing with data),而后者側(cè)重于數(shù)據(jù)處理及其在教育領(lǐng)域中的應(yīng)用(the science of data and of data processes and its place in education)。
Peter Naur首次明確提出數(shù)據(jù)科學(xué)的概念之后,數(shù)據(jù)科學(xué)研究經(jīng)歷了一段漫長的沉默期。直到2001年,當時在貝爾實驗室工作的William S. Cleveland在學(xué)術(shù)期刊International Statistical Review上發(fā)表題為《數(shù)據(jù)科學(xué)——拓展統(tǒng)計學(xué)技術(shù)領(lǐng)域的行動計劃(Data Science: an Action Plan for Expanding the Technical Areas of the Field of Statistics》的論文,主張數(shù)據(jù)科學(xué)是統(tǒng)計學(xué)的一個重要研究方向,數(shù)據(jù)科學(xué)再度受到統(tǒng)計學(xué)領(lǐng)域的關(guān)注。
之后,2013年,Mattmann C A和 Dhar V在《自然(Nature)》和《美國計算機學(xué)會通訊(Communications of the ACM)》 上分別發(fā)表題為《計算——數(shù)據(jù)科學(xué)的愿景(Computing: A vision for data science)》和《數(shù)據(jù)科學(xué)與預(yù)測(Data science and prediction)》論文,從計算機科學(xué)與技術(shù)視角討論數(shù)據(jù)科學(xué)的內(nèi)涵,使數(shù)據(jù)科學(xué)納入計算機科學(xué)與技術(shù)專業(yè)的研究范疇。
然而,數(shù)據(jù)科學(xué)被更多人關(guān)注是因為后來發(fā)生了三個標志性事件:一是Patil DJ和 Davenport T H于2012年在哈佛商業(yè)評論上發(fā)表題為《數(shù)據(jù)科學(xué)家——21世紀最性感的職業(yè)(Data scientist: the sexiest job of the 21st century)》;二是2012年大數(shù)據(jù)思維首次應(yīng)用于美國總統(tǒng)大選,成就奧巴馬,擊敗羅姆尼,成功連任;三是美國白宮于2015年首次設(shè)立數(shù)據(jù)科學(xué)家的崗位,并聘請Patil DJ作為白宮第一任首席數(shù)據(jù)科學(xué)家。
Gartner的調(diào)研及其新技術(shù)成長曲線(Gartner's 2014 Hype Cycle for Emerging Technologies)表示,數(shù)據(jù)科學(xué)的發(fā)展于2014年7月已經(jīng)接近創(chuàng)新與膨脹期的末端,將在2~5年之內(nèi)開始應(yīng)用于生產(chǎn)高地期(plateau of Productivity)。
同時,Gartner的另一項研究揭示了數(shù)據(jù)科學(xué)本身的成長曲線(Hype Cycle for Data Science),如圖1所示。從圖1可以看出,數(shù)據(jù)科學(xué)的各組成部分的成熟度不同:R的成熟度最高,已廣泛應(yīng)用于生產(chǎn)活動;其次是模擬與仿真、集成學(xué)習(xí)、視頻與圖像分析、文本分析等,正在趨于成熟,即將投入實際應(yīng)用;基于Hadoop的數(shù)據(jù)發(fā)現(xiàn)可能要消失;語音分析、模型管理、自然語言問答等已經(jīng)渡過了炒作期,正在走向?qū)嶋H應(yīng)用;公眾數(shù)據(jù)科學(xué)、模型工廠、算法市場(經(jīng)濟)、規(guī)范分析等正處于高速發(fā)展之中。

圖1 數(shù)據(jù)科學(xué)的成長曲線(2016)
2. 數(shù)據(jù)科學(xué)的學(xué)科地位
2010年,Drew Conway 提出了第一張揭示數(shù)據(jù)科學(xué)的學(xué)科地位的維恩圖——《數(shù)據(jù)科學(xué)維恩圖(The Data Science Venn Diagram)》(圖2),首次明確探討了數(shù)據(jù)科學(xué)的學(xué)科定位問題。在他看來,數(shù)據(jù)科學(xué)處于統(tǒng)計學(xué)、機器學(xué)習(xí)和領(lǐng)域知識的交叉之處。后來,其他學(xué)者在此基礎(chǔ)上提出了諸多修正或改進版本,如圖3是Jerry Overton于2016年給出的數(shù)據(jù)科學(xué)維恩圖。但是,后續(xù)版本對數(shù)據(jù)科學(xué)的貢獻和影響遠不及Drew Convey首次提出的數(shù)據(jù)科學(xué)維恩圖。

圖2 Drew Conway的數(shù)據(jù)科學(xué)韋恩圖(2010) 圖3 Jerry Overton的數(shù)據(jù)科學(xué)韋恩圖(2016)
從Drew Conway的《數(shù)據(jù)科學(xué)維恩圖》的中心部分可看出,數(shù)據(jù)科學(xué)位于統(tǒng)計學(xué)、機器學(xué)和某一領(lǐng)域知識的交叉之處,具備較為顯著的交叉型學(xué)科的特點,即數(shù)據(jù)科學(xué)是一門以統(tǒng)計學(xué)、機器學(xué)習(xí)和領(lǐng)域知識為理論基礎(chǔ)的新興學(xué)科。同時,從該圖的外圍可看出,數(shù)據(jù)科學(xué)家需要具備數(shù)學(xué)與統(tǒng)計學(xué)知識、領(lǐng)域?qū)崙?zhàn)和黑客精神,說明數(shù)據(jù)科學(xué)不僅需要理論知識和實踐經(jīng)驗,而且還涉及黑客精神,即數(shù)據(jù)科學(xué)具有三個基本要素:理論(數(shù)學(xué)與統(tǒng)計學(xué))、實踐(領(lǐng)域?qū)崉?wù))和精神(黑客精神)。
3. 數(shù)據(jù)科學(xué)的知識體系
從知識體系看,數(shù)據(jù)科學(xué)主要以統(tǒng)計學(xué)、機器學(xué)習(xí)、數(shù)據(jù)可視化以及(某一)領(lǐng)域知識為理論基礎(chǔ),其主要研究內(nèi)容包括數(shù)據(jù)科學(xué)基礎(chǔ)理論、數(shù)據(jù)加工、數(shù)據(jù)計算、數(shù)據(jù)管理、數(shù)據(jù)分析和數(shù)據(jù)產(chǎn)品開發(fā),如圖4所示。

圖4 數(shù)據(jù)科學(xué)的知識體系
基礎(chǔ)理論:主要包括數(shù)據(jù)科學(xué)中的新理念、理論、方法、技術(shù)及工具以及數(shù)據(jù)科學(xué)的研究目的、理論基礎(chǔ)、研究內(nèi)容、基本流程、主要原則、典型應(yīng)用、人才培養(yǎng)、項目管理等。需要特別提醒的是,“基礎(chǔ)理論”與“理論基礎(chǔ)”是兩個不同的概念。數(shù)據(jù)科學(xué)的“基礎(chǔ)理論”在數(shù)據(jù)科學(xué)的研究邊界之內(nèi),而其“理論基礎(chǔ)”在數(shù)據(jù)科學(xué)的研究邊界之外,是數(shù)據(jù)科學(xué)的理論依據(jù)和來源。
數(shù)據(jù)加工(Data Wrangling 或Data Munging):數(shù)據(jù)科學(xué)中關(guān)注的新問題之一。為了提升數(shù)據(jù)質(zhì)量、降低數(shù)據(jù)計算的復(fù)雜度、減少數(shù)據(jù)計算量以及提升數(shù)據(jù)處理的精準度,數(shù)據(jù)科學(xué)項目需要對原始數(shù)據(jù)進行一定的加工處理工作——數(shù)據(jù)審計、數(shù)據(jù)清洗、數(shù)據(jù)變換、數(shù)據(jù)集成、數(shù)據(jù)脫敏、數(shù)據(jù)歸約和數(shù)據(jù)標注等。值得一提的是,與傳統(tǒng)數(shù)據(jù)處理不同的是,數(shù)據(jù)科學(xué)中的數(shù)據(jù)加工更加強調(diào)的是數(shù)據(jù)處理中的增值過程,即如何將數(shù)據(jù)科學(xué)家的創(chuàng)造性設(shè)計、批判性思考和好奇性提問融入數(shù)據(jù)的加工活動之中。
數(shù)據(jù)計算:在數(shù)據(jù)科學(xué)中,計算模式發(fā)生了根本性的變化——從集中式計算、分布式計算、網(wǎng)格計算等傳統(tǒng)計算過渡至云計算。比較有代表性的是Google三大云計算技術(shù)(GFS、BigTable和MapReduce)、Hadoop MapReduce、Spark和YARN。計算模式的變化意味著數(shù)據(jù)科學(xué)中所關(guān)注的數(shù)據(jù)計算的主要瓶頸、主要矛盾和思維模式發(fā)生了根本性變化。
數(shù)據(jù)管理:在完成“數(shù)據(jù)加工”和“數(shù)據(jù)計算”之后,還需要對數(shù)據(jù)進行管理與維護,以便進行(再次進行)“數(shù)據(jù)分析”以及數(shù)據(jù)的再利用和長久存儲。在數(shù)據(jù)科學(xué)中,數(shù)據(jù)管理方法與技術(shù)也發(fā)生了重要變革——不僅包括傳統(tǒng)關(guān)系型數(shù)據(jù)庫,而且還出現(xiàn)了一些新興數(shù)據(jù)管理技術(shù),如NoSQL、NewSQL技術(shù)和關(guān)系云等。
數(shù)據(jù)分析:數(shù)據(jù)科學(xué)中采用的數(shù)據(jù)分析方法具有較為明顯的專業(yè)性,通常以開源工具為主,與傳統(tǒng)數(shù)據(jù)分析有著較為顯著的差異。目前,R語言和Python語言已成為數(shù)據(jù)科學(xué)家較為普遍應(yīng)用的數(shù)據(jù)分析工具。
數(shù)據(jù)產(chǎn)品開發(fā):“數(shù)據(jù)產(chǎn)品”在數(shù)據(jù)科學(xué)中具有特殊的含義——基于數(shù)據(jù)開發(fā)的產(chǎn)品的統(tǒng)稱。數(shù)據(jù)產(chǎn)品開發(fā)是數(shù)據(jù)科學(xué)的主要研究使命之一,也是數(shù)據(jù)科學(xué)區(qū)別于其他科學(xué)的重要區(qū)別。與傳統(tǒng)產(chǎn)品開發(fā)不同的是,數(shù)據(jù)產(chǎn)品開發(fā)具有以數(shù)據(jù)為中心、多樣性、層次性和增值性等特征。數(shù)據(jù)產(chǎn)品開發(fā)能力也是數(shù)據(jù)科學(xué)家的主要競爭力之源。因此,數(shù)據(jù)科學(xué)的學(xué)習(xí)目的之一是提升自己的數(shù)據(jù)產(chǎn)品開發(fā)能力。
4. 專業(yè)數(shù)據(jù)科學(xué)及專業(yè)中的數(shù)據(jù)科學(xué)
數(shù)據(jù)科學(xué)是一門與領(lǐng)域知識和行業(yè)實踐高度交融的學(xué)科。從目前的研究現(xiàn)狀看,數(shù)據(jù)科學(xué)可以分為兩類:專業(yè)數(shù)據(jù)科學(xué)與專業(yè)中的數(shù)據(jù)科學(xué)。其中,“專業(yè)數(shù)據(jù)科學(xué)”是以獨立學(xué)科的形式存在,與其他傳統(tǒng)學(xué)科(如計算機科學(xué)、統(tǒng)計學(xué)、新聞學(xué)、社會學(xué)等)并列的一門新興科學(xué);“專業(yè)中的數(shù)據(jù)科學(xué)”是指依存于某一專業(yè)領(lǐng)域中的大數(shù)據(jù)研究,其特點是與所屬專業(yè)的耦合度較高,難以直接移植到另一個專業(yè)領(lǐng)域,如數(shù)據(jù)新聞(Data Journalism)、材料數(shù)據(jù)科學(xué)(Materials Data Science)、大數(shù)據(jù)金融(Big Data Finance)、大數(shù)據(jù)社會、大數(shù)據(jù)倫理(Big Data Ethics)和大數(shù)據(jù)教育(Big Data Education)等。
專業(yè)數(shù)據(jù)科學(xué)與專業(yè)中的數(shù)據(jù)科學(xué)的聯(lián)系如下:專業(yè)數(shù)據(jù)科學(xué)聚集了不同專業(yè)中的數(shù)據(jù)科學(xué)中的共性理念、理論、方法、術(shù)語與工具;相對于專業(yè)中的數(shù)據(jù)科學(xué),專業(yè)數(shù)據(jù)科學(xué)更具有共性和可移植性,并為不同專業(yè)中的數(shù)據(jù)科學(xué)研究奠定了理論基礎(chǔ);專業(yè)中的數(shù)據(jù)科學(xué)代表的是不同專業(yè)中對數(shù)據(jù)科學(xué)的差異性認識和區(qū)別化應(yīng)用。
二、數(shù)據(jù)科學(xué)的研究熱點

目前,數(shù)據(jù)科學(xué)的研究特點是對本質(zhì)問題的系統(tǒng)研究少,然而對周邊問題的討論較多,可從以下四個方面進行分類分析。
1. 周邊問題仍為研究熱點
從文獻分布看,數(shù)據(jù)科學(xué)的研究主題可以分為兩類:核心問題和周邊問題。前者代表的是數(shù)據(jù)科學(xué)的基礎(chǔ)理論——數(shù)據(jù)科學(xué)特有的理念、理論、方法、技術(shù)、工具、應(yīng)用及代表性實踐;后者代表的是數(shù)據(jù)科學(xué)的底層理論(理論基礎(chǔ),如統(tǒng)計學(xué)、機器學(xué)習(xí)等)、上層應(yīng)用(應(yīng)用理論,如數(shù)據(jù)新聞、大數(shù)據(jù)金融、大數(shù)據(jù)社會、大數(shù)據(jù)生態(tài)系統(tǒng)等)以及相關(guān)研究(如云計算、物聯(lián)網(wǎng)、移動計算等)。
文獻數(shù)量和研究深度表明,現(xiàn)階段的數(shù)據(jù)科學(xué)研究熱點仍聚焦在周邊問題的討論之上,而對數(shù)據(jù)科學(xué)的核心問題的研究遠遠不夠。數(shù)據(jù)科學(xué)的周邊問題的研究主要集中在:
- 大數(shù)據(jù)挑戰(zhàn)及數(shù)據(jù)科學(xué)的必要性。在大數(shù)據(jù)時代,挑戰(zhàn)和機會并存:挑戰(zhàn)不僅來自于數(shù)據(jù)量(Volume),而且還涉及其多個V特征,如種類多(Variety)、速度要求高(Velocity)和價值密度低(Value)。因此,社會與科技的發(fā)展亟待一門新的學(xué)科——數(shù)據(jù)科學(xué),并對大數(shù)據(jù)時代的新問題和新思路進行系統(tǒng)研究。
- 數(shù)據(jù)科學(xué)對統(tǒng)計學(xué)和計算機科學(xué)的繼承與創(chuàng)新。一方面數(shù)據(jù)科學(xué)作為新的研究方向,進一步拓展了統(tǒng)計學(xué)和計算機科學(xué)與技術(shù)的研究范疇;另一方面,數(shù)據(jù)科學(xué)不僅繼承了統(tǒng)計學(xué)和計算機科學(xué)等基礎(chǔ)理論,而且對其進行了創(chuàng)新與發(fā)展,逐漸成為一門獨立學(xué)科。
- 新技術(shù)在數(shù)據(jù)科學(xué)中的重要地位。云計算、物聯(lián)網(wǎng)、移動計算等新技術(shù)的興起拓展了人的數(shù)據(jù)獲取、存儲和計算能力,促使大數(shù)據(jù)時代的到來,成為數(shù)據(jù)學(xué)科誕生的必要條件。同時,數(shù)據(jù)科學(xué)中需要重點引入Spark、Hadoop、NoSQL等新興技術(shù),從而更好地面對大數(shù)據(jù)挑戰(zhàn)。新技術(shù)的應(yīng)用意味著數(shù)據(jù)科學(xué)對數(shù)據(jù)及其管理的認識發(fā)生了根本性變化——不僅開始接受了數(shù)據(jù)的復(fù)雜性,而且數(shù)據(jù)管理的理念從傳統(tǒng)的完美主義者轉(zhuǎn)向現(xiàn)實主義,“數(shù)據(jù)在先,模式在后或無模式”的數(shù)據(jù)管理范式、BASE原則以及CAP理論等新理念已成為數(shù)據(jù)科學(xué)的基本共識。
- 數(shù)據(jù)科學(xué)對特定領(lǐng)域的影響。大數(shù)據(jù)及其背后的數(shù)據(jù)科學(xué)在特定領(lǐng)域的應(yīng)用是近幾年的熱門話題,尤其在生命科學(xué)、醫(yī)療保健、政府治理、教學(xué)教育和業(yè)務(wù)管理等領(lǐng)域的廣泛應(yīng)用,出現(xiàn)了量化自我、數(shù)據(jù)新聞、大數(shù)據(jù)分析學(xué)等新的研究課題。
- 數(shù)據(jù)科學(xué)領(lǐng)域的人才培養(yǎng)。與傳統(tǒng)科學(xué)領(lǐng)域不同的是,數(shù)據(jù)科學(xué)領(lǐng)域人才培養(yǎng)目的是培養(yǎng)學(xué)生的“以數(shù)據(jù)為中心的思考能力”。目前,相關(guān)研究主要涉及四個主題:數(shù)據(jù)科學(xué)課程的建設(shè)、相關(guān)課程的教學(xué)改革、跨學(xué)科型人才培養(yǎng)以及女性數(shù)據(jù)科學(xué)家的培養(yǎng)。從總體上看,數(shù)據(jù)科學(xué)的人才培養(yǎng)目的并不是數(shù)據(jù)工程師,而是數(shù)據(jù)科學(xué)家,尤其培養(yǎng)具有3C精神的數(shù)據(jù)科學(xué)家——原創(chuàng)性(Creative)設(shè)計、批判性(Critical)思考和好奇性(Curious)提問。
2. 專業(yè)數(shù)據(jù)科學(xué)研究中相對熱門話題
從研究視角看,數(shù)據(jù)科學(xué)的研究可以分為兩類:專業(yè)數(shù)據(jù)科學(xué)和專業(yè)中的數(shù)據(jù)科學(xué)。前者代表的是將數(shù)據(jù)科學(xué)當作一門獨立于傳統(tǒng)科學(xué)的新興學(xué)科來研究,強調(diào)的是其學(xué)科基礎(chǔ)性:后者代表的是將數(shù)據(jù)科學(xué)當作傳統(tǒng)學(xué)科的新研究方向和思維模式來研究,強調(diào)的是數(shù)據(jù)科學(xué)的學(xué)科交叉性。從目前的研究現(xiàn)狀看,專業(yè)數(shù)據(jù)科學(xué)研究的熱熱門話題有:
- DIKW模型。DIKW模型刻畫的是人類對數(shù)據(jù)的認識程度的轉(zhuǎn)變過程。通常認為,數(shù)據(jù)科學(xué)的研究任務(wù)是將數(shù)據(jù)轉(zhuǎn)換成信息(Information)、知識(Knowledge)或(和)智慧(Wisdom)。從數(shù)據(jù)到智慧的轉(zhuǎn)變過程是一種從不可預(yù)知到可預(yù)知的增值過程,即數(shù)據(jù)通過還原其真實發(fā)生的背景(Context)成為信息,信息賦予其內(nèi)在含義(Meaning)之后成為知識,而知識通過理解轉(zhuǎn)變成智慧。
- 數(shù)據(jù)分析學(xué)(Data Analytics)。大數(shù)據(jù)分析研究正在成為一門相對成熟的研究方向——數(shù)據(jù)分析學(xué)。需要注意的是,數(shù)據(jù)分析(Data Analysis)與數(shù)據(jù)分析學(xué)是兩個不同的概念:前者強調(diào)的是數(shù)據(jù)分析活動本身,而后者更加強調(diào)的是數(shù)據(jù)分析中的方法、技術(shù)和工具。目前,大數(shù)據(jù)分析研究中的熱門話題有兩個:一是大數(shù)據(jù)分析學(xué),尤其是大數(shù)據(jù)分析算法和工具的開發(fā);另一個面向特定領(lǐng)域的大數(shù)據(jù)分析,如面向物流與供應(yīng)鏈管理、網(wǎng)絡(luò)安全以及醫(yī)療健康的大數(shù)據(jù)分析學(xué)。論文給出了數(shù)據(jù)分析的主要類型及常見錯誤。
- 數(shù)據(jù)化(Datafication)。數(shù)據(jù)化是將客觀世界以及業(yè)務(wù)活動以數(shù)據(jù)的形式計量和記錄,形成大數(shù)據(jù),以便進行后續(xù)的開發(fā)利用。除了物聯(lián)網(wǎng)和傳感器等公認的研究課題,量化自我(Quantified Self)也在成為數(shù)據(jù)化的熱門話題。數(shù)據(jù)化是大數(shù)據(jù)時代初級階段的主要關(guān)注的問題,隨著大數(shù)據(jù)的積淀,人們的研究焦點將從業(yè)務(wù)的數(shù)據(jù)化轉(zhuǎn)向數(shù)據(jù)的業(yè)務(wù)化,即研究重點將放在“基于數(shù)據(jù)定義和優(yōu)化業(yè)務(wù)”之上。
- 數(shù)據(jù)治理(Data Governance)。數(shù)據(jù)治理是指數(shù)據(jù)管理的管理。目前,相關(guān)研究主要集中在頂層設(shè)計、實現(xiàn)方法、參考框架以及如何保證數(shù)據(jù)管理的可持續(xù)性。此外,數(shù)據(jù)治理作為數(shù)據(jù)能力成熟度評估模型(Data Maturity Model)的關(guān)鍵過程域,重點關(guān)注的是如何通過數(shù)據(jù)治理提升組織數(shù)據(jù)管理能力的問題。DMM中定義的關(guān)鍵過程域“數(shù)據(jù)治理”包括3個關(guān)鍵過程:治理管理(Governance Management)、業(yè)務(wù)術(shù)語表(Business Glossary)和元數(shù)據(jù)管理(Metadata Management)。
- 數(shù)據(jù)質(zhì)量。大數(shù)據(jù)的質(zhì)量與可用性之間內(nèi)在聯(lián)系的討論已成為現(xiàn)階段數(shù)據(jù)科學(xué)的熱點問題之一,主要研究議題集中在大數(shù)據(jù)中的質(zhì)量問題會不會導(dǎo)致數(shù)據(jù)科學(xué)項目的根本性錯誤以及大數(shù)據(jù)時代背景下的數(shù)據(jù)可用性的挑戰(zhàn)及新研究問題。但是,傳統(tǒng)數(shù)據(jù)管理和數(shù)據(jù)科學(xué)對數(shù)據(jù)質(zhì)量的關(guān)注點不同。傳統(tǒng)數(shù)據(jù)管理主要從數(shù)據(jù)內(nèi)容視角關(guān)注質(zhì)量問題,強調(diào)的是數(shù)據(jù)是否為干凈數(shù)據(jù)(Clean Data)/臟數(shù)據(jù)(Dirty Data);數(shù)據(jù)科學(xué)主要從數(shù)據(jù)形態(tài)視角關(guān)注質(zhì)量問題,重視的是數(shù)據(jù)是否為整齊數(shù)據(jù)(Tidy Data)/混亂數(shù)據(jù)(Messy Data)。所謂的整齊數(shù)據(jù)是指數(shù)據(jù)的形態(tài)可以直接支持算法和數(shù)據(jù)處理的要求。例如,著名的數(shù)據(jù)科學(xué)家Hadley Wickham 提出了整齊數(shù)據(jù)和數(shù)據(jù)整齊化處理(Data Tidying)的概念,并主張整齊數(shù)據(jù)應(yīng)遵循三個基本原則: 每個觀察占且僅占一行、每個變量占且僅占一列以及每一類觀察單元構(gòu)成一個關(guān)系表。
除了上述問題之外,大數(shù)據(jù)的安全、大數(shù)據(jù)環(huán)境下的個人隱私保護、數(shù)據(jù)科學(xué)的項目管理及團隊建設(shè)、公眾數(shù)據(jù)科學(xué)(Citizen Data Science)等是目前在專業(yè)數(shù)據(jù)科學(xué)研究中討論較多的問題。
3. 專業(yè)中的數(shù)據(jù)科學(xué)研究的相對熱門話題
相對于專業(yè)數(shù)據(jù)科學(xué),專業(yè)中的數(shù)據(jù)科學(xué)研究具有差異性和隱蔽性。差異性主要表現(xiàn)在各學(xué)科領(lǐng)域?qū)?shù)據(jù)科學(xué)的關(guān)注點和視角不同;隱蔽性是指專業(yè)中的數(shù)據(jù)科學(xué)研究往往間接地吸收和借鑒數(shù)據(jù)科學(xué)或類似于數(shù)據(jù)科學(xué)的思想,而并不明確采用或直接運用數(shù)據(jù)科學(xué)的規(guī)范術(shù)語。從目前的研究看,以下幾個專業(yè)中的數(shù)據(jù)科學(xué)研究尤為活躍:
數(shù)據(jù)新聞(Data Journalism):新聞學(xué)領(lǐng)域的新研究方向之一,主要研究的是如何將大數(shù)據(jù)和數(shù)據(jù)科學(xué)的理念引入新聞領(lǐng)域,實現(xiàn)數(shù)據(jù)驅(qū)動型新聞(Data-driven Journalism)。
工業(yè)大數(shù)據(jù):主要研究如何將大數(shù)據(jù)應(yīng)用于工業(yè)制造領(lǐng)域,進而實現(xiàn)工業(yè)制造的創(chuàng)新。比較有代表性的是德國工業(yè)4.0(Industrie 4.0)、美國工業(yè)互聯(lián)網(wǎng)(Industrial internet)和中國制造2025(Made in China)。
消費大數(shù)據(jù):與工業(yè)大數(shù)據(jù)不同的是,消費大數(shù)據(jù)更加關(guān)注的是產(chǎn)品生命周期的末端,即如何將已生產(chǎn)出的產(chǎn)品推銷給更多的用戶,主要包括精準營銷、用戶畫像(User Profiling)以及廣告推送。
- 健康大數(shù)據(jù):主要關(guān)注大數(shù)據(jù)在健康與醫(yī)療領(lǐng)域的廣泛應(yīng)用,包括生命日志(Life Logging)、醫(yī)療診斷、藥物開發(fā)、衛(wèi)生保健等具體領(lǐng)域的應(yīng)用。
- 生物大數(shù)據(jù):將大數(shù)據(jù)的理念、理論、方法、技術(shù)和工具應(yīng)用于生物學(xué)領(lǐng)域,從而生物學(xué)從知識范轉(zhuǎn)向數(shù)據(jù)范式。
- 社會大數(shù)據(jù):綜合運用大數(shù)據(jù)和數(shù)據(jù)科學(xué)的理論,探討如何在大數(shù)據(jù)時代進行輿情分析、社會網(wǎng)絡(luò)分析以及熱點發(fā)現(xiàn)。
- 機構(gòu)大數(shù)據(jù):如何將大數(shù)據(jù)和數(shù)據(jù)科學(xué)的思想引入企業(yè)、政府以及公益部門的日常業(yè)務(wù)、戰(zhàn)略規(guī)劃與可持續(xù)改進。
- 智慧類應(yīng)用:如何將大數(shù)據(jù)應(yīng)用于智慧城市、智慧醫(yī)療、智慧養(yǎng)老、智慧交通、智慧教育等領(lǐng)域,發(fā)揮數(shù)據(jù)的驅(qū)動作用,進而實現(xiàn)更高的智慧。
- 敏捷類應(yīng)用:如何將大數(shù)據(jù)思維用于軟件開發(fā)、項目管理以及組織管理之中,進而實現(xiàn)敏捷軟件開發(fā)、敏捷項目管理和敏捷組織,提升其應(yīng)變能力和可持續(xù)發(fā)展能力。
4. 大數(shù)據(jù)生態(tài)系統(tǒng)研究中相對熱門話題
數(shù)據(jù)科學(xué)生態(tài)系統(tǒng)(Big Data Ecosystem)是指包括基礎(chǔ)設(shè)施、支撐技術(shù)、工具與平臺、項目管理以及其他外部影響因素在內(nèi)的各種組成要素構(gòu)成的完整系統(tǒng)。例如,大數(shù)據(jù)全景圖(Big Data Landscape)較為全面地展示了大數(shù)據(jù)生態(tài)系統(tǒng)中的主要機構(gòu)及產(chǎn)品?,F(xiàn)有相關(guān)研究主要從組成要素及其相互關(guān)系兩個方面進行。就目前而言,相關(guān)研究中的熱門話題集中在:
- 基礎(chǔ)設(shè)施:主要關(guān)注云計算、物聯(lián)網(wǎng)、移動計算、社交媒體在內(nèi)的基礎(chǔ)設(shè)施對數(shù)據(jù)科學(xué)的影響以及數(shù)據(jù)科學(xué)中如何充分利用上述基礎(chǔ)設(shè)施。
- 支撐技術(shù):建立在基礎(chǔ)設(shè)施上的關(guān)鍵技術(shù),現(xiàn)有研究主要討論機器學(xué)習(xí)、統(tǒng)計學(xué)、批處理、流計算、圖計算、交互計算、NoSQL、NewSQL和關(guān)系云等支撐技術(shù)在數(shù)據(jù)科學(xué)的應(yīng)用;
- 工具與平臺:支撐技術(shù)的具體實現(xiàn),目前的主要研究熱點集中在R、Python、Hadoop、Spark、MongoDB、HBase、Memcached、MongoDB、CouchDB和Redis等工具與平臺在數(shù)據(jù)科學(xué)中的應(yīng)用;
- 項目管理:涉及數(shù)據(jù)科學(xué)項目的范圍、時間、成本、質(zhì)量、風(fēng)險、人力資源、溝通、采購及系統(tǒng)管理等9個方面的管理;
- 環(huán)境因素:大數(shù)據(jù)時代對法律、政策、制度、文化、道德、倫理產(chǎn)生的影響與新需求。其中,大數(shù)據(jù)權(quán)屬立法研究主要討論大數(shù)據(jù)權(quán)屬立法的必要性、可行性以及對策建議。從大數(shù)據(jù)的重要性的認識看,大數(shù)據(jù)不再是一種資源,更是一種資產(chǎn)。大數(shù)據(jù)權(quán)屬的立法已經(jīng)成為大數(shù)據(jù)時代信息資源開發(fā)利用的必要條件。
三、數(shù)據(jù)科學(xué)研究的爭議與挑戰(zhàn)
在不同的學(xué)科領(lǐng)域,大數(shù)據(jù)時代的科學(xué)研究所面臨問題、挑戰(zhàn)和關(guān)注點不同。
從計算機科學(xué)視角看,新的數(shù)據(jù)處理需求已經(jīng)超出了現(xiàn)有的存儲與計算能力;從統(tǒng)計學(xué)視角看,大數(shù)據(jù)挑戰(zhàn)在于樣本的規(guī)模接近總體時,如何直接在總體上進行統(tǒng)計分析;從機器學(xué)習(xí)角度看,訓(xùn)練樣本集接近測試樣本集時,如何用簡單模型及模型集成方法實現(xiàn)較高的智能水平;從數(shù)據(jù)分析角度看,如何從海量數(shù)據(jù)中快速洞察有價值的數(shù)據(jù),并通過試驗設(shè)計和模擬仿真,實現(xiàn)數(shù)據(jù)到智慧的轉(zhuǎn)變。
但是,從數(shù)據(jù)科學(xué)視角看,其研究中的常見爭議及背后的研究挑戰(zhàn)可以歸納為10個方面:
1. 思維模式——知識范式還是數(shù)據(jù)范式
在傳統(tǒng)科學(xué)研究中,由于數(shù)據(jù)的獲得、存儲和計算能力所限,人們往往采取的是知識范式(“數(shù)據(jù)→知識→問題”的范式),從數(shù)據(jù),尤其是樣本數(shù)據(jù)中提煉出知識之后,用知識去解決現(xiàn)實問題。大數(shù)據(jù)時代的到來及數(shù)據(jù)科學(xué)出現(xiàn)為人們提供了另一種研究思路,即數(shù)據(jù)范式(“數(shù)據(jù)→問題”范式),在尚未從數(shù)據(jù)中提煉出知識的前提下,用數(shù)據(jù)直接解決問題。數(shù)據(jù)范式強調(diào)的是在尚未將數(shù)據(jù)轉(zhuǎn)換為知識的前提下,直接用數(shù)據(jù)去解決現(xiàn)實世界中的問題。
以機器翻譯為例,傳統(tǒng)機器翻譯方法是基于自然語言理解,準確說是基于語言學(xué)和統(tǒng)計學(xué)的知識進行,屬于知識范式的范疇。但是,這種傳統(tǒng)機器翻譯效果一直并不理想,且尚無突破性進展。然而,近幾年興起的機器翻譯方法改變了傳統(tǒng)機器翻譯的思維模式,采取的是“數(shù)據(jù)范式”——直接從歷史跨語言語料庫中快速洞見所需結(jié)果。上世紀五十年以來的IBM 機器翻譯的緩慢發(fā)展以及2000以后的Google機器翻譯的迅速興起也反映了這種思維模式的變革。
與傳統(tǒng)認識中的“知識就是力量”類似,在大數(shù)據(jù)時代,數(shù)據(jù)也成為一種重要力量。如何組織、挖掘和利用數(shù)據(jù)成為現(xiàn)代組織的核心競爭力。目前,思維模式變革的主要挑戰(zhàn)在于如何完成以數(shù)據(jù)為中心的設(shè)計、數(shù)據(jù)驅(qū)動型決策和數(shù)據(jù)密集型應(yīng)用。
2. 數(shù)據(jù)的認識——主動屬性還是被動屬性
在傳統(tǒng)科學(xué)研究中,數(shù)據(jù)一直被當作是被動的東西,人們主要從被動屬性方面去對待數(shù)據(jù)。以關(guān)系數(shù)據(jù)庫為例,人們先定義關(guān)系模式,然后將數(shù)據(jù)按照關(guān)系模式的要求進行強制轉(zhuǎn)換后放入數(shù)據(jù)庫中,完成數(shù)據(jù)挖掘和分析任務(wù)。
在大數(shù)據(jù)思維模式的背后,一個根本性的變革在于人們開始意識到數(shù)據(jù)的主動屬性——不再簡單認為數(shù)據(jù)是一種死的、被動的東西,而更加重視數(shù)據(jù)的積極作者用,提出了數(shù)據(jù)在先、模式在后或無模式、讓數(shù)據(jù)說話、數(shù)據(jù)驅(qū)動型應(yīng)用、數(shù)據(jù)業(yè)務(wù)化、數(shù)據(jù)洞察和以數(shù)據(jù)為中心的思維模式等新術(shù)語。
因此,如何正確認識數(shù)據(jù)及如何充分發(fā)揮數(shù)據(jù)的主動屬性成為數(shù)據(jù)科學(xué)的重要研究任務(wù)。目前,相關(guān)研究的主要挑戰(zhàn)在于如何實現(xiàn)數(shù)據(jù)洞察、以數(shù)據(jù)為中心的設(shè)計、敏捷軟件開發(fā)、數(shù)據(jù)驅(qū)動型決策以及智慧類應(yīng)用研發(fā)。
3. 智能的認識——更好的算法還是更多的數(shù)據(jù)
在傳統(tǒng)學(xué)術(shù)研究中,智能主要來自于算法,尤其是復(fù)雜的算法。算法的復(fù)雜度隨著智能水平得到提升。例如,KNN算法是機器學(xué)習(xí)中常用的分類算法,其算法思想非常簡單。人們根據(jù)不同應(yīng)用場景提出多種改進或演化方案,雖然智能水平有所提高,但隨之而來的問題是算法復(fù)雜度的提升。但是,數(shù)據(jù)范式表明,數(shù)據(jù)也可以直接用于解決問題,引發(fā)了一場關(guān)于“更多數(shù)據(jù)還是更好模型(More data or Better Model debate)”的討論,經(jīng)過這場大討論,人們得出了相對一致的結(jié)論——“更多數(shù)據(jù)+簡單算法=最好的模型(more data+ simple Algorithem= the best model)”。
因此,如何設(shè)計出簡單高效的算法以及算法的集成應(yīng)用成為數(shù)據(jù)科學(xué)的重要挑戰(zhàn)。目前,關(guān)于智能的實現(xiàn)方式的挑戰(zhàn)在于算法設(shè)計、算法集成、維度災(zāi)難和深度學(xué)習(xí)。
4. 研發(fā)瓶頸——數(shù)據(jù)密集型還是計算密集型
傳統(tǒng)的軟件開發(fā)與算法設(shè)計的重點是解決計算密集型的問題,計算是研究難點和瓶頸。但是,隨著大規(guī)模分布式計算,尤其是云計算的普及,計算不再是人們需要解決的首要瓶頸。因此,軟件開發(fā)與算法設(shè)計的主要矛盾從計算轉(zhuǎn)向數(shù)據(jù),出現(xiàn)了數(shù)據(jù)密集型應(yīng)用。在數(shù)據(jù)密集型應(yīng)用中,數(shù)據(jù)是主要關(guān)注點與瓶頸。數(shù)據(jù)密集型問題的研究將進一步推動以數(shù)據(jù)為中心的研究范式。
目前,數(shù)據(jù)密集型應(yīng)用的主要挑戰(zhàn)在于副本數(shù)據(jù)技術(shù)、物化視圖、計算的本地化、數(shù)據(jù)模型的多樣化和數(shù)據(jù)一致性保障。
5. 數(shù)據(jù)準備——數(shù)據(jù)預(yù)處理還是數(shù)據(jù)加工
在傳統(tǒng)數(shù)據(jù)研究中,數(shù)據(jù)準備主要強調(diào)的是將復(fù)雜數(shù)據(jù)轉(zhuǎn)換為簡單數(shù)據(jù),對臟數(shù)據(jù)進行清洗處理后得到干凈數(shù)據(jù),從而防止“垃圾進垃圾出”現(xiàn)象的出現(xiàn),主要涉及重復(fù)數(shù)據(jù)的過濾、錯誤數(shù)據(jù)的識別以及缺失數(shù)據(jù)的處理??梢姡瑪?shù)據(jù)預(yù)處理主要關(guān)注的是數(shù)據(jù)的質(zhì)量維度的問題。但是,由于從小數(shù)據(jù)到大數(shù)據(jù)之間存在質(zhì)量涌現(xiàn)現(xiàn)象——個別小數(shù)據(jù)的質(zhì)量問題(如缺失數(shù)據(jù)、錯誤數(shù)據(jù)或重復(fù)數(shù)據(jù))不影響整個大數(shù)據(jù)的可用性,大數(shù)據(jù)處理中關(guān)注的并非為傳統(tǒng)意義上的數(shù)據(jù)預(yù)處理,而其關(guān)注點轉(zhuǎn)向另一個重要課題——數(shù)據(jù)加工。
在數(shù)據(jù)科學(xué)中,數(shù)據(jù)加工是指數(shù)據(jù)的創(chuàng)造性增值過程,包括兩種表現(xiàn)形式:數(shù)據(jù)打磨(data wrangling)或數(shù)據(jù)改寫(data munging)。與數(shù)據(jù)預(yù)處理不同的是,數(shù)據(jù)加工更加強調(diào)的是如何將數(shù)據(jù)科學(xué)家的3C精神融入數(shù)據(jù)處理工作之中,從而達到數(shù)據(jù)增值的目的。因此,數(shù)據(jù)加工并不僅限于技術(shù)工作的范疇,而且還涉及到藝術(shù)層面的創(chuàng)造,如需要采用數(shù)據(jù)柔術(shù)(Data Jujitsu)和整齊化處理(Data Tidying)的方法進行數(shù)據(jù)加工處理。
數(shù)據(jù)加工概念的提出意味著人們對數(shù)據(jù)復(fù)雜性的認識發(fā)生了重要的變革,即開始接受數(shù)據(jù)的復(fù)雜性特征,認為復(fù)雜性是數(shù)據(jù)本身的固有特征。與此同時,數(shù)據(jù)準備的關(guān)注點轉(zhuǎn)向另一個重要問題,即如何發(fā)揮人的增值作用。目前,數(shù)據(jù)加工的研究主要挑戰(zhàn)集中在:
- 數(shù)據(jù)打磨或數(shù)據(jù)改寫理念的提出:如何在數(shù)據(jù)科學(xué)項目中充分發(fā)揮數(shù)據(jù)科學(xué)家的作用,進而實現(xiàn)數(shù)據(jù)處理活動的增值效果;
- 數(shù)據(jù)打磨或數(shù)據(jù)改寫技術(shù)的實現(xiàn):基于Python、R以及大數(shù)據(jù)技術(shù)實現(xiàn)數(shù)據(jù)加工的理念與方法;
- 數(shù)據(jù)柔術(shù):如何有藝術(shù)性地將數(shù)據(jù)轉(zhuǎn)換為產(chǎn)品;
- 整齊化處理:將數(shù)據(jù)轉(zhuǎn)換為大數(shù)據(jù)算法和大數(shù)據(jù)技術(shù)能夠直接處理的形態(tài)。
6. 服務(wù)質(zhì)量——精準度還是用戶體驗
查全率和查準率是傳統(tǒng)數(shù)據(jù)研究中評價服務(wù)質(zhì)量的兩個核心指標。但是,當總體為未知、數(shù)據(jù)量迅速增長、數(shù)據(jù)種類不斷變化和數(shù)據(jù)處理速度要求高時,查全率和查準率的追求成為不可能。因此,在大數(shù)據(jù)環(huán)境下,更加重視的是用戶體驗,而不是查全率和查準率。在用戶體驗的評價中,響應(yīng)速度是最為重要指標之一。Aberdeen Group的調(diào)查發(fā)現(xiàn)“頁面的顯示速度每延遲1秒,網(wǎng)站訪問量就會降低11%,從而導(dǎo)致營業(yè)額減少7%,顧客滿意度下降16%”Google發(fā)現(xiàn)“響應(yīng)時間每延遲0.5秒,查詢數(shù)將會減少20%”;Amazon發(fā)現(xiàn)“響應(yīng)時間延遲0.1秒,營業(yè)額下降1%。
目前,用戶體驗研究的主要挑戰(zhàn)在于如何確保較快的響應(yīng)速度、設(shè)計人機交互、實現(xiàn)服務(wù)虛擬化以及提供按需服務(wù)。
7. 數(shù)據(jù)分析——解釋性分析還是預(yù)測性分析
理論完美主義者認為只有掌握了因果關(guān)系才能正確認識和有效利用客觀現(xiàn)象。傳統(tǒng)數(shù)據(jù)分析往往是理論完美主義的指導(dǎo)下完成,試圖通過對歷史數(shù)據(jù)進行深度分析之后,達到深刻理解自我或解釋客觀現(xiàn)象的目的,側(cè)重的是因果分析,即以解釋型分析為主。
在大數(shù)據(jù)環(huán)境下,數(shù)據(jù)分析的重點從因果分析轉(zhuǎn)向相關(guān)分析,更加重視的是事物之間的相關(guān)關(guān)系。然而,在這種變革的背后是數(shù)據(jù)分析指導(dǎo)思想的根本性變化——從理論完美主義轉(zhuǎn)向現(xiàn)實實用主義,側(cè)重于數(shù)據(jù)分析的實用性,更加重視對未來的預(yù)測,即預(yù)測型分析。相對于解釋性分析,預(yù)測性分析具有更強的時效性,可以迅速洞見事物之間的內(nèi)在聯(lián)系以及其商業(yè)價值。
因此,數(shù)據(jù)科學(xué)的一個重要特點是預(yù)測性分析和解釋性分析的分離。預(yù)測性分析主要由數(shù)據(jù)科學(xué)家完成,一般不需要領(lǐng)域知識;解釋性分析則發(fā)生在預(yù)測性分析之后,數(shù)據(jù)科學(xué)家將預(yù)測性分析中的洞察結(jié)果轉(zhuǎn)交給領(lǐng)域?qū)<?,由領(lǐng)域?qū)<邑撠?zé)完成解釋性分析。可見,數(shù)據(jù)科學(xué)家一般不做解釋性分析,或者說,解釋性分析往往超出數(shù)據(jù)科學(xué)家的能力范疇,需要由具體領(lǐng)域的專家完成。預(yù)測性分析和解釋性分析的分離也是數(shù)據(jù)科學(xué)家和領(lǐng)域?qū)<抑g協(xié)同工作的主要實現(xiàn)方式。
大數(shù)據(jù)分析的主要挑戰(zhàn)源自于數(shù)據(jù)的復(fù)雜性、噪聲數(shù)據(jù)的分析、數(shù)據(jù)的依賴度。提出面向大數(shù)據(jù)分析的新方法、技術(shù)與工具,尤其是大數(shù)據(jù)分析方法的動態(tài)演化、實時計算和彈性計算成為相關(guān)研究中亟待解決的問題。
8. 算法評價——復(fù)雜度還是可擴展性
復(fù)雜度,尤其是時間復(fù)雜度和空間復(fù)雜度,是傳統(tǒng)算法的兩個重要評價指標 ,分別代表的是算法的運行所需的時間成本和內(nèi)存成本。但是,在大數(shù)據(jù)環(huán)境下,算法設(shè)計的一個重要特點是上層需求和底層數(shù)據(jù)處于動態(tài)變化之中,因此,算法應(yīng)支持按需服務(wù)和數(shù)據(jù)驅(qū)動型應(yīng)用。例如,谷歌于2008年推出預(yù)測流感疫情工具——谷歌流感趨勢(Google Flu Trends,GFT),及時準確預(yù)測了當時H1N1在全美范圍的傳播,但是,2013年1月的估計比實際數(shù)據(jù)高兩倍,主要原因之一是缺乏算法動態(tài)性(Algorithm Dynamics)和用戶使用行為習(xí)慣的變化。
在大數(shù)據(jù)時代,算法的可擴展性主要代表的是算法的可伸縮能力。目前,相關(guān)研究的主要挑戰(zhàn)在于低維度算法在高維數(shù)據(jù)中的應(yīng)用、維度災(zāi)難、數(shù)據(jù)規(guī)約以及數(shù)據(jù)密集型應(yīng)用。
9. 研究范式——第三范式還是第四范式
圖靈獎獲得者Jim Gray 曾提出,人類科學(xué)研究活動已經(jīng)歷過三種不同范式的演變過程(原始社會的“實驗科學(xué)范式”、以模型和歸納為特征的“理論科學(xué)范式”和以模擬仿真為特征的“計算科學(xué)范式”),目前正在從“計算科學(xué)范式”轉(zhuǎn)向“數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)范式(Data-intensive Scientific Discovery)”。第四范式,即“數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)范式”的主要特點是科學(xué)研究人員只需要從大數(shù)據(jù)中查找和挖掘所需要的信息和知識,無須直接面對所研究的物理對象。例如,在大數(shù)據(jù)時代,天文學(xué)家的研究方式發(fā)生了新的變化——其主要研究任務(wù)變?yōu)閺暮A繑?shù)據(jù)庫中發(fā)現(xiàn)所需的物體或現(xiàn)象的照片,而不再需要親自進行太空拍照。
第四范式的提出反映了人們對世界的固有認識發(fā)生了根本性的變化——從二元認識(精神世界/物理世界)轉(zhuǎn)向三元認識(精神世界/數(shù)據(jù)世界/物理世界),即在原有的“精神世界”和“物理世界”之間出現(xiàn)了一個新的世界——數(shù)據(jù)世界。因此,科學(xué)研究者往往直接面對的是數(shù)據(jù)世界,通過對數(shù)據(jù)世界的研究達到認識和改造物理世界的目的。對于科學(xué)研究者而言,數(shù)據(jù)世界中已積累的“歷史數(shù)據(jù)”往往足以完成一項科研任務(wù),數(shù)據(jù)科學(xué)家不需要親自到物理世界采用問卷和訪談的方法收集數(shù)據(jù)——“調(diào)研數(shù)據(jù)”。同時,與“調(diào)研數(shù)據(jù)”相比,“歷史數(shù)據(jù)”更具有客觀性和可信度。目前,相關(guān)研究主要挑戰(zhàn)在于第三范式與第四范式的區(qū)別、第四范式的內(nèi)涵、理論深入研究以及領(lǐng)域應(yīng)用。
10. 人才培養(yǎng)——數(shù)據(jù)工程師還是數(shù)據(jù)科學(xué)家
傳統(tǒng)科學(xué)領(lǐng)域中,數(shù)據(jù)相關(guān)的人才培養(yǎng)的目標定位于數(shù)據(jù)工程師——從事數(shù)據(jù)的組織、管理、備份、恢復(fù)工作的人才。但是,在大數(shù)據(jù)時代,數(shù)據(jù)工程師無法勝任數(shù)據(jù)科學(xué)的研究任務(wù),需要的是一類全新的人才——數(shù)據(jù)科學(xué)家。二者的主要區(qū)別在于:數(shù)據(jù)工程師負責(zé)的是數(shù)據(jù)的管理,而數(shù)據(jù)科學(xué)家擅長的是基于數(shù)據(jù)的管理,如基于數(shù)據(jù)的決策、產(chǎn)品開發(fā)、業(yè)務(wù)定義等。
目前,關(guān)于數(shù)據(jù)科學(xué)家的研究及人才培養(yǎng)的挑戰(zhàn)在于正確分析崗位職責(zé)與用人需求、數(shù)據(jù)科學(xué)家的素質(zhì)與能力要求、數(shù)據(jù)科學(xué)項目管理以及數(shù)據(jù)科學(xué)家的職業(yè)規(guī)劃。
四、數(shù)據(jù)科學(xué)研究的發(fā)展趨勢
在梳理研究熱點、爭議及挑戰(zhàn)的基礎(chǔ)上,我們需要進一步分析數(shù)據(jù)科學(xué)研究的發(fā)展趨勢。從整體上講,數(shù)據(jù)科學(xué)研究的主要發(fā)展趨勢可以總結(jié)為:
“思維模式的多樣化和研究范式的變遷”是根本趨勢。其中,思維模式的多樣化主要體現(xiàn)在數(shù)據(jù)范式的興起以及其與傳統(tǒng)的知識范式并存;研究范式的變遷是指科學(xué)研究范式從“計算科學(xué)范式”轉(zhuǎn)向“數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)范式”,進而改變?nèi)藗儗κ澜绲亩J識,相關(guān)研究重點將轉(zhuǎn)變?yōu)橥ㄟ^數(shù)據(jù)世界的研究認識和改造物理世界。思維模式的多樣化和研究范式的變遷對數(shù)據(jù)科學(xué)研究產(chǎn)生深遠影響,將改變?nèi)藗儗?shù)據(jù)的認識視角、開發(fā)動因和利用方式。
“專業(yè)中的數(shù)據(jù)科學(xué)”是研究熱點。大數(shù)據(jù)時代,各專業(yè)領(lǐng)域面臨的主要挑戰(zhàn)在于如何解決新興數(shù)據(jù)與傳統(tǒng)知識之間的矛盾,即數(shù)據(jù)已經(jīng)變了,但知識沒有更新,各學(xué)科中的傳統(tǒng)知識無法解決大數(shù)據(jù)帶來的新問題。因此,大數(shù)據(jù)時代的機遇與挑戰(zhàn)即將成為各學(xué)科領(lǐng)域研究的新方向,也就是說,專業(yè)中的數(shù)據(jù)科學(xué)成為相關(guān)研究的熱點問題。
“專業(yè)數(shù)據(jù)科學(xué)”是研究難點。“專業(yè)中的數(shù)據(jù)科學(xué)”從不同專業(yè)視角解讀數(shù)據(jù)科學(xué),存在研究興趣點和研究發(fā)現(xiàn)(如理論、方法、技術(shù)、工具和典型實踐等)的差異性,甚至可能出現(xiàn)相互重疊與沖突的現(xiàn)象。在這種背景下,如何將分散不同學(xué)科領(lǐng)域中的共性問題及通用結(jié)論提煉成一門新的學(xué)科——“專業(yè)數(shù)據(jù)科學(xué)”,進而為各個學(xué)科領(lǐng)域的研究提供新的理論基礎(chǔ)是未來研究的難點所在。
“數(shù)據(jù)生態(tài)系統(tǒng)的建設(shè)”是終極問題。數(shù)據(jù)學(xué)科是一門實踐性極強的學(xué)科,其研究和應(yīng)用均不能脫離具體領(lǐng)域。數(shù)據(jù)科學(xué)的研究和應(yīng)用將會超出技術(shù)范疇,還涉及到發(fā)展戰(zhàn)略、基礎(chǔ)設(shè)施、人力資源、政策、法律與文化環(huán)境等諸多因素。因此,數(shù)據(jù)科學(xué)需要解決的終極問題是將大數(shù)據(jù)放在一個完整的生態(tài)系統(tǒng)之中去認識與利用,從生態(tài)系統(tǒng)層次統(tǒng)籌和規(guī)劃,避免片面認識數(shù)據(jù)問題,進而推動數(shù)據(jù)、能源和物質(zhì)之間的相互轉(zhuǎn)化。
1. 預(yù)測模型及相關(guān)分析的重視
數(shù)據(jù)科學(xué)的研究責(zé)任在于預(yù)測模型而不在于解釋模型。以預(yù)測模型為中心的數(shù)據(jù)科學(xué)更偏向于實用主義,更加關(guān)注的是“對未來的預(yù)測能力”,而不是“對過去的解釋水平”。因此,數(shù)據(jù)科學(xué)的研究更加重視的是“現(xiàn)在能為未來做什么?”,而不是“過去對現(xiàn)在的影響是什么?”
數(shù)據(jù)科學(xué)中重視預(yù)測模型而不是解釋模型的另一個現(xiàn)實基礎(chǔ)在于“人們往往先發(fā)現(xiàn)規(guī)律,后發(fā)現(xiàn)原因”。從方法論層次看,以發(fā)現(xiàn)預(yù)測模型為目的的研究往往提倡的是假設(shè)演繹(Hypothetico-Deductive)研究范式,先提出研究假設(shè),然后采用試驗設(shè)計和演繹分析方法論證研究假設(shè)成立與否。然而,一個好的研究假設(shè)的提出需要研究者,尤其是數(shù)據(jù)科學(xué)家的特有素質(zhì)——創(chuàng)造力、批判性思考和好奇心。
與解釋模型不同的是,預(yù)測模型更加重視的是模型的簡單性,而不是復(fù)雜性,主要原因有兩個,一是預(yù)測模型對計算時間的要求較高,甚至需要進行實時分析,然而簡單模型的計算效率往往高于復(fù)雜模型;二是經(jīng)驗證明,正如奧卡姆剃刀定律(Occam's razor)所言,在其他條件相同的情況下,就預(yù)測而言,簡單模型比復(fù)雜模型更可靠。
預(yù)測模型往往建立在相關(guān)關(guān)系,而不是因果關(guān)系。通常,相關(guān)關(guān)系可以幫助我們預(yù)測未來,而因果關(guān)系有助于進一步理解和控制未來。從表面上看,預(yù)測模型依賴的是相關(guān)關(guān)系的分析,但在本質(zhì)上屬于一種數(shù)據(jù)驅(qū)動型的“數(shù)據(jù)范式”,與基于知識范式的解釋模型有著本質(zhì)性的區(qū)別。
2. 模型集成及元分析的興起
傳統(tǒng)數(shù)據(jù)分析的通用做法是用一個數(shù)據(jù)模型即可解決一項數(shù)據(jù)處理任務(wù)。在這種以單一模型為基礎(chǔ)的數(shù)據(jù)分析中,為了提升數(shù)據(jù)處理的信度和效度,需要對模型進行優(yōu)化和調(diào)整,導(dǎo)致數(shù)據(jù)模型復(fù)雜度的增長。也就是說,傳統(tǒng)數(shù)據(jù)分析中的數(shù)據(jù)模型有兩個基本特征:單一性和復(fù)雜性。
但是,在大數(shù)據(jù)背景下,人們很難找到一個能夠處理動態(tài)且異構(gòu)數(shù)據(jù)的單一模型,因此,開始尋求多個模型的集成應(yīng)用。與傳統(tǒng)數(shù)據(jù)分析不同的是,大數(shù)據(jù)分析中所涉及的模型往往是極其簡單,即大數(shù)據(jù)分析中的數(shù)據(jù)模型也有兩個基本特征:多樣性和簡單性。
可見,模型集成成為數(shù)據(jù)科學(xué)研究的一個新問題。通常,大數(shù)據(jù)分析采用多個較為簡單的數(shù)據(jù)模型,將數(shù)據(jù)分析任務(wù)分解成分散在多個層次,多個活動的小任務(wù),并通過簡單模型及其集成方法達到最終數(shù)據(jù)處理目的。例如,在深度學(xué)習(xí)之中,由多處理層組成的計算模型可通過多層抽象來學(xué)習(xí)數(shù)據(jù)表征。
模型集成的背后是元分析的興起。傳統(tǒng)統(tǒng)計學(xué)重視的基于零次或一次數(shù)據(jù)的基本分析,包括描述性統(tǒng)計、參數(shù)估計和假設(shè)檢驗。在大數(shù)據(jù)環(huán)境下,二次數(shù)據(jù)和三次數(shù)據(jù)的分析顯得更為重要,數(shù)據(jù)分析工作往往在眾多小模型的分析結(jié)果的基礎(chǔ)上進行二次分析,即元分析。
3. 數(shù)據(jù)在先,模式在后或無模式的出現(xiàn)
傳統(tǒng)數(shù)據(jù)管理,尤其是關(guān)系型數(shù)據(jù)庫中采用的是“模式在先、數(shù)據(jù)在后(Schema First,Data Later)”的建設(shè)模式,即先定義模式,然后嚴格按照模式要求存儲和管理數(shù)據(jù);當需要調(diào)整模式時,不僅需要重定義數(shù)據(jù)結(jié)構(gòu),而且還需要修改上層應(yīng)用程序。然而,在大數(shù)據(jù)環(huán)境下,無法沿用“模式在先、數(shù)據(jù)在后(Schema First,Data Later)”的建設(shè)模式,主要原因有兩個:一是數(shù)據(jù)模式可能為不斷變化或根本不存在;二是按照預(yù)定模式進行數(shù)據(jù)的存儲和處理時容易導(dǎo)致信息丟失。
因此,“數(shù)據(jù)在先,模式在后或無模式(Data First, Schema Later or Never)”成為數(shù)據(jù)產(chǎn)品設(shè)計的主要趨勢。以NoSQL為例,采用非常簡單的鍵值數(shù)據(jù)模型,通過模式在后(Schema Later)或無模式(Schemaless)的方式確保數(shù)據(jù)管理系統(tǒng)的敏捷性。當然,模式在后或無模式也會帶來新問題,如限制數(shù)據(jù)管理系統(tǒng)的處理能力及加大應(yīng)用系統(tǒng)的開發(fā)難度。
在“數(shù)據(jù)在先,模式在后或無模式”的興起背后是信息系統(tǒng)建設(shè)模式的歷史性變革——從先行支付(Pay-before-you-go)轉(zhuǎn)向現(xiàn)收現(xiàn)付(Pay-as-you-go)的建設(shè)模式。信息系統(tǒng)建設(shè)中的先行支付模式的特點是根據(jù)特定時間點的需求定義信息系統(tǒng),信息系統(tǒng)一旦開發(fā)完畢,在一定時間內(nèi)相對穩(wěn)定。先行支付模式的缺點在于無法適應(yīng)底層數(shù)據(jù)的復(fù)雜性和上層應(yīng)用的動態(tài)變化。
4. 數(shù)據(jù)一致性及現(xiàn)實主義的回歸
在傳統(tǒng)數(shù)據(jù)管理中,對數(shù)據(jù)一致性的要求是接近于完美主義——強一致性,即任何時候從任何地方讀出的任何數(shù)據(jù)均為正確數(shù)據(jù)。為了保證數(shù)據(jù)的一致性,在關(guān)系數(shù)據(jù)庫中引入了事務(wù)、兩端封鎖協(xié)議和兩端提交協(xié)議等方法或機制。強一致性的優(yōu)點在于不僅可以保證數(shù)據(jù)質(zhì)量,而且可以降低后續(xù)計算的成本。但是,強一致性不符合大數(shù)據(jù)時代的數(shù)據(jù)管理要求——高擴展性、高性能、高容錯性、高伸縮性和高經(jīng)濟性。
因此,NoSQL等新興數(shù)據(jù)管理技術(shù)從根本上改變了人們對數(shù)據(jù)一致性的傳統(tǒng)認識,主要表現(xiàn)在提出CAP理論和BASE原則等新興數(shù)據(jù)管理理念,引入弱一致性、最終一致性等概念,并提供了不同的解決方案,如更新一致性、讀寫一致性和會話一致性等??梢姡跀?shù)據(jù)科學(xué)研究中,數(shù)據(jù)的一致性出現(xiàn)了多樣化趨勢,即根據(jù)不同應(yīng)用場景,有針對性地選擇具體的一致性及其實現(xiàn)方法。
在數(shù)據(jù)一致性的多樣化認識的轉(zhuǎn)變反映了們對數(shù)據(jù)數(shù)據(jù)管理目標的根本轉(zhuǎn)折——從完美主義回歸至現(xiàn)實主義。以CAP理論為例,人們對分布式系統(tǒng)的設(shè)計目的發(fā)生了改變,不再追求強一致性(Consistency)、可用性(Availability)和分區(qū)容錯性(Partition Tolerance)三個指標的同時最優(yōu),反而意識到了三者中的任何兩個特征的保證(或爭取)可能導(dǎo)致另一個特征的損失(或放棄)。例如,Cassadra和Dynamo 為了爭取可用性和分區(qū)容錯性而放棄了一致性。
5. 多副本技術(shù)及靠近數(shù)據(jù)原則的應(yīng)用
傳統(tǒng)關(guān)系數(shù)據(jù)庫更加看重的是數(shù)據(jù)冗余的負面影響——冗余數(shù)據(jù)導(dǎo)致的數(shù)據(jù)一致性保障成本較高。與此不同的是,數(shù)據(jù)科學(xué)中更加重視的是冗余數(shù)據(jù)的積極作用,即冗余數(shù)據(jù)在負載均衡、災(zāi)難恢復(fù)和完整性檢驗中的積極作用。同時,還通過引入多副本技術(shù)和物化視圖的方法豐富冗余數(shù)據(jù)的存在形式,縮短用戶請求的響應(yīng)時間,確保了良好用戶體驗。以Google搜索為例,采用緩存和照相(images)技術(shù),重復(fù)利用搜索結(jié)果。
同時,在計算和應(yīng)用系統(tǒng)的部署上,改變傳統(tǒng)的“數(shù)據(jù)靠近計算的原則”,反而開始采取了“計算靠近數(shù)據(jù)的原則”。例如,在Spark系統(tǒng)提供了操作getPreferredLocations(),支持RDD的本地化計算;在MapReduce中,盡量將Map任務(wù)調(diào)度至存放副本數(shù)據(jù)數(shù)據(jù)的機器上??梢姡喔北炯夹g(shù)和靠近數(shù)據(jù)原則均表明傳統(tǒng)的“以計算為中心”的產(chǎn)品部署模式正向“以數(shù)據(jù)為中心”的產(chǎn)品部署模式的轉(zhuǎn)變。
6. 多樣化技術(shù)及一體化應(yīng)用并存
傳統(tǒng)關(guān)系數(shù)據(jù)庫類產(chǎn)品雖多,但標準化程度較高,如均采用關(guān)系模型和SQL語言。但是,新興的NoSQL數(shù)據(jù)庫代表的不是一種特定技術(shù),而是包括基于不同數(shù)據(jù)模型和查詢接口的多種數(shù)據(jù)管理技術(shù),如Key-Value、Key-Document和Key-Column和圖存儲模型等??梢?,在技術(shù)實現(xiàn)層次上,新興技術(shù)表現(xiàn)出了多樣化發(fā)展及高度專業(yè)化的趨勢,即一項新技術(shù)專注于一個問題、一項功能或一種應(yīng)用場景。例如,MapReduce、Tez、Storm、Druid等技術(shù)的定位相對單一,分別專注于分布式批處理、Map/Reduce過程的拆分與組合、實時處理和面向OLAP的列存儲等較為單一功能的實現(xiàn)。當然,Spark、YARN等較為通用性技術(shù)的出現(xiàn)也為技術(shù)層次上的高度專業(yè)化趨勢提供了一種補充的解決方案。
同時,在傳統(tǒng)數(shù)據(jù)計算/管理環(huán)境中,不同數(shù)據(jù)產(chǎn)品的界限是比較清楚的,所依賴的技術(shù)也是單一的,要么關(guān)系模型,要么層次或網(wǎng)狀模型。但是,大數(shù)據(jù)時代的到來導(dǎo)致不同計算/管理技術(shù)的高度融合,出現(xiàn)一些支持多種數(shù)據(jù)計算/管理技術(shù)集成產(chǎn)品,甚至顯現(xiàn)出了軟硬件一體化或嵌入式應(yīng)用趨勢。例如,Oracle大數(shù)據(jù)解決方案(Big Data Appliance)集成了HDFS、Oracle NoSQL、Cloudera CDH、數(shù)據(jù)倉庫、內(nèi)存計算和分析型應(yīng)用。
可見,在數(shù)據(jù)科學(xué)研究中一體化應(yīng)用和專業(yè)化趨勢并存。在產(chǎn)品與服務(wù)的實現(xiàn)層次上,一體化趨勢越來越顯著,一種產(chǎn)品的實現(xiàn)往往涉及多種不同技術(shù)的集成應(yīng)用;在技術(shù)本身的實現(xiàn)層面,專業(yè)化趨勢成為主流,一項新技術(shù)專注于解決相對單一問題。
7. 簡單計算及實用主義占據(jù)主導(dǎo)地位
“簡單”是數(shù)據(jù)科學(xué)的基本原則之一,代表著采用相對簡單的技術(shù)來應(yīng)對復(fù)雜的基礎(chǔ)數(shù)據(jù)及不斷變化的應(yīng)用場景。與此不同的是,傳統(tǒng)數(shù)據(jù)管理中采用的技術(shù)實現(xiàn)往往較為復(fù)雜。例如,傳統(tǒng)關(guān)系數(shù)據(jù)庫技術(shù)采用Join運算實現(xiàn)了多表查詢等復(fù)雜操作。但是,這些復(fù)雜操作反而成為了關(guān)系數(shù)據(jù)庫在提升數(shù)據(jù)管理能力的一個重要瓶頸,如Join操作要求被處理數(shù)據(jù)不能分布在不同節(jié)點。為此,NoSQL放棄了Join等復(fù)雜處理操作,突出了簡單計算較高的效率和效果。
從復(fù)雜計算到簡單計算的轉(zhuǎn)變表明人們對數(shù)據(jù)產(chǎn)品開發(fā)的理念從完美主義回歸至實用主義。數(shù)據(jù)科學(xué)是一門實踐性很強的學(xué)科,現(xiàn)階段其研究主要關(guān)注的是實用性,即解決當前社會亟待解決的實際問題,而不是復(fù)雜計算的實現(xiàn)。
8. 數(shù)據(jù)產(chǎn)品開發(fā)及數(shù)據(jù)科學(xué)的嵌入式應(yīng)用
作為數(shù)據(jù)科學(xué)的特有研究內(nèi)容,數(shù)據(jù)產(chǎn)品開發(fā)將成為未來研究重要課題。在數(shù)據(jù)科學(xué)中,所謂的數(shù)據(jù)產(chǎn)品(Data Products)并不限于“數(shù)據(jù)形態(tài)”的產(chǎn)品,而泛指“能夠通過數(shù)據(jù)來幫助用戶實現(xiàn)其某一個(些)目標的產(chǎn)品”??梢?,數(shù)據(jù)產(chǎn)品是指在數(shù)據(jù)科學(xué)項目中形成,能夠被人、計算機以及其他軟硬件系統(tǒng)消費、調(diào)用或使用,并滿足他們(它們)某種需求的任何產(chǎn)品,包括數(shù)據(jù)集、文檔、知識庫、應(yīng)用系統(tǒng)、硬件系統(tǒng)、服務(wù)、洞見、決策及它們的各種組合。以Google眼鏡為例,雖然其產(chǎn)品形態(tài)上看似乎是“眼鏡類產(chǎn)品”,但從其主要競爭力之源看,確實屬于“數(shù)據(jù)產(chǎn)品”。
數(shù)據(jù)產(chǎn)品開發(fā)主要關(guān)注的是如何將數(shù)據(jù)科學(xué)的理論融入傳統(tǒng)產(chǎn)品開發(fā)實踐之中,進而實現(xiàn)產(chǎn)品的更新?lián)Q代和用戶體驗的提升。未來,數(shù)據(jù)產(chǎn)品開發(fā)將嵌入至傳統(tǒng)產(chǎn)品的研發(fā)之中,二者的界限越來越模糊。如何將數(shù)據(jù)科學(xué)家的創(chuàng)造性設(shè)計、批判性思考和好奇性提問的職業(yè)素質(zhì)融入產(chǎn)品研發(fā)之中,從而實現(xiàn)傳統(tǒng)產(chǎn)品的增值和核心競爭力的提升是未來數(shù)據(jù)產(chǎn)品開發(fā)的難點所在。在此背景下,以數(shù)據(jù)為中心的設(shè)計思維將會是數(shù)據(jù)產(chǎn)品開發(fā)的主要思維模式。同時,良好的用戶體驗將成為產(chǎn)品開發(fā)的主要評價指標之一。
數(shù)據(jù)產(chǎn)品開發(fā)的興起將推動數(shù)據(jù)科學(xué)的嵌入式應(yīng)用。數(shù)據(jù)科學(xué)將作為傳統(tǒng)產(chǎn)品的創(chuàng)新點、增值點和競爭力之源,成為產(chǎn)品開發(fā)的必要環(huán)節(jié),數(shù)據(jù)科學(xué)與領(lǐng)域?qū)嵆尸F(xiàn)出了高度融合的趨勢。
9. 專家及公眾數(shù)據(jù)科學(xué)的興起
在傳統(tǒng)數(shù)據(jù)分析中,專家,尤其是領(lǐng)域?qū)<沂侵R的主要來源之一。例如,本體的建設(shè)需要由領(lǐng)域?qū)<彝瓿?專家系統(tǒng)中的知識庫建立在專家的知識之上。但是,在大數(shù)據(jù)時代,專家余(ProAm)成為數(shù)據(jù)處理項目的主要貢獻者。與專家不同的是,專家余是指其能力在專家與業(yè)務(wù)之間的準專家型人群。近年來,眾包(包括眾創(chuàng)、眾籌等)成為大數(shù)據(jù)時代的重要數(shù)據(jù)處理模式,其主要參與者均為專家余,而并非是嚴格意義上的專家或業(yè)余人群。例如,與傳統(tǒng)意義上的專家編寫的百科全書不同,Wikipedia是由來自各領(lǐng)域的專家余共同完成的知識庫。
眾包的廣泛應(yīng)用為傳統(tǒng)知識庫建設(shè)中的數(shù)據(jù)量與形式化程度之間的矛盾提供了新的解決方案。在傳統(tǒng)知識庫建設(shè)中,要么形式化程度高,但數(shù)據(jù)量不夠,反之亦然。眾包數(shù)據(jù)處理模式的出現(xiàn)使位于數(shù)據(jù)鏈長尾的專家余成為知識的主要貢獻者和積極參與者。從協(xié)同方式看,眾包中大規(guī)模協(xié)同可以分為機器協(xié)同、人機協(xié)同和人際協(xié)同三種表現(xiàn)形式。其中,人機協(xié)同是數(shù)據(jù)科學(xué)研究的重要課題。例如,混合智能——人與機器的互補型智能正成為人工智能的新課題。再如,語義Web技術(shù)的出現(xiàn)為人機協(xié)同提供了一種重要的技術(shù)支撐。
公眾數(shù)據(jù)科學(xué)(Citizen Data Science)是專家余和大規(guī)模協(xié)同在數(shù)據(jù)科學(xué)領(lǐng)域的應(yīng)用的主要表現(xiàn)形式之一。所謂的公眾數(shù)據(jù)科學(xué)屬于公眾科學(xué)(Citizen Science),是指公眾參與的數(shù)據(jù)科學(xué),與數(shù)據(jù)科學(xué)(Data Science)的區(qū)別在于參與研究者以非職業(yè)的興趣愛好者和志愿者為主。也就是說,公眾數(shù)據(jù)科學(xué)是一種基于眾包和專家余的準數(shù)據(jù)科學(xué),也是在數(shù)據(jù)科學(xué)成為一門廣為接受的正式科學(xué)之前的過渡型理論。
10. 數(shù)據(jù)科學(xué)家與人才培養(yǎng)的探討
數(shù)據(jù)科學(xué)項目任務(wù)往往是富有挑戰(zhàn)性的工作,每一項任務(wù)都是獨一無二的,對工作人員的要求超出數(shù)據(jù)工程師的能力范疇,亟待由一類新型人才——數(shù)據(jù)科學(xué)家來承擔(dān)。從Drew Convey的數(shù)據(jù)科學(xué)維恩圖可看出,數(shù)據(jù)科學(xué)具有三個基本要素,即理論(統(tǒng)計學(xué)與數(shù)學(xué)知識)、實踐(領(lǐng)域?qū)崙?zhàn))和精神(黑客精神)。可見,數(shù)據(jù)科學(xué)與傳統(tǒng)科學(xué)的人才需求不同,前者不僅要求傳統(tǒng)科學(xué)中的理論與實踐,而且還需要有數(shù)據(jù)科學(xué)家的“精神”素質(zhì),即原創(chuàng)性設(shè)計、批判性思考和好奇心地提問的能力。
因此,如何培養(yǎng)“理論、實踐和精神為一體”的綜合性人才是未來研究的重要課題。相關(guān)研究主要以下四個層面開展:
辦學(xué)層次,如何培養(yǎng)本科、碩士、博士層次的數(shù)據(jù)科學(xué)人才。目前,國內(nèi)和國外對數(shù)據(jù)科學(xué)人才培養(yǎng)層次的關(guān)注點不同,分別關(guān)注的是本科層次和碩士層次人才的培養(yǎng),但對博士層次的人才的討論相對少;
- 專業(yè)設(shè)置:是否需要設(shè)立數(shù)據(jù)科學(xué)專業(yè)?例如,國內(nèi)主要討論的是如何建設(shè)“數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)”專業(yè)。
- 學(xué)科方向的選擇:如何將數(shù)據(jù)科學(xué)與傳統(tǒng)學(xué)科向結(jié)合,確定數(shù)據(jù)科學(xué)的學(xué)科地位;
- 課程改革:如何完成傳統(tǒng)課程的改革以及數(shù)據(jù)科學(xué)新課程的創(chuàng)造性設(shè)計。
結(jié)論
數(shù)據(jù)科學(xué)是一門極其特殊的新興學(xué)科,具有與其他學(xué)科不同的新特征,例如思維模式的轉(zhuǎn)變(從數(shù)據(jù)范式到知識范式的轉(zhuǎn)變)、對數(shù)據(jù)認識的變化(從數(shù)據(jù)的被動屬性到主動屬性的轉(zhuǎn)移)、指導(dǎo)思想的變化(實用主義和現(xiàn)實主義的回歸)、以數(shù)據(jù)產(chǎn)品開發(fā)為主要目的(數(shù)據(jù)成為傳統(tǒng)產(chǎn)品的主要創(chuàng)新點)、專業(yè)數(shù)據(jù)科學(xué)與專業(yè)中的數(shù)據(jù)科學(xué)的差異性以及數(shù)據(jù)科學(xué)的三要素(不僅涉及理論和實踐,而且還包括精神素質(zhì))。因此,數(shù)據(jù)科學(xué)的研究不能簡單照搬傳統(tǒng)學(xué)科的經(jīng)驗,應(yīng)尊重其特殊使命和屬性。為此,我們對數(shù)據(jù)科學(xué)研究者提出如下幾點建議:
正確認識數(shù)據(jù)科學(xué)。正確認識數(shù)據(jù)科學(xué)的內(nèi)涵是有效學(xué)習(xí)和規(guī)范研究數(shù)據(jù)科學(xué)的前提。目前,部分學(xué)者誤以為“數(shù)據(jù)科學(xué)=統(tǒng)計學(xué)+機器學(xué)習(xí)”,過于強調(diào)統(tǒng)計學(xué)和機器學(xué)習(xí),而忽略了數(shù)據(jù)科學(xué)本身。其實,統(tǒng)計學(xué)和機器學(xué)習(xí)是數(shù)據(jù)科學(xué)的理論基礎(chǔ),而并非其核心內(nèi)容。數(shù)據(jù)科學(xué)具有區(qū)別與其他學(xué)科的獨特的研究使命、研究視角、思維模式、做事原則和知識體系。如果脫離了這些獨到之處,數(shù)據(jù)科學(xué)的學(xué)習(xí)和研究將發(fā)生方向性的誤讀和本質(zhì)性的扭曲。
突出數(shù)據(jù)的主動屬性。數(shù)據(jù)科學(xué)的一個重要貢獻或價值就在于改變了人們對數(shù)據(jù)的研究方向,即從被動屬性轉(zhuǎn)向主動屬性。一直以來,人們習(xí)慣性地把數(shù)據(jù)當做被動或死的東西,關(guān)注的是“你能對數(shù)據(jù)做什么?”,如模式定義,結(jié)構(gòu)化處理和預(yù)處理,都試圖將復(fù)雜數(shù)據(jù)轉(zhuǎn)換成簡單數(shù)據(jù)。但是,大數(shù)據(jù)時代更加關(guān)注的是數(shù)據(jù)的另一個屬性——主動屬性,強調(diào)的是“數(shù)據(jù)能給你帶來什么?”,如數(shù)據(jù)驅(qū)動型應(yīng)用、以數(shù)據(jù)為中心的設(shè)計、讓數(shù)據(jù)說話、數(shù)據(jù)洞見等,將復(fù)雜性認為數(shù)據(jù)的自然屬性,開始接受數(shù)據(jù)的復(fù)雜性。研究方向從數(shù)據(jù)的被動屬性到主動屬性的轉(zhuǎn)變是學(xué)習(xí)和研究這一門新學(xué)科的基本出發(fā)點。如果忽略了這一點,容易將數(shù)據(jù)科學(xué)當成數(shù)據(jù)工程來學(xué)習(xí)和研究。
平衡數(shù)據(jù)科學(xué)的三個要素。與其他課程,尤其是技術(shù)類課程不同的是,數(shù)據(jù)科學(xué)既包括理論和實踐,更需要精神——原創(chuàng)性設(shè)計、批判性思考和好奇性提問的素質(zhì)。因此,數(shù)據(jù)科學(xué)的學(xué)習(xí)中不僅要強調(diào)理論聯(lián)系實際,而且還不能忽略對數(shù)據(jù)科學(xué)家精神的培養(yǎng)。積極參與數(shù)據(jù)科學(xué)相關(guān)的開源項目和競賽類項目是兼顧數(shù)據(jù)科學(xué)的三個基本要素的兩個重要捷徑。
側(cè)重培養(yǎng)信心和興趣,學(xué)會跟蹤數(shù)據(jù)科學(xué)的最新動態(tài)。一方面,數(shù)據(jù)科學(xué)建立在統(tǒng)計學(xué)和機器學(xué)習(xí)等基礎(chǔ)理論之上,學(xué)習(xí)門檻較高,因此,培育自己對數(shù)據(jù)科學(xué)的學(xué)習(xí)信心和興趣尤為重要;另一方面,數(shù)據(jù)科學(xué)仍屬于一門快速發(fā)展的新興學(xué)科,其理念、理論、方法、技術(shù)和工具在不斷變化之中,要求我們必須掌握動態(tài)跟蹤數(shù)據(jù)科學(xué)領(lǐng)域的國際頂級會議、重要學(xué)術(shù)期刊、主要研究機構(gòu)、代表性人物和標志性實踐的能力。
重視試驗設(shè)計及假設(shè)檢驗。試驗設(shè)計是數(shù)據(jù)科學(xué)項目的重要活動之一。數(shù)據(jù)科學(xué)家應(yīng)根據(jù)數(shù)據(jù)科學(xué)項目的研究目的,有創(chuàng)造性地提出研究假設(shè),并設(shè)計對應(yīng)的試驗,最終通過這些試驗達到假設(shè)檢驗的目的。以華盛頓大學(xué)和加州大學(xué)伯克利分校的數(shù)據(jù)科學(xué)專業(yè)人才培養(yǎng)方案為例,分別開出了課程《應(yīng)用統(tǒng)計與試驗設(shè)計(Applied Statistics & Experimental Design)和《試驗與因果分析(Experiments and Causality)》,重點培養(yǎng)學(xué)生的試驗設(shè)計和假設(shè)檢驗的能力。
不要忽視因果分析。在大數(shù)據(jù)時代,很多人誤以為“因果分析不再重要了”,并把研究重點僅限在相關(guān)分析。相關(guān)分析只能用于識別事物之間的關(guān)聯(lián)關(guān)系,而無法指導(dǎo)如何優(yōu)化和干預(yù)這種相關(guān)關(guān)系。因此,當相關(guān)關(guān)系發(fā)生變化或需要人為干預(yù)相關(guān)關(guān)系時,必須進一步研究其因果關(guān)系。在數(shù)據(jù)科學(xué)項目中,數(shù)據(jù)科學(xué)家的關(guān)注重點是發(fā)現(xiàn)各種可能的關(guān)聯(lián)關(guān)系,而關(guān)聯(lián)關(guān)系的產(chǎn)生機制和優(yōu)化方法需要由領(lǐng)域?qū)<彝瓿伞<又荽髮W(xué)伯克利分校和哥倫比亞大學(xué)分別開設(shè)《實驗與因果分析(Experiments and Causality)》和《因果推理與數(shù)據(jù)科學(xué)(Causal Inference for Data Science)》,均反映了因果分析在數(shù)據(jù)科學(xué)中的重要地位。
以數(shù)據(jù)產(chǎn)品開發(fā)為主要抓手。數(shù)據(jù)產(chǎn)品開發(fā)是學(xué)習(xí)與研究數(shù)據(jù)科學(xué)的主要抓手之一。需要注意的是,數(shù)據(jù)產(chǎn)品不限于數(shù)據(jù)形態(tài)的產(chǎn)品,任何用數(shù)據(jù)來幫助目標用戶實現(xiàn)其某一目的的產(chǎn)品都可視為數(shù)據(jù)產(chǎn)品。數(shù)據(jù)是未來產(chǎn)品的創(chuàng)新點和增值點。因此,向數(shù)據(jù)產(chǎn)品的轉(zhuǎn)變是傳統(tǒng)產(chǎn)品的重要發(fā)展趨勢。以Google眼鏡為例,其創(chuàng)新源自數(shù)據(jù),而不在于其外觀和選材,以數(shù)據(jù)為中心的產(chǎn)品設(shè)計才是該產(chǎn)品與傳統(tǒng)的眼鏡類產(chǎn)品的根本區(qū)別??梢?,數(shù)據(jù)產(chǎn)品開發(fā)是數(shù)據(jù)科學(xué)的最為直接且最為普遍的應(yīng)用。
準確定位人才培養(yǎng)目的。數(shù)據(jù)科學(xué)的學(xué)習(xí)和人才培養(yǎng)的目的是培養(yǎng)數(shù)據(jù)科學(xué)家而不是數(shù)據(jù)工程師。二者的區(qū)別在于,數(shù)據(jù)工程師負責(zé)的是“數(shù)據(jù)本身的管理”,而數(shù)據(jù)科學(xué)家的主要職責(zé)是“基于數(shù)據(jù)的管理”,包括基于數(shù)據(jù)的分析、決策、流程定義與再造、產(chǎn)品設(shè)計和服務(wù)提供等。因此,相對于數(shù)據(jù)工程師,數(shù)據(jù)科學(xué)家對人才的要求更高,不僅要有理論功底和實踐經(jīng)驗,而且還要求有精神素質(zhì),即創(chuàng)造性設(shè)計、批判性思考和好奇性提問的能力。