2020年數(shù)據(jù)科學(xué)的四大熱門趨勢(shì)
數(shù)據(jù)科學(xué)領(lǐng)域新的功能不斷發(fā)展,并滲透到每個(gè)行業(yè)。隨著全球各組織開始數(shù)字化轉(zhuǎn)型,2019年出現(xiàn)了更多公司利用數(shù)據(jù)做出更好決策的趨勢(shì)。這里我們看一下預(yù)計(jì)在2020年會(huì)起飛的數(shù)據(jù)科學(xué)新趨勢(shì)。
2019年是數(shù)據(jù)科學(xué)領(lǐng)域重要的一年 。 全世界各行各業(yè)的公司都在經(jīng)歷著數(shù)字化轉(zhuǎn)型,企業(yè)中的傳統(tǒng)業(yè)務(wù)流程,例如招聘、營(yíng)銷、定價(jià)、戰(zhàn)略等,都通過數(shù)字科技的運(yùn)用使其效率提高了10倍以上。 數(shù)據(jù)科學(xué)已成為數(shù)字化轉(zhuǎn)型不可或缺的組成部分。使用數(shù)據(jù)科學(xué),組織不再需要根據(jù)預(yù)感、猜測(cè)或小型調(diào)查做出重要決策。取而代之的是,他們正在分析大量真實(shí)數(shù)據(jù),以根據(jù)真實(shí)的、數(shù)據(jù)驅(qū)動(dòng)的事實(shí)做出決策。這就是數(shù)據(jù)科學(xué)的全部意義所在——通過數(shù)據(jù)創(chuàng)造價(jià)值。
根據(jù)Google搜索趨勢(shì),在過去5年中將數(shù)據(jù)集成到核心業(yè)務(wù)流程中的趨勢(shì)已經(jīng)顯著增長(zhǎng)了四倍以上。
數(shù)據(jù)為公司提供了超越競(jìng)爭(zhēng)對(duì)手的巨大優(yōu)勢(shì)。有了更多的數(shù)據(jù)和更好的數(shù)據(jù)科學(xué)家來使用它,公司可以獲取其競(jìng)爭(zhēng)對(duì)手甚至可能不知道的市場(chǎng)信息,它已成為數(shù)據(jù)或滅亡的游戲。

過去5年Google搜索“數(shù)據(jù)科學(xué)”趨勢(shì)
在當(dāng)今不斷發(fā)展的數(shù)字世界中,要在競(jìng)爭(zhēng)中保持領(lǐng)先地位需要不斷的創(chuàng)新。專利已經(jīng)過時(shí),而敏捷方法論(譯者注:也稱輕量級(jí)方法,它是一組開發(fā)方法的統(tǒng)稱)和快速捕捉新趨勢(shì)非常重要。
組織不能再依靠其堅(jiān)如磐石的舊方法。如果出現(xiàn)諸如數(shù)據(jù)科學(xué)、人工智能、區(qū)塊鏈之類的新趨勢(shì),則需要預(yù)先進(jìn)行預(yù)測(cè)并迅速適應(yīng)。
以下是2020年最熱門的4種數(shù)據(jù)科學(xué)趨勢(shì)。這些趨勢(shì)已在今年引起了越來越多企業(yè)的興趣,并將在2020年繼續(xù)增長(zhǎng)。
(1)數(shù)據(jù)科學(xué)自動(dòng)化
即便在當(dāng)今的數(shù)字時(shí)代,數(shù)據(jù)科學(xué)仍然需要大量的手工作業(yè)。存儲(chǔ)、清理、可視化和探索數(shù)據(jù),最后對(duì)數(shù)據(jù)進(jìn)行建模以獲得實(shí)際結(jié)果。這些手工作業(yè)正在尋求自動(dòng)化,于是數(shù)據(jù)科學(xué)自動(dòng)化和機(jī)器學(xué)習(xí)已然興起 。
數(shù)據(jù)科學(xué)流程的幾乎每個(gè)步驟都已經(jīng)或正在變得自動(dòng)化。
在過去的幾年中,自動(dòng)數(shù)據(jù)清理已被廣泛研究。清理大數(shù)據(jù)通常會(huì)占用數(shù)據(jù)科學(xué)家的大部分昂貴時(shí)間,初創(chuàng)公司和大型公司(例如IBM)都提供了用于數(shù)據(jù)清理的自動(dòng)化操作和工具。
數(shù)據(jù)科學(xué)的另一大部分(稱為特征工程)已遭受重大沖擊。Featuretools(譯者注:可自動(dòng)構(gòu)造機(jī)器學(xué)習(xí)特征的Python庫(kù))提供了自動(dòng)特征工程的解決方案。最重要的是,諸如卷積和遞歸神經(jīng)網(wǎng)絡(luò)之類的現(xiàn)代深度學(xué)習(xí)技術(shù)無需手動(dòng)特征設(shè)計(jì)即可學(xué)習(xí)其自身的特征。
最重要的自動(dòng)化發(fā)生在機(jī)器學(xué)習(xí)領(lǐng)域。Data Robot和H2O已在行業(yè)通過提供終端到終端的機(jī)器學(xué)習(xí)平臺(tái),使數(shù)據(jù)科學(xué)家對(duì)數(shù)據(jù)管理和模型更容易掌握,從而確立了自己地位。
用于自動(dòng)模型設(shè)計(jì)和訓(xùn)練的AutoML在2019年也蓬勃發(fā)展,因?yàn)檫@些自動(dòng)模型已經(jīng)超越了較新的技術(shù)。尤其是Google,正在Cloud AutoML上投入重金。
總的來說,公司在構(gòu)建和購(gòu)買用于自動(dòng)化數(shù)據(jù)科學(xué)的工具和服務(wù)方面進(jìn)行了大量投資,只要能讓這個(gè)過程更便宜、更容易。同時(shí),這種自動(dòng)化還適合規(guī)模較小和技術(shù)含量較低的組織,這些組織可以利用這些工具和服務(wù)來使用數(shù)據(jù)科學(xué),而無需建立自己的團(tuán)隊(duì)。
(2)數(shù)據(jù)隱私與安全
隱私和安全始終是技術(shù)領(lǐng)域中的敏感話題。所有公司都希望快速發(fā)展和創(chuàng)新,但是失去客戶對(duì)隱私或安全問題的信任可能是致命的。因此,他們被迫將其作為優(yōu)先事項(xiàng),至少要做到不泄漏私人數(shù)據(jù)。
在過去的一年中,數(shù)據(jù)隱私和安全性已成為一個(gè)令人難以置信的熱門話題,因?yàn)榫薮蟮墓埠诳褪录惯@一問題更加嚴(yán)重。就在最近的2019年11月22日,在Google Cloud上發(fā)現(xiàn)了一個(gè)沒有安全性的公開服務(wù)器。該服務(wù)器包含12億條個(gè)人信息,包括姓名,電子郵件地址,電話號(hào)碼以及LinkedIn和Facebook個(gè)人資料信息。聯(lián)邦調(diào)查局也介入調(diào)查,它是有史以來較大的數(shù)據(jù)泄露事件之一。
它是在任何人都可以創(chuàng)建的Google Cloud服務(wù)器上。數(shù)據(jù)如何到達(dá)那里?它屬于誰(shuí)?誰(shuí)要為該數(shù)據(jù)的安全性負(fù)責(zé)?
雖然大家看到這個(gè)新聞之后不會(huì)刪除他們的LinkedIn和Facebook帳戶,但是確實(shí)引起了一些關(guān)注。消費(fèi)者越來越關(guān)注將電子郵件地址和電話號(hào)碼提供給了誰(shuí)。
能夠保證客戶數(shù)據(jù)私密性和安全性的公司會(huì)發(fā)現(xiàn),他們說服客戶(通過繼續(xù)使用其產(chǎn)品和服務(wù))向他們提供更多數(shù)據(jù)會(huì)更加容易。如果政府制定了任何要求為客戶數(shù)據(jù)提供安全協(xié)議的法律,這些公司還應(yīng)該確保自己已經(jīng)做好了充分的準(zhǔn)備。所以,許多公司選擇SOC2隱私性原則(譯者注:美國(guó)注冊(cè)會(huì)計(jì)師協(xié)會(huì)(AICPA) 制定的隱私保護(hù)審計(jì)標(biāo)準(zhǔn))來證明其安全強(qiáng)度。
整個(gè)數(shù)據(jù)科學(xué)過程都由數(shù)據(jù)推動(dòng),但其中大多數(shù)不是匿名的。數(shù)據(jù)不僅代表原始數(shù)字,而且描述真實(shí)的人和真實(shí)的事物。如果使用不當(dāng),這些數(shù)據(jù)可能會(huì)助長(zhǎng)全球隱私災(zāi)難,并影響人們的日常生活。
隨著數(shù)據(jù)科學(xué)的發(fā)展,我們還將看到圍繞數(shù)據(jù)的隱私和安全協(xié)議的轉(zhuǎn)變。其中包括流程、法律以及建立和維護(hù)數(shù)據(jù)安全性和完整性的不同方法。如果網(wǎng)絡(luò)安全成為今年的流行語(yǔ),也不足為奇。
(3)云中的超大型數(shù)據(jù)科學(xué)
多年以來,數(shù)據(jù)科學(xué)已經(jīng)從一個(gè)小眾市場(chǎng)發(fā)展成為為完整的領(lǐng)域,可用于分析的數(shù)據(jù)也呈爆炸式增長(zhǎng),組織正在收集和存儲(chǔ)比以往更多的數(shù)據(jù)。
一家典型的財(cái)富500強(qiáng)公司可能需要分析的數(shù)據(jù)量已經(jīng)遠(yuǎn)遠(yuǎn)超出了個(gè)人計(jì)算機(jī)的處理能力。像樣的個(gè)人電腦可能具有64GB的內(nèi)存、8核CPU和4TB的存儲(chǔ)空間。這對(duì)于個(gè)人項(xiàng)目來說效果很好,但是當(dāng)您在一家擁有數(shù)百萬客戶數(shù)據(jù)的跨國(guó)公司(例如銀行或零售商)工作時(shí),效果就不那么理想了。
所以,云計(jì)算進(jìn)入數(shù)據(jù)科學(xué)領(lǐng)域。云計(jì)算使任何地方的任何人都可以訪問幾乎無限的處理能力。諸如Amazon Web Services(AWS)之類的云供應(yīng)商提供了多達(dá)96個(gè)虛擬CPU內(nèi)核和高達(dá)768GB的內(nèi)存。可以將這些服務(wù)器設(shè)置在一個(gè)自動(dòng)擴(kuò)展組中,按所需的計(jì)算能力啟動(dòng)或停止數(shù)百個(gè)服務(wù)器而不會(huì)產(chǎn)生太多延遲。
Google Cloud數(shù)據(jù)中心
除了計(jì)算之外,云計(jì)算公司還為數(shù)據(jù)分析提供了完善的平臺(tái)。Google Cloud提供了一個(gè)稱為BigQuery的平臺(tái),該平臺(tái)是無服務(wù)器計(jì)算(譯者注:Serverless是一種構(gòu)建和管理基于微服務(wù)架構(gòu)的完整流程)且可擴(kuò)展的數(shù)據(jù)倉(cāng)庫(kù),使數(shù)據(jù)科學(xué)家能夠在單個(gè)平臺(tái)上存儲(chǔ)和分析PB級(jí)的數(shù)據(jù)。BigQuery也可以連接到其他用于數(shù)據(jù)科學(xué)的谷歌云服務(wù)。使用Cloud Dataflow創(chuàng)建數(shù)據(jù)流傳輸管道,使用Cloud DataProc在數(shù)據(jù)上運(yùn)行Hadoop或Apache Spark,或使用BigQuery ML在龐大的數(shù)據(jù)集上構(gòu)建機(jī)器學(xué)習(xí)模型。
從數(shù)據(jù)到處理能力的一切都在增長(zhǎng),隨著數(shù)據(jù)科學(xué)的成熟和數(shù)據(jù)量更加巨大,我們最終可能會(huì)完全在云上完成數(shù)據(jù)科學(xué)。
(4)自然語(yǔ)言處理
在深度學(xué)習(xí)研究領(lǐng)域取得重大突破之后,自然語(yǔ)言處理(NLP)已牢固地進(jìn)入數(shù)據(jù)科學(xué)領(lǐng)域。
數(shù)據(jù)科學(xué)最初是對(duì)純?cè)紨?shù)據(jù)的分析,因?yàn)檫@是處理數(shù)據(jù)并將其收集在電子表格中最簡(jiǎn)單的方法。如果需要處理任何類型的文本,通常都需要將其分類或以某種方式轉(zhuǎn)換為數(shù)字。
然而,將一段文本壓縮為一個(gè)數(shù)字是非常困難的。自然語(yǔ)言和文本包含了豐富的數(shù)據(jù)和信息,由于缺乏將這些信息表示為數(shù)字的能力,因此我們常常會(huì)失去很多有用的信息。
深度學(xué)習(xí)在NLP中取得的巨大進(jìn)步推動(dòng)了NLP與常規(guī)數(shù)據(jù)分析的全面集成。現(xiàn)在,神經(jīng)網(wǎng)絡(luò)可以快速地從大量文本中提取信息。他們能夠?qū)⑽谋痉譃椴煌念悇e、確定關(guān)于文本的情感、并對(duì)文本數(shù)據(jù)的相似性進(jìn)行分析。最后,所有這些信息都可以存儲(chǔ)在單個(gè)數(shù)字特征向量中。
NLP已成為數(shù)據(jù)科學(xué)中的強(qiáng)大工具。巨大的文本數(shù)據(jù)存儲(chǔ),不僅可以是一個(gè)單詞的答案,還可以包含完整的段落,可以轉(zhuǎn)換為數(shù)值數(shù)據(jù)以進(jìn)行標(biāo)準(zhǔn)分析?,F(xiàn)在,我們可以探索更為復(fù)雜的數(shù)據(jù)集。
例如,假設(shè)有一個(gè)新聞網(wǎng)站想要查看哪些主題正在獲得更多的觀看次數(shù)。如果沒有高級(jí)的NLP,那么所有關(guān)鍵詞都將失去作用,或者只是一個(gè)預(yù)感:為什么一個(gè)特定的標(biāo)題相對(duì)于另一個(gè)標(biāo)題效果很好?使用NLP,我們可以量化網(wǎng)站的文本,比較整個(gè)文本甚至是網(wǎng)頁(yè)的各個(gè)段落,以獲得更全面的見解。
總結(jié)
整體而言,數(shù)據(jù)科學(xué)仍在發(fā)展,它將會(huì)嵌入每個(gè)行業(yè)(無論是技術(shù)行業(yè)還是非技術(shù)行業(yè))以及每個(gè)業(yè)務(wù)(無論大小)。隨著該領(lǐng)域的長(zhǎng)期發(fā)展,看到它成為我們軟件工具箱中的常用工具并被大眾大規(guī)模使用使用也就不足為奇了。