在荒蕪的數(shù)據(jù)科學(xué)領(lǐng)域中建立架構(gòu)思維
致謝:感謝 Kevin Turner 多次審查本文檔并提供寶貴意見(jiàn)。
數(shù)據(jù)科學(xué)家都傾向于使用一些臨時(shí)性方法。以創(chuàng)新方式非法侵入各種編程語(yǔ)言腳本的行為,在遍布于服務(wù)器和客戶端上的各種機(jī)器學(xué)習(xí)框架中隨處可見(jiàn)。我并不是要抱怨數(shù)據(jù)科學(xué)家的工作方式。我發(fā)現(xiàn)自己經(jīng)常只有在創(chuàng)造力迸發(fā)的狀態(tài)下才會(huì)小有所成。
完全自由選擇編程語(yǔ)言、工具和框架的能力有助于改善創(chuàng)造性思維和加快思維演變進(jìn)程。但最終,數(shù)據(jù)科學(xué)家必須將其資產(chǎn)完全打造成型,然后才能交付,否則可能會(huì)存在許多缺陷。接下來(lái),我來(lái)介紹一下這些缺陷:
技術(shù)盲點(diǎn)
從數(shù)據(jù)科學(xué)家的角度來(lái)看,他們通常認(rèn)為實(shí)際技術(shù)與 功能性取向沒(méi)有太大關(guān)聯(lián),因?yàn)樗褂玫哪P秃退惴ㄊ且詳?shù)學(xué)方式定義的。因此,算法的數(shù)學(xué)定義是揭示真相的唯一途徑。但對(duì)于非功能性需求,這個(gè)觀點(diǎn)有些站不住腳。例如,編程語(yǔ)言和技術(shù)方面的專家的可用情況和成本存在很大的差異。在維護(hù)方面,所選擇的技術(shù)對(duì)于項(xiàng)目能否取得成功有很大影響。
數(shù)據(jù)科學(xué)家傾向于使用他們最擅長(zhǎng)的編程語(yǔ)言和框架。首先,我來(lái)介紹一下 R 和 R-Studio 等開(kāi)源技術(shù),這些技術(shù)的程序包和庫(kù)數(shù)量龐大且難以管理,而且其語(yǔ)法松散且難以維護(hù)。隨后,我會(huì)介紹語(yǔ)法結(jié)構(gòu)完善且經(jīng)過(guò)精心組織的 Python 及相關(guān)框架(如 Pandas 和 Scikit-Learn)。另一類工具是“含少量代碼或無(wú)代碼”的完全可視化開(kāi)源工具,如 Node-RED、KNIME、RapidMiner 和 Weka 以及諸如 SPSS Modeler 之類的商用產(chǎn)品。
“我最熟悉的技術(shù)”足以滿足概念驗(yàn)證 (proof of concept, PoC)、黑客馬拉松或啟動(dòng)式項(xiàng)目的需求。但對(duì)于行業(yè)和企業(yè)級(jí)規(guī)模的項(xiàng)目,必須提供有關(guān)技術(shù)使用的一些架構(gòu)準(zhǔn)則,無(wú)論此類技術(shù)有多淺顯易懂都應(yīng)如此。
缺乏再現(xiàn)性和可復(fù)用性
鑒于上述問(wèn)題,我們顯然無(wú)法容忍企業(yè)環(huán)境中數(shù)據(jù)科學(xué)資產(chǎn)不受控制的增長(zhǎng)。在大型企業(yè)中,項(xiàng)目與人力資源可能出現(xiàn)大量流失,例如,僅為特定項(xiàng)目短期雇傭具備特定技能的外部咨詢?nèi)藛T。通常,當(dāng)有人退出項(xiàng)目時(shí),其擁有的知識(shí)技能也會(huì)隨之離去。因此,本質(zhì)上,數(shù)據(jù)科學(xué)資產(chǎn)并不只是用各種編程語(yǔ)言編寫且分布在各個(gè)位置和環(huán)境中的腳本的集合。由于許多數(shù)據(jù)科學(xué)資產(chǎn)都是在非協(xié)作環(huán)境下開(kāi)發(fā)的,因此這些資產(chǎn)的可復(fù)用性往往是有限的。臨時(shí)性的文檔記錄、代碼質(zhì)量差、技術(shù)混用且過(guò)于復(fù)雜以及普遍缺乏專業(yè)知識(shí)是導(dǎo)致此類問(wèn)題的主要推動(dòng)因素。解決這些問(wèn)題后,資產(chǎn)就會(huì)變?yōu)榭蓮?fù)用并且其價(jià)值顯著增加。例如,如果未經(jīng)協(xié)調(diào),每位數(shù)據(jù)科學(xué)家都可能針對(duì)同一數(shù)據(jù)源重新創(chuàng)建 ETL(抽取 (Extract) - 變換 (Transform) - 裝入 (Load))、數(shù)據(jù)質(zhì)量評(píng)估和特征工程管道,從而顯著增加開(kāi)銷并降低質(zhì)量。
缺乏協(xié)作
數(shù)據(jù)科學(xué)家都是偉大的思想家。常識(shí)告訴他們,腦容量是不變的。因此,數(shù)據(jù)科學(xué)家傾向于以自己的方式和步調(diào)獨(dú)立工作。當(dāng)他們遇到棘手的難題時(shí),像“stackexchange.com”這樣的 Web 站點(diǎn)就可能成為他們獲得幫助的***資源。也許是因?yàn)椴恢榛蛘咧皇侨鄙倬哂型燃寄艿幕锇椋夹g(shù)***的數(shù)據(jù)科學(xué)家往往不擅長(zhǎng)協(xié)作。從局外人的角度來(lái)看,因?yàn)樗麄儽?ldquo;哪管死后洪水滔天”的心態(tài),所以沒(méi)有采用可復(fù)用的方式來(lái)共享和組織所創(chuàng)建的資產(chǎn)。文檔記錄欠佳,甚至沒(méi)有文檔記錄,而且組件分散,這些都導(dǎo)致難以回溯和復(fù)制以前的工作。因此,需要提供一個(gè)公共資產(chǎn)存儲(chǔ)庫(kù)并制定***的文檔記錄準(zhǔn)則。
次優(yōu)架構(gòu)決策
數(shù)據(jù)科學(xué)家通常是具備線性代數(shù)技能和一定程度的業(yè)務(wù)理解能力的“黑客”。他們通常不是經(jīng)過(guò)培訓(xùn)的軟件工程師或架構(gòu)設(shè)計(jì)師。如上所述,數(shù)據(jù)科學(xué)家傾向于使用他們最熟悉的編程語(yǔ)言和框架,并快速構(gòu)建解決方案,而未必會(huì)考慮可擴(kuò)展性、可維護(hù)性和人力資源可用性等非功能性需求 (Non-functional requirement, NFR)。因此,我要強(qiáng)調(diào)一點(diǎn),在每個(gè)重大數(shù)據(jù)科學(xué)項(xiàng)目中都應(yīng)設(shè)立解決方案架構(gòu)設(shè)計(jì)師或***數(shù)據(jù)科學(xué)家角色,從而確保適當(dāng)滿足 NFR。預(yù)定義的架構(gòu)和流程框架非常適合為此類角色提供支持。但首先,我們來(lái)了解一下傳統(tǒng)企業(yè)架構(gòu)如何適用于數(shù)據(jù)科學(xué)項(xiàng)目。
怎樣的架構(gòu)和流程才適用于數(shù)據(jù)科學(xué)項(xiàng)目
在回答這個(gè)問(wèn)題之前,我們首先來(lái)簡(jiǎn)單回顧一下傳統(tǒng)企業(yè)架構(gòu),然后評(píng)估怎樣的架構(gòu)方法和流程模型才適用于此類架構(gòu)。
站在金字塔頂端的是企業(yè)架構(gòu)設(shè)計(jì)師。企業(yè)架構(gòu)設(shè)計(jì)師負(fù)責(zé)定義在整個(gè)企業(yè)內(nèi)行之有效的標(biāo)準(zhǔn)和準(zhǔn)則。示例包括:
- 只要擁有許可證,就可以使用開(kāi)源軟件
- REST 調(diào)用始終需要使用 HTTPS
- 使用非關(guān)系數(shù)據(jù)庫(kù)需要獲得來(lái)自企業(yè)架構(gòu)委員會(huì)的特別核準(zhǔn)
解決方案架構(gòu)設(shè)計(jì)師在企業(yè)架構(gòu)設(shè)計(jì)師定義的框架內(nèi)開(kāi)展工作。該角色負(fù)責(zé)定義適用于項(xiàng)目或用例的技術(shù)組件。示例包括:
- 必須在 Db2 關(guān)系數(shù)據(jù)庫(kù)管理系統(tǒng) (Relational database management system, RDBMS) 中存儲(chǔ)歷史數(shù)據(jù)
- 對(duì)于實(shí)時(shí)構(gòu)造的高吞吐量數(shù)據(jù),必須使用 Apache Spark Streaming
- 對(duì)于低延遲的實(shí)時(shí)視頻流處理,必須使用 IBM Steams
然后,應(yīng)用程序架構(gòu)設(shè)計(jì)師負(fù)責(zé)在解決方案架構(gòu)設(shè)計(jì)師的框架內(nèi)定義應(yīng)用程序。示例包括:
- 使用“模型 - 視圖 - 控制器”(Model-View-Controller, MVC) 模式實(shí)施 UI
- 對(duì)于標(biāo)準(zhǔn)實(shí)體,將使用對(duì)象關(guān)系映射器
- 對(duì)于復(fù)雜查詢,將使用準(zhǔn)備好的 SQL 語(yǔ)句
***,數(shù)據(jù)架構(gòu)設(shè)計(jì)師負(fù)責(zé)定義數(shù)據(jù)相關(guān)組件,如:
- 在 ETL 期間,必須取消對(duì)數(shù)據(jù)的規(guī)范化以構(gòu)成星型模型
- 在 ETL 期間,必須對(duì)所有分類字段和有序字段建立索引
那么在此過(guò)程中,富有創(chuàng)造力的全能數(shù)據(jù)科學(xué)家如何一展身手呢?首先,我們嘗試定義在以上定義的角色中,數(shù)據(jù)科學(xué)家能部分承擔(dān)其中哪些角色以及能夠與其中哪些角色進(jìn)行交互。
讓我們?cè)賮?lái)從上到下審視一下這些角色。為了更直觀地進(jìn)行說(shuō)明,我們以城市設(shè)計(jì)作比喻。企業(yè)架構(gòu)設(shè)計(jì)師相當(dāng)于設(shè)計(jì)整個(gè)城市的人。例如,他們負(fù)責(zé)定義污水處理系統(tǒng)和道路。解決方案架構(gòu)設(shè)計(jì)師相當(dāng)于每棟房屋的設(shè)計(jì)人,應(yīng)用程序架構(gòu)設(shè)計(jì)師相當(dāng)于廚房的設(shè)計(jì)人,數(shù)據(jù)架構(gòu)設(shè)計(jì)師負(fù)責(zé)監(jiān)督電路安裝和供水系統(tǒng)。
***,數(shù)據(jù)科學(xué)家負(fù)責(zé)打造有史以來(lái)***進(jìn)的廚房!他們不會(huì)采用任何現(xiàn)有的廚房設(shè)計(jì)。他們會(huì)利用個(gè)別的現(xiàn)成組件,但也會(huì)根據(jù)需要?jiǎng)?chuàng)建原創(chuàng)部件。數(shù)據(jù)科學(xué)家與應(yīng)用程序架構(gòu)設(shè)計(jì)師的交互最為頻繁。如果對(duì)廚房有特殊要求,那么數(shù)據(jù)架構(gòu)設(shè)計(jì)師可能需要提供基礎(chǔ)架構(gòu)。記住這個(gè)比喻后,我們?cè)賮?lái)看一下,如果廚房由數(shù)據(jù)科學(xué)家獨(dú)立打造,它會(huì)變成什么樣?它將成為一個(gè)功能齊全的廚房,具有很多功能,但很可能欠缺適用性。例如,要啟動(dòng)烤箱,您需要登錄到 Raspberry Pi 并運(yùn)行一個(gè) Shell 腳本。由于各個(gè)部件來(lái)自不同的供應(yīng)商(包括某些定制硬件),因此廚房的設(shè)計(jì)可能并不美觀。***,它雖然提供了大量的功能,但其中有些功能并不必要,而且大部分功能都沒(méi)有相應(yīng)的文檔記錄。
再次從 IT 角度來(lái)看,此示例展示了原先問(wèn)題的答案。在此過(guò)程中,富有創(chuàng)造力的全能數(shù)據(jù)科學(xué)家將如何一展身手呢?
數(shù)據(jù)科學(xué)家很少與企業(yè)架構(gòu)設(shè)計(jì)師進(jìn)行交互。他們可能會(huì)與解決方案架構(gòu)設(shè)計(jì)師進(jìn)行交互,但必然會(huì)與應(yīng)用程序架構(gòu)設(shè)計(jì)師和數(shù)據(jù)架構(gòu)設(shè)計(jì)師緊密合作。他們不需要承擔(dān)對(duì)方的角色,但必須能夠從對(duì)方的角度來(lái)理解對(duì)方的想法。由于數(shù)據(jù)科學(xué)是一個(gè)新興的創(chuàng)新領(lǐng)域,因此數(shù)據(jù)科學(xué)家必須與架構(gòu)設(shè)計(jì)師從同樣的角度(應(yīng)用程序開(kāi)發(fā)者或數(shù)據(jù)庫(kù)管理員則不必如此)來(lái)思考問(wèn)題,才能轉(zhuǎn)變和影響企業(yè)架構(gòu)。
我將使用一個(gè)示例來(lái)說(shuō)明這其中的含義,以此作為本文的總結(jié)??紤]如下架構(gòu)準(zhǔn)則:采用 R-Studio Server 作為企業(yè)中的標(biāo)準(zhǔn)數(shù)據(jù)科學(xué)平臺(tái),所有數(shù)據(jù)科學(xué)項(xiàng)目都必須使用 R。此軟件已經(jīng)過(guò)企業(yè)架構(gòu)設(shè)計(jì)師核準(zhǔn),內(nèi)部部署的 R-Studio Server 自助服務(wù)門戶網(wǎng)站是由解決方案架構(gòu)設(shè)計(jì)師設(shè)計(jì)的。數(shù)據(jù)科學(xué)家使用可顯著提升模型性能的 TensorFlow 后端來(lái)查找用 Python 編寫的 Keras 代碼片段。此代碼為開(kāi)源代碼,由人工智能領(lǐng)域最智慧的大師之一負(fù)責(zé)維護(hù)。數(shù)據(jù)科學(xué)家只需一小時(shí)即可將此代碼片段注入其筆記本上運(yùn)行的數(shù)據(jù)處理管道(沒(méi)錯(cuò),他們就是在筆記本上建立原型的,因?yàn)樗麄冋娴牟幌矚g所提供的 R-Studio Server 安裝)。那么,您認(rèn)為這樣做之后會(huì)發(fā)生什么呢?
在以往企業(yè)架構(gòu)設(shè)計(jì)師全知全能的時(shí)代,數(shù)據(jù)科學(xué)家可能被迫將代碼移植到 R 上(使用不太復(fù)雜的深度學(xué)習(xí)框架)。但這其中存在一種可能性。數(shù)據(jù)科學(xué)家應(yīng)該能夠在需要時(shí)使用此代碼片段。但如果在沒(méi)有任何指導(dǎo)的情況下這樣做,那么可能導(dǎo)致數(shù)據(jù)科學(xué)領(lǐng)域成為一片荒蕪之地。
因此,我來(lái)介紹一下現(xiàn)有流程模型和參考架構(gòu),看看是否以及如何將傳統(tǒng)的架構(gòu)領(lǐng)域與新興的數(shù)據(jù)科學(xué)領(lǐng)域相結(jié)合。
數(shù)據(jù)科學(xué)領(lǐng)域的現(xiàn)有流程模型概述
CRISP-DM
CRISP-DM 代表跨行業(yè)的標(biāo)準(zhǔn)數(shù)據(jù)挖掘流程 (Cross-industry Standard Process for Data Mining),這是使用最廣泛的開(kāi)源流程模型(前提是已使用流程模型)。CRISP-DM 定義了構(gòu)成數(shù)據(jù)科學(xué)項(xiàng)目的一系列階段。最重要的是,這些階段之間的轉(zhuǎn)換為雙向轉(zhuǎn)換,整個(gè)流程為迭代式流程。這意味著,在到達(dá)最終階段后,將會(huì)重新開(kāi)始整個(gè)流程并對(duì)您的工作進(jìn)行優(yōu)化。下圖演示了這***程。
CRISP-DM 流程模型。作者 Kenneth Jensen,參考文獻(xiàn):IBM SPSS Modeler CRISP-DM Guide
在我看來(lái),此流程模型已經(jīng)是一個(gè)很好的開(kāi)端。但由于它只是一個(gè)流程模型,所以假定已經(jīng)制定了有關(guān)所用技術(shù)的架構(gòu)決策并且已經(jīng)滿足 NFA 需求。因此,CRISP-DM 模型適用于采用固定技術(shù)的環(huán)境(如傳統(tǒng)企業(yè)數(shù)據(jù)倉(cāng)儲(chǔ)或商業(yè)智能項(xiàng)目)。
而在像數(shù)據(jù)科學(xué)這樣快速發(fā)展的領(lǐng)域,它還不夠靈活。
ASUM-DM
由于 CRISP-DM 存在缺陷,因此 IBM 于 2015 年發(fā)布了“適用于數(shù)據(jù)挖掘/預(yù)測(cè)分析的分析解決方案統(tǒng)一方法” (Analytics Solutions Unified Method for Data Mining/Predictive Analytics, ASUM-DM) 流程模型。它以 CRISP-DM 為基礎(chǔ),但經(jīng)過(guò)擴(kuò)展后包含基礎(chǔ)架構(gòu)、操作、項(xiàng)目和部署方面的一些任務(wù)和活動(dòng),并為所有任務(wù)添加了模板和準(zhǔn)則。ASUM-DM 開(kāi)放版本可供下載使用,但只有 IBM 客戶才能獲取全功能版本。(有關(guān)更多信息,聯(lián)系 asmarket@us.ibm.com。)
ASUM-DM 是更通用的“分析解決方案統(tǒng)一方法” (ASUM) 框架的一部分,此框架提供了特定于產(chǎn)品和特定于解決方案的實(shí)施路線圖,并涵蓋了所有 IBM Analytics 產(chǎn)品。
ASUM-DM 借鑒了來(lái)自 ASUM 的流程模型,如下圖所示。
IBM Cloud Garage Method
在 2001 年發(fā)布 Manifesto for Agile Software Development 后,Waterfall 或 V-Model 之類的許多流程開(kāi)始逐漸退出歷史舞臺(tái)。導(dǎo)致這種模式轉(zhuǎn)變的主要原因是 20 世紀(jì) 90 年代發(fā)生的軟件開(kāi)發(fā)危機(jī),在當(dāng)時(shí),軟件開(kāi)發(fā)尚達(dá)不到業(yè)務(wù)利益相關(guān)者對(duì)產(chǎn)品上市時(shí)間和靈活性的快速增長(zhǎng)期望。
由于企業(yè)客戶通常難以過(guò)渡到敏捷流程,所以 IBM 創(chuàng)建了 IBM Cloud Garage Method,這是一種敏捷軟件架構(gòu)方法,可根據(jù)企業(yè)轉(zhuǎn)型需求進(jìn)行定制。此方法同樣可以分為多個(gè)不同階段,如下圖所示。
要注意的關(guān)鍵是,這個(gè)六邊形的中心是文化變遷。這意味著,如果沒(méi)有文化變遷,此方法將注定失敗。務(wù)必要牢記這一點(diǎn)。在數(shù)據(jù)科學(xué)領(lǐng)域,我們能占得先機(jī)的原因是數(shù)據(jù)科學(xué)家傾向于使用輕量級(jí)流程模型(前提是已使用流程模型)。
下面總結(jié)了文化變遷所涉及的六個(gè)階段。
思考
設(shè)計(jì)思維是全新的需求工程。設(shè)計(jì)思維源于 20 世紀(jì) 60 年代,但 IBM 是將此方法應(yīng)用于 IT 行業(yè)的主要貢獻(xiàn)者之一。雖然通常會(huì)使用更復(fù)雜的術(shù)語(yǔ)來(lái)解釋設(shè)計(jì)思維,但我認(rèn)為設(shè)計(jì)思維只有一個(gè)目的:將人類的大腦轉(zhuǎn)變到創(chuàng)新思維模式。因此,它使用書寫和繪畫來(lái)代替口述和打字。退后一步,您的眼界將更加開(kāi)闊。
設(shè)計(jì)思維時(shí)刻牢記用戶體驗(yàn),并明確強(qiáng)調(diào)產(chǎn)品背后的業(yè)務(wù)。因此,它回答了下列關(guān)鍵問(wèn)題:
- 誰(shuí):為誰(shuí)構(gòu)建產(chǎn)品?
- 嘗試要解決什么問(wèn)題?
- 要如何解決問(wèn)題?
- 每個(gè)思考階段的結(jié)果都是“最小可行產(chǎn)品”(MVP) 的定義。
編碼
平臺(tái)云革命是快速建立原型的主要推動(dòng)因素??梢栽趲仔r(shí)(而不是幾天或幾周)內(nèi)運(yùn)行原型。這可將迭代周期縮短一個(gè)數(shù)量級(jí)。這樣,每天都可以收集用戶反饋。此階段的***實(shí)踐包括:
- 每日站立會(huì)議
- 結(jié)對(duì)編程和測(cè)試驅(qū)動(dòng)開(kāi)發(fā)
- 持續(xù)集成
- 自動(dòng)測(cè)試
- 重構(gòu)微服務(wù)
- 交付
每日交付需要滿足兩個(gè)前提條件。首先,必須使用工具鏈完全自動(dòng)執(zhí)行構(gòu)建和部署過(guò)程。其次,每次落實(shí)到源代碼存儲(chǔ)庫(kù)時(shí),都必須生成可供用戶隨時(shí)測(cè)試的完全生產(chǎn)就緒型產(chǎn)品?;谠频慕鉀Q方案可以滿足這個(gè)需求,從而讓開(kāi)發(fā)者專注于編程。
運(yùn)行
如果使用云運(yùn)行時(shí),那么項(xiàng)目的操作方面將由云服務(wù)處理。根據(jù)要求,這可能發(fā)生在公共云、私有云或混合云中以及基礎(chǔ)架構(gòu)級(jí)別、平臺(tái)級(jí)別或服務(wù)級(jí)別。這樣通常會(huì)導(dǎo)致運(yùn)營(yíng)團(tuán)隊(duì)被淘汰,而開(kāi)發(fā)者可以集中精力為項(xiàng)目增加價(jià)值。此階段的***實(shí)踐包括:
- 準(zhǔn)備實(shí)現(xiàn)高可用性
- 暗啟動(dòng)和功能開(kāi)關(guān)
- 自動(dòng)縮放
管理
由于前提是您已擁有完全受管的云運(yùn)行時(shí),因此可以輕松添加洲際高可用性/故障轉(zhuǎn)移、持續(xù)監(jiān)控和動(dòng)態(tài)縮放功能。此階段的***實(shí)踐包括:
- 自動(dòng)監(jiān)控
- 快速自動(dòng)恢復(fù)
- 業(yè)務(wù)連續(xù)性
- 學(xué)習(xí)
由于迭代周期非常短且可持續(xù)獲得用戶反饋,因此可以立即測(cè)試假設(shè)并生成明智的決策,從而促使將發(fā)現(xiàn)的成果添加到待辦任務(wù)中以供進(jìn)一步調(diào)整業(yè)務(wù)核心。此階段的***實(shí)踐包括:
- A/B 測(cè)試
- 假設(shè)驅(qū)動(dòng)的開(kāi)發(fā)
- 實(shí)時(shí)用戶行為分析
IBM DataFirst Method
雖然通常與 IBM 客戶有關(guān),但 DataFirst Method 設(shè)計(jì)合約產(chǎn)品(IBM DataFirst Method 是 IBM Cloud Garage Method 的一個(gè)實(shí)例)中包含的合約專門以 IT 轉(zhuǎn)型為目標(biāo),旨在使基礎(chǔ)架構(gòu)、流程和員工為 AI 做好準(zhǔn)備。有關(guān)更多信息,訪問(wèn) [ibm.biz/DataFirstMethod](ibm.biz/DataFirstMethod)。
IBM 數(shù)據(jù)與分析參考架構(gòu)
每個(gè)項(xiàng)目都不盡相同,每個(gè)用例都需要不同的技術(shù)組件。但所有這些都可以 用抽象的術(shù)語(yǔ)來(lái)加以描述。以下列表列舉并解釋了這些術(shù)語(yǔ)。
- 數(shù)據(jù)源:內(nèi)部或外部數(shù)據(jù)源,包括關(guān)系數(shù)據(jù)庫(kù)、網(wǎng)頁(yè)、CSV 文件、JSON 文件、文本文件、視頻和音頻數(shù)據(jù)。
- 企業(yè)數(shù)據(jù):基于云的解決方案,有助于擴(kuò)展企業(yè)數(shù)據(jù)模型。因此,可能需要持續(xù)不斷地將企業(yè)數(shù)據(jù)子集傳輸?shù)皆贫?/li>
- 流式分析:目前最有效的方法是批處理。但有時(shí)候,可通過(guò)添加實(shí)時(shí)分析功能來(lái)提升數(shù)據(jù)產(chǎn)品的價(jià)值,因?yàn)槭澜缟洗蟛糠謹(jǐn)?shù)據(jù)在幾秒鐘內(nèi)就會(huì)失去價(jià)值。比如,股票市場(chǎng)數(shù)據(jù)或車輛攝像頭捕獲行人橫穿馬路的事實(shí)。
- 數(shù)據(jù)集成:清理和變換數(shù)據(jù),并在可能的情況下添加下游功能。
- 數(shù)據(jù)存儲(chǔ)庫(kù):用于存儲(chǔ)數(shù)據(jù)的持久存儲(chǔ)庫(kù)。
- 發(fā)現(xiàn)和探索:了解您擁有的數(shù)據(jù)及其外觀。
- 切實(shí)可行的洞察:您可在此處完成自己的大部分工作。在這里,您可創(chuàng)建和評(píng)估自己的機(jī)器學(xué)習(xí)模型和深度學(xué)習(xí)模型。
- 應(yīng)用程序/數(shù)據(jù)產(chǎn)品:雖然模型行之有效,但只有在普通業(yè)務(wù)用戶使用它們時(shí),其價(jià)值才會(huì)提升。因此,您必須創(chuàng)建數(shù)據(jù)產(chǎn)品。數(shù)據(jù)產(chǎn)品不一定需要保留在云端。可推送至移動(dòng)應(yīng)用程序或企業(yè)應(yīng)用程序。
- 安全性、信息監(jiān)管和系統(tǒng)管理:這是一個(gè)很容易被遺忘的重要步驟。為了滿足許多合規(guī)性法規(guī),務(wù)必要控制各類信息的訪問(wèn)者。企業(yè)用戶是架構(gòu)的一部分,因?yàn)樗麄兊男枨罂赡芘c公共用戶不同。云用戶的需求又可能與企業(yè)用戶不同。
結(jié)束語(yǔ)
鑒于您現(xiàn)在已經(jīng)對(duì)云端數(shù)據(jù)科學(xué)領(lǐng)域中當(dāng)前最有效的方法和流程模型有了整體認(rèn)識(shí),現(xiàn)在是時(shí)候來(lái)集中了解對(duì)于數(shù)據(jù)科學(xué)家最實(shí)用的方法了,此方法可幫助數(shù)據(jù)科學(xué)家改進(jìn)其工作方法,***程度降低架構(gòu)開(kāi)銷并自下而上對(duì)企業(yè)架構(gòu)產(chǎn)生積極影響。我將此方法稱為 IBM Cloud Garage 輕量級(jí)數(shù)據(jù)科學(xué)方法。我將在下一篇文章中介紹此方法。保持關(guān)注!