自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="obl1h"></sub>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

在荒蕪的數(shù)據(jù)科學(xué)領(lǐng)域中建立架構(gòu)思維

作者：Romeo Kienzler 2019-03-07 13:57:39

大數(shù)據(jù)

數(shù)據(jù)科學(xué)家都傾向于使用一些臨時(shí)性方法。以創(chuàng)新方式非法侵入各種編程語(yǔ)言腳本的行為，在遍布于服務(wù)器和客戶端上的各種機(jī)器學(xué)習(xí)框架中隨處可見(jiàn)。我并不是要抱怨數(shù)據(jù)科學(xué)家的工作方式。我發(fā)現(xiàn)自己經(jīng)常只有在創(chuàng)造力迸發(fā)的狀態(tài)下才會(huì)小有所成。

致謝：感謝 Kevin Turner 多次審查本文檔并提供寶貴意見(jiàn)。

數(shù)據(jù)科學(xué)家都傾向于使用一些臨時(shí)性方法。以創(chuàng)新方式非法侵入各種編程語(yǔ)言腳本的行為，在遍布于服務(wù)器和客戶端上的各種機(jī)器學(xué)習(xí)框架中隨處可見(jiàn)。我并不是要抱怨數(shù)據(jù)科學(xué)家的工作方式。我發(fā)現(xiàn)自己經(jīng)常只有在創(chuàng)造力迸發(fā)的狀態(tài)下才會(huì)小有所成。

完全自由選擇編程語(yǔ)言、工具和框架的能力有助于改善創(chuàng)造性思維和加快思維演變進(jìn)程。但最終，數(shù)據(jù)科學(xué)家必須將其資產(chǎn)完全打造成型，然后才能交付，否則可能會(huì)存在許多缺陷。接下來(lái)，我來(lái)介紹一下這些缺陷：

技術(shù)盲點(diǎn)

從數(shù)據(jù)科學(xué)家的角度來(lái)看，他們通常認(rèn)為實(shí)際技術(shù)與功能性取向沒(méi)有太大關(guān)聯(lián)，因?yàn)樗褂玫哪Ｐ秃退惴ㄊ且詳?shù)學(xué)方式定義的。因此，算法的數(shù)學(xué)定義是揭示真相的唯一途徑。但對(duì)于非功能性需求，這個(gè)觀點(diǎn)有些站不住腳。例如，編程語(yǔ)言和技術(shù)方面的專家的可用情況和成本存在很大的差異。在維護(hù)方面，所選擇的技術(shù)對(duì)于項(xiàng)目能否取得成功有很大影響。

數(shù)據(jù)科學(xué)家傾向于使用他們最擅長(zhǎng)的編程語(yǔ)言和框架。首先，我來(lái)介紹一下 R 和 R-Studio 等開(kāi)源技術(shù)，這些技術(shù)的程序包和庫(kù)數(shù)量龐大且難以管理，而且其語(yǔ)法松散且難以維護(hù)。隨后，我會(huì)介紹語(yǔ)法結(jié)構(gòu)完善且經(jīng)過(guò)精心組織的 Python 及相關(guān)框架(如 Pandas 和 Scikit-Learn)。另一類工具是“含少量代碼或無(wú)代碼”的完全可視化開(kāi)源工具，如 Node-RED、KNIME、RapidMiner 和 Weka 以及諸如 SPSS Modeler 之類的商用產(chǎn)品。

“我最熟悉的技術(shù)”足以滿足概念驗(yàn)證 (proof of concept, PoC)、黑客馬拉松或啟動(dòng)式項(xiàng)目的需求。但對(duì)于行業(yè)和企業(yè)級(jí)規(guī)模的項(xiàng)目，必須提供有關(guān)技術(shù)使用的一些架構(gòu)準(zhǔn)則，無(wú)論此類技術(shù)有多淺顯易懂都應(yīng)如此。

缺乏再現(xiàn)性和可復(fù)用性

鑒于上述問(wèn)題，我們顯然無(wú)法容忍企業(yè)環(huán)境中數(shù)據(jù)科學(xué)資產(chǎn)不受控制的增長(zhǎng)。在大型企業(yè)中，項(xiàng)目與人力資源可能出現(xiàn)大量流失，例如，僅為特定項(xiàng)目短期雇傭具備特定技能的外部咨詢?nèi)藛T。通常，當(dāng)有人退出項(xiàng)目時(shí)，其擁有的知識(shí)技能也會(huì)隨之離去。因此，本質(zhì)上，數(shù)據(jù)科學(xué)資產(chǎn)并不只是用各種編程語(yǔ)言編寫且分布在各個(gè)位置和環(huán)境中的腳本的集合。由于許多數(shù)據(jù)科學(xué)資產(chǎn)都是在非協(xié)作環(huán)境下開(kāi)發(fā)的，因此這些資產(chǎn)的可復(fù)用性往往是有限的。臨時(shí)性的文檔記錄、代碼質(zhì)量差、技術(shù)混用且過(guò)于復(fù)雜以及普遍缺乏專業(yè)知識(shí)是導(dǎo)致此類問(wèn)題的主要推動(dòng)因素。解決這些問(wèn)題后，資產(chǎn)就會(huì)變?yōu)榭蓮?fù)用并且其價(jià)值顯著增加。例如，如果未經(jīng)協(xié)調(diào)，每位數(shù)據(jù)科學(xué)家都可能針對(duì)同一數(shù)據(jù)源重新創(chuàng)建 ETL(抽取 (Extract) - 變換 (Transform) - 裝入 (Load))、數(shù)據(jù)質(zhì)量評(píng)估和特征工程管道，從而顯著增加開(kāi)銷并降低質(zhì)量。

缺乏協(xié)作

數(shù)據(jù)科學(xué)家都是偉大的思想家。常識(shí)告訴他們，腦容量是不變的。因此，數(shù)據(jù)科學(xué)家傾向于以自己的方式和步調(diào)獨(dú)立工作。當(dāng)他們遇到棘手的難題時(shí)，像“stackexchange.com”這樣的 Web 站點(diǎn)就可能成為他們獲得幫助的***資源。也許是因?yàn)椴恢榛蛘咧皇侨鄙倬哂型燃寄艿幕锇椋夹g(shù)***的數(shù)據(jù)科學(xué)家往往不擅長(zhǎng)協(xié)作。從局外人的角度來(lái)看，因?yàn)樗麄儽?ldquo;哪管死后洪水滔天”的心態(tài)，所以沒(méi)有采用可復(fù)用的方式來(lái)共享和組織所創(chuàng)建的資產(chǎn)。文檔記錄欠佳，甚至沒(méi)有文檔記錄，而且組件分散，這些都導(dǎo)致難以回溯和復(fù)制以前的工作。因此，需要提供一個(gè)公共資產(chǎn)存儲(chǔ)庫(kù)并制定***的文檔記錄準(zhǔn)則。

次優(yōu)架構(gòu)決策

數(shù)據(jù)科學(xué)家通常是具備線性代數(shù)技能和一定程度的業(yè)務(wù)理解能力的“黑客”。他們通常不是經(jīng)過(guò)培訓(xùn)的軟件工程師或架構(gòu)設(shè)計(jì)師。如上所述，數(shù)據(jù)科學(xué)家傾向于使用他們最熟悉的編程語(yǔ)言和框架，并快速構(gòu)建解決方案，而未必會(huì)考慮可擴(kuò)展性、可維護(hù)性和人力資源可用性等非功能性需求 (Non-functional requirement, NFR)。因此，我要強(qiáng)調(diào)一點(diǎn)，在每個(gè)重大數(shù)據(jù)科學(xué)項(xiàng)目中都應(yīng)設(shè)立解決方案架構(gòu)設(shè)計(jì)師或***數(shù)據(jù)科學(xué)家角色，從而確保適當(dāng)滿足 NFR。預(yù)定義的架構(gòu)和流程框架非常適合為此類角色提供支持。但首先，我們來(lái)了解一下傳統(tǒng)企業(yè)架構(gòu)如何適用于數(shù)據(jù)科學(xué)項(xiàng)目。

怎樣的架構(gòu)和流程才適用于數(shù)據(jù)科學(xué)項(xiàng)目

在回答這個(gè)問(wèn)題之前，我們首先來(lái)簡(jiǎn)單回顧一下傳統(tǒng)企業(yè)架構(gòu)，然后評(píng)估怎樣的架構(gòu)方法和流程模型才適用于此類架構(gòu)。

架構(gòu)層次結(jié)構(gòu)。來(lái)源：IBM 公司

站在金字塔頂端的是企業(yè)架構(gòu)設(shè)計(jì)師。企業(yè)架構(gòu)設(shè)計(jì)師負(fù)責(zé)定義在整個(gè)企業(yè)內(nèi)行之有效的標(biāo)準(zhǔn)和準(zhǔn)則。示例包括：

只要擁有許可證，就可以使用開(kāi)源軟件
REST 調(diào)用始終需要使用 HTTPS
使用非關(guān)系數(shù)據(jù)庫(kù)需要獲得來(lái)自企業(yè)架構(gòu)委員會(huì)的特別核準(zhǔn)

解決方案架構(gòu)設(shè)計(jì)師在企業(yè)架構(gòu)設(shè)計(jì)師定義的框架內(nèi)開(kāi)展工作。該角色負(fù)責(zé)定義適用于項(xiàng)目或用例的技術(shù)組件。示例包括：

必須在 Db2 關(guān)系數(shù)據(jù)庫(kù)管理系統(tǒng) (Relational database management system, RDBMS) 中存儲(chǔ)歷史數(shù)據(jù)
對(duì)于實(shí)時(shí)構(gòu)造的高吞吐量數(shù)據(jù)，必須使用 Apache Spark Streaming
對(duì)于低延遲的實(shí)時(shí)視頻流處理，必須使用 IBM Steams

然后，應(yīng)用程序架構(gòu)設(shè)計(jì)師負(fù)責(zé)在解決方案架構(gòu)設(shè)計(jì)師的框架內(nèi)定義應(yīng)用程序。示例包括：

使用“模型 - 視圖 - 控制器”(Model-View-Controller, MVC) 模式實(shí)施 UI
對(duì)于標(biāo)準(zhǔn)實(shí)體，將使用對(duì)象關(guān)系映射器
對(duì)于復(fù)雜查詢，將使用準(zhǔn)備好的 SQL 語(yǔ)句

***，數(shù)據(jù)架構(gòu)設(shè)計(jì)師負(fù)責(zé)定義數(shù)據(jù)相關(guān)組件，如：

在 ETL 期間，必須取消對(duì)數(shù)據(jù)的規(guī)范化以構(gòu)成星型模型
在 ETL 期間，必須對(duì)所有分類字段和有序字段建立索引

那么在此過(guò)程中，富有創(chuàng)造力的全能數(shù)據(jù)科學(xué)家如何一展身手呢?首先，我們嘗試定義在以上定義的角色中，數(shù)據(jù)科學(xué)家能部分承擔(dān)其中哪些角色以及能夠與其中哪些角色進(jìn)行交互。

讓我們?cè)賮?lái)從上到下審視一下這些角色。為了更直觀地進(jìn)行說(shuō)明，我們以城市設(shè)計(jì)作比喻。企業(yè)架構(gòu)設(shè)計(jì)師相當(dāng)于設(shè)計(jì)整個(gè)城市的人。例如，他們負(fù)責(zé)定義污水處理系統(tǒng)和道路。解決方案架構(gòu)設(shè)計(jì)師相當(dāng)于每棟房屋的設(shè)計(jì)人，應(yīng)用程序架構(gòu)設(shè)計(jì)師相當(dāng)于廚房的設(shè)計(jì)人，數(shù)據(jù)架構(gòu)設(shè)計(jì)師負(fù)責(zé)監(jiān)督電路安裝和供水系統(tǒng)。

***，數(shù)據(jù)科學(xué)家負(fù)責(zé)打造有史以來(lái)***進(jìn)的廚房!他們不會(huì)采用任何現(xiàn)有的廚房設(shè)計(jì)。他們會(huì)利用個(gè)別的現(xiàn)成組件，但也會(huì)根據(jù)需要?jiǎng)?chuàng)建原創(chuàng)部件。數(shù)據(jù)科學(xué)家與應(yīng)用程序架構(gòu)設(shè)計(jì)師的交互最為頻繁。如果對(duì)廚房有特殊要求，那么數(shù)據(jù)架構(gòu)設(shè)計(jì)師可能需要提供基礎(chǔ)架構(gòu)。記住這個(gè)比喻后，我們?cè)賮?lái)看一下，如果廚房由數(shù)據(jù)科學(xué)家獨(dú)立打造，它會(huì)變成什么樣?它將成為一個(gè)功能齊全的廚房，具有很多功能，但很可能欠缺適用性。例如，要啟動(dòng)烤箱，您需要登錄到 Raspberry Pi 并運(yùn)行一個(gè) Shell 腳本。由于各個(gè)部件來(lái)自不同的供應(yīng)商(包括某些定制硬件)，因此廚房的設(shè)計(jì)可能并不美觀。***，它雖然提供了大量的功能，但其中有些功能并不必要，而且大部分功能都沒(méi)有相應(yīng)的文檔記錄。

再次從 IT 角度來(lái)看，此示例展示了原先問(wèn)題的答案。在此過(guò)程中，富有創(chuàng)造力的全能數(shù)據(jù)科學(xué)家將如何一展身手呢?

數(shù)據(jù)科學(xué)家很少與企業(yè)架構(gòu)設(shè)計(jì)師進(jìn)行交互。他們可能會(huì)與解決方案架構(gòu)設(shè)計(jì)師進(jìn)行交互，但必然會(huì)與應(yīng)用程序架構(gòu)設(shè)計(jì)師和數(shù)據(jù)架構(gòu)設(shè)計(jì)師緊密合作。他們不需要承擔(dān)對(duì)方的角色，但必須能夠從對(duì)方的角度來(lái)理解對(duì)方的想法。由于數(shù)據(jù)科學(xué)是一個(gè)新興的創(chuàng)新領(lǐng)域，因此數(shù)據(jù)科學(xué)家必須與架構(gòu)設(shè)計(jì)師從同樣的角度(應(yīng)用程序開(kāi)發(fā)者或數(shù)據(jù)庫(kù)管理員則不必如此)來(lái)思考問(wèn)題，才能轉(zhuǎn)變和影響企業(yè)架構(gòu)。

我將使用一個(gè)示例來(lái)說(shuō)明這其中的含義，以此作為本文的總結(jié)?？紤]如下架構(gòu)準(zhǔn)則：采用 R-Studio Server 作為企業(yè)中的標(biāo)準(zhǔn)數(shù)據(jù)科學(xué)平臺(tái)，所有數(shù)據(jù)科學(xué)項(xiàng)目都必須使用 R。此軟件已經(jīng)過(guò)企業(yè)架構(gòu)設(shè)計(jì)師核準(zhǔn)，內(nèi)部部署的 R-Studio Server 自助服務(wù)門戶網(wǎng)站是由解決方案架構(gòu)設(shè)計(jì)師設(shè)計(jì)的。數(shù)據(jù)科學(xué)家使用可顯著提升模型性能的 TensorFlow 后端來(lái)查找用 Python 編寫的 Keras 代碼片段。此代碼為開(kāi)源代碼，由人工智能領(lǐng)域最智慧的大師之一負(fù)責(zé)維護(hù)。數(shù)據(jù)科學(xué)家只需一小時(shí)即可將此代碼片段注入其筆記本上運(yùn)行的數(shù)據(jù)處理管道(沒(méi)錯(cuò)，他們就是在筆記本上建立原型的，因?yàn)樗麄冋娴牟幌矚g所提供的 R-Studio Server 安裝)。那么，您認(rèn)為這樣做之后會(huì)發(fā)生什么呢?

在以往企業(yè)架構(gòu)設(shè)計(jì)師全知全能的時(shí)代，數(shù)據(jù)科學(xué)家可能被迫將代碼移植到 R 上(使用不太復(fù)雜的深度學(xué)習(xí)框架)。但這其中存在一種可能性。數(shù)據(jù)科學(xué)家應(yīng)該能夠在需要時(shí)使用此代碼片段。但如果在沒(méi)有任何指導(dǎo)的情況下這樣做，那么可能導(dǎo)致數(shù)據(jù)科學(xué)領(lǐng)域成為一片荒蕪之地。

因此，我來(lái)介紹一下現(xiàn)有流程模型和參考架構(gòu)，看看是否以及如何將傳統(tǒng)的架構(gòu)領(lǐng)域與新興的數(shù)據(jù)科學(xué)領(lǐng)域相結(jié)合。

數(shù)據(jù)科學(xué)領(lǐng)域的現(xiàn)有流程模型概述

CRISP-DM

CRISP-DM 代表跨行業(yè)的標(biāo)準(zhǔn)數(shù)據(jù)挖掘流程 (Cross-industry Standard Process for Data Mining)，這是使用最廣泛的開(kāi)源流程模型(前提是已使用流程模型)。CRISP-DM 定義了構(gòu)成數(shù)據(jù)科學(xué)項(xiàng)目的一系列階段。最重要的是，這些階段之間的轉(zhuǎn)換為雙向轉(zhuǎn)換，整個(gè)流程為迭代式流程。這意味著，在到達(dá)最終階段后，將會(huì)重新開(kāi)始整個(gè)流程并對(duì)您的工作進(jìn)行優(yōu)化。下圖演示了這***程。

CRISP-DM 流程模型。作者 Kenneth Jensen，參考文獻(xiàn)：IBM SPSS Modeler CRISP-DM Guide

在我看來(lái)，此流程模型已經(jīng)是一個(gè)很好的開(kāi)端。但由于它只是一個(gè)流程模型，所以假定已經(jīng)制定了有關(guān)所用技術(shù)的架構(gòu)決策并且已經(jīng)滿足 NFA 需求。因此，CRISP-DM 模型適用于采用固定技術(shù)的環(huán)境(如傳統(tǒng)企業(yè)數(shù)據(jù)倉(cāng)儲(chǔ)或商業(yè)智能項(xiàng)目)。

而在像數(shù)據(jù)科學(xué)這樣快速發(fā)展的領(lǐng)域，它還不夠靈活。

ASUM-DM

由于 CRISP-DM 存在缺陷，因此 IBM 于 2015 年發(fā)布了“適用于數(shù)據(jù)挖掘/預(yù)測(cè)分析的分析解決方案統(tǒng)一方法” (Analytics Solutions Unified Method for Data Mining/Predictive Analytics, ASUM-DM) 流程模型。它以 CRISP-DM 為基礎(chǔ)，但經(jīng)過(guò)擴(kuò)展后包含基礎(chǔ)架構(gòu)、操作、項(xiàng)目和部署方面的一些任務(wù)和活動(dòng)，并為所有任務(wù)添加了模板和準(zhǔn)則。ASUM-DM 開(kāi)放版本可供下載使用，但只有 IBM 客戶才能獲取全功能版本。(有關(guān)更多信息，聯(lián)系 asmarket@us.ibm.com。)

ASUM-DM 是更通用的“分析解決方案統(tǒng)一方法” (ASUM) 框架的一部分，此框架提供了特定于產(chǎn)品和特定于解決方案的實(shí)施路線圖，并涵蓋了所有 IBM Analytics 產(chǎn)品。

ASUM-DM 借鑒了來(lái)自 ASUM 的流程模型，如下圖所示。

分析解決方案統(tǒng)一方法 (ASUM) 流程模型。來(lái)源：IBM 公司

IBM Cloud Garage Method

在 2001 年發(fā)布 Manifesto for Agile Software Development 后，Waterfall 或 V-Model 之類的許多流程開(kāi)始逐漸退出歷史舞臺(tái)。導(dǎo)致這種模式轉(zhuǎn)變的主要原因是 20 世紀(jì) 90 年代發(fā)生的軟件開(kāi)發(fā)危機(jī)，在當(dāng)時(shí)，軟件開(kāi)發(fā)尚達(dá)不到業(yè)務(wù)利益相關(guān)者對(duì)產(chǎn)品上市時(shí)間和靈活性的快速增長(zhǎng)期望。

由于企業(yè)客戶通常難以過(guò)渡到敏捷流程，所以 IBM 創(chuàng)建了 IBM Cloud Garage Method，這是一種敏捷軟件架構(gòu)方法，可根據(jù)企業(yè)轉(zhuǎn)型需求進(jìn)行定制。此方法同樣可以分為多個(gè)不同階段，如下圖所示。

IBM Cloud Garage Method。來(lái)源：IBM 公司

要注意的關(guān)鍵是，這個(gè)六邊形的中心是文化變遷。這意味著，如果沒(méi)有文化變遷，此方法將注定失敗。務(wù)必要牢記這一點(diǎn)。在數(shù)據(jù)科學(xué)領(lǐng)域，我們能占得先機(jī)的原因是數(shù)據(jù)科學(xué)家傾向于使用輕量級(jí)流程模型(前提是已使用流程模型)。

在 IBM Cloud Garage Method 中，所有從業(yè)人員都坐在同一條船上。來(lái)源：IBM 公司

下面總結(jié)了文化變遷所涉及的六個(gè)階段。

思考

設(shè)計(jì)思維是全新的需求工程。設(shè)計(jì)思維源于 20 世紀(jì) 60 年代，但 IBM 是將此方法應(yīng)用于 IT 行業(yè)的主要貢獻(xiàn)者之一。雖然通常會(huì)使用更復(fù)雜的術(shù)語(yǔ)來(lái)解釋設(shè)計(jì)思維，但我認(rèn)為設(shè)計(jì)思維只有一個(gè)目的：將人類的大腦轉(zhuǎn)變到創(chuàng)新思維模式。因此，它使用書寫和繪畫來(lái)代替口述和打字。退后一步，您的眼界將更加開(kāi)闊。

設(shè)計(jì)思維時(shí)刻牢記用戶體驗(yàn)，并明確強(qiáng)調(diào)產(chǎn)品背后的業(yè)務(wù)。因此，它回答了下列關(guān)鍵問(wèn)題：

誰(shuí)：為誰(shuí)構(gòu)建產(chǎn)品?
嘗試要解決什么問(wèn)題?
要如何解決問(wèn)題?
每個(gè)思考階段的結(jié)果都是“最小可行產(chǎn)品”(MVP) 的定義。

編碼

平臺(tái)云革命是快速建立原型的主要推動(dòng)因素?？梢栽趲仔r(shí)(而不是幾天或幾周)內(nèi)運(yùn)行原型。這可將迭代周期縮短一個(gè)數(shù)量級(jí)。這樣，每天都可以收集用戶反饋。此階段的***實(shí)踐包括：

每日站立會(huì)議
結(jié)對(duì)編程和測(cè)試驅(qū)動(dòng)開(kāi)發(fā)
持續(xù)集成
自動(dòng)測(cè)試
重構(gòu)微服務(wù)
交付

每日交付需要滿足兩個(gè)前提條件。首先，必須使用工具鏈完全自動(dòng)執(zhí)行構(gòu)建和部署過(guò)程。其次，每次落實(shí)到源代碼存儲(chǔ)庫(kù)時(shí)，都必須生成可供用戶隨時(shí)測(cè)試的完全生產(chǎn)就緒型產(chǎn)品?；谠频慕鉀Q方案可以滿足這個(gè)需求，從而讓開(kāi)發(fā)者專注于編程。

持續(xù)集成和持續(xù)交付。來(lái)源：IBM 公司

運(yùn)行

如果使用云運(yùn)行時(shí)，那么項(xiàng)目的操作方面將由云服務(wù)處理。根據(jù)要求，這可能發(fā)生在公共云、私有云或混合云中以及基礎(chǔ)架構(gòu)級(jí)別、平臺(tái)級(jí)別或服務(wù)級(jí)別。這樣通常會(huì)導(dǎo)致運(yùn)營(yíng)團(tuán)隊(duì)被淘汰，而開(kāi)發(fā)者可以集中精力為項(xiàng)目增加價(jià)值。此階段的***實(shí)踐包括：

準(zhǔn)備實(shí)現(xiàn)高可用性
暗啟動(dòng)和功能開(kāi)關(guān)
自動(dòng)縮放

洲際云部署的高可用性、自動(dòng)縮放和容錯(cuò)。來(lái)源：IBM 公司

管理

由于前提是您已擁有完全受管的云運(yùn)行時(shí)，因此可以輕松添加洲際高可用性/故障轉(zhuǎn)移、持續(xù)監(jiān)控和動(dòng)態(tài)縮放功能。此階段的***實(shí)踐包括：

自動(dòng)監(jiān)控
快速自動(dòng)恢復(fù)
業(yè)務(wù)連續(xù)性
學(xué)習(xí)

由于迭代周期非常短且可持續(xù)獲得用戶反饋，因此可以立即測(cè)試假設(shè)并生成明智的決策，從而促使將發(fā)現(xiàn)的成果添加到待辦任務(wù)中以供進(jìn)一步調(diào)整業(yè)務(wù)核心。此階段的***實(shí)踐包括：

A/B 測(cè)試
假設(shè)驅(qū)動(dòng)的開(kāi)發(fā)
實(shí)時(shí)用戶行為分析

基于證據(jù)的假設(shè)測(cè)試示例。來(lái)源：IBM 公司

IBM DataFirst Method

雖然通常與 IBM 客戶有關(guān)，但 DataFirst Method 設(shè)計(jì)合約產(chǎn)品(IBM DataFirst Method 是 IBM Cloud Garage Method 的一個(gè)實(shí)例)中包含的合約專門以 IT 轉(zhuǎn)型為目標(biāo)，旨在使基礎(chǔ)架構(gòu)、流程和員工為 AI 做好準(zhǔn)備。有關(guān)更多信息，訪問(wèn) [ibm.biz/DataFirstMethod](ibm.biz/DataFirstMethod)。

IBM DataFirst Method 流程模型。來(lái)源：IBM 公司

IBM 數(shù)據(jù)與分析參考架構(gòu)

每個(gè)項(xiàng)目都不盡相同，每個(gè)用例都需要不同的技術(shù)組件。但所有這些都可以用抽象的術(shù)語(yǔ)來(lái)加以描述。以下列表列舉并解釋了這些術(shù)語(yǔ)。

數(shù)據(jù)源：內(nèi)部或外部數(shù)據(jù)源，包括關(guān)系數(shù)據(jù)庫(kù)、網(wǎng)頁(yè)、CSV 文件、JSON 文件、文本文件、視頻和音頻數(shù)據(jù)。
企業(yè)數(shù)據(jù)：基于云的解決方案，有助于擴(kuò)展企業(yè)數(shù)據(jù)模型。因此，可能需要持續(xù)不斷地將企業(yè)數(shù)據(jù)子集傳輸?shù)皆贫?/li>
流式分析：目前最有效的方法是批處理。但有時(shí)候，可通過(guò)添加實(shí)時(shí)分析功能來(lái)提升數(shù)據(jù)產(chǎn)品的價(jià)值，因?yàn)槭澜缟洗蟛糠謹(jǐn)?shù)據(jù)在幾秒鐘內(nèi)就會(huì)失去價(jià)值。比如，股票市場(chǎng)數(shù)據(jù)或車輛攝像頭捕獲行人橫穿馬路的事實(shí)。
數(shù)據(jù)集成：清理和變換數(shù)據(jù)，并在可能的情況下添加下游功能。
數(shù)據(jù)存儲(chǔ)庫(kù)：用于存儲(chǔ)數(shù)據(jù)的持久存儲(chǔ)庫(kù)。
發(fā)現(xiàn)和探索：了解您擁有的數(shù)據(jù)及其外觀。
切實(shí)可行的洞察：您可在此處完成自己的大部分工作。在這里，您可創(chuàng)建和評(píng)估自己的機(jī)器學(xué)習(xí)模型和深度學(xué)習(xí)模型。
應(yīng)用程序/數(shù)據(jù)產(chǎn)品：雖然模型行之有效，但只有在普通業(yè)務(wù)用戶使用它們時(shí)，其價(jià)值才會(huì)提升。因此，您必須創(chuàng)建數(shù)據(jù)產(chǎn)品。數(shù)據(jù)產(chǎn)品不一定需要保留在云端。可推送至移動(dòng)應(yīng)用程序或企業(yè)應(yīng)用程序。
安全性、信息監(jiān)管和系統(tǒng)管理：這是一個(gè)很容易被遺忘的重要步驟。為了滿足許多合規(guī)性法規(guī)，務(wù)必要控制各類信息的訪問(wèn)者。企業(yè)用戶是架構(gòu)的一部分，因?yàn)樗麄兊男枨罂赡芘c公共用戶不同。云用戶的需求又可能與企業(yè)用戶不同。

IBM 數(shù)據(jù)與分析參考架構(gòu)。來(lái)源：IBM 公司

結(jié)束語(yǔ)

鑒于您現(xiàn)在已經(jīng)對(duì)云端數(shù)據(jù)科學(xué)領(lǐng)域中當(dāng)前最有效的方法和流程模型有了整體認(rèn)識(shí)，現(xiàn)在是時(shí)候來(lái)集中了解對(duì)于數(shù)據(jù)科學(xué)家最實(shí)用的方法了，此方法可幫助數(shù)據(jù)科學(xué)家改進(jìn)其工作方法，***程度降低架構(gòu)開(kāi)銷并自下而上對(duì)企業(yè)架構(gòu)產(chǎn)生積極影響。我將此方法稱為 IBM Cloud Garage 輕量級(jí)數(shù)據(jù)科學(xué)方法。我將在下一篇文章中介紹此方法。保持關(guān)注!

責(zé)任編輯：未麗燕來(lái)源： IBM developerWorks中國(guó)

數(shù)據(jù)科學(xué)家框架架構(gòu)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<cite id="1xbfr"></cite>

<blockquote id="1xbfr"><i id="1xbfr"><video id="1xbfr"></video></i></blockquote>

<bdo id="1xbfr"></bdo>

<sub id="1xbfr"><p id="1xbfr"></p></sub>