自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

ML和數(shù)據(jù)趨勢:總結(jié)2020,并研究和超越2021

大數(shù)據(jù)
正如我們剛剛進(jìn)入咆哮的數(shù)據(jù)20,我們希望突出一些我們?cè)跀?shù)據(jù)和ML基礎(chǔ)架構(gòu)內(nèi)展開得令人興奮的趨勢。

2020在世界范圍內(nèi)帶來了數(shù)字化爆炸。微軟估計(jì)大流行(三月和四月)的前兩個(gè)月推動(dòng)了兩年的數(shù)字化。在整個(gè)年度剩下的時(shí)間里,大流行加速了對(duì)市場的喚醒,這已經(jīng)很長一段時(shí)間了:每個(gè)成功的現(xiàn)代化公司都需要不僅是一家軟件公司,而且是一個(gè)數(shù)據(jù)公司。

[[385935]]

加速數(shù)字化和我們?cè)絹碓蕉嗟奈缚诤蜕蓴?shù)據(jù)在2020年的數(shù)據(jù)+ ML景觀中推動(dòng)了大量的發(fā)展。由于公司已經(jīng)開始獲得過去幾年的預(yù)測分析和ML倡議的利益,他們顯然在2021年展示一個(gè)健康的食欲。“我們可以更快地處理更多數(shù)據(jù),更快和更便宜嗎?我們?nèi)绾卧谏a(chǎn)中部署更多ML模型?我們應(yīng)該在實(shí)時(shí)做得更多嗎?“……列表繼續(xù)。在過去幾年中,我們?cè)跀?shù)據(jù)基礎(chǔ)設(shè)施空間中經(jīng)歷了一個(gè)驚人的演變。數(shù)據(jù)驅(qū)動(dòng)的組織已從ETL(提取,轉(zhuǎn)換,負(fù)載)移動(dòng)到ELT(提取,負(fù)載,變換),其中原始數(shù)據(jù)從源系統(tǒng)復(fù)制并加載到數(shù)據(jù)倉庫/數(shù)據(jù)湖中,然后轉(zhuǎn)換為?,F(xiàn)在甚至是一個(gè)新的范式在叫做反向ETL的制作中,展示了這個(gè)空間中進(jìn)化的速度。

“現(xiàn)代數(shù)據(jù)棧”的概念在制作中是多年的 - 它開始出現(xiàn)在2012年時(shí),隨著Redshift,亞馬遜的云數(shù)據(jù)倉庫推出。但在過去的幾年里,甚至可能在2020年被Snowflake截止,2020年被Snowflake夸張的IPO,云倉庫的普及已經(jīng)爆炸地增長,所以擁有整個(gè)數(shù)據(jù)和ML工具和周圍的公司。

2020年代正在成為數(shù)據(jù)十年。雖然2010年是SaaS的十年 - 例如當(dāng)Salesforce成為第一個(gè)違反100億美元的SaaS公司時(shí),2020年代將成為在強(qiáng)大的世俗途中成長的數(shù)據(jù)公司的時(shí)代(數(shù)據(jù)庫初創(chuàng)公司,數(shù)據(jù)質(zhì)量初創(chuàng)公司,數(shù)據(jù)譜系啟動(dòng),機(jī)器學(xué)習(xí)啟動(dòng)等)。

> Image courtesy of Validio

正如我們剛剛進(jìn)入咆哮的數(shù)據(jù)20,我們希望突出一些我們?cè)跀?shù)據(jù)和ML基礎(chǔ)架構(gòu)內(nèi)展開得令人興奮的趨勢:

  • MLOPS穿過鴻溝
  • 從河流進(jìn)入董事會(huì)的數(shù)據(jù)質(zhì)量
  • 統(tǒng)一的數(shù)據(jù)基礎(chǔ)架構(gòu)和新數(shù)據(jù)層出現(xiàn)了
  • 現(xiàn)代數(shù)據(jù)云(倉庫VS Data Lakehouse)的戰(zhàn)爭為真實(shí)升溫
  • 數(shù)據(jù)工程師的崛起

1. MLOPS穿過鴻溝

ML,特別是在企業(yè)空間中,歷史上一直緩慢且難以擴(kuò)大,合作一直是困難和運(yùn)營的模型,實(shí)際提供業(yè)務(wù)價(jià)值在(亞馬遜,F(xiàn)acebook,Airbnbs和世界外的Google之外)。然而,許多ML工具公司使用的“舊”諺語,其中80%的模型永遠(yuǎn)不會(huì)使其進(jìn)入生產(chǎn),肯定達(dá)到了2021年的到期日期。事實(shí)是越來越多的公司正在成功將ML模型部署到生產(chǎn)中。

正如我們(希望)通過AI炒作的高峰(例如,為AI為AI的緣故),我們看到企業(yè)中出現(xiàn)了良好的“MLOPS”的需求 - 即機(jī)器學(xué)習(xí)操作措施意味著標(biāo)準(zhǔn)化和簡化生命周期生產(chǎn)機(jī)器學(xué)習(xí)。

來自Kleiner Perkins的Bucky Moore借用了他1月博客文章的橫穿Chasm框架,爭論我們?cè)贛LOPS工具空間中的“早期大部分”采用階段。與“創(chuàng)新者”和“早期采用者”群體相比,大多數(shù)人被描述為實(shí)用主義者,尋求全面和經(jīng)濟(jì)的解決問題,最好是來自市場領(lǐng)導(dǎo)者。與創(chuàng)新者和早期采用者不同,大多數(shù)人對(duì)采用技術(shù)不感興趣,因?yàn)樗鼈兪?ldquo;新的”,他們也不關(guān)心第一的風(fēng)險(xiǎn)。

一個(gè)相信MLOPS已經(jīng)過鴻溝,沒有,MLOPS的崛起(即ML的DEVOPS)信號(hào)從研發(fā)和POC(如何建立模型)到操作(如何運(yùn)行模型)的行業(yè)轉(zhuǎn)變。

根據(jù)艾恩貝納奇和伊恩·霍加爾斯的艾達(dá)2020年報(bào)告,25%的2020次增長最快的GitHub項(xiàng)目中,Q2 2020有關(guān)ML基礎(chǔ)設(shè)施,工具和操作。谷歌搜索流量為“MLOPS”現(xiàn)在是第一次上升。隨著組織繼續(xù)開發(fā)機(jī)器學(xué)習(xí)(ML)的練習(xí),越來越需要能夠處理整個(gè)ML生命周期的強(qiáng)大和可靠的平臺(tái)需求。MLOP的崛起是有前途的,但許多挑戰(zhàn)仍然存在,與任何新技術(shù)范例一樣。

> Image courtesy of State of AI Report 2020

2. 數(shù)據(jù)質(zhì)量從河流進(jìn)入會(huì)議室的步驟

我們?cè)?020年經(jīng)歷了在數(shù)據(jù)質(zhì)量周圍的嗡嗡聲中清晰的加速度。大流行強(qiáng)調(diào)了需要不斷管理,監(jiān)控和驗(yàn)證數(shù)據(jù)質(zhì)量和模型的需要,因?yàn)橛捎谑袌鰲l件快速變化,消費(fèi)者行為和輸入數(shù)據(jù),世界各地的ML型號(hào)在2020年初開始故障。在2021年,數(shù)據(jù)質(zhì)量正在成為數(shù)據(jù)驅(qū)動(dòng)組織使用的任何類型的分析系統(tǒng)的現(xiàn)代數(shù)據(jù)棧的核心部分 - 從基本報(bào)告到生產(chǎn)中的高級(jí)機(jī)器學(xué)習(xí)和預(yù)測分析。

數(shù)據(jù)質(zhì)量差是廣泛的機(jī)器學(xué)習(xí)的挑戰(zhàn)性。與數(shù)據(jù)漂移一起,數(shù)據(jù)質(zhì)量差是ML模型精度隨著時(shí)間的推移最低的原因之一。

ML質(zhì)量要求很高,并且壞數(shù)據(jù)可能導(dǎo)致雙重背突發(fā):當(dāng)預(yù)測模型接受不良預(yù)測模型(壞)數(shù)據(jù)時(shí),當(dāng)模型應(yīng)用于新(壞)數(shù)據(jù)時(shí),以告知未來的決策。較差的數(shù)據(jù)質(zhì)量的挑戰(zhàn)是ML的獨(dú)特之一 - 雙背突發(fā)的第二部分影響所有數(shù)據(jù)驅(qū)動(dòng)的決策,包括BI工具和儀表板,客戶體驗(yàn)優(yōu)化,業(yè)務(wù)分析和業(yè)務(wù)運(yùn)營。事實(shí)上,它根據(jù)HBR(并鑒于數(shù)據(jù)加速度,今日售價(jià)為3萬億美元,今天該數(shù)字可能更高)。

數(shù)據(jù)社區(qū)中的數(shù)據(jù)質(zhì)量周圍的嗡嗡聲由Uber和Airbnb的數(shù)據(jù)工程團(tuán)隊(duì)擔(dān)任,他們都寫了關(guān)于評(píng)估和管理數(shù)據(jù)質(zhì)量問題的文章以及他們構(gòu)建的東西來處理它。

質(zhì)量問題源于跨越堆棧:數(shù)據(jù)源和攝入,統(tǒng)一和集成的不一致(例如,數(shù)據(jù)庫并購,云集成),模式更改,源系統(tǒng)更改,系統(tǒng)升級(jí),記錄錯(cuò)誤,格式不一致,人類錯(cuò)誤……列表繼續(xù)。目前,大多數(shù)公司都沒有有效的流程或技術(shù)來識(shí)別“壞數(shù)據(jù)”或?qū)е滤膬?nèi)容。通常,它是反應(yīng)性的:有人發(fā)現(xiàn)問題,數(shù)據(jù)工程團(tuán)隊(duì)手動(dòng)工作才能識(shí)別錯(cuò)誤(并且希望其來源)并修復(fù)它。使數(shù)據(jù)適合目的是數(shù)據(jù)專業(yè)人員的最耗時(shí)的任務(wù)(占用最多80%),順便提一下,他們最不享受的一項(xiàng)任務(wù)。

但是監(jiān)控和驗(yàn)證數(shù)據(jù)質(zhì)量的軟件和工具開始出現(xiàn),并且正在增加現(xiàn)代數(shù)據(jù)驅(qū)動(dòng)的公司及其數(shù)據(jù)基礎(chǔ)架構(gòu)堆棧的興趣。雖然有幾個(gè)用于監(jiān)視代碼和缺失分類的工具(例如DATADOG,SUMOLogic,New Rlic,SPLUCK),但數(shù)據(jù)工作流程仍然主要是手動(dòng)管理或DIY解決方案。

> Image courtesy of Validio

云原生計(jì)算無法成為我們的軟件開發(fā)和工具的新時(shí)代。作為數(shù)據(jù)驅(qū)動(dòng)的系統(tǒng)(經(jīng)常通過機(jī)器學(xué)習(xí)啟用)現(xiàn)在有能力解鎖下一波創(chuàng)新浪潮,我們將看到類似的數(shù)據(jù)質(zhì)量和模型性能監(jiān)控工具,以實(shí)現(xiàn)實(shí)時(shí)數(shù)據(jù)質(zhì)量保證,數(shù)據(jù)驗(yàn)證,數(shù)據(jù)漂移管理,模型性能優(yōu)化等

3. 統(tǒng)一的數(shù)據(jù)基礎(chǔ)架構(gòu)和新數(shù)據(jù)層出現(xiàn)

通過現(xiàn)代企業(yè)數(shù)據(jù)卷的爆炸性增長,更多的組織比以往任何時(shí)候都有更多的組織,正在處理和存儲(chǔ)大量的業(yè)務(wù)分析和運(yùn)營數(shù)據(jù)。這種趨勢導(dǎo)致需要現(xiàn)代數(shù)據(jù)基礎(chǔ)架構(gòu)架構(gòu)。Andreessen Horowitz通過發(fā)布現(xiàn)代數(shù)據(jù)基礎(chǔ)設(shè)施的藍(lán)圖,真正開啟了2020年的游戲。

兩個(gè)關(guān)鍵班次推動(dòng)了Dataops的興起,隨后對(duì)統(tǒng)一數(shù)據(jù)基礎(chǔ)設(shè)施的需求是基于云的數(shù)據(jù)倉庫的升高以及從ETL轉(zhuǎn)移到ELT(提取,轉(zhuǎn)換,加載,加載,負(fù)載,變換)的轉(zhuǎn)變。

在傳統(tǒng)數(shù)據(jù)倉庫中,存儲(chǔ)和計(jì)算耦合,因此只能存儲(chǔ)有用的數(shù)據(jù)是有意義的。因此,導(dǎo)入數(shù)據(jù)的標(biāo)準(zhǔn)過程是ETL:在加載到數(shù)據(jù)倉庫時(shí),將提取的數(shù)據(jù)轉(zhuǎn)換(連接,聚合,清除等)。但隨著2012年亞馬遜紅移的商業(yè)推出,2014年第一艘云原生數(shù)據(jù)倉庫和Snowflake,儲(chǔ)存量和計(jì)算的架構(gòu)被解脫出來。從那時(shí)起,計(jì)算能力飆升,而成本急劇困擾。

進(jìn)入elt。通過ELT,提取的數(shù)據(jù)以其原始形式加載到數(shù)據(jù)倉庫中 - 然后在云中轉(zhuǎn)換。由于ELT已經(jīng)刪除了收集和存儲(chǔ)數(shù)據(jù)的障礙,因此新興的默認(rèn)模式是:“將所有內(nèi)容推到Redshift / Snowflake / BigQuery,我們將在以后處理它”。

> Image courtesy of a16z

我們?nèi)匀辉诔F(xiàn)代統(tǒng)一數(shù)據(jù)基礎(chǔ)設(shè)施的明確架構(gòu)之旅中相對(duì)較早,但有些特點(diǎn)是明顯結(jié)晶的。atomico是指這是“新數(shù)據(jù)層”。他們將這種新數(shù)據(jù)層視為現(xiàn)代企業(yè)的大班次,潛在的大幅度超過“代碼”,在未來十年內(nèi)創(chuàng)建了幾個(gè)數(shù)十億美元的類別。

在這個(gè)新的波浪層中,它是數(shù)據(jù)(而不是代碼)及其驅(qū)動(dòng)系統(tǒng)輸出和性能的工作流程。因此,最大化數(shù)據(jù)的洞察力和價(jià)值正在成為現(xiàn)代企業(yè)的主要焦點(diǎn),呼吁底層數(shù)據(jù)基礎(chǔ)架構(gòu)(或?qū)?和工具的演變。為混合添加額外的風(fēng)味,數(shù)據(jù)所有權(quán)正在變得越來越不清楚,因?yàn)閳F(tuán)隊(duì)正在向數(shù)據(jù)網(wǎng)格移動(dòng)(分布式數(shù)據(jù)所有權(quán))。

4. 現(xiàn)代數(shù)據(jù)云(倉庫VS Data Lake VS Lakehouse)的戰(zhàn)斗為真實(shí)升溫

二十年前,數(shù)據(jù)倉庫可能不會(huì)是最性感的話題,嗯,任何時(shí)候都是真的。但是,Dataops的目前崛起,跨職能數(shù)據(jù)團(tuán)隊(duì),最重要的是:云已經(jīng)制作了“云數(shù)據(jù)倉庫”鎮(zhèn)上的談話,概念與創(chuàng)新誘惑積極地融化。

作為一個(gè)具體的例子,關(guān)于Hadoop在2021年的有趣的事情是,雖然節(jié)省成本和分析性能是它在動(dòng)蕩的2010年中回歸最具吸引力的益處,但Spark著迅速擺脫了這兩個(gè)功能,因?yàn)榇蠖鄶?shù)財(cái)富500個(gè)公司(最后)離開了Hadoop。云使數(shù)據(jù)更容易管理,更廣泛的用戶更易于訪問,更快地處理。在2021年,純粹的數(shù)據(jù)量使得公司無法以有意義的方式使用數(shù)據(jù),而無需利用一些云數(shù)據(jù)倉庫解決方案。隨著2012年亞馬遜Redshift的發(fā)布,其次是Snowflake,谷歌Big Query等隨后幾年,市場已經(jīng)加熱了。

Snowflake帶來了與數(shù)據(jù)湖(原始數(shù)據(jù))合并了數(shù)據(jù)倉庫(轉(zhuǎn)換數(shù)據(jù))的推動(dòng),但現(xiàn)在建立的Lakehouse的出現(xiàn)挑戰(zhàn)(由Databricks’delta Lake的開創(chuàng)),其中包括在哪里和如何存儲(chǔ)(和轉(zhuǎn)換)數(shù)據(jù)已變得更復(fù)雜。 (基本上,兩者之間的差異是Snowflake建立在數(shù)據(jù)倉庫邏輯上,但云中的存儲(chǔ)成本的解耦和計(jì)算成本呈現(xiàn)出加載原始數(shù)據(jù)的激烈,因此他們添加了轉(zhuǎn)換功能。Databricks,另一個(gè),已將數(shù)據(jù)倉庫功能添加到數(shù)據(jù)湖中,頂部有一個(gè)開源事務(wù)元數(shù)據(jù)層,可以在數(shù)據(jù)的選擇部分上進(jìn)行轉(zhuǎn)換和操作,而大多數(shù)則保存在低成本對(duì)象存儲(chǔ)中。)

> Image courtesy of Databricks

雖然傳統(tǒng)上,數(shù)據(jù)倉庫經(jīng)常對(duì)其主要用例用于數(shù)據(jù)分析和報(bào)告的數(shù)據(jù)平臺(tái)進(jìn)行了定義,而數(shù)據(jù)湖泊有服務(wù)更多的ML定向/預(yù)測分析用例,則兩種型號(hào)正在收斂。隨后,我們正在看到一個(gè)有趣的數(shù)據(jù)平臺(tái)戰(zhàn)斗的開始,在接下來的5到10年內(nèi)發(fā)揮作用:誰將設(shè)定最終數(shù)據(jù)云的標(biāo)準(zhǔn)?雪花將保持其位置作為靈活和高效的存儲(chǔ)的先驅(qū),是否會(huì)成為另一個(gè)云數(shù)據(jù)倉庫(如AWS Redshift或Google Buequery)為他們提供了持續(xù)的錢,或者將達(dá)到7美元的資金注入(例如S3,主要的云玩家)轉(zhuǎn)換游戲領(lǐng)域?放下你的賭注并彈出你的爆米花,因?yàn)檫@將是一個(gè)好看的大戲!

5. 數(shù)據(jù)工程師的崛起

最后但并非最不重要的是,我們?cè)?020年期間看到了數(shù)據(jù)工程師角色的迅速崛起。希望在閱讀這篇文章后,它應(yīng)該在讀到這篇文章后毫不奇怪,其中86%的企業(yè)計(jì)劃在接下來的12個(gè)月內(nèi)增加他們的Dataops投資,而且數(shù)據(jù)工程師現(xiàn)在是技術(shù)最快的工作。然而,這是一個(gè)如此接近我們的心靈,我們認(rèn)為它應(yīng)該得到自己的博文。

敬請(qǐng)關(guān)注!

原文鏈接:

https://medium.com/validio/ml-data-trends-wrapping-up-2020-and-looking-into-2021-beyond-b3ff1eadc211

 

責(zé)任編輯:趙寧寧 來源: 今日頭條
相關(guān)推薦

2020-01-13 11:57:00

人工智能機(jī)器學(xué)習(xí)數(shù)據(jù)

2020-12-29 15:39:23

人工智能人工智能趨勢

2020-12-24 10:59:46

人工智能

2020-09-02 09:00:16

CRM人工智能數(shù)據(jù)

2017-04-10 18:00:11

2019-12-24 10:34:03

人工智能機(jī)器人數(shù)據(jù)

2021-08-05 11:21:01

數(shù)據(jù)治理數(shù)據(jù)收集

2020-02-06 16:15:04

機(jī)器學(xué)習(xí)人工智能計(jì)算機(jī)

2020-01-06 11:38:11

大數(shù)據(jù)機(jī)器學(xué)習(xí)人工智能

2020-11-23 11:06:49

大數(shù)據(jù)數(shù)據(jù)分析新冠疫情

2021-01-03 10:27:43

數(shù)據(jù)科學(xué)技術(shù)

2020-07-22 11:39:30

物聯(lián)網(wǎng)人工智能技術(shù)

2021-02-26 00:34:56

數(shù)據(jù)分析大數(shù)據(jù)數(shù)據(jù)

2019-11-18 20:43:49

大數(shù)據(jù)分析Gartner

2024-03-21 08:00:00

GenAI數(shù)據(jù)治理數(shù)據(jù)倉庫

2021-03-01 10:38:26

大數(shù)據(jù)數(shù)據(jù)分析

2019-03-01 18:03:19

AI人工智能大數(shù)據(jù)

2021-02-26 11:09:09

Gartner數(shù)據(jù)技術(shù)

2021-01-07 14:41:37

JavaScript開發(fā)技術(shù)

2020-05-26 10:56:49

數(shù)據(jù)分析大數(shù)據(jù)數(shù)據(jù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)