自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

2022年的五個(gè)大數(shù)據(jù)趨勢(shì)

大數(shù)據(jù) 數(shù)據(jù)分析
云計(jì)算帶來了一種新的基礎(chǔ)設(shè)施模式,它將幫助我們快速地、程序化地、按需地建立這些數(shù)據(jù)棧,使用像Kubernetes這樣的云原生技術(shù)、像Terraform這樣的基礎(chǔ)設(shè)施即代碼以及DevOps的云計(jì)算最佳實(shí)踐。因此,基礎(chǔ)設(shè)施成為構(gòu)建和實(shí)施現(xiàn)代數(shù)據(jù)棧的一個(gè)關(guān)鍵因素。

2021年,我們看到圍繞現(xiàn)代數(shù)據(jù)棧的興起出現(xiàn)了相當(dāng)大的加速效應(yīng)。我們現(xiàn)在有一個(gè)海嘯般的通訊、影響者、投資者、專門的網(wǎng)站、會(huì)議和活動(dòng)來宣揚(yáng)它。圍繞現(xiàn)代數(shù)據(jù)棧的概念(盡管仍處于早期階段)與云中數(shù)據(jù)工具的爆炸性增長(zhǎng)緊密相連。云計(jì)算帶來了一種新的基礎(chǔ)設(shè)施模式,它將幫助我們快速地、程序化地、按需地建立這些數(shù)據(jù)棧,使用像Kubernetes這樣的云原生技術(shù)、像Terraform這樣的基礎(chǔ)設(shè)施即代碼以及DevOps的云計(jì)算最佳實(shí)踐。因此,基礎(chǔ)設(shè)施成為構(gòu)建和實(shí)施現(xiàn)代數(shù)據(jù)棧的一個(gè)關(guān)鍵因素。

當(dāng)我們已經(jīng)進(jìn)入2022年,我們可以清楚地看到軟件工程的最佳實(shí)踐已經(jīng)開始注入數(shù)據(jù):數(shù)據(jù)質(zhì)量監(jiān)控和可觀察性、不同ETL層的專業(yè)化、數(shù)據(jù)探索和數(shù)據(jù)安全都在2021年蓬勃發(fā)展,并將繼續(xù)下去,因?yàn)閺脑缙趧?chuàng)業(yè)公司到價(jià)值數(shù)十億美元的財(cái)富500強(qiáng)企業(yè)的數(shù)據(jù)驅(qū)動(dòng)型公司繼續(xù)將數(shù)據(jù)存儲(chǔ)和處理到數(shù)據(jù)庫(kù)、云數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)湖和數(shù)據(jù)湖倉(cāng)。

下面你會(huì)發(fā)現(xiàn)我們預(yù)測(cè)的5個(gè)數(shù)據(jù)趨勢(shì)將在2022年確立或加速。

1.分析工程師的崛起將加速

如果說2020年和2021年是關(guān)于數(shù)據(jù)工程師的崛起(根據(jù)Dice的科技工作報(bào)告,這是最重要的)。 fastest-growing job in tech in 2020),那么在2022年,分析工程師將明確進(jìn)入人們的視線。

云數(shù)據(jù)平臺(tái)的崛起已經(jīng)改變了一切。傳統(tǒng)的技術(shù)結(jié)構(gòu),如立方體和單體數(shù)據(jù)倉(cāng)庫(kù),正在讓位于更靈活和可擴(kuò)展的數(shù)據(jù)模型。此外,轉(zhuǎn)換可以在云平臺(tái)內(nèi)對(duì)所有數(shù)據(jù)進(jìn)行。ETL在很大程度上已經(jīng)被ELT所取代。控制這種轉(zhuǎn)換邏輯的是誰?分析工程師。

這個(gè)角色的興起可以直接歸功于云數(shù)據(jù)平臺(tái)和數(shù)據(jù)構(gòu)建工具(dbt)的興起。Dbt labs是dbt背后的公司,實(shí)際上創(chuàng)造了這個(gè)角色。dbt社區(qū)在2018年開始有五個(gè)用戶。截至2021年11月,有7300名用戶。

分析工程師是自然演化的一個(gè)例子,因?yàn)閿?shù)據(jù)工程很可能最終成為多個(gè)T型工程角色,由開發(fā)自助式數(shù)據(jù)平臺(tái)而不是開發(fā)管道或報(bào)告的工程師驅(qū)動(dòng)。

分析工程師首先出現(xiàn)在云端原生者和初創(chuàng)公司,如Spotify和Deliveroo,但最近開始在企業(yè)公司如捷藍(lán)航空中獲得地位。你可以閱讀 here an articleDeliveroo工程團(tuán)隊(duì)關(guān)于分析工程在其組織中的出現(xiàn)和演變的文章。

我們看到越來越多的現(xiàn)代數(shù)據(jù)團(tuán)隊(duì)將分析工程師加入他們的團(tuán)隊(duì),因?yàn)樗麄冋兊迷絹碓揭詳?shù)據(jù)為導(dǎo)向,并建立自我服務(wù)的數(shù)據(jù)管道。根據(jù)LinkedIn招聘信息的數(shù)據(jù),典型的 must-have skills for an analytics engineer包括SQL、dbt、Python和與現(xiàn)代數(shù)據(jù)棧相關(guān)的工具(如Snowflake、Fivetran、Prefect、Astronomer等)。

截至2021年12月1日的LinkedIn職位發(fā)布數(shù)據(jù)

根據(jù)LinkedIn的數(shù)據(jù),對(duì)數(shù)據(jù)科學(xué)家的需求大約是分析工程師的2.6到2.7,而且這個(gè)差距還在繼續(xù)縮小。

在2022年,我們預(yù)計(jì)這一差距將進(jìn)一步縮小,因?yàn)閷?duì)分析工程師的需求繼續(xù)增長(zhǎng),接近于對(duì)數(shù)據(jù)科學(xué)家(曾被稱為 the sexiest job in tech).

2.數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)湖庫(kù)的戰(zhàn)爭(zhēng)愈演愈烈(界限越來越模糊)。

數(shù)據(jù)界很少有人錯(cuò)過了2021年底Databricks和Snowflake之間非常公開的對(duì)決。這一切開始于Databricks聲稱其數(shù)據(jù)湖庫(kù)技術(shù)的TPC-DS基準(zhǔn)記錄,并說一項(xiàng)研究表明它比Snowflake快2.5倍。Snowflake表示,Databricks缺乏誠(chéng)信,并表示該研究有缺陷,并有一個(gè) "不確定 "的說法。

我們不必回到那么多年前,當(dāng)時(shí)Snowflake和Databricks是新興的云計(jì)算軟件創(chuàng)業(yè)公司,他們是如此友好,他們的銷售團(tuán)隊(duì)經(jīng)常互相傳遞客戶線索?,F(xiàn)在這一切都改變了,因?yàn)镾nowflake指控Databricks采用不正當(dāng)?shù)臓I(yíng)銷手段來贏得關(guān)注。這關(guān)系到未來幾百億美元的潛在收入。Databricks的首席執(zhí)行官兼聯(lián)合創(chuàng)始人Ali Ghodsi在一份聲明中指出 ,Snowflake和Databricks如何在許多客戶的數(shù)據(jù)堆中共存。

"我們所看到的是,越來越多的人現(xiàn)在覺得他們可以真正使用他們?cè)跀?shù)據(jù)湖中的數(shù)據(jù),與我們一起進(jìn)行數(shù)據(jù)倉(cāng)庫(kù)工作負(fù)載。而這些可能是工作負(fù)載,否則會(huì)去Snowflake的。"

數(shù)據(jù)倉(cāng)庫(kù)供應(yīng)商正在逐步從現(xiàn)有的模式轉(zhuǎn)向數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)湖模式的融合。同樣地,那些在數(shù)據(jù)湖邊開始他們的旅程的供應(yīng)商現(xiàn)在也在向數(shù)據(jù)倉(cāng)庫(kù)領(lǐng)域擴(kuò)展。我們可以看到兩方面的融合都在發(fā)生。

因此,正如Databricks使其數(shù)據(jù)湖看起來更像數(shù)據(jù)倉(cāng)庫(kù)一樣,Snowflake一直在使其數(shù)據(jù)倉(cāng)庫(kù)看起來更像數(shù)據(jù)湖。簡(jiǎn)而言之,數(shù)據(jù)湖倉(cāng)是一個(gè)平臺(tái),旨在結(jié)合數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)湖的優(yōu)點(diǎn)。根據(jù)營(yíng)銷術(shù)語,數(shù)據(jù)湖室結(jié)合了數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)湖的優(yōu)點(diǎn),為數(shù)據(jù)科學(xué)和分析用例提供融合的工作負(fù)載。Databricks在其營(yíng)銷資料中利用了這個(gè)術(shù)語,而Snowflake則更喜歡數(shù)據(jù)云這個(gè)術(shù)語。

但是,數(shù)據(jù)湖倉(cāng)是否意味著數(shù)據(jù)倉(cāng)庫(kù)的終結(jié)?數(shù)據(jù)湖倉(cāng)是一個(gè)新的、開放的數(shù)據(jù)管理架構(gòu),它將數(shù)據(jù)湖的靈活性、成本效益和規(guī)模與數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)管理和ACID交易結(jié)合起來,使所有數(shù)據(jù)的商業(yè)智能和ML成為可能。

那是在2012年,專家們?cè)?Strata-Hadoop World聲稱數(shù)據(jù)湖將殺死數(shù)據(jù)倉(cāng)庫(kù)(創(chuàng)業(yè)公司當(dāng)時(shí)拒絕了SQL并使用了Hadoop--SQL在當(dāng)時(shí)有點(diǎn)遜色,其原因在今天看來是荒謬的)。這種死亡從未發(fā)生過。

在2022年,較新的概念與云計(jì)算和融合工作負(fù)載的技術(shù)創(chuàng)新相搭配,是否會(huì)廢止數(shù)據(jù)倉(cāng)庫(kù)?

時(shí)間會(huì)證明一切,但這個(gè)領(lǐng)域正在升溫,我們預(yù)計(jì)2022年將有更多的公開對(duì)決。該領(lǐng)域的其他初創(chuàng)企業(yè),如Firebolt、Dremio和Clickhouse最近都進(jìn)行了大量融資,將估值推至10億美元以上。

數(shù)據(jù)存儲(chǔ)和倉(cāng)庫(kù)的演變

正如阿里-高德西所言,這不會(huì)是一個(gè)贏家通吃的市場(chǎng)。

"我認(rèn)為Snowflake將非常成功,我認(rèn)為Databricks將非常成功......你還會(huì)看到其他的頂級(jí)公司出現(xiàn),我肯定,在未來三到四年內(nèi)。這只是一個(gè)巨大的市場(chǎng),很多人專注于追求它是有道理的。"

根據(jù) Bill Inmon他一直被認(rèn)為是數(shù)據(jù)倉(cāng)庫(kù)之父,數(shù)據(jù)湖庫(kù)提供了一個(gè)類似于數(shù)據(jù)倉(cāng)庫(kù)市場(chǎng)早期的機(jī)會(huì)。數(shù)據(jù)湖庫(kù)可以 "將數(shù)據(jù)湖的數(shù)據(jù)科學(xué)重點(diǎn)與數(shù)據(jù)倉(cāng)庫(kù)的分析能力相結(jié)合。"

數(shù)據(jù)倉(cāng)庫(kù)VS數(shù)據(jù)湖VS數(shù)據(jù)湖館 by Striim

數(shù)據(jù)湖倉(cāng)與數(shù)據(jù)倉(cāng)庫(kù)(與數(shù)據(jù)湖)仍然是一個(gè)正在進(jìn)行的辯論。數(shù)據(jù)架構(gòu)的選擇最終自然應(yīng)取決于團(tuán)隊(duì)所處理的數(shù)據(jù)類型、數(shù)據(jù)來源以及利益相關(guān)者將如何使用這些數(shù)據(jù)。

隨著2022年數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)湖倉(cāng)的爭(zhēng)論加劇,重要的是要把炒作和營(yíng)銷術(shù)語與現(xiàn)實(shí)分開。

3.實(shí)時(shí)流管道和運(yùn)營(yíng)分析將繼續(xù)推動(dòng)

正如Matt Turck在他的 MAD Landscape 2021 analysis,感覺實(shí)時(shí)性一直是一個(gè)技術(shù)范式,一直是剛要爆發(fā)的。當(dāng)我們進(jìn)入2022年時(shí),我們聽到的權(quán)衡似乎還是在成本和復(fù)雜性方面。如果一個(gè)公司正在建立一個(gè)云數(shù)據(jù)倉(cāng)庫(kù),并且需要立即產(chǎn)生4-6周的影響,那么總體概念似乎仍然是,這是一個(gè)實(shí)時(shí)流管線與批處理管線相比?;蛘哒f,如果公司處于數(shù)據(jù)旅程的開始階段,那就是純粹的矯枉過正。

在Validio,我們預(yù)計(jì)隨著實(shí)時(shí)領(lǐng)域技術(shù)的不斷成熟和云主機(jī)的不斷發(fā)展,這種觀念將在未來幾年內(nèi)發(fā)生改變。許多使用案例,如欺詐檢測(cè)和動(dòng)態(tài)定價(jià),如果不進(jìn)行實(shí)時(shí)處理,就很難獲得價(jià)值。

隨著云服務(wù)提供商不斷改進(jìn)其流媒體工具,以數(shù)據(jù)為主導(dǎo)的組織正朝著建立大規(guī)模流媒體平臺(tái)的方向發(fā)展。這也是Ali Ghodsi所暗示的一個(gè)概念。

"如果你沒有一個(gè)實(shí)時(shí)的流處理系統(tǒng),你必須處理這樣的事情,好吧,那么數(shù)據(jù)每天都會(huì)到達(dá)。我要把它放在這里。我要把它加到那邊去。那么,我如何進(jìn)行核對(duì)?如果有些數(shù)據(jù)晚了怎么辦?我需要連接兩個(gè)表,但那個(gè)表不在這里。所以,也許我會(huì)等一下,然后再重新運(yùn)行一次。" - Ali Ghodsi on a16z

在過去的10年里,Apache Kafka一直是一個(gè)堅(jiān)實(shí)的流引擎。進(jìn)入2022年,我們看到公司越來越多地轉(zhuǎn)向云托管的引擎,如亞馬遜的Kinesis和谷歌的Pub/Sub。

僵尸儀表盤是一個(gè)非常具體的例子,說明為什么這種流/實(shí)時(shí)運(yùn)動(dòng)正在逐漸發(fā)生。在現(xiàn)代數(shù)據(jù)驅(qū)動(dòng)的公司中,它們似乎成了一個(gè)非常真實(shí)的東西,Ananath Packkildurai(《數(shù)據(jù)工程周刊》的創(chuàng)始人)在以下文章中討論了這個(gè)問題 this Twitter thread.

對(duì)于許多公司來說,運(yùn)營(yíng)分析是開始他們走向?qū)崟r(shí)/近實(shí)時(shí)分析的一個(gè)良好起點(diǎn)。正如Kleiner Perkins的合伙人Bucky Moore在他最近的文章中討論的那樣 blog post:

"云數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)是為了支持商業(yè)智能用例,這相當(dāng)于掃描整個(gè)表并匯總結(jié)果的大型查詢。這是對(duì)歷史數(shù)據(jù)分析的理想選擇,但對(duì)于 "現(xiàn)在發(fā)生了什么?"這類查詢正變得越來越流行,以推動(dòng)實(shí)時(shí)決策。這就是運(yùn)營(yíng)分析指的是什么。這方面的例子包括應(yīng)用內(nèi)的個(gè)性化、流失預(yù)測(cè)、庫(kù)存預(yù)測(cè)和欺詐檢測(cè)。相對(duì)于商業(yè)智能,運(yùn)營(yíng)分析查詢將許多不同的數(shù)據(jù)源連接在一起,需要實(shí)時(shí)數(shù)據(jù)攝取和查詢性能,并且必須能夠同時(shí)處理許多查詢。"

由于 noted by McKinsey back in 2020,實(shí)時(shí)數(shù)據(jù)信息傳遞和流媒體管道的成本已經(jīng)大幅下降,為主流使用鋪平了道路。麥肯錫在一篇文章中進(jìn)一步預(yù)測(cè) recent article到2025年,數(shù)據(jù)的生成、處理、分析和終端用戶的可視化將被新的和更普遍的技術(shù)大大改變,例如用于實(shí)時(shí)分析的Kappa或lambda架構(gòu),導(dǎo)致更快和更強(qiáng)大的洞察力。他們認(rèn)為,隨著云計(jì)算成本的不斷下降和更多強(qiáng)大的 "內(nèi)存 "數(shù)據(jù)工具的上線(如Redis、Memcached),即使是最復(fù)雜的高級(jí)分析也能合理地提供給所有組織。

不能客觀地說,在我們進(jìn)入2022年后,流數(shù)據(jù)是否比批處理數(shù)據(jù)變得更加關(guān)鍵--因?yàn)檫@在不同的公司和用例之間存在巨大的差異。例如,Chris Riccomini設(shè)計(jì)了一個(gè)數(shù)據(jù)管道進(jìn)展的層次結(jié)構(gòu)。他認(rèn)為,數(shù)據(jù)驅(qū)動(dòng)的組織在他們的管道成熟度中會(huì)經(jīng)歷這樣的演變序列。

數(shù)據(jù)管道成熟度的六個(gè)階段 Chris Riccomini

我們不做任何預(yù)測(cè),上述管道的成熟度進(jìn)展是否會(huì)變得更加普遍--有人認(rèn)為實(shí)時(shí)流管道幾乎都是矯枉過正的。

然而,我們看到,越來越多的公司正在投資實(shí)時(shí)基礎(chǔ)設(shè)施,因?yàn)樗麄冋趶臄?shù)據(jù)驅(qū)動(dòng)(根據(jù)歷史數(shù)據(jù)做出決策)變成數(shù)據(jù)主導(dǎo)(根據(jù)實(shí)時(shí)和歷史數(shù)據(jù)做出決策)。這一趨勢(shì)的良好指標(biāo)是Confluent的爆炸性IPO和新產(chǎn)品,如Clickhouse、Materialize和Apache Hudi,它們?cè)跀?shù)據(jù)湖上提供實(shí)時(shí)功能。

數(shù)據(jù)的及時(shí)性,例如從這種基于批量的周期性架構(gòu)到更實(shí)時(shí)的架構(gòu),將成為一個(gè)越來越重要的競(jìng)爭(zhēng)要素,因?yàn)槊恳粋€(gè)現(xiàn)代公司都在成為一個(gè)數(shù)據(jù)公司。我們預(yù)計(jì)這將在2022年進(jìn)一步加速。

4.現(xiàn)代數(shù)據(jù)棧采用的云市場(chǎng)的崛起

在數(shù)據(jù)基礎(chǔ)設(shè)施領(lǐng)域,PLG(產(chǎn)品主導(dǎo)型增長(zhǎng))趨勢(shì)已經(jīng)持續(xù)了幾年,因?yàn)榛谑褂玫亩▋r(jià)、開源和軟件的可負(fù)擔(dān)性已經(jīng)將購(gòu)買決策推向了終端用戶。然而,與傳統(tǒng)的銷售主導(dǎo)的市場(chǎng)模式相比,從商業(yè)模式和產(chǎn)品的角度來看,產(chǎn)品主導(dǎo)的增長(zhǎng)和基于使用的定價(jià)在軟件方面的實(shí)施和執(zhí)行可能很復(fù)雜。通過AWS、GCP和Azure的云市場(chǎng)平臺(tái)正在成為企業(yè)向未來數(shù)字銷售發(fā)展的最佳第一步。

隨著開發(fā)者工具公司--包括現(xiàn)代數(shù)據(jù)棧中的初創(chuàng)公司--部署不同級(jí)別的PLG動(dòng)議(產(chǎn)品的免費(fèi)/免費(fèi)/免費(fèi)試用版)或多或少成為一種規(guī)范,我們也在經(jīng)歷云市場(chǎng)的崛起,成為現(xiàn)代數(shù)據(jù)團(tuán)隊(duì)采用新技術(shù)渠道的首選。這主要是由于它們所提供的類似于消費(fèi)者的無摩擦購(gòu)買體驗(yàn)(想想蘋果應(yīng)用商店或谷歌游戲商店),而且數(shù)據(jù)團(tuán)隊(duì)可以利用他們已經(jīng)承諾的云供應(yīng)商的支出,通過云市場(chǎng)采用新技術(shù)。

對(duì)于全球領(lǐng)先的云計(jì)算公司來說,云市場(chǎng)現(xiàn)在是進(jìn)入市場(chǎng)的必要條件,而不是選擇。這些數(shù)字--包括已實(shí)現(xiàn)的和預(yù)測(cè)的--說明了原因。

  • 超過45%的 Forbes The Cloud 100公司積極使用云市場(chǎng)作為其軟件的分銷渠道。
  • 流經(jīng)三大云計(jì)算供應(yīng)商的企業(yè)承諾支出 exceeds $250 billion per year- 而這個(gè)數(shù)字正在快速攀升。
  • 僅在2021年,獨(dú)立軟件供應(yīng)商通過云市場(chǎng)平臺(tái) 產(chǎn)生了超過30億美元的收入,根據(jù) Bessemer predictions. 貝瑟默公司預(yù)計(jì),在未來幾年,這一數(shù)字將以10的倍數(shù)增長(zhǎng)。
  • Forrester had projected到2023年,全球13萬億美元的B2B支出中有17%將通過電子商務(wù)和市場(chǎng)平臺(tái)流動(dòng) - 但這個(gè)數(shù)字可能在2021年就已經(jīng)達(dá)到了。
  • A 2020 Tackle survey發(fā)現(xiàn),70%的軟件供應(yīng)商表示,由于COVID-19的出現(xiàn),他們已經(jīng)增加了對(duì)市場(chǎng)平臺(tái)的關(guān)注和投資,將其作為進(jìn)入市場(chǎng)的渠道。

云市場(chǎng)的爆炸性增長(zhǎng)主要源于它們?yōu)楝F(xiàn)代數(shù)據(jù)團(tuán)隊(duì)和數(shù)據(jù)基礎(chǔ)設(shè)施技術(shù)供應(yīng)商提供的相互優(yōu)勢(shì)。

云市場(chǎng)的雙贏

最近發(fā)表的一項(xiàng)研究 by Gartner預(yù)測(cè),到2025年,近80%的銷售互動(dòng)將通過數(shù)字渠道進(jìn)行。通過GCP、AWS或Azure云市場(chǎng)分發(fā)技術(shù)正成為現(xiàn)代數(shù)據(jù)團(tuán)隊(duì)的自然入口。現(xiàn)代數(shù)據(jù)棧公司,如 Astronomer and Fivetran已經(jīng)通過成為云市場(chǎng)的早期采用者而獲得了成功。其他早期采用云市場(chǎng)的公司,如CrowdStrike,已經(jīng)看到銷售周期時(shí)間減少了近50%。

購(gòu)買行為已經(jīng)徹底改變,現(xiàn)代數(shù)據(jù)團(tuán)隊(duì)在他們的商業(yè)生活中期待著消費(fèi)者級(jí)別的體驗(yàn)。他們希望以一種非常低調(diào)、技術(shù)領(lǐng)先的方式來發(fā)現(xiàn)、試用、甚至購(gòu)買新的數(shù)據(jù)基礎(chǔ)設(shè)施技術(shù)。云市場(chǎng)正在成為這些團(tuán)隊(duì)探索新技術(shù)的接入點(diǎn),就像蘋果應(yīng)用商店和谷歌游戲商店成為我們所有人探索新的日常服務(wù)和娛樂的接入點(diǎn)。

提供現(xiàn)代數(shù)據(jù)基礎(chǔ)設(shè)施工具的初創(chuàng)企業(yè)可以從我們的消費(fèi)者生活中學(xué)習(xí)到明顯的模式和經(jīng)驗(yàn),以消除摩擦,更有效地?cái)U(kuò)大銷售,并幫助數(shù)據(jù)團(tuán)隊(duì)更快地獲得價(jià)值。

我們預(yù)計(jì),在2022年,云市場(chǎng)將成為現(xiàn)代數(shù)據(jù)團(tuán)隊(duì)采用現(xiàn)代數(shù)據(jù)棧技術(shù)的首選方式。由于云和新基礎(chǔ)設(shè)施的爆炸性增長(zhǎng),圍繞現(xiàn)代數(shù)據(jù)棧的概念已經(jīng)出現(xiàn)了很多,因此,云市場(chǎng)將成為自然的切入點(diǎn),這讓人感覺很合理。

5.圍繞現(xiàn)代數(shù)據(jù)棧和數(shù)據(jù)質(zhì)量的術(shù)語的統(tǒng)一和一致

看到現(xiàn)代數(shù)據(jù)棧背景下的數(shù)據(jù)質(zhì)量空間從2020年的小眾類別到過去18個(gè)月內(nèi)完全爆發(fā),2021年共有2億美元的資金流入該空間,這是非常不可思議的。甚至G2在他們最近的"What Is Happening in the Data Ecosystem in 2022"的文章中指出,2022年將是數(shù)據(jù)質(zhì)量的天下,他們?cè)?021年看到數(shù)據(jù)質(zhì)量類別的流量急劇增加,這是一個(gè)不尋常的趨勢(shì)。

在現(xiàn)代云數(shù)據(jù)基礎(chǔ)設(shè)施的背景下,數(shù)據(jù)質(zhì)量類別的崛起是非常有意義的。數(shù)據(jù)質(zhì)量不僅是任何現(xiàn)代數(shù)據(jù)驅(qū)動(dòng)型公司的基礎(chǔ)(無論它是普通的報(bào)告、商業(yè)智能、運(yùn)營(yíng)分析還是高級(jí)機(jī)器學(xué)習(xí)),根據(jù) 2022 State of Data Engineering Survey數(shù)據(jù)質(zhì)量和驗(yàn)證是調(diào)查對(duì)象(主要是數(shù)據(jù)工程師)提到的第一大挑戰(zhàn)。27%的調(diào)查對(duì)象不確定他們的組織使用什么(如果有的話)數(shù)據(jù)質(zhì)量解決方案。對(duì)于DataOps成熟度低的組織,這一數(shù)字躍升至39%。

然而,數(shù)據(jù)質(zhì)量技術(shù)的爆炸性增長(zhǎng)也帶來了一些負(fù)面的影響。隨著現(xiàn)代數(shù)據(jù)質(zhì)量工具的快速爆炸性增長(zhǎng),我們也可以看到該領(lǐng)域的術(shù)語有很多不一致和重疊的用法。正如作者所指出的 Bessemer在數(shù)據(jù)質(zhì)量領(lǐng)域的參與者已經(jīng)創(chuàng)造了一些借用應(yīng)用性能監(jiān)控的術(shù)語,如 "數(shù)據(jù)停機(jī)"(對(duì) "應(yīng)用停機(jī) "的戲稱)和 "數(shù)據(jù)可靠性工程"(對(duì) "站點(diǎn)可靠性工程 "的戲稱)。

現(xiàn)在有無數(shù)種方法來描述重要但有點(diǎn)龐雜的過程,可以被定義為數(shù)據(jù)質(zhì)量驗(yàn)證和監(jiān)測(cè)。我們看到諸如數(shù)據(jù)可觀察性、數(shù)據(jù)可靠性、數(shù)據(jù)可靠性工程、數(shù)據(jù)質(zhì)量監(jiān)控、數(shù)據(jù)的Datadog、實(shí)時(shí)數(shù)據(jù)質(zhì)量監(jiān)控、數(shù)據(jù)停機(jī)、未知數(shù)據(jù)故障、無聲數(shù)據(jù)故障等術(shù)語被交替使用且不一致。

在目前的狀態(tài)下,現(xiàn)代數(shù)據(jù)棧中的大多數(shù)數(shù)據(jù)質(zhì)量工具都集中在監(jiān)控管道元數(shù)據(jù)或?qū)}(cāng)庫(kù)中的靜態(tài)數(shù)據(jù)進(jìn)行SQL查詢--有些工具與不同層次的數(shù)據(jù)脈絡(luò)或根本原因分析相聯(lián)系。

一個(gè)現(xiàn)在被定義為數(shù)據(jù)可觀察性工具的軟件可能只關(guān)注數(shù)據(jù)線,或者只關(guān)注監(jiān)測(cè)管道元數(shù)據(jù)。一個(gè)提供實(shí)時(shí)數(shù)據(jù)質(zhì)量警報(bào)但不支持監(jiān)測(cè)實(shí)時(shí)流管道的工具,現(xiàn)在可能被定義為一個(gè)實(shí)時(shí)數(shù)據(jù)質(zhì)量監(jiān)測(cè)工具。一個(gè)只對(duì)倉(cāng)庫(kù)中的數(shù)據(jù)進(jìn)行SQL查詢的工具可能被定義為端到端的數(shù)據(jù)可靠性工具,而一個(gè)監(jiān)控管道元數(shù)據(jù)的工具可能被定義為數(shù)據(jù)質(zhì)量監(jiān)控工具(反之亦然)。這個(gè)名單還在繼續(xù)。現(xiàn)在有很多不一致的地方,導(dǎo)致市場(chǎng)和終端用戶的混亂。

2020年MAD格局中的數(shù)據(jù)質(zhì)量類別與2021年的格局相比,由 Matt Turck

術(shù)語的不一致性是超出數(shù)據(jù)質(zhì)量范疇,擴(kuò)展到整個(gè)現(xiàn)代數(shù)據(jù)棧的東西。

一個(gè)行業(yè)的早期最有力的指標(biāo)之一是新術(shù)語的擴(kuò)散,而這些術(shù)語的使用是不一致的。作為一個(gè)具體的例子,當(dāng)有人說電子商務(wù)平臺(tái)或CMS平臺(tái)時(shí),我們大多數(shù)人都會(huì)想到例如Shopify或WordPress,并對(duì)該工具在業(yè)務(wù)中的功能有一個(gè)清晰的認(rèn)識(shí)。但是,當(dāng)你聽到 "運(yùn)營(yíng)分析"、"數(shù)據(jù)湖 "或 "數(shù)據(jù)可觀察性 "這樣的術(shù)語時(shí),一個(gè)在數(shù)據(jù)世界工作的人可能會(huì)發(fā)現(xiàn)很難說清楚它們的確切含義和/或包含的內(nèi)容。這往往與以下事實(shí)直接相關(guān),即許多術(shù)語是由一些公司創(chuàng)造的,它們利用特定的技術(shù)開辟了新的領(lǐng)域,并進(jìn)行了分類創(chuàng)造。有趣的是,即使是最熱門的數(shù)據(jù)術(shù)語,例如 "現(xiàn)代數(shù)據(jù)棧",在數(shù)據(jù)世界中也缺乏一個(gè)一致的定義--此外,諸如 "數(shù)據(jù)網(wǎng) "和 "數(shù)據(jù)結(jié)構(gòu) "等術(shù)語也經(jīng)常被用來描述新的數(shù)據(jù)架構(gòu)。

隨著實(shí)際用戶將該技術(shù)分層到他們的堆棧并建立用例,該行業(yè)將最終幫助形成特定工具和架構(gòu)模式的定義。

在2022年,隨著現(xiàn)代數(shù)據(jù)棧和數(shù)據(jù)質(zhì)量類別的成熟,我們也希望看到術(shù)語使用方式的協(xié)調(diào)和一致。

綜上所述

我們相信,我們?nèi)匀惶幱诂F(xiàn)代數(shù)據(jù)棧革命的早期階段。正如云計(jì)算改變了我們今天的工作方式一樣,通過現(xiàn)代云原生基礎(chǔ)設(shè)施來駕馭數(shù)據(jù),對(duì)各種規(guī)模和行業(yè)的公司來說都是至關(guān)重要的。此外,隨著現(xiàn)代數(shù)據(jù)棧被更廣泛地采用,我們預(yù)計(jì)將看到許多需要進(jìn)一步加強(qiáng)的領(lǐng)域,包括流式數(shù)據(jù),使公司能夠采取實(shí)時(shí)行動(dòng)。

如果說軟件一直在吞噬世界,那么數(shù)據(jù)就是機(jī)器的燃料。近十年來,Airbnb、Netflix、Uber和其他大公司都在其數(shù)據(jù)棧上進(jìn)行了大量投資,不僅為個(gè)性化的內(nèi)容提供服務(wù),而且還幫助進(jìn)行動(dòng)態(tài)和自動(dòng)化決策。隨著現(xiàn)代數(shù)據(jù)棧的興起,任何公司無論大小都可以以靈活和非成本高昂的方式存儲(chǔ)和利用大量的數(shù)據(jù),而不需要一支技術(shù)人員的軍隊(duì)。

現(xiàn)代云數(shù)據(jù)基礎(chǔ)設(shè)施正在進(jìn)行大規(guī)模建設(shè),未來將由數(shù)據(jù)的可訪問性、使用和質(zhì)量來定義。

我們對(duì)2022年所帶來的一切感到無比興奮。


責(zé)任編輯:華軒 來源: 今日頭條
相關(guān)推薦

2022-03-15 12:30:42

大數(shù)據(jù)數(shù)字化轉(zhuǎn)型數(shù)據(jù)分析

2022-12-07 13:37:34

大數(shù)據(jù)數(shù)據(jù)分析

2022-02-21 10:34:55

Kubernetes容器云計(jì)算

2022-01-10 09:59:36

數(shù)據(jù)遷移大數(shù)據(jù)數(shù)據(jù)

2020-12-29 11:10:00

大數(shù)據(jù)數(shù)據(jù)數(shù)據(jù)分析

2020-11-14 15:55:45

大數(shù)據(jù)技術(shù)資本

2018-06-13 15:04:43

2023-02-16 13:46:36

大數(shù)據(jù)數(shù)據(jù)科學(xué)

2023-01-24 16:37:45

大數(shù)據(jù)大數(shù)據(jù)分析DBaaS

2022-01-04 19:14:37

邊緣計(jì)算數(shù)據(jù)網(wǎng)絡(luò)

2023-01-30 14:33:32

2022-02-24 14:53:39

大數(shù)據(jù)安全數(shù)據(jù)集

2013-07-29 16:05:29

企業(yè)大數(shù)據(jù)趨勢(shì)

2022-01-18 09:01:39

前端技術(shù)編程

2022-01-12 12:22:57

數(shù)據(jù)市場(chǎng)大數(shù)據(jù)數(shù)據(jù)

2021-12-07 10:50:03

云計(jì)算云計(jì)算環(huán)境云計(jì)算趨勢(shì)

2017-12-19 22:20:58

2022-01-07 09:41:44

數(shù)據(jù)中心芯片CPU

2022-02-07 08:41:42

云原生Kubernetes

2022-01-12 16:18:10

云趨勢(shì)公有云云計(jì)算
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)