2020年值得關(guān)注的4個大數(shù)據(jù)趨勢
在過去的幾年中,我們在Redpoint投資了超過15家數(shù)據(jù)公司,并部署了超過2.5億美元的資本。我們是數(shù)據(jù)/機器學習基礎(chǔ)設(shè)施和分析市場的長期信奉者,并沒有放緩。根據(jù)IDC的數(shù)據(jù),全球大數(shù)據(jù)和業(yè)務(wù)分析市場在2019年達到約189B美元,預計到2022年將急劇增長至$ 274B,在此期間的復合年增長率約為13%。
這是一個令人難以置信的動態(tài)類別,我非常熱衷于分析和評估接下來的工作(例如此處的數(shù)據(jù)安全性或此處的綜合數(shù)據(jù))。 我的研究旨在挖掘開創(chuàng)性的見解,最終幫助推動該領(lǐng)域的發(fā)展。 以下是我們對2020年主要四大趨勢的看法:1)數(shù)據(jù)質(zhì)量; 2)數(shù)據(jù)目錄; 3)KPI的可觀察性; 和4)流式傳輸。
1.數(shù)據(jù)質(zhì)量
數(shù)據(jù)質(zhì)量管理確保數(shù)據(jù)適合消費并滿足數(shù)據(jù)使用者的需求。為了獲得高質(zhì)量,數(shù)據(jù)必須是一致且明確的。您可以通過包括準確性,完整性,一致性,完整性,合理性,時間表,唯一性,有效性和可訪問性在內(nèi)的維度來衡量數(shù)據(jù)質(zhì)量。數(shù)據(jù)質(zhì)量問題通常是數(shù)據(jù)庫合并或系統(tǒng)/云集成過程的結(jié)果,在這些過程中,應兼容的數(shù)據(jù)字段不是由于架構(gòu)或格式不一致引起的。不高質(zhì)量的數(shù)據(jù)可以進行數(shù)據(jù)清理以提高其質(zhì)量。
當前,大多數(shù)公司沒有識別"臟數(shù)據(jù)"的過程或技術(shù)。通常,必須有人發(fā)現(xiàn)錯誤。然后,數(shù)據(jù)平臺或工程團隊必須手動識別錯誤并進行修復。這是一項耗時且乏味的工作(占用了數(shù)據(jù)科學家80%的時間),這也是數(shù)據(jù)科學家最抱怨的問題。
高質(zhì)量的數(shù)據(jù)對于公司能否依賴它至關(guān)重要,而且不良數(shù)據(jù)的風險也很大。 盡管苛刻的觀察結(jié)果"垃圾填入,垃圾填埋"困擾了幾代人的分析和決策,但它對機器學習(ML)提出了特殊警告,因為開發(fā)模型所花費的時間很長。 如果ML工程師花費時間培訓并提供使用不良數(shù)據(jù)構(gòu)建的ML模型,則錯誤的ML模型將在生產(chǎn)中無效,并且可能對用戶體驗和收入產(chǎn)生負面的間接影響。 O'Reilly的一項調(diào)查發(fā)現(xiàn),那些擁有成熟AI實踐(通過生產(chǎn)模型的時間來衡量)的人將"缺乏數(shù)據(jù)或數(shù)據(jù)質(zhì)量問題"作為阻礙進一步采用ML的主要瓶頸。
數(shù)據(jù)質(zhì)量是業(yè)務(wù)人員和機器決策的基礎(chǔ)。 臟數(shù)據(jù)可能會導致儀表板和執(zhí)行人員簡介中的值不正確。 此外,我們聽說過糟糕的數(shù)據(jù)會導致產(chǎn)品開發(fā)決策,從而導致企業(yè)在工程上損失數(shù)百萬美元。 基于不良數(shù)據(jù)的機器決策可能導致有偏見或不正確的行動。

> https://profisee.com/data-quality-what-why-how-who/
有一些提供數(shù)據(jù)質(zhì)量解決方案的早期創(chuàng)業(yè)公司和開源項目。一些供應商包括Soda Data,Toro Data和Monte Carlo。

2.數(shù)據(jù)目錄
根據(jù)Alation的說法,數(shù)據(jù)目錄是"元數(shù)據(jù)的集合,結(jié)合了數(shù)據(jù)管理和搜索工具,可以幫助分析師和其他數(shù)據(jù)用戶找到所需的數(shù)據(jù),充當可用數(shù)據(jù)的清單,并提供評估信息。預期用途的適用性數(shù)據(jù)。"目錄捕獲有關(guān)數(shù)據(jù)的豐富信息,包括其應用程序上下文,行為和更改。我們對數(shù)據(jù)目錄感興趣,因為它們支持自助數(shù)據(jù)訪問,從而使個人和團隊受益。借助數(shù)據(jù)目錄,分析師可以避免與IT部門合作來接收數(shù)據(jù)的緩慢過程,并且可以自行發(fā)現(xiàn)相關(guān)數(shù)據(jù),從而提高了生產(chǎn)率。此外,數(shù)據(jù)目錄可以通過收集有關(guān)數(shù)據(jù)使用,數(shù)據(jù)訪問和PII的信息來幫助實現(xiàn)合規(guī)性。
有商業(yè)和開源數(shù)據(jù)目錄。 商業(yè)數(shù)據(jù)目錄包括Collibra,Waterline數(shù)據(jù),Alation,Atlan,Ataccama,Zaloni,Azure數(shù)據(jù)目錄,Google Cloud的數(shù)據(jù)目錄,IO-Tahoe和Tamr。 Collibra在其籌款過程中最遙遙領(lǐng)先,最近以$ 2.3B的融資后估值籌集了$ 112.5M。 許多科技公司開放了其數(shù)據(jù)目錄的來源或公開談?wù)撍鼈儯ˋirbnb,LinkedIn,Lyft Netflix,Spotify,Uber和WeWork。

3. KPI可觀察性
大多數(shù)數(shù)據(jù)驅(qū)動型公司都利用商業(yè)智能工具(如Looker,Tableau和Superset)來跟蹤關(guān)鍵的KPI。盡管這些操作系統(tǒng)可以在度量標準超過特定閾值時主動發(fā)送警報,但分析人員仍然需要深入研究細節(jié)以確定KPI為何更改。診斷仍然相當手動。
我們看到了一套新的解決方案,可以使每個企業(yè)了解推動其關(guān)鍵指標的因素。 運營分析平臺可幫助團隊超越儀表板,了解其關(guān)鍵指標正在發(fā)生變化的原因。 通過利用機器學習,解決方案可以確定導致KPI更改的特定因素。 我們認為,在這個領(lǐng)域中存在機會,因為企業(yè)需要圍繞哪些基本因素提供指導。
我們將生態(tài)系統(tǒng)分為三類:1)異常檢測/根本原因分析;2)趨勢檢測;和3)數(shù)據(jù)洞察力。異常通常會急劇增加/減少,并在單一度量標準級別上運行。趨勢檢測可捕獲異常,但更重要的是可捕獲基礎(chǔ)結(jié)構(gòu)的漂移和變化。數(shù)據(jù)洞察力從大量數(shù)據(jù)中發(fā)現(xiàn)了意外情況。
有幾家公司提供KPI可觀察性。 Anodot,Lightup和Orbiter專注于異常檢測和引起該變化的潛在因素。 Falkon和Sisu專注于異常檢測和趨勢檢測。 Thoughtspot SpotAI和Outlier嘗試從大量數(shù)據(jù)中產(chǎn)生最重要的見解,而無需人工監(jiān)督/配置。 在下面的展覽中,我們將所有相關(guān)類別的供應商都包括在內(nèi)。

4.流式傳輸
對企業(yè)實時決策和提供服務(wù)的需求不斷增長,因此企業(yè)正在轉(zhuǎn)向流式通信,存儲和數(shù)據(jù)處理系統(tǒng)。 我們相信,隨著團隊繼續(xù)從批處理系統(tǒng)轉(zhuǎn)移到流系統(tǒng),存在巨大的市場機會。
該領(lǐng)域的主要參與者是Kafka,LinkedIn于2011年開源。Kafka是一個發(fā)布-訂閱系統(tǒng),可提供持久,有序,可擴展的消息傳遞。它的體系結(jié)構(gòu)包括主題,發(fā)布者和訂閱者。Kafka可以劃分消息主題并支持并行使用。在過去的十年中,該技術(shù)從消息傳遞隊列演變?yōu)槭录髌脚_。
雖然有傳言說Kafka背后的公司Confluent的估值為5B美元,但我們聽說該解決方案難以大規(guī)模實施和管理。 我們被告知,Zookeeper尤其難以管理,盡管該團隊正在更換此組件,但可以改善用戶體驗。 此外,我們聽說維護可能會遇到挑戰(zhàn),因為主題數(shù)量會迅速增加,因此團隊必須一致地平衡和升級實例。
諸如Apache Pulsar之類的新流媒體方法具有兩層體系結(jié)構(gòu),其中服務(wù)和存儲可以分別擴展。 這對于具有無限數(shù)據(jù)保留潛力的用例來說非常重要,例如記錄事件可以永久存在的情況。 此外,如果您必須存儲所有消息,則不需要將所有內(nèi)容都存儲在高性能磁盤中。 使用Pulsar,您可以將較舊的數(shù)據(jù)移至S3,而Kafka則無法。 還有自動平衡功能,這是AWS Kinesis無法做到的。 我們還聽說用戶對Pulsar比Kafka更輕的客戶端模型表示了同情。 除了Kafka和Flink,還有其他系統(tǒng),例如NATS和Vectorized。
對于實時數(shù)據(jù)處理,Apache Flink是最著名的。 當元素出現(xiàn)時,F(xiàn)link會對其進行處理,而不是像Spark流這樣的微型批次中對其進行處理。 微批量方法的缺點是批量可能非常龐大,需要大量資源進行處理。 對于不一致或突發(fā)的數(shù)據(jù)流,這可能尤其痛苦。 Flink的另一個優(yōu)點是,您無需通過反復試驗就可以找到適用于微型批次的適當配置。 如果配置生成的處理時間超過其累積時間,則存在問題。 然后批次開始排隊,最終所有處理都將停止。 Materialise團隊還提供了更新的流引擎,例如Confluent KSQL和Timely Dataflow。
ResearchAndMarkets預測,到2023年,全球事件流處理(ESP)市場將從2018年的6.9億美元增長到$ 1.8B,在此期間的復合年增長率為22%。 根據(jù)與買家的對話,我們認為市場的增長速度快于此。

明年,我們將關(guān)注1)數(shù)據(jù)質(zhì)量的演變; 2)數(shù)據(jù)目錄; 3)KPI的可觀察性; 和4)流式傳輸。 如果您或您認識的某個人正在從事數(shù)據(jù)/ ML基礎(chǔ)結(jié)構(gòu)和分析項目或啟動工作,那么很高興收到您的來信。 您看到什么趨勢? 請在下面發(fā)表評論,或通過amyers@redpoint.com給我發(fā)送電子郵件,讓我們知道。
