自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

2020年值得關(guān)注的4個大數(shù)據(jù)趨勢

作者：聞數(shù)起舞 2020-11-14 15:55:45

大數(shù)據(jù)

在過去的幾年中，我們在Redpoint投資了超過15家數(shù)據(jù)公司，并部署了超過2.5億美元的資本。我們是數(shù)據(jù)/機器學習基礎(chǔ)設(shè)施和分析市場的長期信奉者，并沒有放緩。

2020年值得關(guān)注的4個大數(shù)據(jù)趨勢

在過去的幾年中，我們在Redpoint投資了超過15家數(shù)據(jù)公司，并部署了超過2.5億美元的資本。我們是數(shù)據(jù)/機器學習基礎(chǔ)設(shè)施和分析市場的長期信奉者，并沒有放緩。根據(jù)IDC的數(shù)據(jù)，全球大數(shù)據(jù)和業(yè)務(wù)分析市場在2019年達到約189B美元，預計到2022年將急劇增長至$ 274B，在此期間的復合年增長率約為13%。

這是一個令人難以置信的動態(tài)類別，我非常熱衷于分析和評估接下來的工作(例如此處的數(shù)據(jù)安全性或此處的綜合數(shù)據(jù))。我的研究旨在挖掘開創(chuàng)性的見解，最終幫助推動該領(lǐng)域的發(fā)展。以下是我們對2020年主要四大趨勢的看法：1)數(shù)據(jù)質(zhì)量; 2)數(shù)據(jù)目錄; 3)KPI的可觀察性; 和4)流式傳輸。

1.數(shù)據(jù)質(zhì)量

數(shù)據(jù)質(zhì)量管理確保數(shù)據(jù)適合消費并滿足數(shù)據(jù)使用者的需求。為了獲得高質(zhì)量，數(shù)據(jù)必須是一致且明確的。您可以通過包括準確性，完整性，一致性，完整性，合理性，時間表，唯一性，有效性和可訪問性在內(nèi)的維度來衡量數(shù)據(jù)質(zhì)量。數(shù)據(jù)質(zhì)量問題通常是數(shù)據(jù)庫合并或系統(tǒng)/云集成過程的結(jié)果，在這些過程中，應兼容的數(shù)據(jù)字段不是由于架構(gòu)或格式不一致引起的。不高質(zhì)量的數(shù)據(jù)可以進行數(shù)據(jù)清理以提高其質(zhì)量。

當前，大多數(shù)公司沒有識別"臟數(shù)據(jù)"的過程或技術(shù)。通常，必須有人發(fā)現(xiàn)錯誤。然后，數(shù)據(jù)平臺或工程團隊必須手動識別錯誤并進行修復。這是一項耗時且乏味的工作(占用了數(shù)據(jù)科學家80%的時間)，這也是數(shù)據(jù)科學家最抱怨的問題。

高質(zhì)量的數(shù)據(jù)對于公司能否依賴它至關(guān)重要，而且不良數(shù)據(jù)的風險也很大。盡管苛刻的觀察結(jié)果"垃圾填入，垃圾填埋"困擾了幾代人的分析和決策，但它對機器學習(ML)提出了特殊警告，因為開發(fā)模型所花費的時間很長。如果ML工程師花費時間培訓并提供使用不良數(shù)據(jù)構(gòu)建的ML模型，則錯誤的ML模型將在生產(chǎn)中無效，并且可能對用戶體驗和收入產(chǎn)生負面的間接影響。 O'Reilly的一項調(diào)查發(fā)現(xiàn)，那些擁有成熟AI實踐(通過生產(chǎn)模型的時間來衡量)的人將"缺乏數(shù)據(jù)或數(shù)據(jù)質(zhì)量問題"作為阻礙進一步采用ML的主要瓶頸。

數(shù)據(jù)質(zhì)量是業(yè)務(wù)人員和機器決策的基礎(chǔ)。臟數(shù)據(jù)可能會導致儀表板和執(zhí)行人員簡介中的值不正確。此外，我們聽說過糟糕的數(shù)據(jù)會導致產(chǎn)品開發(fā)決策，從而導致企業(yè)在工程上損失數(shù)百萬美元。基于不良數(shù)據(jù)的機器決策可能導致有偏見或不正確的行動。

2020年值得關(guān)注的4個大數(shù)據(jù)趨勢

> https://profisee.com/data-quality-what-why-how-who/

有一些提供數(shù)據(jù)質(zhì)量解決方案的早期創(chuàng)業(yè)公司和開源項目。一些供應商包括Soda Data，Toro Data和Monte Carlo。

2020年值得關(guān)注的4個大數(shù)據(jù)趨勢

2.數(shù)據(jù)目錄

根據(jù)Alation的說法，數(shù)據(jù)目錄是"元數(shù)據(jù)的集合，結(jié)合了數(shù)據(jù)管理和搜索工具，可以幫助分析師和其他數(shù)據(jù)用戶找到所需的數(shù)據(jù)，充當可用數(shù)據(jù)的清單，并提供評估信息。預期用途的適用性數(shù)據(jù)。"目錄捕獲有關(guān)數(shù)據(jù)的豐富信息，包括其應用程序上下文，行為和更改。我們對數(shù)據(jù)目錄感興趣，因為它們支持自助數(shù)據(jù)訪問，從而使個人和團隊受益。借助數(shù)據(jù)目錄，分析師可以避免與IT部門合作來接收數(shù)據(jù)的緩慢過程，并且可以自行發(fā)現(xiàn)相關(guān)數(shù)據(jù)，從而提高了生產(chǎn)率。此外，數(shù)據(jù)目錄可以通過收集有關(guān)數(shù)據(jù)使用，數(shù)據(jù)訪問和PII的信息來幫助實現(xiàn)合規(guī)性。

有商業(yè)和開源數(shù)據(jù)目錄。商業(yè)數(shù)據(jù)目錄包括Collibra，Waterline數(shù)據(jù)，Alation，Atlan，Ataccama，Zaloni，Azure數(shù)據(jù)目錄，Google Cloud的數(shù)據(jù)目錄，IO-Tahoe和Tamr。 Collibra在其籌款過程中最遙遙領(lǐng)先，最近以$ 2.3B的融資后估值籌集了$ 112.5M。許多科技公司開放了其數(shù)據(jù)目錄的來源或公開談?wù)撍鼈儯ˋirbnb，LinkedIn，Lyft Netflix，Spotify，Uber和WeWork。

2020年值得關(guān)注的4個大數(shù)據(jù)趨勢

3. KPI可觀察性

大多數(shù)數(shù)據(jù)驅(qū)動型公司都利用商業(yè)智能工具(如Looker，Tableau和Superset)來跟蹤關(guān)鍵的KPI。盡管這些操作系統(tǒng)可以在度量標準超過特定閾值時主動發(fā)送警報，但分析人員仍然需要深入研究細節(jié)以確定KPI為何更改。診斷仍然相當手動。

我們看到了一套新的解決方案，可以使每個企業(yè)了解推動其關(guān)鍵指標的因素。運營分析平臺可幫助團隊超越儀表板，了解其關(guān)鍵指標正在發(fā)生變化的原因。通過利用機器學習，解決方案可以確定導致KPI更改的特定因素。我們認為，在這個領(lǐng)域中存在機會，因為企業(yè)需要圍繞哪些基本因素提供指導。

我們將生態(tài)系統(tǒng)分為三類：1)異常檢測/根本原因分析;2)趨勢檢測;和3)數(shù)據(jù)洞察力。異常通常會急劇增加/減少，并在單一度量標準級別上運行。趨勢檢測可捕獲異常，但更重要的是可捕獲基礎(chǔ)結(jié)構(gòu)的漂移和變化。數(shù)據(jù)洞察力從大量數(shù)據(jù)中發(fā)現(xiàn)了意外情況。

有幾家公司提供KPI可觀察性。 Anodot，Lightup和Orbiter專注于異常檢測和引起該變化的潛在因素。 Falkon和Sisu專注于異常檢測和趨勢檢測。 Thoughtspot SpotAI和Outlier嘗試從大量數(shù)據(jù)中產(chǎn)生最重要的見解，而無需人工監(jiān)督/配置。在下面的展覽中，我們將所有相關(guān)類別的供應商都包括在內(nèi)。

2020年值得關(guān)注的4個大數(shù)據(jù)趨勢

4.流式傳輸

對企業(yè)實時決策和提供服務(wù)的需求不斷增長，因此企業(yè)正在轉(zhuǎn)向流式通信，存儲和數(shù)據(jù)處理系統(tǒng)。我們相信，隨著團隊繼續(xù)從批處理系統(tǒng)轉(zhuǎn)移到流系統(tǒng)，存在巨大的市場機會。

該領(lǐng)域的主要參與者是Kafka，LinkedIn于2011年開源。Kafka是一個發(fā)布-訂閱系統(tǒng)，可提供持久，有序，可擴展的消息傳遞。它的體系結(jié)構(gòu)包括主題，發(fā)布者和訂閱者。Kafka可以劃分消息主題并支持并行使用。在過去的十年中，該技術(shù)從消息傳遞隊列演變?yōu)槭录髌脚_。

雖然有傳言說Kafka背后的公司Confluent的估值為5B美元，但我們聽說該解決方案難以大規(guī)模實施和管理。我們被告知，Zookeeper尤其難以管理，盡管該團隊正在更換此組件，但可以改善用戶體驗。此外，我們聽說維護可能會遇到挑戰(zhàn)，因為主題數(shù)量會迅速增加，因此團隊必須一致地平衡和升級實例。

諸如Apache Pulsar之類的新流媒體方法具有兩層體系結(jié)構(gòu)，其中服務(wù)和存儲可以分別擴展。這對于具有無限數(shù)據(jù)保留潛力的用例來說非常重要，例如記錄事件可以永久存在的情況。此外，如果您必須存儲所有消息，則不需要將所有內(nèi)容都存儲在高性能磁盤中。使用Pulsar，您可以將較舊的數(shù)據(jù)移至S3，而Kafka則無法。還有自動平衡功能，這是AWS Kinesis無法做到的。我們還聽說用戶對Pulsar比Kafka更輕的客戶端模型表示了同情。除了Kafka和Flink，還有其他系統(tǒng)，例如NATS和Vectorized。

對于實時數(shù)據(jù)處理，Apache Flink是最著名的。當元素出現(xiàn)時，F(xiàn)link會對其進行處理，而不是像Spark流這樣的微型批次中對其進行處理。微批量方法的缺點是批量可能非常龐大，需要大量資源進行處理。對于不一致或突發(fā)的數(shù)據(jù)流，這可能尤其痛苦。 Flink的另一個優(yōu)點是，您無需通過反復試驗就可以找到適用于微型批次的適當配置。如果配置生成的處理時間超過其累積時間，則存在問題。然后批次開始排隊，最終所有處理都將停止。 Materialise團隊還提供了更新的流引擎，例如Confluent KSQL和Timely Dataflow。

ResearchAndMarkets預測，到2023年，全球事件流處理(ESP)市場將從2018年的6.9億美元增長到$ 1.8B，在此期間的復合年增長率為22%。根據(jù)與買家的對話，我們認為市場的增長速度快于此。

2020年值得關(guān)注的4個大數(shù)據(jù)趨勢

明年，我們將關(guān)注1)數(shù)據(jù)質(zhì)量的演變; 2)數(shù)據(jù)目錄; 3)KPI的可觀察性; 和4)流式傳輸。如果您或您認識的某個人正在從事數(shù)據(jù)/ ML基礎(chǔ)結(jié)構(gòu)和分析項目或啟動工作，那么很高興收到您的來信。您看到什么趨勢? 請在下面發(fā)表評論，或通過amyers@redpoint.com給我發(fā)送電子郵件，讓我們知道。

2020年值得關(guān)注的4個大數(shù)據(jù)趨勢

責任編輯：華軒來源：今日頭條

大數(shù)據(jù)技術(shù)資本

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<cite id="o6zup"></cite>