自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

構(gòu)建易于擴展的數(shù)據(jù)管道的五個要點?

譯文 精選
大數(shù)據(jù)
數(shù)據(jù)管道就是將數(shù)據(jù)從一個位置傳輸?shù)搅硪粋€位置的一系列過程,常常在此過程中改變數(shù)據(jù)。

譯者 | 布加迪

審校 | 重樓

我們這個數(shù)字世界充滿了數(shù)據(jù),但實現(xiàn)數(shù)據(jù)的全部價值可能很困難。如果是數(shù)據(jù)工程的新手,可能會對需要學(xué)習(xí)和理解的種種工具和概念感到有點不知所措。原因在于,從大數(shù)據(jù)到數(shù)據(jù)科學(xué),每個有效的數(shù)據(jù)驅(qū)動決策過程都需要設(shè)計強大且可擴展的數(shù)據(jù)管道。

構(gòu)建數(shù)據(jù)管道是應(yīng)該學(xué)習(xí)的一項非常重要的技能。數(shù)據(jù)管道就是將數(shù)據(jù)從一個位置傳輸?shù)搅硪粋€位置的一系列過程,常常在此過程中改變數(shù)據(jù)。我相信一定聽說過ETL這個術(shù)語,它代表提取、轉(zhuǎn)換和加載。

可以這想:數(shù)據(jù)管道類似工廠裝配線。原材料數(shù)據(jù)從一端進來,經(jīng)過幾個加工(處理)步驟,然后作為成品(處理過的數(shù)據(jù)從另一端出來。

典型的數(shù)據(jù)管道包括以下幾個階段:

1. 數(shù)據(jù)攝?。?/span>從各種來源(包括數(shù)據(jù)庫、API和文件系統(tǒng))收集數(shù)據(jù)的過程。步驟負(fù)責(zé)最初的數(shù)據(jù)收集,可以實時或批量收集。

2. 數(shù)據(jù)處理:對數(shù)據(jù)進行修改、清理和分組,為分析做準(zhǔn)備。步驟可能包括數(shù)據(jù)豐富、規(guī)范其他類型的數(shù)據(jù)操作

3. 數(shù)據(jù)存儲:將處理后的數(shù)據(jù)存儲在數(shù)據(jù)倉庫、數(shù)據(jù)湖或其他存儲系統(tǒng)中。所使用的存儲系統(tǒng)類型影響數(shù)據(jù)的搜索和檢查方式

4. 數(shù)據(jù)交付:向最終用戶或系統(tǒng)提供用于分析、報告或進一步處理的數(shù)據(jù)。步驟通常需要開發(fā)數(shù)據(jù)可視化工具或連接業(yè)務(wù)智能工具

隨著組織規(guī)模和數(shù)據(jù)復(fù)雜性的增加,可擴展數(shù)據(jù)管道變得更必不可少。構(gòu)建不力的管道可能會導(dǎo)致性能問題,比如系統(tǒng)崩潰、緩慢的處理速率和延長的停機時間。因此,收入來源下降,影響消費者滿意度。

擴展數(shù)據(jù)管道對于企業(yè)跟上業(yè)務(wù)需求的增長速度至關(guān)重要。沒有它們,企業(yè)將無處理客戶或應(yīng)用程序每天生成的大量數(shù)據(jù)。據(jù)Gartner的一項研究顯示,糟糕的數(shù)據(jù)質(zhì)量平均每年給企業(yè)造成1500萬美元的損失,導(dǎo)致數(shù)字化計劃破壞、競爭地位被削弱以及客戶不信任。

這就是為什么我們在本文中將介紹如何構(gòu)建可擴展數(shù)據(jù)管道的五個技巧。我們將先討論一些常見的可擴展性問題,最后重點介紹用于構(gòu)建可擴展數(shù)據(jù)管道的一些工具和技術(shù)。

圖1. 北美數(shù)據(jù)管道市場規(guī)模2019年至2030年(單位:10億美元)圖1. 北美數(shù)據(jù)管道市場規(guī)模2019年至2030年(單位:10億美元)

由于金融、醫(yī)療保健和零售等行業(yè)的采用增加,預(yù)計從2023年到2030年,全球數(shù)據(jù)管道市場將以22.4%復(fù)合增長率增長。北美目前是市場的領(lǐng)導(dǎo)者,亞太區(qū)預(yù)計將迎來最快的增長,部分原因是低延遲網(wǎng)絡(luò)基礎(chǔ)設(shè)施領(lǐng)域獲得,比如諾基亞與澳大利亞Optus的合作項目。

不妨看一個真實的場景。

真實場景

不妨考慮一個真實場景:一家正在快速增長的電子商務(wù)公司。隨著客戶群擴大,該公司從網(wǎng)站互動、購買歷史記錄、客戶評論和庫存收集的數(shù)據(jù)量也隨之增加。最初,數(shù)據(jù)管道被設(shè)計用于處理適度的交易量,但隨著銷售在旺季飆升,問題開始出現(xiàn)。

比如在黑色星期五這樣的重大銷售活動期間,該公司的數(shù)據(jù)管道力不從心。大量涌入的數(shù)據(jù)使系統(tǒng)不堪重負(fù),導(dǎo)致實時處理訂單和更新庫存出現(xiàn)延遲。這可能導(dǎo)致沮喪的客戶收到不準(zhǔn)確的庫存信息或遇到訂單確認(rèn)延遲,從而影響銷售和客戶滿意度。

為了應(yīng)對這些挑戰(zhàn),該公司需要擴展數(shù)據(jù)管道。它可以從實施一套更靈活的架構(gòu)入手,該架構(gòu)可以動態(tài)調(diào)整以適應(yīng)不同的數(shù)據(jù)負(fù)載。比如說,使用基于云的服務(wù)便于它在熱銷活動期間分配更多的資源,在較平淡期間縮減資源,確保它可以處理數(shù)據(jù)峰值而不會出現(xiàn)問題。

此外,該公司可以集成流數(shù)據(jù)處理框架來實時分析進入的數(shù)據(jù)。這意味著可以即時監(jiān)控銷售趨勢和庫存從而能夠更快地根據(jù)數(shù)據(jù)做出決策。通過增強數(shù)據(jù)管道的可擴展性,該公司不僅提高了運營效率,還提高了客戶信任度和留率。

數(shù)據(jù)管道中的常見可擴展性問題

數(shù)據(jù)管道中的可擴展性問題可能會很快變得混亂,尤其是當(dāng)數(shù)據(jù)量和復(fù)雜性增加時。以下是一些最常見的挑戰(zhàn):

1. 數(shù)據(jù)處理方面的瓶頸

隨著數(shù)據(jù)負(fù)載增加,管道可能難以實時處理所有數(shù)據(jù)。如果管道的某一部分(比如轉(zhuǎn)換或豐富步驟)很緩慢,可能會阻礙其他所有步驟,造成波及整個系統(tǒng)的延遲。這就像一家繁忙咖啡店慢吞吞的咖啡師;如果某一卡住了,其他步驟有多快都不重要

2. 存儲和檢索速度

由于大量數(shù)據(jù)流入,存儲系統(tǒng)可能難以跟上,從而導(dǎo)致數(shù)據(jù)檢索和處理時間變慢。傳統(tǒng)數(shù)據(jù)庫可能無法效擴展,在訪問數(shù)據(jù)進行分析或報告時導(dǎo)致延遲。數(shù)據(jù)倉庫和云存儲解決方案是更具可擴展性的選擇,但它們認(rèn)真加以管理,以免遇到性能瓶頸。

3. 處理數(shù)據(jù)峰值

許多數(shù)據(jù)管道在流量突然激增會崩潰。比如說,零售公司在節(jié)日銷售或產(chǎn)品發(fā)布期間可能會遇到大量數(shù)據(jù)。如果沒有自動擴展功能,管道可能不堪重負(fù),導(dǎo)致數(shù)據(jù)丟失或延遲,最終影響公司實時響應(yīng)需求的能力。

4. 數(shù)據(jù)質(zhì)量和一致性

當(dāng)管道擴展時,跨數(shù)據(jù)源維護數(shù)據(jù)質(zhì)量可能成為一大挑戰(zhàn)。在快速從不同來源提取數(shù)據(jù)時,經(jīng)常會出現(xiàn)不一致和丟失數(shù)據(jù)的情況。這些問題不僅減慢處理速度,還會導(dǎo)致獲得洞察力不準(zhǔn)確,從而誤導(dǎo)決策者。

5. 資源爭用

隨著管道擴大,相互競爭的流程比如同時運行的多個ETL作業(yè))可能會爭奪相同的資源,從而降低彼此的速度。這可能導(dǎo)致不可預(yù)測的性能,其中某些作業(yè)被延遲,或者數(shù)據(jù)被序處理。

然而,非常仔細的規(guī)劃和準(zhǔn)備加上可靠的執(zhí)行可以解決這些可擴展性問題。下面介紹的技巧可發(fā)幫助構(gòu)建可擴展的數(shù)據(jù)管道。

構(gòu)建可擴展數(shù)據(jù)管道的技巧

構(gòu)建可擴展的數(shù)據(jù)管道需要時間和精力才能入手,旨在創(chuàng)建一個隨著組織需求而增長的系統(tǒng),不錯過任何機會。隨著公司不斷擴張,這么做絕對是值得的。以下是確保數(shù)據(jù)管道可擴展的五個關(guān)鍵實用技巧:

1. 選擇正確的架構(gòu)

說到可擴展性,架構(gòu)就是一切。精心選擇的架構(gòu)可以處理增加的數(shù)據(jù)負(fù)載或處理需求,而不陷入困境或需要進行重大改動。這通常意味著考慮分布式系統(tǒng),這種系統(tǒng)允許在需求增加時,通過向架構(gòu)中添加更多節(jié)點進行橫向擴展。

基于云的解決方案在這方面出色,特別是在高流量期間,提供了基于使用模式快速擴展或縮減基礎(chǔ)設(shè)施的靈活性。關(guān)鍵是要有一不僅現(xiàn)在穩(wěn)健,而且適應(yīng)性足夠強的架構(gòu),以支持新數(shù)據(jù)源和更高的處理需求。

2. 實施智能數(shù)據(jù)管理

可靠的數(shù)據(jù)管理策略是任何可擴展管道的支柱。先定義處理什么,需要達到什么目標(biāo)。如果專注于分析結(jié)構(gòu)化數(shù)據(jù)以獲取商業(yè)智能,傳統(tǒng)的數(shù)據(jù)倉庫可能是最佳選擇。但如果在處理大量非結(jié)構(gòu)化數(shù)據(jù),比如社交媒體流或物聯(lián)網(wǎng)傳感器數(shù)據(jù),數(shù)據(jù)湖可能是更好的選擇。

數(shù)據(jù)湖允許以原始形式存儲數(shù)據(jù),這對于各種格式的非結(jié)構(gòu)化數(shù)據(jù)非常理想。這種無需不斷重新格式化就能處理結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的靈活性有助于確保管道的效率和適應(yīng)性。

3. 充分利用并行處理

數(shù)據(jù)處理可能會變得工作量很大,尤其在處理大量數(shù)據(jù)時。為了便于管理,不妨考慮并行處理。把任務(wù)分解成可以同時運行的小塊。比如說,如果的管道處理TB級的數(shù)據(jù),將其分成不同處理系統(tǒng)可以同時處理的部分。這加快了整體處理速度,使的管道更具彈性,因為任務(wù)不必排隊等待處理。許多大數(shù)據(jù)框架(比如Apache Spark)在設(shè)計時就考慮了并行處理,這使得它們對于可擴展的管道有價值。

4. 優(yōu)化數(shù)據(jù)處理

即使有了可靠架構(gòu),優(yōu)化也是保持系統(tǒng)平穩(wěn)運行的關(guān)鍵。先減少不必要的數(shù)據(jù)轉(zhuǎn)換,因為每個轉(zhuǎn)換都需要時間和資源。如果重復(fù)處理相同的數(shù)據(jù),考慮緩存結(jié)果,以避免冗余工作。使用更快的算法和盡量減少數(shù)據(jù)移動也有幫助——每次數(shù)據(jù)移動都會產(chǎn)生瓶頸。這對增量更新也大有助益。不是從頭開始重新計算一切,僅僅處理新的數(shù)據(jù)或更改的數(shù)據(jù)。這不僅減了系統(tǒng)的壓力,使處理時間更易于預(yù)測。

5. 優(yōu)先考慮實時處理和適應(yīng)性

可擴展性不僅僅旨在處理更多的數(shù)據(jù),還旨在滿足未來的需求,并在需要時為實時處理留出空間。如果的團隊依靠數(shù)據(jù)做出快速、明智的決策,就要爭取構(gòu)建可以支持實時處理或實時更新的管道。

這可能意味著添置數(shù)據(jù)流技術(shù)或支持快速數(shù)據(jù)攝取和處理的框架。此外,確保的管道設(shè)計有更改的空間:新的數(shù)據(jù)源、更新的業(yè)務(wù)需求或不斷涌現(xiàn)的分析需求不應(yīng)該每次都需要從頭開始。

構(gòu)建可擴展數(shù)據(jù)管道的工具和技術(shù)

下面是一些用于構(gòu)建可擴展數(shù)據(jù)管道的主要工具和技術(shù)。每個都提供了獨特的功能和可擴展選項,因此選擇通常依賴特定的管道需求、青睞的編程語言以及現(xiàn)有的技術(shù)基礎(chǔ)設(shè)施。

  • Apache Kafka:用于構(gòu)建實時數(shù)據(jù)管道和應(yīng)用程序分布式流平臺。Kafka具有高度可擴展性,旨在處理大量動態(tài)數(shù)據(jù)。

相關(guān)鏈接:https://kafka.apache.org/

  • Apache Spark:用于大規(guī)模數(shù)據(jù)處理的強大分析引擎Spark通過分布式并行處理支持批處理和實時處理,使其成為可擴展數(shù)據(jù)管道的理想選擇。

相關(guān)鏈接:https://spark.apache.org/

  • Airflow由Apache開發(fā)的開源工作流管理工具,便于自動化和調(diào)度復(fù)雜的數(shù)據(jù)工作流。Airflow具有可擴展性,并支持DAG(有向無環(huán)圖),因而非常適合編排可擴展的管道。

相關(guān)鏈接:https://airflow.apache.org/

  • dbt(數(shù)據(jù)構(gòu)建工具):dbt是一個數(shù)據(jù)轉(zhuǎn)換工具,允許數(shù)據(jù)工程師處理復(fù)雜的轉(zhuǎn)換工作流。它可以很好地與數(shù)據(jù)倉庫一起工作,并憑借版本控制和易于協(xié)作支持可擴展轉(zhuǎn)換。

相關(guān)鏈接:https://www.getdbt.com/

  • Snowflake:一數(shù)據(jù)倉庫解決方案,內(nèi)置處理大規(guī)模分析和數(shù)據(jù)工程的功能。Snowflake的云原生架構(gòu)支持高效的擴展和管道集成

相關(guān)鏈接:https://www.snowflake.com/

  • Databricks:一基于Apache Spark的統(tǒng)一分析平臺。Databricks為大規(guī)模數(shù)據(jù)工程而設(shè)計借助面向數(shù)據(jù)科學(xué)和工程協(xié)作特性使用戶很容易構(gòu)建和管理可擴展數(shù)據(jù)管道。

相關(guān)鏈接:https://databricks.com/

結(jié)論

如果關(guān)注架構(gòu)、數(shù)據(jù)管理、并行處理和深入優(yōu)化,就可以建立一個可擴展、高效、為未來做好準(zhǔn)備數(shù)據(jù)管道。

記住,可擴展性的目的不僅僅是容納更大的數(shù)據(jù)量,而是增強快速響應(yīng)不斷變化的業(yè)務(wù)需求和利用實時洞察的能力。從選擇的架構(gòu)實施的數(shù)據(jù)處理技術(shù),所做的每個決定都會影響管道的性能和適應(yīng)性。

所以,無論是剛開始構(gòu)建管道還是想要完善現(xiàn)有的管道,都要記住這些技巧。擁抱挑戰(zhàn),將的數(shù)據(jù)管道變成推動貴公司向前發(fā)展的潛在動力。

原文標(biāo)題:5 Tips for Building Scalable Data Pipelines,作者:Shittu Olumide

責(zé)任編輯:華軒 來源: 51CTO
相關(guān)推薦

2024-05-10 13:14:41

技巧云原生應(yīng)用

2018-10-25 08:00:00

數(shù)據(jù)庫開源數(shù)據(jù)庫開源技術(shù)

2024-06-20 08:00:00

云原生Apache Kaf

2017-05-31 14:35:17

大數(shù)據(jù)運行環(huán)境數(shù)據(jù)管道

2022-09-30 10:36:49

物聯(lián)網(wǎng)IoT

2012-05-10 09:46:02

動態(tài)數(shù)據(jù)中心

2017-01-19 10:44:54

私有云云計算虛擬化

2018-09-17 09:00:00

測試工具網(wǎng)絡(luò)分析

2019-10-08 14:16:08

大數(shù)據(jù)數(shù)據(jù)產(chǎn)業(yè)

2009-07-14 21:41:10

數(shù)據(jù)中心計算機系統(tǒng)

2016-10-19 13:47:41

大數(shù)據(jù)存儲Hadoop

2023-10-04 17:44:27

系統(tǒng)設(shè)計目標(biāo)

2019-05-27 23:21:47

大數(shù)據(jù)云遷移企業(yè)

2021-12-03 14:37:38

數(shù)據(jù)備份存儲備份

2014-07-23 10:03:20

2023-01-06 16:42:28

2023-02-19 15:28:39

CI/CD 管道集成開發(fā)

2022-05-13 14:28:03

云原生權(quán)限云原生

2022-03-16 00:15:56

Flask擴展插件

2022-02-28 16:01:04

人工智能機器學(xué)習(xí)企業(yè)
點贊
收藏

51CTO技術(shù)棧公眾號