構(gòu)建大數(shù)據(jù)架構(gòu):核心組件優(yōu)秀做法
結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的數(shù)量和種類正呈指數(shù)增長,并且以越來越高的速度從各種來源生成,這形成大數(shù)據(jù)。
研究人員估計(jì),到2025年,世界每天將創(chuàng)建463艾字節(jié)的數(shù)據(jù),即每天4,630億千兆字節(jié)。
當(dāng)然,沒有任何一家企業(yè)會(huì)需要所有這些數(shù)據(jù),但是他們需要收集、存儲(chǔ)和分析盡可能多的數(shù)據(jù),以便從可行見解中獲得優(yōu)勢,以在這個(gè)數(shù)字時(shí)代有效地競爭并取得成功。
然而,很多企業(yè)才剛剛開始其大數(shù)據(jù)之旅。數(shù)據(jù)集成平臺提供商Talend公司全球解決方案工程副總裁Christophe Antoine說:“大多數(shù)企業(yè)仍在摸索大數(shù)據(jù)的作用。”這里的主要原因:他們沒有適當(dāng)?shù)拇髷?shù)據(jù)架構(gòu)。Antoine 補(bǔ)充說:“如果你只是重復(fù)自己所做的事情,你很有可能會(huì)對結(jié)果感到不滿意。”
什么是大數(shù)據(jù)架構(gòu)?
企業(yè)需要擴(kuò)展其技術(shù)堆棧來處理大量且多樣的數(shù)據(jù),并且他們需要部署基礎(chǔ)架構(gòu),以最快的速度(通常是實(shí)時(shí)或近實(shí)時(shí))完成這項(xiàng)工作。
數(shù)字化轉(zhuǎn)型服務(wù)UST公司數(shù)據(jù)工程和平臺總經(jīng)理Sripathi Jagannathan說:“傳統(tǒng)的數(shù)據(jù)庫和數(shù)據(jù)處理技術(shù)無法擴(kuò)展以滿足企業(yè)的需求。”
這正是大數(shù)據(jù)架構(gòu)發(fā)揮作用的地方。它的目的是獲取、處理和分析數(shù)據(jù),而傳統(tǒng)數(shù)據(jù)庫系統(tǒng)無法處理這些數(shù)據(jù),因?yàn)樗鼈兲蠡蛱珡?fù)雜。而且,大數(shù)據(jù)架構(gòu)可隨著企業(yè)大數(shù)據(jù)計(jì)劃的發(fā)展而擴(kuò)展-無論是所使用的數(shù)據(jù)量,企業(yè)用例數(shù)量–取決于企業(yè)的大數(shù)據(jù)。
Jagannathan解釋說:“大數(shù)據(jù)架構(gòu)是基礎(chǔ)架構(gòu)和軟件方法,可加快存儲(chǔ)和處理非常大量且以不同速度生成的各種數(shù)據(jù)。”
大數(shù)據(jù)架構(gòu)組件
IT顧問表示,他們已經(jīng)看到有些企業(yè)領(lǐng)導(dǎo)者錯(cuò)誤地尋求一種一次性解決方案來滿足其大數(shù)據(jù)野心。實(shí)際上,企業(yè)需要設(shè)計(jì)和部署多層架構(gòu),以成功處理大數(shù)據(jù)程序中所涉及的全部任務(wù)。
大數(shù)據(jù)分析咨詢公司Brillio美國地區(qū)負(fù)責(zé)人Sandhya Balakrishnan表示,最簡單的大數(shù)據(jù)架構(gòu)模型具有三層。
存儲(chǔ)層保存企業(yè)從各種數(shù)據(jù)生成源中提取的數(shù)據(jù),無論這些源是企業(yè)自己的操作系統(tǒng)、第三方系統(tǒng)還是其他端點(diǎn)。
處理層可以執(zhí)行批處理、實(shí)時(shí)處理或混合處理。
消耗層使企業(yè)可以通過分析引擎、數(shù)據(jù)查詢或AI和機(jī)器學(xué)習(xí)應(yīng)用程序以及數(shù)據(jù)可視化(這可以通過很多不同的工具來實(shí)現(xiàn))以各種方式使用數(shù)據(jù)。
其他模型將大數(shù)據(jù)架構(gòu)分解為更多的層,從而分離出更多的單個(gè)組件。例如,某些模型列出這些單獨(dú)的層:數(shù)據(jù)收集器、數(shù)據(jù)獲取、存儲(chǔ)、處理、數(shù)據(jù)查詢、數(shù)據(jù)分析和數(shù)據(jù)可視化。
其他模型進(jìn)一步增強(qiáng)數(shù)據(jù)安全性和數(shù)據(jù)監(jiān)視。
設(shè)計(jì)和部署挑戰(zhàn)
在設(shè)計(jì)和部署大數(shù)據(jù)架構(gòu)以及管理所有相關(guān)基礎(chǔ)架構(gòu)時(shí),IT團(tuán)隊(duì)通常會(huì)遇到多個(gè)挑戰(zhàn):
- 選擇合適的組件和工具來平衡當(dāng)前需求、未來需求、成本和預(yù)期回報(bào)。
- 集成各種組件(特別是與生成數(shù)據(jù)的舊系統(tǒng)集成)以收集、處理和利用所有必需的數(shù)據(jù)。
- 以企業(yè)用例所需的速度和規(guī)模來收集、集成和處理數(shù)據(jù)。
- 具有必要的技能,可充分評估選項(xiàng)、開發(fā)和完善架構(gòu),并最終管理已部署的技術(shù)。Antoine指出:“你必須有架構(gòu)師完全了解優(yōu)缺點(diǎn),并可說明為什么選擇一種技術(shù),而不是另一種。”
- 請確保數(shù)據(jù)符合法規(guī)要求、隱私標(biāo)準(zhǔn)和最佳做法。
- 提高對數(shù)據(jù)的信任度,讓用戶對數(shù)據(jù)所產(chǎn)生的結(jié)果充滿信心,以最大化數(shù)據(jù)價(jià)值。Balakrishnan稱:“你必需構(gòu)建正確的實(shí)用程序和工具,以確保數(shù)據(jù)質(zhì)量可見。”
- 優(yōu)化數(shù)據(jù)。人壽保險(xiǎn)提供商Bestow數(shù)據(jù)科學(xué)工程師Jeremiah Cunningham表示:“我們可以通過多種方式存儲(chǔ)、傳輸、清理、查詢和呈現(xiàn)數(shù)據(jù)。企業(yè)可能會(huì)選擇不同方式調(diào)查數(shù)據(jù):基于時(shí)間、基于隊(duì)列或更復(fù)雜的子集。但以復(fù)雜的方式訪問大量數(shù)據(jù)會(huì)產(chǎn)生優(yōu)化問題,這個(gè)問題可能有不同表現(xiàn)形式。”
大數(shù)據(jù)架構(gòu)的具體做法
經(jīng)驗(yàn)豐富的技術(shù)領(lǐng)導(dǎo)者為我們提供了以下最佳做法,用于設(shè)計(jì)和運(yùn)行可提供價(jià)值的大數(shù)據(jù)架構(gòu):
- 確定企業(yè)希望通過大數(shù)據(jù)計(jì)劃實(shí)現(xiàn)的業(yè)務(wù)價(jià)值,并用以指導(dǎo)所需技術(shù)的敏捷交付。
- 根據(jù)戰(zhàn)略構(gòu)想構(gòu)建架構(gòu),并將其作為敏捷程序,同時(shí)創(chuàng)建足夠的模版以使其可擴(kuò)展。Balakrishnan建議說:“應(yīng)以全面的視角構(gòu)建技術(shù)基礎(chǔ)。”
- Jagannathan稱,解耦系統(tǒng)“以確保新工具和技術(shù)可集成,而不會(huì)造成重大中斷”。
- 創(chuàng)建全面的數(shù)據(jù)治理計(jì)劃,以確保數(shù)據(jù)受到保護(hù),對于計(jì)劃的用例是完整的,并收到用戶的信任。
可用技術(shù)示例
很多技術(shù)共同形成大數(shù)據(jù)架構(gòu),因此在部署其基礎(chǔ)架構(gòu)時(shí),企業(yè)IT架構(gòu)師可以從多個(gè)供應(yīng)商中選擇工具。
根據(jù)Research and Markets的報(bào)告顯示,全球大數(shù)據(jù)市場的估計(jì)價(jià)值預(yù)計(jì)將以每年近20%的速度增長,到2027年將超過2430億美元。構(gòu)成大數(shù)據(jù)生態(tài)系統(tǒng)的技術(shù)包括:
- 提取、轉(zhuǎn)換和加載工具;
- 數(shù)據(jù)湖和數(shù)據(jù)倉庫;
- 用于處理和存儲(chǔ)的云平臺;
- 商業(yè)智能和數(shù)據(jù)可視化軟件;
- 以及 數(shù)據(jù)治理和數(shù)據(jù)安全工具
Cunningham建議:“調(diào)查企業(yè)對數(shù)據(jù)的當(dāng)前需求和未來前景,并對所需的概念技術(shù)制定計(jì)劃。通過盡早研究潛在的產(chǎn)品和選擇,你可以將問題縮小到可管理的規(guī)模,然后從同行那里獲得有關(guān)潛在問題或意外收獲的意見。重要的是,適當(dāng)?shù)匮芯坎⑦x擇正確的技術(shù)來完成正確的工作,最大限度地提高生產(chǎn)力,同時(shí)最大程度地減少時(shí)間和成本。”