五種加速云數(shù)據(jù)倉(cāng)庫(kù)遷移的方法
行業(yè)專家已經(jīng)進(jìn)行了研究,評(píng)估了各種云數(shù)據(jù)倉(cāng)庫(kù)(CDW)選項(xiàng),在整個(gè)組織中獲得了正確的買進(jìn)和批準(zhǔn),并準(zhǔn)備在Snowflake、Redshift、DeltaLake或其他云數(shù)據(jù)倉(cāng)庫(kù)(CDW)上繼續(xù)前進(jìn)。新的商業(yè)智能(BI)、分析和機(jī)器學(xué)習(xí)機(jī)會(huì)現(xiàn)在清晰可見。云數(shù)據(jù)倉(cāng)庫(kù)(CDW)與它們的內(nèi)部部署前輩相比,在速度、效率和成本方面具有優(yōu)勢(shì)。但前方仍有艱苦的工作要做,你們現(xiàn)在所做的選擇可能意味著數(shù)日、數(shù)月或數(shù)年之后你們將取得成功。
盡管提取、轉(zhuǎn)換和加載(ETL)的世界已經(jīng)從其內(nèi)部部署的根源發(fā)展起來,但構(gòu)建和管理將向數(shù)據(jù)消費(fèi)者交付分析就緒數(shù)據(jù)的數(shù)據(jù)管道仍然是非常資源密集型的。以下是減少這些資源需求并縮短成功發(fā)行云數(shù)據(jù)倉(cāng)庫(kù)(CDW)的時(shí)間的五種方法。
1.為任何數(shù)據(jù)源查找連接器
您可能有一個(gè)深厚而強(qiáng)大的數(shù)據(jù)工程師團(tuán)隊(duì),他們過去曾為源代碼集成編寫過代碼。他們甚至可能喜歡這項(xiàng)工作,盡管大多數(shù)人都很樂意離開這項(xiàng)乏味的工作。無論如何,這是加速數(shù)據(jù)倉(cāng)庫(kù)遷移的最大機(jī)會(huì)之一。在您之前,許多團(tuán)隊(duì)都需要數(shù)據(jù)庫(kù)、文件、應(yīng)用程序或事件流的連接器。有各種可用的預(yù)構(gòu)建連接器工具,涵蓋了大多數(shù)組織的大部分?jǐn)?shù)據(jù)源。當(dāng)然,也可能有一些您的行業(yè)甚至企業(yè)所獨(dú)有的數(shù)據(jù)源。但是,就像使用預(yù)構(gòu)建的連接器一樣,將受益于具有框架的供應(yīng)商的經(jīng)驗(yàn)以及處理自定義源的特定經(jīng)驗(yàn)。
2.自動(dòng)化基礎(chǔ)設(shè)施
通過遷移到云,您已經(jīng)離開了在數(shù)據(jù)中心管理物理服務(wù)器的世界,但如果不小心,您仍然可能會(huì)讓基礎(chǔ)設(shè)施工作壓倒您的團(tuán)隊(duì)。管理數(shù)據(jù)的重復(fù)移動(dòng)和準(zhǔn)備需要調(diào)度任務(wù)及其依賴關(guān)系、配置計(jì)算集群、優(yōu)化成本和性能等等。有不同的選項(xiàng)可以減輕您的團(tuán)隊(duì)的工程時(shí)間,從開源編排器和無服務(wù)器選項(xiàng)到完全管理的管道工具。
3.民主化數(shù)據(jù)生產(chǎn)
通常認(rèn)為數(shù)據(jù)民主化主要是一個(gè)成功的云數(shù)據(jù)倉(cāng)庫(kù)(CDW)項(xiàng)目的結(jié)果。為更多的數(shù)據(jù)消費(fèi)者提供儀表板和數(shù)據(jù)集當(dāng)然是數(shù)據(jù)素養(yǎng)組織的關(guān)鍵。讓數(shù)據(jù)的生產(chǎn)者——那些最熟悉數(shù)據(jù)的含義和歷史的人——能夠獲得數(shù)據(jù)也很重要。如果沒有這一點(diǎn),就需要一個(gè)中央團(tuán)隊(duì)負(fù)責(zé)選擇數(shù)據(jù),并將具有意義和價(jià)值的數(shù)據(jù)交付給數(shù)據(jù)消費(fèi)者。他們要么花費(fèi)無數(shù)小時(shí)研究每個(gè)域和數(shù)據(jù)源,要么最終生成用戶無法理解和不信任的云數(shù)據(jù)倉(cāng)庫(kù)(CDW)。更好的方法是為領(lǐng)域?qū)<姨峁o代碼工具,直接構(gòu)建管道并為分析準(zhǔn)備數(shù)據(jù)。
4.不要忽略排除故障的時(shí)間
當(dāng)您計(jì)劃遷移到云數(shù)據(jù)倉(cāng)庫(kù)(CDW)時(shí),很容易將所有注意力集中在啟動(dòng)云數(shù)據(jù)倉(cāng)庫(kù)(CDW)所需的數(shù)據(jù)工程工作上。然而,企業(yè)的數(shù)據(jù)工程師可能經(jīng)常花費(fèi)和其他事情一樣多的時(shí)間進(jìn)行故障排除。有用于監(jiān)視的工具,您可以編寫用于錯(cuò)誤警報(bào)的代碼。更有效的是完全管理的管道產(chǎn)品,它提供開箱即用的這些功能,并可以在問題到達(dá)您的團(tuán)隊(duì)之前解決問題。所有這五個(gè)技巧將增加您的云數(shù)據(jù)倉(cāng)庫(kù)(CDW)的正常運(yùn)行時(shí)間,這是您的數(shù)據(jù)工程師的最終時(shí)間緩解。這也是實(shí)現(xiàn)價(jià)值的關(guān)鍵,這取決于你的數(shù)據(jù)消費(fèi)者的信任和采用。
5.期待意外
在這一點(diǎn)上,可能會(huì)認(rèn)為自動(dòng)化已經(jīng)解決了所有問題,工具的生態(tài)系統(tǒng)已經(jīng)涵蓋了所有可以想象到的情況?,F(xiàn)實(shí)是沒有一個(gè)簡(jiǎn)單的按鈕,您應(yīng)該警惕黑盒解決方案,建議管道可以100%自動(dòng)化。數(shù)據(jù)源和目標(biāo)將會(huì)改變。您可能決定集成業(yè)務(wù)目錄或數(shù)據(jù)質(zhì)量工作流等功能。確保您已經(jīng)投資了具有靈活性的工具或服務(wù),以處理您獨(dú)特且不斷變化的環(huán)境。通過嚴(yán)格的自動(dòng)化,可以節(jié)省數(shù)百個(gè)小時(shí),但是當(dāng)他們需要解決邊緣情況時(shí),可以節(jié)省這些時(shí)間。