自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

數(shù)據(jù)倉庫有坑怎么辦,如何從0到1來填坑

大數(shù)據(jù) 數(shù)據(jù)倉庫
這種數(shù)據(jù)倉庫體系,最典型的特征,是找數(shù)據(jù)只能給表,無法通過規(guī)范自主查找;看邏輯只能問人,無法通過模型設(shè)計快速了解;問業(yè)務(wù)只能靠求,別人管不過來自己的事情了,哪有時間來管你?

[[409412]]

本文轉(zhuǎn)載自微信公眾號「曉陽的數(shù)據(jù)小站」,作者曉陽的數(shù)據(jù)小站。轉(zhuǎn)載本文請聯(lián)系曉陽的數(shù)據(jù)小站公眾號。

0x00 什么是數(shù)據(jù)倉庫的坑

“填坑”是一個新人剛加入團隊,或者是接手一個新業(yè)務(wù),所以經(jīng)常需要面對的事情。

“坑”的出現(xiàn),與歷史業(yè)務(wù)的發(fā)展,密切相關(guān)。通常體現(xiàn)在:業(yè)務(wù)快速變動、人員快速流動、系統(tǒng)化建設(shè)能力弱、強行上馬面子工程等情況。雖然數(shù)據(jù)開發(fā)人員能夠意識到數(shù)據(jù)倉庫規(guī)范性的重要,但迫于日常的數(shù)據(jù)開發(fā)壓力,往往只能匆忙的制訂一份規(guī)范,在實際開發(fā)過過程中,往往又無法完全照搬落實,因此形成了一個“不成熟”的數(shù)據(jù)倉庫體系。

這種數(shù)據(jù)倉庫體系,最典型的特征,是找數(shù)據(jù)只能給表,無法通過規(guī)范自主查找;看邏輯只能問人,無法通過模型設(shè)計快速了解;問業(yè)務(wù)只能靠求,別人管不過來自己的事情了,哪有時間來管你?

但是!我們不能坐以待斃,面對“理想”與“現(xiàn)實”的差距,我們必須有一套成熟的應(yīng)對方法,才能在紛亂的業(yè)務(wù)中,找到不變的哪條主線。

“對標!對標!再對標!”只有標桿有了,做事才能有章法,數(shù)據(jù)才能不錯誤。

0x01 理想的數(shù)據(jù)倉庫是什么樣子

這個標桿是什么?就是一個理想的數(shù)據(jù)倉庫模板。

做過數(shù)據(jù)倉庫的通過,基本上都了解,一個數(shù)據(jù)倉庫從0到1的過程中,會經(jīng)過三個階段:

  • 第一個階段:簡單報表 + 數(shù)據(jù)庫階段;
  • 第二個階段:數(shù)據(jù)集市 + 產(chǎn)品功能階段;
  • 第三個階段:數(shù)據(jù)倉庫 + 主題劃分階段。

而相對成熟的數(shù)據(jù)倉庫,則有如下幾個發(fā)展的方向:

  • 數(shù)據(jù)產(chǎn)品,通過產(chǎn)品化方式來輔助決策,服務(wù)業(yè)務(wù)方;
  • 數(shù)據(jù)運營,革新公司的運作方式,通過數(shù)據(jù)來運營業(yè)務(wù),常見于電商行業(yè);
  • 實時數(shù)倉,通過前沿的數(shù)據(jù)技術(shù),來革新數(shù)據(jù)使用方式,帶來技術(shù)競爭力;
  • 數(shù)據(jù)分析,通過配合分析師,貼近業(yè)務(wù)并發(fā)現(xiàn)問題,指導(dǎo)產(chǎn)品或業(yè)務(wù)迭代;
  • 數(shù)據(jù)挖掘,通過算法的力量,來給業(yè)務(wù)帶來智能化的色彩。

具體每個階段就不展開描述了,但我們可以比較清楚的看出來,數(shù)據(jù)倉庫是業(yè)務(wù)從混沌走向數(shù)字化的關(guān)鍵環(huán)節(jié),是承上啟下的樞紐,雖說沒有數(shù)據(jù)倉庫同樣能夠進行啟下的工作,但是其投入與產(chǎn)出終會因投入產(chǎn)出不成正比而無法持續(xù)的進行下去。

數(shù)據(jù)倉庫的建設(shè),是一項系統(tǒng)化的工程,但核心點就在三處:

第一處,規(guī)范層,比如表命名規(guī)范、刷新策略規(guī)范、數(shù)據(jù)存儲生命周期、字段命名規(guī)范、指標命名規(guī)范、時間維度規(guī)范、SQL編碼規(guī)范,等等,舊的業(yè)務(wù)可以不改造,但新的業(yè)務(wù)必須按照新的規(guī)范來。

第二處,主題域,也可以根據(jù)主題域,再細分為數(shù)據(jù)域,當前很多大公司普遍開展比較廣的業(yè)務(wù)范圍,僅電商就包括B2C、C2C、B2B、B2B2C等多種不同的業(yè)務(wù)模式,每種模式都具有自己的特點。同時,ToB的企業(yè)服務(wù)市場也正在蓬勃發(fā)展,因此企業(yè)級市場又面臨人力、行政、法務(wù)、場地、財務(wù)等多種不同的主題組合,因此找公司業(yè)務(wù)負責人聊一聊,先把公司的業(yè)務(wù)范圍是什么、系統(tǒng)有哪些、數(shù)據(jù)庫有多少分類、數(shù)據(jù)同步的方式如何,這些關(guān)鍵因素搞清楚,主題域才能夠做到合理劃分,避免后續(xù)大規(guī)模大范圍的調(diào)整。

第三處,數(shù)據(jù)分層規(guī)范,通常情況下,數(shù)據(jù)是分為ODS/DWD/DWS/ADS四層,一致性維度放在DIM中。這里再強調(diào)一下各層不同的地方。

ODS:源系統(tǒng)數(shù)據(jù)接入的地方,也是數(shù)據(jù)倉庫沉淀數(shù)據(jù)的核心,通常只存儲、不改造;

DWD:數(shù)據(jù)明細層,可以遵循三范式關(guān)系模型,也可以按照維度建模針對事實表做設(shè)計,對生產(chǎn)數(shù)據(jù)進行各種經(jīng)營分析口徑的加工轉(zhuǎn)換;

DWS:數(shù)據(jù)匯總層,主要是為了日常運營中快速反映各業(yè)務(wù)部門的數(shù)據(jù)需求,建立各種數(shù)據(jù)模型,對明細類數(shù)據(jù)進行分主題、分維度的聚合匯總;

ADS:數(shù)據(jù)出口層,面向需求做設(shè)計,是支撐需求和應(yīng)用的數(shù)據(jù)重要出口,針對諸如行列轉(zhuǎn)換、數(shù)據(jù)剪裁、數(shù)據(jù)加密等實際的業(yè)務(wù)場景;

DIM:一致性維度,不再贅述。

以上是一個理想數(shù)據(jù)倉庫的“雛形”。

0x02 我們有哪些方法來填坑

我們識別出了業(yè)務(wù)的問題,也有了建設(shè)的目標,下一步就是找策略、講打法的階段了。

首先,針對數(shù)據(jù)倉庫的改造,要有一套清晰的主線邏輯,大致包括如下幾個部分:

  • 識別環(huán)境:包括外部環(huán)境和企業(yè)內(nèi)部資產(chǎn);
  • 尋找問題:發(fā)現(xiàn)并標記當前業(yè)務(wù)中存在的問題;
  • 整理業(yè)務(wù):找熟悉公司業(yè)務(wù)的人,整理業(yè)務(wù)大圖;
  • 制定標準:按照理想數(shù)據(jù)倉庫的規(guī)范,整理團隊自己的標準;
  • 建立流程:將日常的開發(fā)行為,不斷的與規(guī)范進行對焦;
  • 執(zhí)行落地:通過監(jiān)控、CodeReview等方法,強力落地;
  • 總結(jié)思考:階段性的總結(jié)問題,并進行改進。

接下來分階段闡述:

識別環(huán)境:PMP中將項目的外部環(huán)境,定位了事業(yè)環(huán)境因素和組織過程資產(chǎn),兩大部分。針對事業(yè)環(huán)境因素,往往公司進行數(shù)倉建設(shè)時,都是在業(yè)務(wù)高速發(fā)展的大背景下開展的,數(shù)據(jù)開發(fā)與分析師團隊,面對強大的業(yè)務(wù)需求壓力,會尋求進行可靠的配合,識別團隊中靠譜的人,進行合作并推動項目落地。針對組織過程資產(chǎn),企業(yè)往往會有各種各樣的業(yè)務(wù),以及各種不同的文檔,在數(shù)倉團隊進行落地的過程中,是需要借鑒并參考大量的公司材料,整理團隊自己的業(yè)務(wù)大圖,同時盡可能的復(fù)用公司已有的技術(shù)工具,將精力更加聚焦在數(shù)據(jù)倉庫本身的業(yè)務(wù)上。

尋找問題:數(shù)據(jù)倉庫的建設(shè),本質(zhì)上“沒有對錯”之分,只有相對合理與否的區(qū)別,一個好的數(shù)據(jù)倉庫工程師,一定能夠發(fā)現(xiàn)很多問題,從問題中總結(jié)共性的問題出來。這些問題既不會因為公司壯大而消失,因此及時總結(jié)的問題,制定合理的應(yīng)對方法,并將知識傳承給新加入團隊的人員,共同做大做強,是數(shù)據(jù)倉庫走向成熟的標志之一、

整理業(yè)務(wù):整理業(yè)務(wù)的“輸出”,應(yīng)該是部門業(yè)務(wù)大圖、數(shù)據(jù)流程大圖、數(shù)據(jù)倉庫地圖、數(shù)據(jù)文檔集合等內(nèi)容。我們梳理一個復(fù)雜的知識體系,往往要從“點、線、面”三個角度,來串起整體業(yè)務(wù)。點是指每次做項目的文檔,詳細記錄的需求背景、需求詳情以及數(shù)倉的設(shè)計思路;線是指我們的數(shù)據(jù)產(chǎn)品/分析專題/業(yè)務(wù)環(huán)節(jié),將針對某個問題的分析或者剞劂思路展示出來;面是指業(yè)務(wù)大圖、流程大圖、數(shù)倉地圖等不同角度看數(shù)據(jù)的方式,根據(jù)內(nèi)容不同,提供給數(shù)據(jù)、業(yè)務(wù)、分析師等各方使用。“點、線、面”的方式,能夠很好的消除信息不對稱、數(shù)據(jù)查找、歷史業(yè)務(wù)理解等問題。

制定標準:規(guī)范、主題域、數(shù)據(jù)分層,因為不同公司的業(yè)務(wù)千差萬別,成熟的業(yè)務(wù),如電商,已經(jīng)走向了全面算法化、分析化的地步,但也有很多創(chuàng)新型的業(yè)務(wù),能夠建設(shè)出基本的數(shù)據(jù)倉庫體系,就算是業(yè)務(wù)上的一大突破了。因此,雖然面上的事情是大體相同的,但是細節(jié)的調(diào)整,還是需要開發(fā)團隊自己來斟酌衡量。

建立流程:數(shù)據(jù)開發(fā)的流程,分為代碼提交時的CodeReview、數(shù)據(jù)上線前的自測、數(shù)據(jù)運行時的監(jiān)控、項目交付前的測試、以及最終的業(yè)務(wù)驗收。但很多時候,為了避免數(shù)據(jù)出問題,我們會定下許許多多繁瑣的標準,這些標準會多多少少的拖累數(shù)據(jù)開發(fā)的進度。注意,不要矯枉過正,過份的追求規(guī)范,會影響日常的數(shù)倉建設(shè)進度。

執(zhí)行落地:大多數(shù)情況下,團隊都是按照項目制的方式,來組織相關(guān)的開發(fā)工作,因此除了PRD評審?fù)猓瑪?shù)據(jù)團隊還應(yīng)該有自己的技術(shù)評審,詳細講解業(yè)務(wù)的背景、E-R關(guān)系、模型設(shè)計方法、模型開發(fā)方式、數(shù)據(jù)規(guī)范與質(zhì)量保障、數(shù)據(jù)出口、數(shù)據(jù)自測方式等內(nèi)容,你可以不嚴格執(zhí)行這些過程,但也一定不能完全忽視這些過程。

總結(jié)思考:沒有什么規(guī)范是永恒的,同時也沒有什么問題是不會新增的,定期 Review團隊的工作過程,在周會、內(nèi)部分享、外部合作等場景下交流經(jīng)驗,是很有助益的。

0xFF 避免挖新坑的關(guān)鍵因素

避免“新坑”,核心在人,抓手在新人的招聘。

我一直認為,每個人做的選擇,在當時的情景看來,都是最合理的選擇,無論旁人看起來如何的不靠譜。無他,趨利避害的人性使然。

每個人的職業(yè)生涯都有各種不同的選擇,或為了一份大廠的經(jīng)歷、或為了一種輕松的生活、或為了一份賺錢的機會、或為了自己的人生理想。但技術(shù)人,由于其職業(yè)的特殊性,往往其職業(yè)發(fā)展都是相似的:【技術(shù)達人】 - 【獨當一面】 - 【領(lǐng)域?qū)<摇?- 【團隊Leader】 - 【部門領(lǐng)導(dǎo)】。只要認真工作5-7年,成為某個領(lǐng)域的專家,也就是P7的級別,并不難。但是再往后走,講道理,絕大多數(shù)團隊,不需要多個Leader,因此就非常講究時運了。

因此,新人的加入,一定要看清楚加入的目的是什么、對于團隊的訴求如何,畢竟我們不希望人員一直是流動的,因為再好的規(guī)范和方法,也是需要人來傳承的,但團隊流動性很高時,舊的坑即使填上了,新的坑也會不斷的被挖出來。

這也是HR一直在強調(diào):“我們在招聘自己的同事”,發(fā)動大家一同招聘的原因。

 

有道是:“謀事在人,成事在天”,我們年輕的時候,都有選擇的權(quán)利,只是不論是年歲增長、還是職級晉升,往后的選擇,會越來越少。這種選擇,不僅僅是招聘一個新人的公司成本,也是職業(yè)發(fā)展的個人成本。

 

責任編輯:武曉燕 來源: 曉陽的數(shù)據(jù)小站
相關(guān)推薦

2020-06-18 14:39:42

MongoDB數(shù)據(jù)數(shù)據(jù)庫

2023-11-09 15:56:26

數(shù)據(jù)倉庫數(shù)據(jù)湖

2016-12-05 11:37:41

云計算海航云綜合云

2024-09-26 17:32:24

2021-11-18 08:55:49

共享CPU內(nèi)存

2024-06-04 22:20:02

2023-06-12 07:00:40

Rust進度任務(wù)

2021-03-31 08:33:17

SysTick定時器SysTick定時器

2024-09-23 21:48:57

2024-09-23 21:55:10

2024-09-23 21:51:52

數(shù)據(jù)倉庫數(shù)據(jù)中臺數(shù)據(jù)飛輪

2023-08-09 08:00:00

數(shù)據(jù)倉庫數(shù)據(jù)架構(gòu)

2024-09-29 13:49:25

2024-09-23 20:11:47

2016-11-28 16:23:23

戴爾

2018-02-27 16:01:24

2022-05-09 08:35:43

面試產(chǎn)品互聯(lián)網(wǎng)

2024-10-22 09:30:00

飛輪數(shù)據(jù)算法應(yīng)用

2024-09-26 17:28:49

數(shù)據(jù)飛輪數(shù)據(jù)中臺

2024-09-22 11:03:11

數(shù)據(jù)倉庫數(shù)據(jù)飛輪
點贊
收藏

51CTO技術(shù)棧公眾號