自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

“實時數(shù)倉”若干問?

原創(chuàng) 精選
大數(shù)據(jù) 數(shù)據(jù)倉庫
如果從一個初學者來說這些技術可能大家聽起來會很容易覺得混淆,他們到底是什么樣的一些關系?我為大家去簡單的梳理一下。

近期接受ITPUB的專訪,談到關于實時數(shù)倉的若干問題。下面挑選其精華分享如下:

一、實時數(shù)倉、數(shù)據(jù)庫、湖倉一體傻傻分不清?

確實,如果從一個初學者來說這些技術可能大家聽起來會很容易覺得混淆,他們到底是什么樣的一些關系?我為大家去簡單的梳理一下。

1.大數(shù)據(jù)平臺

我們先談最基本的一個叫大數(shù)據(jù)平臺,大數(shù)據(jù)平臺是什么?大數(shù)據(jù)平臺是一種利用大數(shù)據(jù)技術去解決數(shù)據(jù)問題的一種技術平臺,也就是說它是一種技術的一些基本能力的集合,它并不一定是解決某一種具體的業(yè)務問題。比如說數(shù)據(jù)倉庫就是我們解決數(shù)據(jù)的使用的某一個具體業(yè)務問題的一種產(chǎn)品,但是大數(shù)據(jù)平臺它是個通用化的產(chǎn)品,那么這種通用化的產(chǎn)品可以解決數(shù)據(jù)的很多方面的訴求。我們可以通過大數(shù)據(jù)平臺這個平臺去自己靈活的組裝成滿足我們一個業(yè)務場景的一個具體的一個解決方案,它是這樣的概念。也就是說大數(shù)據(jù)平臺是一個通用化的技術平臺。那么比較典型的比如像數(shù)據(jù)倉庫領域,大家用得比較多的像過去我們用hadoop上面基于hive,現(xiàn)在我們可以看到很多的像input、procedure類似于clob這樣的一些大數(shù)據(jù)平臺,都可以解決我們一定數(shù)據(jù)的一些分析計算的問題。但是坦白講大數(shù)據(jù)本身這個平臺還是一個技術平臺的定位,那么這是第一個。

2.數(shù)據(jù)中臺

第二個我們再談談數(shù)據(jù)中臺,可以說在過去的三到四年,數(shù)據(jù)中臺是非常的火。國內(nèi)也有一些初創(chuàng)的廠商,大家在做數(shù)據(jù)中臺。數(shù)據(jù)中臺是什么?我們要強調(diào)一點,數(shù)據(jù)中臺其實并不是一個技術平臺,它是一種業(yè)務平臺,也就是說數(shù)據(jù)中臺是把我們企業(yè)內(nèi)部的數(shù)據(jù)服務通過業(yè)務的方式重新組織之后,為我們的前端業(yè)務系統(tǒng)提供支撐的一類平臺。所以說這里邊我們的數(shù)據(jù)的中臺,可能更多的是面對于我們的業(yè)務側解決我們的業(yè)務問題,那么它的底層會依賴于一些基礎的技術。比如說我們可以基于一個大數(shù)據(jù)平臺之上去構建出自己的數(shù)據(jù)中臺或者是基于其他的一些技術組合去做我們的底層技術,去支撐我們的數(shù)據(jù)中臺。但是從中臺本身這個概念來講,它并不是解決技術問題的,它是為了解決我們企業(yè)的數(shù)據(jù)業(yè)務問題。

3.數(shù)據(jù)湖

第三個是數(shù)據(jù)湖,數(shù)據(jù)湖的概念相對來說比數(shù)據(jù)倉庫的概念要稍微晚一點。它的出現(xiàn)是為了解決什么樣的問題呢?就是過去我們對于數(shù)據(jù)是一種非常標準化的,非常規(guī)格化的,做好了數(shù)據(jù)建模的一種組織形式。那么我們現(xiàn)在也看到,有更多的一些數(shù)據(jù)他們是沒有嚴格按照我們的數(shù)據(jù)建模的,或者說他們是非常零散的,散落在各處的,非常的多模,存在不同的這種數(shù)據(jù)存儲形式的這樣一些數(shù)據(jù)。這些數(shù)據(jù)在過去是沒有辦法很好的把它組織管理起來的,后來因為大家有了這樣的一些訴求就出現(xiàn)了數(shù)據(jù)湖技術。通過這個名字大家也可以看到數(shù)據(jù)湖是數(shù)據(jù)湖,它的含義就是像一個湖一樣,把我們企業(yè)內(nèi)部的散落在各處的數(shù)據(jù)能夠集中在一起,然后我提供一定的數(shù)據(jù)的計算加工的這樣一些能力,這是我們講的數(shù)據(jù)湖。

那么數(shù)據(jù)湖和我們的數(shù)據(jù)倉庫在之前是有一種對應的關系的。數(shù)據(jù)倉庫更強調(diào)的是這種建模的,比較規(guī)整的,比較嚴格按照一個規(guī)范要求去預設好的這樣一些條件的數(shù)據(jù)。那么這些數(shù)據(jù)往往存在我們數(shù)據(jù)倉庫里面,它的計算查詢的效率會更高一點,數(shù)據(jù)湖更涉及到?jīng)]有做過這種很好的一些標準化的一些數(shù)據(jù)。所以這兩個是有一種互補的關系。當然,從企業(yè)來講,我現(xiàn)在存在著兩個數(shù)據(jù)不同的載體,我的很標準的,預建模好的,很標準化的計算數(shù)據(jù)在我們的數(shù)據(jù)倉庫里面。但是呢,還有一些數(shù)據(jù)湖的數(shù)據(jù)是非常散亂的。那么有沒有一個數(shù)據(jù)的統(tǒng)一視角呢?這個時候就出現(xiàn)了我們的湖倉一體的這個技術。

4.湖倉一體

湖倉一體的技術就是融合的數(shù)據(jù)湖和數(shù)據(jù)倉庫這兩種技術,提供了一種大一統(tǒng)的一個解決方案。從更高的維度去看待我們企業(yè)內(nèi)部的數(shù)據(jù)。所以說湖倉一體是提供了一種更全局的一個視角去看待我們的數(shù)據(jù)。

5.實時數(shù)倉

那么今天我們談到的實時數(shù)據(jù)倉庫實際上就是從另外一個角度去談,對我們數(shù)據(jù)倉庫中的實時性部分的需求做了特殊加強的一種技術平臺,它提供的是我們對于實時數(shù)據(jù)倉庫領域里面,對于那種需要我們的數(shù)據(jù)的采集計算加工處理,實現(xiàn)要求很高的一些領域的一種特有的一種技術,所以它也是一種技術名詞。

二、盡管實時數(shù)倉的最終實現(xiàn)效果都是為了數(shù)據(jù)實時性要求,但實際表現(xiàn)形式卻“五花八門”,很多企業(yè)用云數(shù)倉、湖倉一體架構解決實時數(shù)倉需求。您如何看待這種變化?到底什么才是實時數(shù)倉?

眾所周知,數(shù)據(jù)倉庫是一種非常久遠的技術,從上世紀80年代到現(xiàn)在發(fā)展的已經(jīng)有三、四十年的歷史了。過去數(shù)據(jù)倉庫主要是解決我們的一些離線問題,現(xiàn)在我們也看到越來越多的企業(yè)把數(shù)據(jù)倉庫用在一些實時領域,就產(chǎn)生了所謂的實時數(shù)倉這樣的一個概念。那為什么會有這樣的一些需求呢?更多的是來自于我們企業(yè)對于數(shù)據(jù)實時性的要求,已經(jīng)慢慢的變得更加重要,甚至在某些情況下會大于我們數(shù)據(jù)分析的價值。這個時候就凸顯了我們實時數(shù)倉的一個意義。這里面我們看到現(xiàn)在有很多的技術去支撐我們的數(shù)據(jù)倉庫,包括大家現(xiàn)在耳熟能詳?shù)南駭?shù)據(jù)湖、湖倉一體以及云原生數(shù)倉等等很多的概念,他們跟實時數(shù)倉有什么樣的關系呢?今天我們在這個場合會跟大家共同去探討數(shù)倉技術以及實時數(shù)倉能給我們企業(yè)帶來什么樣的不同,什么樣的價值。

實時數(shù)據(jù)倉庫經(jīng)歷了哪幾個重要發(fā)展階段?從底層架構來看,實時數(shù)倉和離線數(shù)倉的最根本區(qū)別是什么?到底是哪些關鍵技術讓實時數(shù)倉“夢想照進現(xiàn)實”?

三、先來看第一個問題就是數(shù)據(jù)倉庫的發(fā)展。我之前也講到數(shù)據(jù)倉庫從上世紀80年代到現(xiàn)在三四十年的歷史發(fā)展之中,數(shù)據(jù)倉庫大概經(jīng)歷了幾個階段:

從早期的離線數(shù)倉,它解決了我們企業(yè)數(shù)據(jù)的分析基本問題,從原有的交易性數(shù)據(jù)庫很難滿足我們分析的訴求;離線的數(shù)倉提供了一種一定的數(shù)據(jù)規(guī)模下的數(shù)據(jù)分析的能力;現(xiàn)在隨著我們對于數(shù)據(jù)實時要求性比較高,后面出現(xiàn)了一些實時數(shù)倉分支的技術。比如大家現(xiàn)在比較熟知的像Lambda架構、Kappa架構,這些架構的出現(xiàn)更多的是為了滿足我們數(shù)據(jù)在實時處理、實時查詢方面的一些訴求,這也是我們實時數(shù)倉的一個雛形。到了現(xiàn)在我們可以看到數(shù)據(jù)倉庫在更多的領域得到了一些使用。剛才談到的這些Lambda架構包括Kappa架構,也在很好的程度上去解決了實時的問題。當然了,我們現(xiàn)在有了更好的一些技術來去滿足我們的實時數(shù)倉。

我們從本質(zhì)上來看實時數(shù)倉和我們的離線數(shù)倉有什么樣的區(qū)別呢?從這個名字上可以很容易的區(qū)分:一個是離線;一個是實時,這是它的最本質(zhì)的差別。離線數(shù)倉是指我們的整個數(shù)據(jù)的獲取、加工、處理、計算的整個流程是在離線的形式上,也就是說不是一個online在線的方式。實時數(shù)倉就反知它是提供了一種在線的實時的一個能力,這是兩者最大的區(qū)別。正是有這個區(qū)別,使得我們實時數(shù)倉能夠解決我們很多的業(yè)務場景中,過去用離線數(shù)倉無法滿足的一些對數(shù)據(jù)實時性要求很高的場景,都可以用實時數(shù)倉去解決。

現(xiàn)在有什么樣的技術去解決這樣的問題呢?包括我們之前談到的關于Lambda、Kappa這樣的架構。其實它的背后都是我們的流式處理架構的一些發(fā)展,包括現(xiàn)在我們也有了一些像云數(shù)倉通過云端的基礎設施對我們提供了很好的平臺。包括也有一些像AI與數(shù)倉的結合,也包括一些其他的領域,其實這些技術的誕生都為我們的實時數(shù)倉做好了一些鋪墊。

當然我們講到傳統(tǒng)數(shù)倉的技術對現(xiàn)有的實時數(shù)倉仍然具有很大的支撐的意義,包括比較典型的像MPP的架構,在我們實時數(shù)倉當中仍然是主流的實現(xiàn)的技術??梢哉f,正是這樣的一些新興技術和我們離線數(shù)倉既有的一些技術基礎,共同打造為我們的實時數(shù)倉奠定了很好的技術基礎,也為整個實時數(shù)倉未來的發(fā)展會起到很好的助力。

四、針對當前的傳統(tǒng)企業(yè),特別是金融企業(yè),實時數(shù)據(jù)倉庫的建設情況如何?對實時數(shù)據(jù)分析的需求,到底如何?

可以說實時數(shù)倉是一個跨領域、跨行業(yè)的一種基礎技術,在不同的領域都能得到很好的應用發(fā)展。針對我們傳統(tǒng)企業(yè),以金融業(yè)為代表,他們其實對于數(shù)據(jù)有著更高的要求。我之前也是一名金融行業(yè)的從業(yè)者,金融行業(yè)素以數(shù)據(jù)應用高地著稱,他們對于數(shù)據(jù)的嚴謹性、實時性的要求會非常的嚴格和苛刻。其實實時數(shù)倉的技術,對于金融行業(yè)會帶來很非凡的意義。我們知道金融對我們數(shù)據(jù)要求會比較嚴格,在過去很多的金融場景受限于我們底層的技術,是沒有辦法很好的去實現(xiàn)的?,F(xiàn)在有了實時數(shù)倉,其實對于金融業(yè)來說會有一些新的業(yè)務的突破。比如像我們比較常見的像實時的風控、反欺詐包括實時營銷、在線分析等等很多的領域,正是因為有了實時數(shù)倉的出現(xiàn)能為金融行業(yè)去做了很好的基礎,能夠滿足于一些金融行業(yè)更多的新的業(yè)務形態(tài)的訴求。除了金融行業(yè)之外,其他的一些企業(yè)包括像物流、制造業(yè)、游戲、電商等等等等很多的行業(yè)領域,他們對于數(shù)據(jù)的實時性要求都有其各自的特點。那么實時數(shù)倉的出現(xiàn)也為這些行業(yè)打開了一個新的一種業(yè)務的發(fā)展的可能性。

所以我說實時數(shù)倉在各個行業(yè)領域都會有著比較好的發(fā)展,當然受限于不同的行業(yè)發(fā)展階段,實時數(shù)倉在不同行業(yè)的發(fā)展也有所差異。目前我們看到像以互聯(lián)網(wǎng)企業(yè)他們在實時數(shù)倉領域?qū)嵺`會更加的…

五、從實時數(shù)倉落地的角度看,哪些行業(yè)發(fā)展速度最快?推動實時速倉快速發(fā)展的最根本原因是什么?在互聯(lián)網(wǎng)行業(yè),實時數(shù)倉技術應用更加廣泛些,其背后的原因是什么?

  • 首先,互聯(lián)網(wǎng)企業(yè)其業(yè)務發(fā)展速度是比較快的,有大量的新興業(yè)務存在,這就促生對數(shù)據(jù)計算的更多訴求,實時數(shù)倉在其中會發(fā)揮較大作用。
  • 第二,就是技術儲備,互聯(lián)網(wǎng)行業(yè)在過去一二十年的發(fā)展,積累了大量技術,特別是一些互聯(lián)網(wǎng)大廠,技術積累是比較深厚的。針對數(shù)據(jù)倉庫這塊,有比較深入的沉淀,包括前面談到的Lambda、Kappa這樣的新興流式處理架構,都在一些大廠的得到非常多實踐;同樣包括新興實時數(shù)倉技術,也有實踐。所以說相對傳統(tǒng)企業(yè)來說,互聯(lián)網(wǎng)技術積累會更加豐富一點。
  • 第三,就是關于業(yè)務模型?;ヂ?lián)網(wǎng)行業(yè)跟很多傳統(tǒng)企業(yè)不同,其業(yè)務模型的往往是ToC的,相對來說業(yè)務模型的會簡單一點,這對于實時數(shù)倉的技術落地會更加容易。對建模的要求也不高,通常一個簡單寬表可能就能支持大部分業(yè)務了。
  • 第四,就是沒有歷史的包袱。一個企業(yè)是否是使用一種新技術,也取決于技術積累和技術棧演進發(fā)展。傳統(tǒng)企業(yè),多少會存在一定的歷史包袱,存在存量業(yè)務很難去完全切換到新的技術棧。對于互聯(lián)網(wǎng)來說,這方面包袱相對比較小,所以比較容易去采用一種新的技術架構。
  • 第五,就是技術的迭代發(fā)展,我們知道技術從來不是憑空而降,都是不斷的演進迭代的?;ヂ?lián)網(wǎng)行業(yè),經(jīng)過這么多年發(fā)展,對于數(shù)倉的使用經(jīng)歷從離線到流式到實時這一過程,這一演進過程也促進了實時數(shù)倉在互聯(lián)網(wǎng)企業(yè)的發(fā)展。

六、不同行業(yè)、應用場景,在實時數(shù)倉方面的落地方案有哪些差異化特點?在底層的技術架構上又有哪些相同點?

個人觀點,實時數(shù)倉是一種通用的技術,針對于不同行業(yè)落地,存在一定差異,但這個差異不大,更多是來自于行業(yè)自身的一些業(yè)務特點。舉個例子,比如說傳統(tǒng)數(shù)據(jù)庫都有一個叫ACID的能力,也就是對數(shù)據(jù)一致性要求,過去在數(shù)倉領域不太強調(diào)這一概念。那么現(xiàn)在將實時數(shù)倉應用到更多線業(yè)務領域,這就對數(shù)據(jù)有了一致性要求,ACID能力就變得非常關鍵, 如果一個行業(yè)業(yè)務形態(tài)很強調(diào)這點的話,自然而然就會用到這樣技術。

七、您認為哪些業(yè)務場景更適合用實時數(shù)倉平臺或者解決方案?自研和采購三方廠商服務都存在怎樣的優(yōu)缺點?

實時數(shù)倉,跟所有新技術一樣,都有其長處和短板,而不是一種萬能的方案,在具體實施上面要分場景。之前大量使用的傳統(tǒng)離線數(shù)倉與現(xiàn)有的實時數(shù)倉,兩者不是替代關系,而是共存。在很多業(yè)務場景下,其實還需要兩者來配合使用。一方面,實時數(shù)倉給我們提供了非常好的實時性,但相對而言在數(shù)據(jù)處理吞吐能力上,較離線數(shù)倉仍存在明顯差距。如果說數(shù)據(jù)規(guī)模中等,對實施性要求較高且并發(fā)控制在一定范圍內(nèi)的情況下,實時數(shù)倉技術就比較合適 ;反之的比如說是一個大規(guī)模、甚至超大規(guī)模,更加強調(diào)數(shù)據(jù)吞吐能能或者是較高并發(fā)性要求下,傳統(tǒng)離線數(shù)倉會更加合適。

另一個問題就是自研或引入三方服務上,這里涉及到企業(yè)自有的技術積累問題。數(shù)據(jù)倉庫技術,特別是在之前發(fā)展,技術路線是相對比較發(fā)散的。從傳統(tǒng)樹倉到流式處理,有很多企業(yè)會自己去構建數(shù)據(jù)倉庫系統(tǒng),這顯然對企業(yè)的數(shù)據(jù)技術人員有較高要求,實時數(shù)倉對企業(yè)的人員則會更高。這個時候呢,就需要看企業(yè)是否已經(jīng)有較好的技術積累,能夠駕馭好這樣的數(shù)倉能力。如果說有一定技術積累,可以去用自研方式;反之更加建議使用三方廠商提供比較成熟產(chǎn)品及服務。特別是現(xiàn)在,很多實時數(shù)倉產(chǎn)品都提供類SQL的交互方式,可使用戶使用門檻大幅降低,這對于企業(yè)數(shù)據(jù)人員會帶來很大便利。

八、您認為離線數(shù)倉會被取代嗎?云數(shù)倉會成為實時數(shù)倉的中級發(fā)展方向?

雖然實時數(shù)倉是主流趨勢,但離線數(shù)倉短時間內(nèi)也不會被完全取代。這兩種技術,對我們來說都是需要的,也都很重要;而且在客戶的很多場景里面也同時需要離線數(shù)倉和實時數(shù)倉,這兩種技術是一個互為補充的關系。實時數(shù)倉為企業(yè)在一些實時性要求高的新業(yè)務探索方面

提供一些可能性,但在企業(yè)里仍存在大量的如T+1的離線報表,這種計算任務還是需要離線數(shù)倉的。

此外,之前談到的湖倉一體與實時數(shù)倉也是不矛盾的。前者是提供了基于傳統(tǒng)的數(shù)據(jù)倉庫和數(shù)據(jù)湖技術的一種融合技術,提供一種更好的數(shù)據(jù)交互方式。當然,它呈現(xiàn)的形式可以是這種實時數(shù)據(jù)服務形式,也可以是一種離線的。這兩個技術不是一個對等的概念。

還有就是關于云數(shù)倉。我相信大家都看到了這一點,云代表著未來這種方向。我們看到有越來越多的基礎設施產(chǎn)品都搬到了云端,那么在云數(shù)倉上對數(shù)倉發(fā)展來也有著非常重要意義。數(shù)據(jù)倉庫,一個特點就是資源消耗比較大,包括數(shù)據(jù)的存儲資源和計算資源,而云恰恰為我們很好的解決這樣問題。其本質(zhì)是解決一個資源供給問題,所以說數(shù)據(jù)倉庫和云的結合,會非常好的解決在資源需求上的一些痛點。同時云廠商也都在云這樣好的基礎設施之上為數(shù)據(jù)倉庫領域做了定制增強,可以使數(shù)倉更好的利用了云端資源,這為客戶會帶來附加價值。比如說,資源的彈性調(diào)度能力、數(shù)據(jù)快速獲取能力、上下游數(shù)據(jù)生態(tài)打通能力。這些都是云端為數(shù)倉所帶來的一些加長成。

九、您認為實時數(shù)據(jù)倉庫的最關鍵能力是什么?如何全面確保數(shù)據(jù)分析的實時性、正確性、穩(wěn)定性?

實時數(shù)倉,還是一個快速發(fā)展中的技術,我們對它也抱有非常多期許,希望能給企業(yè)的數(shù)據(jù)應用帶來很多的不同,因此我們看到對于實時數(shù)倉的關鍵技術要求,還在不斷演進變化之中。這其中包括很多能力。

第一,如實時數(shù)據(jù)獲取感知能力,就是通過這個能力可快速捕捉到數(shù)據(jù)和數(shù)據(jù)變化;數(shù)據(jù)的實時計算加工等等。

第二,傳統(tǒng)數(shù)據(jù)倉庫相對來說是比較重的,對于企業(yè)來說投入較大,那么實時數(shù)倉其實為我們提供了一種可簡化的方式,即提供相對較低的使用成本,以一種更小、更節(jié)約化的架構去支撐現(xiàn)有企業(yè)的數(shù)據(jù)架構。

第三,就是所謂的one data概念。過去數(shù)倉的一大特點,就是數(shù)據(jù)是要經(jīng)過多級分層的,其目的是為了提升數(shù)據(jù)利用效率,而今天實時數(shù)倉的出現(xiàn)其實是為了我們開啟一種新的可能性,就是企業(yè)數(shù)據(jù)可保存成一份,充分利用前端豐富算力進行計算。這一方式會大幅節(jié)約存儲成本,在維護數(shù)據(jù)質(zhì)量方面也很好。

第四,就是便捷性,未來我們是希望實時數(shù)倉能夠提供兩個一站式能力。一種是面對開發(fā)人員的服務能力,包括數(shù)據(jù)建模、數(shù)據(jù)開發(fā)、模型預測等。一種是針對整個數(shù)據(jù)使用流程從數(shù)據(jù)的采集、加工、計算、展示,全流程能夠通過實時數(shù)倉統(tǒng)一提供。

十、實時數(shù)倉與AI,云技術如何結合?

責任編輯:武曉燕 來源: 韓鋒頻道
相關推薦

2022-08-01 15:58:48

數(shù)據(jù)倉庫架構數(shù)據(jù)

2023-08-29 10:20:00

2021-07-13 07:04:19

Flink數(shù)倉數(shù)據(jù)

2023-10-13 07:25:50

2021-07-22 18:29:58

AI

2024-09-03 14:59:00

2022-06-27 09:09:34

快手Flink數(shù)倉建設

2021-01-18 05:20:52

數(shù)倉hive架構

2023-07-27 07:44:07

云音樂數(shù)倉平臺

2021-08-31 10:18:34

Flink 數(shù)倉一體快手

2021-07-16 10:55:45

數(shù)倉一體Flink SQL

2018-10-19 14:16:09

Flink數(shù)據(jù)倉庫數(shù)據(jù)系統(tǒng)

2023-05-06 07:19:48

數(shù)倉架構技術架構

2024-07-25 08:12:11

2021-04-27 10:22:04

數(shù)倉分布式事務

2022-01-11 09:38:22

數(shù)倉場景趨勢

2022-09-02 09:33:04

亞馬遜數(shù)倉

2022-01-05 18:18:01

Flink 數(shù)倉連接器

2022-06-22 06:42:35

美團業(yè)務FlinkSQL數(shù)倉
點贊
收藏

51CTO技術棧公眾號