第14期：計算封閉性導(dǎo)致臃腫的數(shù)據(jù)庫

作者：數(shù)據(jù)蔣堂 2017-07-12 07:27:11

許多大型用戶的數(shù)據(jù)庫（倉庫）在運(yùn)行多年之后，都會積累出很多的數(shù)據(jù)表，嚴(yán)重者數(shù)以萬計。這些表是真地業(yè)務(wù)需要嗎需要嗎?業(yè)務(wù)會復(fù)雜到需要成千上萬的表才能描述嗎?

許多大型用戶的數(shù)據(jù)庫(倉庫)在運(yùn)行多年之后，都會積累出很多的數(shù)據(jù)表，嚴(yán)重者數(shù)以萬計。這些數(shù)據(jù)表年代久遠(yuǎn)，有些已經(jīng)忘記建設(shè)原因，甚至可能已不再有用，但因為很難確認(rèn)而不敢刪除。這給運(yùn)維工作帶來巨大的負(fù)擔(dān)。伴隨著這些表還有大量的存儲過程仍在不斷地向這些表更新數(shù)據(jù)，占用大量計算資源，經(jīng)常要迫使數(shù)據(jù)庫擴(kuò)容。

這些表是真地業(yè)務(wù)需要嗎需要嗎?業(yè)務(wù)會復(fù)雜到需要成千上萬的表才能描述嗎?

有過開發(fā)經(jīng)驗的人都知道這不大可能，幾百個表就能描述相當(dāng)復(fù)雜的業(yè)務(wù)了。這些眾多的表絕大多數(shù)都是所謂的中間表，并不是用來存儲基礎(chǔ)數(shù)據(jù)的。

一

那么，為什么會有中間表?中間表是用來做什么的?

一般來說，中間表會有內(nèi)部和外部兩種來源。

內(nèi)部產(chǎn)生的中間表大多是為數(shù)據(jù)呈現(xiàn)(報表或查詢)服務(wù)的。原始數(shù)據(jù)量很大時，直接基于原始數(shù)據(jù)計算匯總信息時的性能會很差，用戶體驗惡劣。這時，我們會先把一些匯總結(jié)果事先計算出，再基于這些中間結(jié)果產(chǎn)生報表，用戶體驗就會好很多。而這些中間數(shù)據(jù)就會以中間表的形式存儲。有時候是因為計算過程很復(fù)雜，在生成報表時臨時計算會使報表開發(fā)過于繁瑣，也會采用中間表事先計算好。這類中間表都會伴隨著存儲過程去定時更新數(shù)據(jù)，不僅占用存儲空間，還會消耗計算資源。而且，報表是業(yè)務(wù)穩(wěn)定性比較差的業(yè)務(wù)，會經(jīng)常修改和增加，隨之而生的中間表也會越來越多。

那么，為什么要把中間數(shù)據(jù)以數(shù)據(jù)庫表的形式存儲呢?這主要是為了獲得進(jìn)一步的計算能力。數(shù)據(jù)呈現(xiàn)時，并不能簡單地把計算好的中間數(shù)據(jù)直接取出來呈現(xiàn)，而仍然需要做一輪簡單些的計算，比如根據(jù)參數(shù)進(jìn)行過濾，有時還有再匯總的需求。而這些計算是數(shù)據(jù)庫比較適合實現(xiàn)的，如果把中間數(shù)據(jù)保存成文件，則將失去計算能力，所以程序員會習(xí)慣于使用中間表。

二

來源于外部的中間表又有兩種情況，一種是在ETL過程中產(chǎn)生的。ETL過程中常常會涉及到數(shù)據(jù)庫的數(shù)據(jù)，正常的ETL過程應(yīng)當(dāng)是E、T、L這三個步驟逐步進(jìn)行，也就是先清洗轉(zhuǎn)換之后再加載進(jìn)數(shù)據(jù)庫，***在數(shù)據(jù)庫中的只是合理的結(jié)果數(shù)據(jù)。但是，E(清洗)和T(轉(zhuǎn)換)這兩個步驟中會涉及到大量數(shù)據(jù)計算，而在數(shù)據(jù)庫外實施這些計算很不方便，所以實際情況就會是把涉及到的所有數(shù)據(jù)都先加載進(jìn)來然后再進(jìn)行清洗和轉(zhuǎn)換，ETL過程變成了ELT甚至LET。事先要加載的這些數(shù)據(jù)在關(guān)系數(shù)據(jù)庫中也必須以表的形式存儲，這就使數(shù)據(jù)庫中增加了許多并非最終需要的中間表。

另一種情況是多樣性數(shù)據(jù)源造成的，這也是為數(shù)據(jù)呈現(xiàn)(報表查詢)服務(wù)的?，F(xiàn)代應(yīng)用中的數(shù)據(jù)呈現(xiàn)經(jīng)常會涉及數(shù)據(jù)庫外的數(shù)據(jù)，目前一般的做法是把庫外數(shù)據(jù)定時導(dǎo)入到數(shù)據(jù)庫中，然后就能和數(shù)據(jù)庫內(nèi)的數(shù)據(jù)一起運(yùn)算產(chǎn)生報表，否則很難實現(xiàn)數(shù)據(jù)庫內(nèi)外的數(shù)據(jù)的混合運(yùn)算。這當(dāng)然也會讓數(shù)據(jù)庫中多了一些表，而且，有些互聯(lián)網(wǎng)上取過來的數(shù)據(jù)常常是多層的json或XML格式，在關(guān)系數(shù)據(jù)庫中還要建立多個關(guān)聯(lián)的表來存儲，會進(jìn)一步加劇中間表過多的問題。

三

我們發(fā)現(xiàn)這幾種情況的中間表都有一個共同點(diǎn)：就是要利用數(shù)據(jù)庫的計算能力。數(shù)據(jù)庫外缺乏強(qiáng)有力的計算能力，而數(shù)據(jù)庫的計算能力又是封閉的(它不能計算數(shù)據(jù)庫外的數(shù)據(jù))，這樣，為了獲得數(shù)據(jù)庫的計算能力，我們就只能把許多數(shù)據(jù)先裝入數(shù)據(jù)庫，也就形成了中間表。

數(shù)據(jù)庫的存儲封閉性是有意義的，這樣可以確保庫內(nèi)數(shù)據(jù)滿足一條規(guī)則的約束性，保證數(shù)據(jù)的正確合理性。但計算能力的封閉性卻沒有什么必要，對于計算而言，本來也沒有庫內(nèi)庫外之分。但是數(shù)據(jù)庫的計算模型是建立在其存儲模型之上的，這就迫使其計算能力和存儲能力一起封閉了，為了獲得計算能力只能把數(shù)據(jù)庫搞臃腫。這不僅給管理造成麻煩，而且由于數(shù)據(jù)庫的存儲及計算資源都相對昂貴，僅僅是為了獲得計算能力就去擴(kuò)容或部署新數(shù)據(jù)庫，在經(jīng)濟(jì)上也不劃算。

四

計算封閉性導(dǎo)致臃腫的數(shù)據(jù)庫，而導(dǎo)致運(yùn)維困難的還有數(shù)據(jù)庫的另兩個技術(shù)機(jī)制。

數(shù)據(jù)庫是一個共享的獨(dú)立進(jìn)程，其計算能力在應(yīng)用外部，而不從屬于某個應(yīng)用。各個應(yīng)用共享數(shù)據(jù)庫，都能訪問數(shù)據(jù)庫的資源。某個應(yīng)用(模塊)中生成的中間表或存儲過程可能被另一個應(yīng)用(模塊)調(diào)用，這就造成了應(yīng)用(模塊)之間的耦合性，即使某個中間表的制造者已經(jīng)下線不用，但因為可能被別的應(yīng)用使用了而不能刪除。

數(shù)據(jù)庫的表還是一種線性組織。在條目數(shù)量不多時尚可，太多(幾千上萬時)就很難理解，人們一般會采用樹狀多層結(jié)構(gòu)來組織管理眾多的條目。但關(guān)系數(shù)據(jù)庫并不支持這種方案(有個模式概念可理解為只能分兩層)，這時候就要給表較長的命名來區(qū)別其分類，這一方面使用不便，另一方面對開發(fā)管理水平要求很高，在工作較急迫時常常顧不上規(guī)范，而隨便起個名字先把任務(wù)完成再說，時間長了，就會遺留大量的混亂中間表。

當(dāng)然，根本問題還是在于計算封閉性。

責(zé)任編輯：趙寧寧來源： 51CTO專欄

數(shù)據(jù)庫中間表存儲

自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

第14期：計算封閉性導(dǎo)致臃腫的數(shù)據(jù)庫