新數(shù)據(jù)倉庫模式設(shè)計(jì)有利于企業(yè)用戶
業(yè)務(wù)分析師的目標(biāo)之一是用數(shù)據(jù)講述完整的故事,提供有關(guān)業(yè)務(wù)如何進(jìn)行或如何改進(jìn)的見解。這是通過商業(yè)智能儀表板來實(shí)現(xiàn),該儀表板從數(shù)據(jù)倉庫提取數(shù)據(jù)。
當(dāng)嘗試關(guān)聯(lián)數(shù)據(jù)倉庫中不同儀表板的信息時(shí),企業(yè)用戶開始面臨挑戰(zhàn)。這通常需要求助于數(shù)據(jù)工程師,數(shù)據(jù)工程師需要在數(shù)據(jù)倉庫中創(chuàng)建數(shù)據(jù)集市–由多個(gè)星形圖組成,而這可能導(dǎo)致數(shù)據(jù)丟失或數(shù)據(jù)重復(fù)。
這種復(fù)雜性促使Francesco Puppini探索可更好地支持最終用戶的數(shù)據(jù)倉庫模式設(shè)計(jì)。他在與Bill Inmon合著的《The Unified Star Schema: An Agile and Resilient Approach to Data Warehouse and Analytics Design》一書中探討了這一問題,該書由Technics Publications出版。
什么是星型圖和雪花圖?
在討論Unified Star Schema之前,讓我們看一下星型模式本身。
星型模式是最簡單的尺寸建模形式。該模式由事實(shí)和維度組成。事實(shí)以事件為中心,而維度則引用與事實(shí)有關(guān)的信息。維度以類似于星型的方式與事實(shí)相關(guān)。
此外,雪花模式將維度與其他維度相關(guān)聯(lián)并繼續(xù)分支。Puppini認(rèn)為,當(dāng)數(shù)據(jù)沒有問題時(shí),雪花模式最適合。
他說:“但數(shù)據(jù)總是有問題。“
Unified Star Schema的好處
Puppini說:“當(dāng)你將數(shù)據(jù)寫入數(shù)據(jù)庫時(shí),它是按某種方式組織。但是當(dāng)你閱讀它,最好以一種不同的方式組織它。”
對于最終用戶而言,星型和雪花模式的主要挑戰(zhàn)是,企業(yè)用戶在尋找見解方面缺乏獨(dú)立性。為了使用此類數(shù)據(jù)倉庫模式設(shè)計(jì)對數(shù)據(jù)執(zhí)行復(fù)雜查詢,最終用戶需要數(shù)據(jù)工程師手動(dòng)關(guān)聯(lián)數(shù)據(jù)表。Puppini說,這就像每次需要一杯水時(shí)都叫水管工一樣。此外,當(dāng)關(guān)聯(lián)不兼容表時(shí),整合將事實(shí)表與聯(lián)接通常會導(dǎo)致重復(fù)數(shù)據(jù)。
他說,數(shù)據(jù)重復(fù)的核心問題是扇形陷阱。當(dāng)兩個(gè)或多個(gè)一對多聯(lián)接鏈接時(shí),就會發(fā)生扇形陷阱。這會與數(shù)據(jù)產(chǎn)生沖突,從而導(dǎo)致數(shù)據(jù)重復(fù)。從歷史上看,這是通過手動(dòng)重復(fù)數(shù)據(jù)刪除或這些臨時(shí)連接解決。
Unified Star Schema的關(guān)鍵是連接事實(shí)表的橋接。在書中,Puppini將橋接與電話總機(jī)進(jìn)行比較。在Unified Star Schema中,橋接處于中心位置,所有事實(shí)表和維度表圍繞它,每個(gè)表都連接到該橋接。然后,這限制了對數(shù)據(jù)的轉(zhuǎn)換次數(shù)。
Puppini說:“現(xiàn)在的數(shù)據(jù)倉庫問題是它們不堪重負(fù),正在過度轉(zhuǎn)換。”
通過使用橋接并執(zhí)行聯(lián)合而不是聯(lián)接,這使用戶可以訪問數(shù)據(jù)而無需進(jìn)行轉(zhuǎn)換。
他說:“你轉(zhuǎn)換數(shù)據(jù)越多,你就越會陷入混亂。我只是采取最少步驟以將信息整合在一起。”
請點(diǎn)擊此處查看由Technics Publications出版的Bill Inmon和Francesco Puppini撰寫的《The Unified Star Schema》的摘錄,以了解有關(guān)Unified Star Schema的部署和用例的更多信息。