新型數(shù)據(jù)準備工具來襲 你還在使用傳統(tǒng)數(shù)據(jù)倉庫架構嗎?
越來越多的業(yè)務分析師正在提升自身編寫臨時查詢和分析算法的能力。這些臨時查詢和分析算法用來尋找企業(yè)數(shù)據(jù)存儲中的有用信息,為企業(yè)做業(yè)務決策時提供更多數(shù)據(jù)。隨著企業(yè)員工越來越精通于使用分析工具,他們當中越來越多的人發(fā)現(xiàn),傳統(tǒng)的數(shù)據(jù)倉庫架構阻礙了他們分析某些重要數(shù)據(jù)的能力。
新興的自助型數(shù)據(jù)準備工具可以幫助業(yè)務分析師、數(shù)據(jù)科學家和其他最終用戶繞過數(shù)據(jù)倉庫,完成數(shù)據(jù)集成和制備過程的關鍵部分。而我們說數(shù)據(jù)倉庫對此造成了阻礙的主要原因有以下三點。
首先,傳統(tǒng)的數(shù)據(jù)倉庫通常是一個存儲庫,其數(shù)據(jù)來自內(nèi)部事務處理,或者用于生成業(yè)務性能報告的運營系統(tǒng)。這限制了在數(shù)據(jù)上所進行分析的范圍和類型。
其次,傳統(tǒng)的數(shù)據(jù)倉庫用于提取的數(shù)據(jù)集合是高度集成和標準化的,它使用了一整套的業(yè)務規(guī)則,結合了一個預定義的易于維度分割的數(shù)據(jù)模型。這樣做可能會過濾掉與特定分析應用程序相關的某些信息。
第三,IT團隊通常負責開發(fā)規(guī)則和流程,以確保數(shù)據(jù)以正確的方式存儲到數(shù)據(jù)倉庫中,這種方法同樣可能無法滿足分析人士的最終分析需求。
顯然,傳統(tǒng)的數(shù)據(jù)倉庫的規(guī)范流程在過去很適合于企業(yè),但數(shù)據(jù)的應用場景正在迅速改變。企業(yè)越來越需要將他們的交易數(shù)據(jù)與來自各種其他信息來源的數(shù)據(jù)混合,這些數(shù)據(jù)源包括網(wǎng)站點擊,活動日志,生產(chǎn)設備的傳感器和其他設備,客戶電子郵件、社交網(wǎng)絡和客戶流媒體數(shù)據(jù)、數(shù)據(jù)聚合器和第三方信息服務提供商等。
新的數(shù)據(jù)類型需要新的數(shù)據(jù)平臺
利用這些外部數(shù)據(jù)源可以幫助提高商業(yè)洞察力,配以業(yè)務流程的變化,將使得企業(yè)真正轉變?yōu)閿?shù)據(jù)驅動型。但在許多情況下,比起數(shù)據(jù)倉庫,這些新增的數(shù)據(jù)更適合在一個大型的數(shù)據(jù)平臺上被存儲和處理——Hadoop集群,NoSQL數(shù)據(jù)庫,或Spark系統(tǒng),或者從外部門戶網(wǎng)站獲取這些數(shù)據(jù)。
此外,業(yè)務分析師以及數(shù)據(jù)科學家經(jīng)常對可用數(shù)據(jù)進行不同形式的訪問,甚至包括數(shù)據(jù)的原始狀態(tài)。
例如,消費產(chǎn)品制造商的營銷團隊可能需要分析客戶的檔案記錄,新聞源和社交媒體數(shù)據(jù),以找出一種模式,幫助策劃一個在線營銷活動。同時,客戶體驗團隊可能需要監(jiān)控社交媒體,獲取各種網(wǎng)站上的產(chǎn)品評論,識別潛在的問題,以便采取相應的行動來安撫顧客的不滿情緒。其他團隊也可以有自己的用處。因為每個人都有不同的需求和目標,數(shù)據(jù)倉庫幾乎不可能讓所有的分析目標都得到滿足。
讓分析師處理那些最能滿足他們獨特需要的數(shù)據(jù),可以讓分析工作更加更富有成效。這對數(shù)據(jù)集成的各個方面都有影響,包括數(shù)據(jù)發(fā)現(xiàn),數(shù)據(jù)攝取、分析、驗證和質量保證等。各大供應商所提供的新型自助型數(shù)據(jù)準備工具是個不錯的選擇。
數(shù)據(jù)準備階段的邏輯分離
此技術對分析用戶、IT和數(shù)據(jù)管理團隊進行了明確合理的分工。業(yè)務分析師和數(shù)據(jù)科學家可以使用數(shù)據(jù)準備工具來找到不同系統(tǒng)中的相關數(shù)據(jù),將這些數(shù)據(jù)放在一起,進行配置和清洗以保持數(shù)據(jù)的一致性,定義業(yè)務規(guī)則管理對數(shù)據(jù)的使用。在數(shù)據(jù)準備軟件的幫助下,他們能得到相關數(shù)據(jù)的更全面的定制化視圖,這通常比他們從數(shù)據(jù)倉庫獲取到的東西要強得多。
理想情況下,分析師對數(shù)據(jù)的使用更加充分。這意味著他們應該保證自身理解高層數(shù)據(jù)使用策略,并貫徹實施。他們還需要與其他人合作以確保數(shù)據(jù)被合理的解釋,并保證企業(yè)內(nèi)部數(shù)據(jù)的一致性。
因為數(shù)據(jù)集被捕獲后,保持著原來的格式,IT部門不需要負責實現(xiàn)被分析數(shù)據(jù)的集成和轉換規(guī)則。相反,他們的責任轉換為管理整個基礎架構,以支持數(shù)據(jù)發(fā)現(xiàn)、整合和分析過程,并提供控制機制來監(jiān)控數(shù)據(jù)定義的不一致現(xiàn)象以及使用業(yè)務數(shù)據(jù)時不遵守治理規(guī)則的行為。
大多數(shù)企業(yè)可能并不會拋棄數(shù)據(jù)倉庫。自助型數(shù)據(jù)準備軟件是一種相對較新的不斷成熟的技術,主要由一些新興供應商提供。但這些數(shù)據(jù)準備工具的蓬勃發(fā)展,為那些尋求獲取更多數(shù)據(jù)的企業(yè)指明了方向,那就是要增加分析的靈活性和有效性。