打破數(shù)據(jù)統(tǒng)一的七大原則
數(shù)據(jù)統(tǒng)一在數(shù)據(jù)分析領(lǐng)域里是個長期的挑戰(zhàn),從事數(shù)據(jù)分析的從業(yè)者希望在數(shù)據(jù)分析之前,來自不同實體的數(shù)據(jù)能夠在同一個地方呈現(xiàn)出來。數(shù)據(jù)統(tǒng)一由七部分組成:1、獲取數(shù)據(jù) 2、清洗數(shù)據(jù) 3、轉(zhuǎn)換數(shù)據(jù)、4、模式集成 5、重復(fù)數(shù)據(jù)刪除、6、分類 7、導(dǎo)出。
一般而言,企業(yè)實現(xiàn)數(shù)統(tǒng)一有兩種方法,提取轉(zhuǎn)換加載(ETL)和主數(shù)據(jù)管理(MDM)。
提取轉(zhuǎn)換加載(ETL)具有靈活性的優(yōu)勢,適合不同的數(shù)據(jù)來源,使程序員可以手工編寫轉(zhuǎn)換程序,能夠確保源數(shù)據(jù)模式與集中式數(shù)據(jù)倉庫項目采用的全局模式匹配。但由于自動化程度低,提取轉(zhuǎn)換加載帶寬能超過20個數(shù)據(jù)源沒有多少家公司。
主數(shù)據(jù)管理(MDM),它與ETL類似的地方在于,預(yù)設(shè)一個“主記錄”,每一個有專門的類別選項。如客戶、部件和供應(yīng)商等的所有文件符合主記錄格式。但和ETL有所區(qū)別的是,MOM不是使用手動的定制腳本,而是依靠一套“模糊合并”規(guī)則,把所有不同的文件轉(zhuǎn)換成主格式。
可難解的是,在數(shù)據(jù)量過大的情況下,不管是ETL還是MDM,都無法解決數(shù)據(jù)統(tǒng)一難題。加上大數(shù)據(jù)集的龐大規(guī)模以及對程序員的苛刻要求任何的可規(guī)?;瘮?shù)據(jù)統(tǒng)一項目都必須在很大程度上實現(xiàn)自動化,不能依靠手動編寫的程序。
著名計算機科學(xué)家、Tamr聯(lián)合創(chuàng)始人兼***技術(shù)官邁克爾·斯通布雷克(Michael Stonebraker)針對數(shù)據(jù)統(tǒng)一存在的限制難題,提出數(shù)據(jù)統(tǒng)一的七條原則。
一、所有的可規(guī)?;到y(tǒng),都必須自動進行絕大多數(shù)的操作。
二、模式為先(schema-first)的產(chǎn)品永遠無法規(guī)模化。唯一的選擇是采用‘模式為后’(schema-last)的產(chǎn)品。
三、需要進行具體的域操作時,只有協(xié)作性的系統(tǒng)才可實現(xiàn)規(guī)模化。
四、為了實現(xiàn)可規(guī)模化,任何的統(tǒng)一計算必須在多個核心和多個處理器上運行。
五、盡管存在第四條原則,但真正的可擴展應(yīng)用需要復(fù)雜性低于N ** 2的并行算法。
六、規(guī)則系統(tǒng)實現(xiàn)是無法規(guī)?;?。只有機器學(xué)習(xí)系統(tǒng)才能將規(guī)模擴展到大公司所需要的程度。
七、必須支持實時增量統(tǒng)一。