自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

打破數(shù)據(jù)統(tǒng)一的七大原則

大數(shù)據(jù)
數(shù)據(jù)統(tǒng)一在數(shù)據(jù)分析領(lǐng)域里是個長期的挑戰(zhàn),從事數(shù)據(jù)分析的從業(yè)者希望在數(shù)據(jù)分析之前,來自不同實體的數(shù)據(jù)能夠在同一個地方呈現(xiàn)出來。

數(shù)據(jù)統(tǒng)一在數(shù)據(jù)分析領(lǐng)域里是個長期的挑戰(zhàn),從事數(shù)據(jù)分析的從業(yè)者希望在數(shù)據(jù)分析之前,來自不同實體的數(shù)據(jù)能夠在同一個地方呈現(xiàn)出來。數(shù)據(jù)統(tǒng)一由七部分組成:1、獲取數(shù)據(jù) 2、清洗數(shù)據(jù) 3、轉(zhuǎn)換數(shù)據(jù)、4、模式集成 5、重復(fù)數(shù)據(jù)刪除、6、分類 7、導(dǎo)出。

[[196439]]

一般而言,企業(yè)實現(xiàn)數(shù)統(tǒng)一有兩種方法,提取轉(zhuǎn)換加載(ETL)和主數(shù)據(jù)管理(MDM)。

提取轉(zhuǎn)換加載(ETL)具有靈活性的優(yōu)勢,適合不同的數(shù)據(jù)來源,使程序員可以手工編寫轉(zhuǎn)換程序,能夠確保源數(shù)據(jù)模式與集中式數(shù)據(jù)倉庫項目采用的全局模式匹配。但由于自動化程度低,提取轉(zhuǎn)換加載帶寬能超過20個數(shù)據(jù)源沒有多少家公司。

主數(shù)據(jù)管理(MDM),它與ETL類似的地方在于,預(yù)設(shè)一個“主記錄”,每一個有專門的類別選項。如客戶、部件和供應(yīng)商等的所有文件符合主記錄格式。但和ETL有所區(qū)別的是,MOM不是使用手動的定制腳本,而是依靠一套“模糊合并”規(guī)則,把所有不同的文件轉(zhuǎn)換成主格式。

可難解的是,在數(shù)據(jù)量過大的情況下,不管是ETL還是MDM,都無法解決數(shù)據(jù)統(tǒng)一難題。加上大數(shù)據(jù)集的龐大規(guī)模以及對程序員的苛刻要求任何的可規(guī)?;瘮?shù)據(jù)統(tǒng)一項目都必須在很大程度上實現(xiàn)自動化,不能依靠手動編寫的程序。

著名計算機科學(xué)家、Tamr聯(lián)合創(chuàng)始人兼***技術(shù)官邁克爾·斯通布雷克(Michael Stonebraker)針對數(shù)據(jù)統(tǒng)一存在的限制難題,提出數(shù)據(jù)統(tǒng)一的七條原則。

一、所有的可規(guī)?;到y(tǒng),都必須自動進行絕大多數(shù)的操作。

二、模式為先(schema-first)的產(chǎn)品永遠無法規(guī)模化。唯一的選擇是采用‘模式為后’(schema-last)的產(chǎn)品。

三、需要進行具體的域操作時,只有協(xié)作性的系統(tǒng)才可實現(xiàn)規(guī)模化。

四、為了實現(xiàn)可規(guī)模化,任何的統(tǒng)一計算必須在多個核心和多個處理器上運行。

五、盡管存在第四條原則,但真正的可擴展應(yīng)用需要復(fù)雜性低于N ** 2的并行算法。

六、規(guī)則系統(tǒng)實現(xiàn)是無法規(guī)?;?。只有機器學(xué)習(xí)系統(tǒng)才能將規(guī)模擴展到大公司所需要的程度。

七、必須支持實時增量統(tǒng)一。

責(zé)任編輯:趙寧寧 來源: 中國IDC圈
相關(guān)推薦

2010-08-16 13:35:21

數(shù)據(jù)庫設(shè)計

2010-08-31 09:52:45

CSS優(yōu)化

2012-07-25 11:14:19

經(jīng)理創(chuàng)業(yè)

2025-02-17 11:02:11

2012-03-08 10:57:00

Java設(shè)計模式

2012-03-15 11:15:13

Java設(shè)計模式

2012-03-07 10:40:19

Java設(shè)計模式

2012-03-05 13:58:34

設(shè)計模式里氏置換

2012-03-07 11:03:13

Java設(shè)計模式

2015-09-23 17:12:18

API設(shè)計原則

2020-06-09 07:00:00

面向?qū)ο?/a>編程編程原則

2011-07-19 18:13:15

高效數(shù)據(jù)庫

2015-09-24 08:52:53

API設(shè)計原則

2012-02-01 13:24:37

2010-03-31 17:26:52

SaaS

2024-10-14 09:52:39

軟件項目開發(fā)軟件項目估算

2011-09-07 09:21:01

設(shè)計模式

2013-11-13 10:20:13

運維管理數(shù)據(jù)中心

2011-06-29 15:44:19

SEO
點贊
收藏

51CTO技術(shù)棧公眾號