大數(shù)據(jù)平臺(tái):探索數(shù)據(jù)價(jià)值
最近很多廠商都推出了自己的大數(shù)據(jù)產(chǎn)品。但我們還是要問兩個(gè)問題,你怎么定義大數(shù)據(jù)?你認(rèn)為大數(shù)據(jù)平臺(tái)關(guān)鍵的元素是什么?
廠商和專家一般都會(huì)告訴我們最重要的是要記住大數(shù)據(jù)所包含的東西遠(yuǎn)遠(yuǎn)多于所謂的大型數(shù)據(jù)存儲(chǔ)。大數(shù)據(jù)通常也包含其快速創(chuàng)建和多種格式,像非格式化的文本,Web或者數(shù)字媒體等。 正如IBM和Informatica所指出的三方面內(nèi)容:容量、速率和多樣化。
廠商可以根據(jù)自己的功能不斷地描述自己的平臺(tái),但是大多數(shù)廠商的領(lǐng)導(dǎo)們,很擅長(zhǎng)回答關(guān)鍵因素是什么,他們不只是簡(jiǎn)單地羅列自己家產(chǎn)品的功能。就算廠商說了一些偏向自己的話,至少我們知道對(duì)這個(gè)廠商而言什么是最重要的,還有他們的長(zhǎng)處在哪里。
對(duì)于大數(shù)據(jù)集成平臺(tái)而言,主要關(guān)注于數(shù)據(jù)來源,如何管理和治理。在這一點(diǎn)上應(yīng)該考慮幾個(gè)主要的問題:集成多種源,大數(shù)據(jù)的處理環(huán)境并不是數(shù)據(jù)的發(fā)源地。數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理,如果要用這些數(shù)據(jù)做分析并制定決策,這些數(shù)據(jù)就要能夠信任。這一點(diǎn)而言,大數(shù)據(jù)平臺(tái)必須支持?jǐn)?shù)據(jù)質(zhì)量和數(shù)據(jù)治理。
文本分析和語義分析,要能夠?yàn)楂@取的數(shù)據(jù)預(yù)設(shè)一種環(huán)境,就比如,處理無數(shù)的源的時(shí)候,要能夠確定這個(gè)信息是否是你關(guān)心的。這也可能意味著我們要集成MDM系統(tǒng)的數(shù)據(jù),或者其他企業(yè)應(yīng)用中的數(shù)據(jù)。再把這的信息放到一種環(huán)境中。
支持R語言。分析學(xué)中開源技術(shù)傾向于使用像R這樣的語言。此外對(duì)于分析和設(shè)計(jì)模式要有一種全新的態(tài)度。因?yàn)樘幚矸墙Y(jié)構(gòu)化的信息需要這種不同的觀點(diǎn)。
- SQL點(diǎn)滴之幾個(gè)有點(diǎn)偏的語句
- SQL Server數(shù)據(jù)挖掘中的幾個(gè)問題之理解內(nèi)容類型
- SQL Server數(shù)據(jù)挖掘中的幾個(gè)問題之理解列的用法
- SQL Server數(shù)據(jù)挖掘之理解聚類算法和順序聚類算法
- Big Data技術(shù)綜述