自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

老曹眼中的面向數(shù)據(jù)架構(gòu)

企業(yè)動(dòng)態(tài)
數(shù)據(jù)是系統(tǒng)的核心,在面向服務(wù)的架構(gòu)之外,也可以考慮一下面向數(shù)據(jù)的架構(gòu)方式。面向數(shù)據(jù)的服務(wù)架構(gòu)需要支持多數(shù)據(jù)源異構(gòu),支持動(dòng)態(tài)數(shù)據(jù)和靜態(tài)數(shù)據(jù),既支持公有云部署又支持私有云部署,提供多種數(shù)據(jù)應(yīng)用和數(shù)據(jù)產(chǎn)品。

數(shù)據(jù)

數(shù)據(jù)是系統(tǒng)的核心,在面向服務(wù)的架構(gòu)之外,也可以考慮一下面向數(shù)據(jù)的架構(gòu)方式。面向數(shù)據(jù)的服務(wù)架構(gòu)需要支持多數(shù)據(jù)源異構(gòu),支持動(dòng)態(tài)數(shù)據(jù)和靜態(tài)數(shù)據(jù),既支持公有云部署又支持私有云部署,提供多種數(shù)據(jù)應(yīng)用和數(shù)據(jù)產(chǎn)品,如下圖所示:

面向數(shù)據(jù)的服務(wù)架構(gòu)

一般地,為了不影響業(yè)務(wù)系統(tǒng)的正常運(yùn)行,會將不同數(shù)據(jù)源匯集起來,技術(shù)的采集與攝取,然后進(jìn)行數(shù)據(jù)的存儲及一系列的操作處理, 最終通過各種的解決方案形成數(shù)據(jù)應(yīng)用衍生的數(shù)據(jù)產(chǎn)品。

從開發(fā)的角度看,可以分成基礎(chǔ)設(shè)施,運(yùn)營工具,開發(fā)工具和解決方案四層,從數(shù)據(jù)自身來看,也可以分為數(shù)據(jù)源,動(dòng)態(tài)數(shù)據(jù),靜態(tài)數(shù)據(jù)和數(shù)據(jù)應(yīng)用4個(gè)層次,相互是有交疊的。

數(shù)據(jù)源

數(shù)據(jù)源決定了數(shù)據(jù)的寬度, 數(shù)量量決定了數(shù)據(jù)的厚度。即使是做數(shù)據(jù)應(yīng)用,也是和具體的業(yè)務(wù)領(lǐng)域相關(guān)的,數(shù)據(jù)的價(jià)值不是憑空出現(xiàn)的。所以, 業(yè)務(wù)系統(tǒng)的數(shù)據(jù)是***位的,也是最容易獲得,直接的價(jià)值也較高。

其次是用戶的行為數(shù)據(jù),經(jīng)管用戶經(jīng)受了產(chǎn)品本身的誘導(dǎo)和局限,但用戶的行為數(shù)據(jù)還是在一定程度上體現(xiàn)的用戶便好。 過去的可用性測試甚至形成了可用性工程,而今,一般都會通過用戶的行為數(shù)據(jù)來檢驗(yàn)用戶體驗(yàn)。

物聯(lián)網(wǎng)(IOT)的到來,凸顯了傳感器數(shù)據(jù)的重要性。傳感器數(shù)據(jù)是相對高頻的數(shù)據(jù),與時(shí)間序列相關(guān),可以考慮與時(shí)間相關(guān)的數(shù)據(jù)存儲,以及數(shù)據(jù)的遷移。位置數(shù)據(jù)可以看作是一種特殊的傳感器數(shù)據(jù),通過位置數(shù)據(jù)可以得到物理上空間位置的描述,是一種非常有用的數(shù)據(jù),尤其對移動(dòng)互聯(lián)網(wǎng)應(yīng)用而言。

社交幾乎也是無處不在的(anything can be social),通過社交屬性的功能,可以使應(yīng)用擁有一定的社會屬性,從而具備更多的價(jià)值。電子郵件可能是比較古老的互聯(lián)網(wǎng)應(yīng)用了,可以看作是一種特殊的社交數(shù)據(jù),數(shù)據(jù)采集可以通過標(biāo)準(zhǔn)的POP3/IMAP4協(xié)議實(shí)現(xiàn),應(yīng)用內(nèi)的社交數(shù)據(jù)需要自己整理,對于第三方的社交平臺,一般都是提供API 接口服務(wù)的,只要注意以來訪問控制即可。

媒體的范圍較大,針對性的獲取數(shù)據(jù)需要爬蟲的相關(guān)技術(shù),數(shù)字化媒體的各種限制對爬蟲而言是一個(gè)挑戰(zhàn)。相對而言,社交媒體和自媒體通用訪問接口的獲取想對容易一些。

不論是客戶的網(wǎng)站還是競品的網(wǎng)站,同樣需要爬蟲技術(shù)的幫助,這些數(shù)據(jù)將對業(yè)務(wù)系統(tǒng)的數(shù)據(jù)形成有益的補(bǔ)充。

文檔數(shù)據(jù)大多是非結(jié)構(gòu)化數(shù)據(jù),一般是文件系統(tǒng)和NoSQL 的勝場。對于很多企業(yè)而言,往往紙質(zhì)文檔數(shù)據(jù)化的過程,隨著AI技術(shù)的發(fā)展,尤其是OCR 相關(guān)技術(shù)的逐漸成熟,所有文檔都是數(shù)據(jù)資源。

動(dòng)態(tài)數(shù)據(jù)

動(dòng)態(tài)數(shù)據(jù)的采集過程與靜態(tài)數(shù)據(jù)是類似的,關(guān)鍵在于分析流程,對于動(dòng)態(tài)數(shù)據(jù)而言,分析是實(shí)事發(fā)生的。例如游樂園采用手環(huán)來采集用戶的信息,這些手環(huán)中記錄了用戶的相關(guān)行為,游樂園可以使用這些數(shù)據(jù)為用戶個(gè)性化推薦一些服務(wù),這使得在用戶游覽期間的定制化服務(wù)成為可能?;趧?dòng)態(tài)數(shù)據(jù),在這些場景中使企業(yè)和用戶之間產(chǎn)生更多的商機(jī)成為可能。

對于動(dòng)態(tài)數(shù)據(jù),需要采用實(shí)時(shí)處理方法。時(shí)延是需要考量的一個(gè)關(guān)鍵因素,時(shí)間就是金錢在這里體現(xiàn)的***。 通過減少多租戶的資源約束和云服務(wù)的使用可以降低時(shí)延,提高性能水平,能夠?qū)崟r(shí)處理大流量數(shù)據(jù).

數(shù)據(jù)流程相似于傳統(tǒng)的ETL流程,在數(shù)據(jù)提取時(shí)同時(shí)完成數(shù)據(jù)的初步轉(zhuǎn)換和清洗,具體流程還是與目標(biāo)息息相關(guān)的。數(shù)據(jù)流處理是動(dòng)態(tài)數(shù)據(jù)處理的核心部分,既可以對動(dòng)態(tài)數(shù)據(jù)進(jìn)行進(jìn)一步的清洗然后存儲,又可以直接引入分析方法,與后面的流式應(yīng)用連接起來。

數(shù)據(jù)治理是指從使用零散數(shù)據(jù)變?yōu)槭褂媒y(tǒng)一主數(shù)據(jù)、從具有很少或沒有組織和流程治理到業(yè)務(wù)范圍內(nèi)的綜合數(shù)據(jù)治理、從嘗試處理主數(shù)據(jù)混亂狀況到主數(shù)據(jù)井井有條的一個(gè)過程。數(shù)據(jù)治理對于確保數(shù)據(jù)的準(zhǔn)確、分享和保護(hù)是至關(guān)重要的。有效的數(shù)據(jù)治理通過改進(jìn)分析 算法、縮減存儲和計(jì)算成本、降低災(zāi)備風(fēng)險(xiǎn)和提高安全合規(guī)等方式,最終體現(xiàn)數(shù)據(jù)的價(jià)值。

數(shù)據(jù)安全一是數(shù)據(jù)本身的安全,主要是指采用加密方法對數(shù)據(jù)進(jìn)行主動(dòng)保護(hù),如數(shù)據(jù)保密、數(shù)據(jù)完整性、雙向身份認(rèn)證等,同時(shí)也是數(shù)據(jù)防護(hù)的安全,主要是對數(shù)據(jù)存儲進(jìn)行主動(dòng)防護(hù),如通過磁盤陣列、數(shù)據(jù)備份、異地容災(zāi)等手段保證數(shù)據(jù)的安全。數(shù)據(jù)處理的安全是指如何有效的防止數(shù)據(jù)在錄入、處理、統(tǒng)計(jì)中由于硬件故障、人為誤操作、程序缺陷、病毒或黑客等造成的數(shù)據(jù)庫損壞或數(shù)據(jù)丟失現(xiàn)象,某些敏感或保密的數(shù)據(jù)可能不具備資格的人員閱讀,而造成數(shù)據(jù)泄密等后果。而數(shù)據(jù)存儲的安全是指數(shù)據(jù)在系統(tǒng)運(yùn)行之外的可讀性。

數(shù)據(jù)運(yùn)營是指通過對動(dòng)態(tài)數(shù)據(jù)的分析挖掘,把隱藏在海量數(shù)據(jù)中的信息以合規(guī)化的形式發(fā)布出去,供數(shù)據(jù)的消費(fèi)者使用。動(dòng)態(tài)數(shù)據(jù)的數(shù)據(jù)運(yùn)營是一個(gè)非常具有挑戰(zhàn)性的課題。

靜態(tài)數(shù)據(jù)

對于靜態(tài)數(shù)據(jù)的操作,更像是一種批處理形式,是一種離線分析,更像是傳統(tǒng)的OLAP,這樣可以擁有較高性能的處理能力。這意味著先從各種數(shù)據(jù)源獲取數(shù)據(jù),然后再進(jìn)行分析處理。靜態(tài)數(shù)據(jù)處理分為了兩個(gè)階段,例如一個(gè)零售終端分析上個(gè)月的數(shù)據(jù)來決定本月的商業(yè)活動(dòng), 是否能夠根據(jù)用戶的購買行為來發(fā)放定制化的優(yōu)惠卷等等。

具體的分析計(jì)算既可以再私有云上執(zhí)行,也可以在公有云上執(zhí)行。對于一定規(guī)模數(shù)據(jù),尤其是探索性數(shù)據(jù)分析,一般都可以在私有云進(jìn)行計(jì)算,甚至直接在私有云上提供數(shù)據(jù)應(yīng)用和數(shù)據(jù)產(chǎn)品。當(dāng)數(shù)據(jù)規(guī)模和計(jì)算資源的需求達(dá)到一定程度的時(shí)候,可以考慮遷移的公有云。這是面向數(shù)據(jù)的一種混合云結(jié)構(gòu),為了使遷移簡單方便,需要保障環(huán)境的一致性,YARN 是資源調(diào)度的***選擇。當(dāng)然,mesos 同樣值得關(guān)注。

靜態(tài)數(shù)據(jù)的存儲一般是海量存儲,基于面向讀性能提供的迫切需要,NoSQL是必然的選擇。當(dāng)然,面向大量的結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)倉庫仍然是不錯(cuò)的選擇。

數(shù)據(jù)應(yīng)用

數(shù)據(jù)應(yīng)用包含了計(jì)算框架,算法,數(shù)據(jù)的可視化以及具體的應(yīng)用呈現(xiàn)。不論是企業(yè)應(yīng)用還是移動(dòng)應(yīng)用以及交互式Web應(yīng)用,都可以使用數(shù)據(jù)計(jì)算得到的結(jié)果。流式應(yīng)用和搜索應(yīng)用都是與計(jì)算框架緊密相關(guān)的,可以通過Storm 和ElasticSearch 實(shí)現(xiàn),也可以通過Spark框架實(shí)現(xiàn)。

商業(yè)智能(BI),傳統(tǒng)上是基于數(shù)據(jù)倉庫的數(shù)據(jù)挖掘,發(fā)現(xiàn)數(shù)據(jù)中潛在的價(jià)值。而在面向數(shù)據(jù)的架構(gòu)中,BI的分析方法可以不變,只改變計(jì)算的方式,也可以對分析方法進(jìn)行演講。

報(bào)表系統(tǒng)可以認(rèn)為是可視化的核心之一。面向靜態(tài)數(shù)據(jù)形成傳統(tǒng)的報(bào)表,動(dòng)態(tài)數(shù)據(jù)與靜態(tài)數(shù)據(jù)相結(jié)合形成實(shí)時(shí)報(bào)表。

隨機(jī)分析是一種探索性數(shù)據(jù)分析,是一種對數(shù)據(jù)摸索和嘗試,可以使用Hive,pig,sparkSQL等工具執(zhí)行,明確進(jìn)一步探索的方向。統(tǒng)計(jì)分析是更加具體的一種離線分析,基于統(tǒng)計(jì)模型的數(shù)據(jù)分析處理。

機(jī)器學(xué)習(xí)(Machine Learning, ML)是一門多領(lǐng)域交叉學(xué)科,模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為,以獲取新的知識或技能,是的核心,框架有很多,例如Mahout以及SparkML等。

深度學(xué)習(xí)是機(jī)器學(xué)習(xí)研究中的一個(gè)新領(lǐng)域,源于人工神經(jīng)網(wǎng)絡(luò),含多隱層的多層感知器就是一種深度學(xué)習(xí)結(jié)構(gòu)。深度學(xué)習(xí)通過組合低層特征形成更加抽象的高層表示屬性類別或特征,以發(fā)現(xiàn)數(shù)據(jù)的分布式特征。同機(jī)器學(xué)習(xí)方法一樣,深度機(jī)器學(xué)習(xí)方法也有監(jiān)督學(xué)習(xí)與無監(jiān)督學(xué)習(xí)之分.不同的學(xué)習(xí)框架下建立的學(xué)習(xí)模型很是不同.個(gè)人推薦tensorflow。

【本文來自51CTO專欄作者老曹的原創(chuàng)文章,作者微信公眾號:喔家ArchiSelf,id:wrieless-com】

責(zé)任編輯:趙寧寧 來源: 喔家ArchiSelf
相關(guān)推薦

2016-12-01 14:16:18

GitSCM配置

2016-12-02 08:54:18

Lambda代碼云計(jì)算

2016-12-01 14:47:05

負(fù)載均衡DNS

2016-12-02 08:55:18

Linux系統(tǒng)

2017-05-18 14:11:22

CRM圖解交付

2016-12-01 15:03:36

緩存技術(shù)客戶端

2016-12-19 09:43:59

軟件開發(fā)架構(gòu)

2016-12-01 13:53:41

2016-12-02 09:09:18

MySQL調(diào)優(yōu)數(shù)據(jù)庫

2017-02-05 16:51:35

網(wǎng)絡(luò)編程網(wǎng)絡(luò)系統(tǒng)

2017-03-27 08:45:47

全棧技術(shù)管理

2018-10-17 22:01:06

2017-09-18 08:21:42

碼農(nóng)AI人工智能

2024-01-15 15:11:03

物聯(lián)網(wǎng)5G數(shù)字孿生

2016-12-08 15:52:09

互聯(lián)網(wǎng)數(shù)據(jù)計(jì)算

2017-04-17 08:44:43

構(gòu)造函數(shù)線程安全

2018-01-16 15:02:20

存儲RAIDSAN

2017-04-12 14:45:20

數(shù)據(jù)架構(gòu)數(shù)據(jù)源

2018-01-09 15:35:54

Python編程基礎(chǔ)

2020-01-16 15:35:00

高并發(fā)架構(gòu)服務(wù)器
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號