自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

【W(wǎng)OT技術(shù)門診 ·診斷書】鏈家網(wǎng)大數(shù)據(jù)基礎(chǔ)設(shè)施建設(shè)

企業(yè)動(dòng)態(tài)
11月8日 ,鏈家網(wǎng)大數(shù)據(jù)資深架構(gòu)師 趙國(guó)賢做客WOT技術(shù)門診第四期群友互動(dòng)課堂,針對(duì)鏈家網(wǎng)在大數(shù)據(jù)基礎(chǔ)設(shè)施建設(shè) ,從最初的技術(shù)支持報(bào)表需求,到年初的技術(shù)實(shí)現(xiàn)自助報(bào)表需求,到現(xiàn)在的技術(shù)搭建平臺(tái)提供數(shù)據(jù)分析、數(shù)據(jù)獲取服務(wù)所遇到的問題分享了自己的經(jīng)驗(yàn)。,希望能給更多對(duì)大數(shù)據(jù)基礎(chǔ)設(shè)施建設(shè)感興趣的小伙伴帶來幫助。

WOT技術(shù)門診寄語(yǔ):沒有天生的信心,只有不斷培養(yǎng)的信心

為大數(shù)據(jù)和較新的快速數(shù)據(jù)架構(gòu)提供基礎(chǔ)設(shè)施并不是一個(gè)餅干切割的問題。兩者對(duì)硬件和軟件基礎(chǔ)設(shè)施都有著顯著的調(diào)整或改變。較新的快速的數(shù)據(jù)架構(gòu)與大數(shù)據(jù)架構(gòu)有著顯著區(qū)別,并且快速數(shù)據(jù)提供了真正的聯(lián)機(jī)事務(wù)處理工具。理解大數(shù)據(jù)基礎(chǔ)設(shè)施建設(shè)能夠幫助你做出正確的硬件和軟件選擇。

11月8日 ,鏈家網(wǎng)大數(shù)據(jù)資深架構(gòu)師 趙國(guó)賢做客WOT技術(shù)門診第四期群友互動(dòng)課堂,針對(duì)鏈家網(wǎng)在大數(shù)據(jù)基礎(chǔ)設(shè)施建設(shè) ,從最初的技術(shù)支持報(bào)表需求,到年初的技術(shù)實(shí)現(xiàn)自助報(bào)表需求,到現(xiàn)在的技術(shù)搭建平臺(tái)提供數(shù)據(jù)分析、數(shù)據(jù)獲取服務(wù)所遇到的問題分享了自己的經(jīng)驗(yàn)。,希望能給更多對(duì)大數(shù)據(jù)基礎(chǔ)設(shè)施建設(shè)感興趣的小伙伴帶來幫助。

趙國(guó)賢

現(xiàn)就職鏈家網(wǎng)資深工程師,負(fù)責(zé)鏈家網(wǎng)大數(shù)據(jù)平臺(tái)的基礎(chǔ)架構(gòu)方向,專注構(gòu)建大數(shù)據(jù)基礎(chǔ)平臺(tái)。2011曾供職于新浪,改造過scribe,把當(dāng)時(shí)的全網(wǎng)的行為數(shù)據(jù)收集方式從離線改造為實(shí)時(shí)收集,參與了大數(shù)據(jù)平臺(tái)從無(wú)到有的整個(gè)發(fā)展歷程,負(fù)責(zé)了當(dāng)時(shí)新浪的實(shí)時(shí)數(shù)據(jù)統(tǒng)計(jì)系統(tǒng)storm并改造部分統(tǒng)計(jì)需求,極大提升了數(shù)據(jù)的實(shí)時(shí)性,2013年供職于搜狗數(shù)據(jù)分析平臺(tái)高級(jí)工程師,建立一套完備的數(shù)據(jù)平臺(tái),支撐了公司的數(shù)據(jù)需求。

以上語(yǔ)音主要分三塊介紹:大數(shù)據(jù)的演進(jìn)、大數(shù)據(jù)的架構(gòu)、大數(shù)據(jù)安全,重點(diǎn)介紹數(shù)據(jù)安全遇到的一些具體的問題。

以下為語(yǔ)音直播實(shí)錄:

1.介紹鏈家網(wǎng)大數(shù)據(jù)的演進(jìn)之路

鏈家已經(jīng)成立十五年,線下經(jīng)紀(jì)人13萬(wàn)名,圍繞的線下房產(chǎn)交易,有大量的運(yùn)營(yíng)需求需要數(shù)據(jù)支撐,分城市、分商圈、分門店的情況都需要細(xì)分。所以,在鏈家網(wǎng)成立初期,集團(tuán)運(yùn)營(yíng)數(shù)據(jù)需求就已經(jīng)有了,故在2015年初就搭建了第一套系統(tǒng)來支持?jǐn)?shù)據(jù)報(bào)表,逐漸圍繞著上層需求,構(gòu)建起了鏈家網(wǎng)大數(shù)據(jù)架構(gòu)。也是在那時(shí),成立的大數(shù)據(jù)部門,為公司做好數(shù)據(jù)支撐。鏈家已經(jīng)成立十五年,線下經(jīng)紀(jì)人13萬(wàn)名,圍繞的線下房產(chǎn)交易,有大量的運(yùn)營(yíng)需求需要數(shù)據(jù)支撐,分城市、分商圈、分門店的情況都需要細(xì)分。所以,在鏈家網(wǎng)成立初期,集團(tuán)運(yùn)營(yíng)數(shù)據(jù)需求就已經(jīng)有了,故在2015年初就搭建了第一套系統(tǒng)來支持?jǐn)?shù)據(jù)報(bào)表,逐漸圍繞著上層需求,構(gòu)建起了鏈家網(wǎng)大數(shù)據(jù)架構(gòu)。也是在那時(shí),成立的大數(shù)據(jù)部門,為公司做好數(shù)據(jù)支撐。

2.介紹鏈家網(wǎng)大數(shù)據(jù)的架構(gòu)

鏈家網(wǎng)大數(shù)據(jù)從最初的技術(shù)支持報(bào)表需求,到年初的技術(shù)實(shí)現(xiàn)自助報(bào)表需求,到現(xiàn)在的技術(shù)搭建平臺(tái)提供數(shù)據(jù)分析、數(shù)據(jù)獲取服務(wù),這正是鏈家網(wǎng)大數(shù)據(jù)這一年多所經(jīng)歷的,其中涉及到的架構(gòu)變遷、新技術(shù)方案的引入、大數(shù)據(jù)平臺(tái)化等等,鏈家網(wǎng)大數(shù)據(jù)的架構(gòu)。

3.鏈家網(wǎng)大數(shù)據(jù)的數(shù)據(jù)安全

鏈家網(wǎng)是一家極其重視數(shù)據(jù)的公司,更加重視數(shù)據(jù)安全,大數(shù)據(jù)部門無(wú)論從上層的API服務(wù),中間層的工具鏈、一直到底層的基礎(chǔ)平臺(tái)集群都有都有相應(yīng)的權(quán)限控制和認(rèn)證方案,我們采用分層的方法保證數(shù)據(jù)安全,防止?jié)B透。采用最小可用的原則讓需要的人接觸到需要的數(shù)據(jù),但是不會(huì)過度授權(quán)。另外數(shù)據(jù)安全是一個(gè)比較大的議題,包括服務(wù)的認(rèn)證、用戶的授權(quán)、數(shù)據(jù)的加密等,如果發(fā)散講的話,我估計(jì)一天也講不完,下面我重點(diǎn)介紹一下鏈家網(wǎng)大數(shù)據(jù)集群的數(shù)據(jù)安全方案以及遇到的一些坑,集群我們采用開源的Hadoop、Spark、以及一些相應(yīng)的組件,比如Hive、Presto、HBase等,基本上所有的存儲(chǔ)、計(jì)算都會(huì)在集群內(nèi)完成,這就對(duì)集群的安全提出非常大的挑戰(zhàn),經(jīng)過前期的調(diào)研和實(shí)踐,當(dāng)前我們主要采用Kerberos + 基于自研的權(quán)限分配方案 + 自研的審計(jì)功能,Kerberos主要解決機(jī)器與服務(wù)的認(rèn)證、自研的權(quán)限分配方案主要解決用戶的授權(quán)、自研的審計(jì)功能主要解決記錄誰(shuí)使用了集群都做了什么。當(dāng)然在實(shí)踐安全方案的過程中,我們也遇到各種各樣的問題。下面簡(jiǎn)單列舉幾點(diǎn)給大家分享一下

1)kerberos本身的復(fù)雜性

Kerberos是一種網(wǎng)絡(luò)認(rèn)證協(xié)議, 其設(shè)計(jì)目標(biāo)是通過密鑰系統(tǒng)為客戶機(jī) / 服務(wù)器應(yīng)用程序提供強(qiáng)大的認(rèn)證服務(wù)。該認(rèn)證過程的實(shí)現(xiàn)不依賴于主機(jī)操作系統(tǒng)的認(rèn)證,無(wú)需基于主機(jī)地址的信任,不要求網(wǎng)絡(luò)上所有主機(jī)的物理安全,并假定網(wǎng)絡(luò)上傳送的數(shù)據(jù)包可以被任意地讀取、修改和插入數(shù)據(jù)。在以上情況下, Kerberos 作為一種可信任的第三方認(rèn)證服務(wù),是通過傳統(tǒng)的密碼技術(shù)(如:共享密鑰)執(zhí)行認(rèn)證服務(wù)的。我們這邊也用了一段時(shí)間去熟悉kerberos的認(rèn)證流程,實(shí)現(xiàn)Kerberos的HA方案等,這里也建議如果想啟用Kerberos的用戶一定要弄清楚kerberos的認(rèn)證流程,這樣實(shí)現(xiàn)安全方案的時(shí)候會(huì)事半功倍。

2) 安全Yarn使用Linuxcontainer

鏈家使用的是基于Hadoop2.4.1的定制開發(fā)版本,安全集群的Yarn必須使用Linux Container,但是 Container-executor 和 Container-executor.cfg 必須 做特殊的權(quán)限配置,對(duì)運(yùn)維提出更高的要求。

3) datanode的啟動(dòng)方式

Datanode必須使用JSVC啟動(dòng),并且啟動(dòng)的Datanode必須有Sudo權(quán)限,因?yàn)榘踩獶atanode使用低于1000的端啟動(dòng)的,但是Hadoop2.6.1的版本以后就不存在這個(gè)問題,鏈家這邊也在考慮升級(jí)到Hadoop2.6.1版本上。

4) 集群的組件多,Hive(HiveServer2、Metastoreserver)、Oize、Spark等,需要逐一的測(cè)試保證平滑的過渡。

5) 剛才在第四點(diǎn)的時(shí)候我們談到平滑過渡,是指從無(wú)安全的集群過渡到有安全的集群,比較突出的問題是保證業(yè)務(wù)的平滑過渡和保證集群的平滑升級(jí),這里給出的建議是在確保安全方案的執(zhí)行性,平滑過渡性的同時(shí),一定要保證準(zhǔn)備好完備的Rollback方案。

6) kerberos的過期失效問題

我們現(xiàn)在采用的方案是定期刷新Ticket sss,另外在加上一點(diǎn)就是關(guān)于數(shù)據(jù)加密的問題,因?yàn)閿?shù)據(jù)加密的話就會(huì)對(duì)易用性等產(chǎn)生影響,鏈家這邊得規(guī)劃是對(duì)數(shù)據(jù)分層管理,根據(jù)不同的層級(jí)選擇不同的加密措施來保證數(shù)據(jù)的安全。

公告:以下為11月8日 WOT技術(shù)門診群 交流互動(dòng)內(nèi)容

問題一:您認(rèn)為在云上開發(fā)大數(shù)據(jù)平臺(tái)可能會(huì)面臨哪些技術(shù)難點(diǎn),特別是在穩(wěn)定性和高可用方面,您有哪些好的建議?

關(guān)于在云上開發(fā)大數(shù)據(jù)平臺(tái),現(xiàn)在無(wú)論是Aws還是阿里云都提供了大數(shù)據(jù)的相關(guān)組件,能夠比較容易的組建公司的底層數(shù)據(jù)平臺(tái),可能談不上技術(shù)難點(diǎn),比較關(guān)鍵的是云平臺(tái)都會(huì)依賴相關(guān)的云的相關(guān)組件,比如AWS的EMR可能和s3結(jié)合起來會(huì)更容易使用,另外就是大數(shù)據(jù)平臺(tái)都會(huì)根據(jù)業(yè)務(wù)做專有化定制開發(fā)與底層優(yōu)化。云上也比較難于實(shí)現(xiàn)各種組件的靈活搭配。穩(wěn)定性和高可用方面的話,大部分云廠商都會(huì)提供高穩(wěn)定性和高可用的保證,這里提供的經(jīng)驗(yàn)就是,一定要自己在上層或者其他方法實(shí)現(xiàn)內(nèi)部的高可用方案。

問題二:像搭建鏈家這樣的地產(chǎn)大數(shù)據(jù)架構(gòu)時(shí),數(shù)據(jù)結(jié)構(gòu)和類型有什么樣的特點(diǎn)?您如何進(jìn)行數(shù)據(jù)存儲(chǔ)架構(gòu)的選型?

和其他公司相通性的就是數(shù)據(jù)都有行為數(shù)據(jù)與業(yè)務(wù)數(shù)據(jù),但不同點(diǎn)就是業(yè)務(wù)數(shù)據(jù)更復(fù)雜,維度更多,比如商圈、門店等等,另外就是我們對(duì)數(shù)據(jù)的實(shí)時(shí)性要求更高,維度的組合更多,在選型上我們既有傳統(tǒng)的MySQL、也有列式存儲(chǔ)HBASE,也有部分的ES來解決我們的業(yè)務(wù)需求。

問題三:更新、查詢都比較頻繁的大增量數(shù)據(jù)時(shí)如何存儲(chǔ)?每天會(huì)新增10G+吧,ES的話,更新會(huì)造成大量的版本數(shù)據(jù),造成冗余;關(guān)系型數(shù)據(jù)庫(kù)的話,感覺數(shù)據(jù)量一大,查詢、更新效率是個(gè)問題。HBase可行嗎?之前用HBase時(shí)rowkey設(shè)計(jì)考慮寫負(fù)載,導(dǎo)致spark讀取很慢。

我覺得這種場(chǎng)景首先要做一下壓測(cè)看一下,系統(tǒng)的瓶頸在哪里,是由于網(wǎng)卡的壓力大,還是磁盤IO大,還是內(nèi)存的壓力等等,只有有了這些壓測(cè)數(shù)據(jù),我們才能夠知道我們的存儲(chǔ)系統(tǒng)的瓶頸在哪里,你所說的rowkey設(shè)計(jì)考慮寫負(fù)載,導(dǎo)致spark讀很慢,也如上所說系統(tǒng)的瓶頸在哪里,才能夠基于瓶頸做優(yōu)化和提升性能,另外我們專門做過HBase的優(yōu)化,通過做二級(jí)緩存、升級(jí)ssd等來提升HBase的性能,還得根據(jù)業(yè)務(wù)的特點(diǎn)做一些優(yōu)化,你所說的這種場(chǎng)景HBase是完全能夠滿足需求的。

【本文由趙國(guó)賢于2016年11月8日,在WOT技術(shù)門診第四期《大鏈家網(wǎng)大數(shù)據(jù)基礎(chǔ)設(shè)施建設(shè)》語(yǔ)音直播分享以及和群成員答疑互動(dòng)的內(nèi)容整理而成。如需轉(zhuǎn)載請(qǐng)注明出處為WOT】

責(zé)任編輯:趙寧寧 來源: WOT
相關(guān)推薦

2016-10-21 13:37:50

大數(shù)據(jù)大數(shù)據(jù)技術(shù)

2016-10-21 13:24:33

大數(shù)據(jù)大數(shù)據(jù)技術(shù)董四輩

2021-09-10 13:23:57

數(shù)據(jù)閃存 磁盤

2013-07-02 09:46:11

大數(shù)據(jù)分析基礎(chǔ)設(shè)施架構(gòu)

2022-11-15 10:07:58

2013-06-24 10:48:30

惠普世界之旅惠普大數(shù)據(jù)

2016-10-08 22:15:03

2023-01-13 16:21:38

物聯(lián)網(wǎng)

2017-06-21 10:47:34

2023-05-12 15:15:23

數(shù)字化轉(zhuǎn)型大數(shù)據(jù)

2021-10-31 15:38:34

區(qū)塊鏈元宇宙技術(shù)

2009-07-26 20:36:03

數(shù)據(jù)中心基礎(chǔ)設(shè)施布線

2021-05-20 14:18:22

大數(shù)據(jù)數(shù)據(jù)分析工具

2019-11-07 21:11:34

騰訊開發(fā)數(shù)字化

2017-02-28 10:44:35

2014-03-07 14:35:49

網(wǎng)絡(luò)基礎(chǔ)設(shè)施Open Fabric

2019-11-20 15:18:15

欺騙技術(shù)網(wǎng)絡(luò)安全基礎(chǔ)設(shè)施安全

2011-04-18 15:23:01

數(shù)據(jù)中心基礎(chǔ)設(shè)施

2022-02-10 11:54:34

即時(shí)基礎(chǔ)設(shè)施基礎(chǔ)設(shè)施數(shù)字化轉(zhuǎn)型
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)