大型分布式網(wǎng)站架構(gòu)技術(shù)總結(jié)
本文是學習大型分布式網(wǎng)站架構(gòu)的技術(shù)總結(jié)。對架構(gòu)一個高性能,高可用,可伸縮,可擴展的分布式網(wǎng)站進行了概要性描述,并給出一個架構(gòu)參考。一部分為讀書筆記,一部分是個人經(jīng)驗總結(jié)。對大型分布式網(wǎng)站架構(gòu)有很好的參考價值。
一、大型網(wǎng)站的特點
用戶多,分布廣泛
大流量,高并發(fā)
海量數(shù)據(jù),服務高可用
安全環(huán)境惡劣,易受網(wǎng)絡攻擊
功能多,變更快,頻繁發(fā)布
從小到大,漸進發(fā)展
以用戶為中心
免費服務,付費體驗
二、大型網(wǎng)站架構(gòu)目標
高性能:提供快速的訪問體驗。
高可用:網(wǎng)站服務一直可以正常訪問。
可伸縮:通過硬件增加/減少,提高/降低處理能力。
安全性:提供網(wǎng)站安全訪問和數(shù)據(jù)加密,安全存儲等策略。
擴展性:方便的通過新增/移除方式,增加/減少新的功能/模塊。
敏捷性:隨需應變,快速響應;
三、大型網(wǎng)站架構(gòu)模式
分層:一般可分為,應用層,服務層,數(shù)據(jù)層,管理層,分析層;
分割:一般按照業(yè)務/模塊/功能特點進行劃分,比如應用層分為首頁,用戶中心。
分布式:將應用分開部署(比如多臺物理機),通過遠程調(diào)用協(xié)同工作。
集群:一個應用/模塊/功能部署多份(如:多臺物理機),通過負載均衡共同提供對外訪問。
緩存:將數(shù)據(jù)放在距離應用或用戶最近的位置,加快訪問速度。
異步:將同步的操作異步化??蛻舳税l(fā)出請求,不等待服務端響應,等服務端處理完畢后,使用通知或輪詢的方式告知請求方。一般指:請求——響應——通知 模式。
冗余:增加副本,提高可用性,安全性,性能。
安全:對已知問題有有效的解決方案,對未知/潛在問題建立發(fā)現(xiàn)和防御機制。
自動化:將重復的,不需要人工參與的事情,通過工具的方式,使用機器完成。
敏捷性:積極接受需求變更,快速響應業(yè)務發(fā)展需求。
四、高性能架構(gòu)
以用戶為中心,提供快速的網(wǎng)頁訪問體驗。主要參數(shù)有較短的響應時間,較大的并發(fā)處理能力,較高的吞吐量,穩(wěn)定的性能參數(shù)。
可分為前端優(yōu)化,應用層優(yōu)化,代碼層優(yōu)化,存儲層優(yōu)化。
前端優(yōu)化:網(wǎng)站業(yè)務邏輯之前的部分;
瀏覽器優(yōu)化:減少Http請求數(shù),使用瀏覽器緩存,啟用壓縮,Css Js位置,Js異步,減少Cookie傳輸;
CDN加速,反向代理;
應用層優(yōu)化:處理網(wǎng)站業(yè)務的服務器。使用緩存,異步,集群
代碼優(yōu)化:合理的架構(gòu),多線程,資源復用(對象池,線程池等),良好的數(shù)據(jù)結(jié)構(gòu),JVM調(diào)優(yōu),單例,Cache等;
存儲優(yōu)化:緩存,固態(tài)硬盤,光纖傳輸,優(yōu)化讀寫,磁盤冗余,分布式存儲(HDFS),NOSQL等;
五、高可用架構(gòu)
大型網(wǎng)站應該在任何時候都可以正常訪問。正常提供對外服務。因為大型網(wǎng)站的復雜性,分布式,廉價服務器,開源數(shù)據(jù)庫,操作系統(tǒng)等特點。要保證高可用是很困難的,也就是說網(wǎng)站的故障是不可避免的。
如何提高可用性,就是需要迫切解決的問題。首先,需要從架構(gòu)級別,在規(guī)劃的時候,就考慮可用性。行業(yè)內(nèi)一般用幾個9表示可用性指標。比如四個9(99.99),一年內(nèi)允許的不可用時間是53分鐘。
不同層級使用的策略不同,一般采用冗余備份和失效轉(zhuǎn)移解決高可用問題。
應用層:一般設計為無狀態(tài)的,對于每次請求,使用哪一臺服務器處理是沒有影響的。一般使用負載均衡技術(shù)(需要解決Session同步問題),實現(xiàn)高可用。
服務層:負載均衡,分級管理,快速失?。ǔ瑫r設置),異步調(diào)用,服務降級,冪等設計等。
數(shù)據(jù)層:冗余備份(冷,熱備[同步,異步],溫備),失效轉(zhuǎn)移(確認,轉(zhuǎn)移,恢復)。數(shù)據(jù)高可用方面著名的理論基礎是CAP理論(持久性,可用性,數(shù)據(jù)一致性[強一致,用戶一致,最終一致])
六、可伸縮架構(gòu)
伸縮性是指在不改變原有架構(gòu)設計的基礎上,通過添加/減少硬件(服務器)的方式,提高/降低系統(tǒng)的處理能力。
應用層:對應用進行垂直或水平切分。然后針對單一功能進行負載均衡(DNS,HTTP[反向代理],IP,鏈路層)。
服務層:與應用層類似;
數(shù)據(jù)層:分庫,分表,NOSQL等;常用算法Hash,一致性Hash。
七、可擴展架構(gòu)
可以方便的進行功能模塊的新增/移除,提供代碼/模塊級別良好的可擴展性。
模塊化,組件化:高內(nèi)聚,內(nèi)耦合,提高復用性,擴展性。
穩(wěn)定接口:定義穩(wěn)定的接口,在接口不變的情況下,內(nèi)部結(jié)構(gòu)可以“隨意”變化。
設計模式:應用面向?qū)ο笏枷?,原則,使用設計模式,進行代碼層面的設計。
消息隊列:模塊化的系統(tǒng),通過消息隊列進行交互,使模塊之間的依賴解耦。
分布式服務:公用模塊服務化,提供其他系統(tǒng)使用,提高可重用性,擴展性。
八、安全架構(gòu)
對已知問題有有效的解決方案,對未知/潛在問題建立發(fā)現(xiàn)和防御機制。對于安全問題,首先要提高安全意識,建立一個安全的有效機制,從政策層面,組織層面進行保障。比如服務器密碼不能泄露,密碼每月更新,并且三次內(nèi)不能重復;每周安全掃描等。以制度化的方式,加強安全體系的建設。同時,需要注意與安全有關的各個環(huán)節(jié)。安全問題不容忽視。包括基礎設施安全,應用系統(tǒng)安全,數(shù)據(jù)保密安全等。
基礎設施安全:硬件采購,操作系統(tǒng),網(wǎng)絡環(huán)境方面的安全。一般采用,正規(guī)渠道購買高質(zhì)量的產(chǎn)品,選擇安全的操作系統(tǒng),及時修補漏洞,安裝殺毒軟件防火墻。防范病毒,后門。設置防火墻策略,建立DDOS防御系統(tǒng),使用攻擊檢測系統(tǒng),進行子網(wǎng)隔離等手段。
應用系統(tǒng)安全:在程序開發(fā)時,對已知常用問題,使用正確的方式,在代碼層面解決掉。防止跨站腳本攻擊(XSS),注入攻擊,跨站請求偽造(CSRF),錯誤信息,HTML注釋,文件上傳,路徑遍歷等。還可以使用Web應用防火墻(比如:ModSecurity),進行安全漏洞掃描等措施,加強應用級別的安全。
數(shù)據(jù)保密安全:存儲安全(存在在可靠的設備,實時,定時備份),保存安全(重要的信息加密保存,選擇合適的人員復雜保存和檢測等),傳輸安全(防止數(shù)據(jù)竊取和數(shù)據(jù)篡改);
常用的加解密算法(單項散列加密[MD5,SHA],對稱加密[DES,3DES,RC]),非對稱加密[RSA]等。
九、敏捷性
網(wǎng)站的架構(gòu)設計,運維管理要適應變化,提供高伸縮性,高擴展性。方便的應對快速的業(yè)務發(fā)展,突增高流量訪問等要求。
除上面介紹的架構(gòu)要素外,還需要引入敏捷管理,敏捷開發(fā)的思想。使業(yè)務,產(chǎn)品,技術(shù),運維統(tǒng)一起來,隨需應變,快速響應。
十、大型架構(gòu)舉例
以上采用七層邏輯架構(gòu),第一層客戶層,第二層前端優(yōu)化層,第三層應用層,第四層服務層,第五層數(shù)據(jù)存儲層,第六層大數(shù)據(jù)存儲層,第七層大數(shù)據(jù)處理層。
客戶層:支持PC瀏覽器和手機APP。差別是手機APP可以直接訪問通過IP訪問,反向代理服務器。
前端層:使用DNS負載均衡,CDN本地加速以及反向代理服務;
應用層:網(wǎng)站應用集群;按照業(yè)務進行垂直拆分,比如商品應用,會員中心等;
服務層:提供公用服務,比如用戶服務,訂單服務,支付服務等;
數(shù)據(jù)層:支持關系型數(shù)據(jù)庫集群(支持讀寫分離),NOSQL集群,分布式文件系統(tǒng)集群;以及分布式Cache;
大數(shù)據(jù)存儲層:支持應用層和服務層的日志數(shù)據(jù)收集,關系數(shù)據(jù)庫和NOSQL數(shù)據(jù)庫的結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)收集;
大數(shù)據(jù)處理層:通過Mapreduce進行離線數(shù)據(jù)分析或Storm實時數(shù)據(jù)分析,并將處理后的數(shù)據(jù)存入關系型數(shù)據(jù)庫。(實際使用中,離線數(shù)據(jù)和實時數(shù)據(jù)會按照業(yè)務要求進行分類處理,并存入不同的數(shù)據(jù)庫中,供應用層或服務層使用)。
來源:ITFLY8架構(gòu)師之家