【干貨分享】360網(wǎng)絡(luò)運維的最佳實踐
原創(chuàng)嘉賓介紹
李洪亮,奇虎360網(wǎng)絡(luò)運維負責(zé)人。2007年加入360公司,目前已有11年的網(wǎng)絡(luò)與網(wǎng)絡(luò)安全工作經(jīng)驗,擁有CISSP和CCNP證書,帶領(lǐng)團隊實現(xiàn)了奇虎360網(wǎng)絡(luò)架構(gòu)從1000臺服務(wù)器到10萬臺服務(wù)器的跨越式發(fā)展。
在我2007年加入360公司的時候,360公司的服務(wù)器數(shù)量是1000臺,經(jīng)過不同階段的發(fā)展,現(xiàn)在已經(jīng)達到了10萬臺服務(wù)器的規(guī)模。下面,我按照公司服務(wù)器發(fā)展的不同階段,分享在網(wǎng)絡(luò)建設(shè)和運維過程中遇到的哪些挑戰(zhàn)、陷阱、經(jīng)驗和收獲。
階段一、1-1000臺服務(wù)器規(guī)模
1.需求:奇虎前期做的是社區(qū)搜索,規(guī)模不大。業(yè)務(wù)部門的需求是網(wǎng)絡(luò)能夠通暢運行就可以。
2.人員:沒有專職的網(wǎng)絡(luò)工程師
3.架構(gòu):核心與接入的二層結(jié)構(gòu),我們采用的是星型結(jié)構(gòu)。
4.挑戰(zhàn):工作量大,各方面的工作都要接觸。
5.陷阱:有缺陷的網(wǎng)絡(luò)設(shè)備,不靠譜的機房。
- 如果你買到有缺陷的網(wǎng)絡(luò)設(shè)備,就會對網(wǎng)絡(luò)造成很大的運行壓力。
- 如果碰到不靠譜的機房,從我的經(jīng)驗來看,機房泡水出現(xiàn)的大概頻次是3年左右。大家特別需要注意空調(diào)的冷凝水漏水,它造成的損害很大。
6.經(jīng)驗:綁定一家有實力的設(shè)備廠商,特別是對于體量不大的小型公司。
階段二、1000-5000臺服務(wù)器規(guī)模
1.需求:高可靠
2.人員:專職網(wǎng)絡(luò)工程師(CCIE) 大于2位
3.架構(gòu):簡單二層結(jié)構(gòu)/多數(shù)據(jù)中心,其中數(shù)據(jù)中心通過光纖來互聯(lián)。
4.挑戰(zhàn):工作量大,因為業(yè)務(wù)部門的需求增加,工作壓力加大。
5.陷阱:
- 業(yè)務(wù)復(fù)雜度挑戰(zhàn)網(wǎng)絡(luò)設(shè)備,比如業(yè)務(wù)部門根據(jù)業(yè)務(wù)發(fā)展的實際對于網(wǎng)絡(luò)提出特殊要求。
- 經(jīng)常中斷的光纖,需要選擇靠譜的供應(yīng)商。比如某年7月份斷了22次光纖,這種狀況如出現(xiàn),會讓網(wǎng)絡(luò)運維人員崩潰。
- 網(wǎng)絡(luò)斷了竟然不知道,這是很大的挑戰(zhàn)。網(wǎng)絡(luò)運維部門需要早于業(yè)務(wù)部門發(fā)現(xiàn)網(wǎng)絡(luò)問題。
6.經(jīng)驗:
- 與廠商溝通業(yè)務(wù)場景, 一定要選擇有余量的網(wǎng)絡(luò)設(shè)備。
千萬不要把網(wǎng)絡(luò)設(shè)備的數(shù)據(jù)指標范圍卡的過于嚴格。
- 選擇靠譜的傳輸和光纖供應(yīng)商
- 搭建網(wǎng)絡(luò)監(jiān)控和報警平臺
階段三、5000-10000臺服務(wù)器規(guī)模
1.需求:高可靠/不丟包
2.人員:網(wǎng)絡(luò)工程師/網(wǎng)絡(luò)架構(gòu)師大于5人,這個階段就要融入至少一個網(wǎng)絡(luò)架構(gòu)師的角色。
3.架構(gòu):大規(guī)模數(shù)據(jù)中心/異地多數(shù)據(jù)中心。這里提到的大規(guī)模數(shù)據(jù)中心的一個數(shù)據(jù)中心要有2-3千臺服務(wù)器規(guī)模。
4.挑戰(zhàn):
- 工作量巨大,壓力山大。這個階段單人的工作量壓力***,如通過這個階段,你就會成為部門精英了。
- 人員誤操作增多。
隨著業(yè)務(wù)需求增多,網(wǎng)絡(luò)運維人員相對也是增多,必然增加人員誤操作發(fā)生的幾率,一旦出現(xiàn)情況,網(wǎng)絡(luò)運維人員可能沒法向業(yè)務(wù)部門交代。
- 網(wǎng)絡(luò)設(shè)備故障增多
5.陷阱:業(yè)務(wù)沖擊網(wǎng)絡(luò)設(shè)備極限,公司上線搜索,Hadoop集群,存在很大概率出現(xiàn)丟包現(xiàn)象。
一個搜索需求的提出,會在一個集群的幾百臺服務(wù)器上進行request,產(chǎn)生結(jié)果會同時到達端口,遠遠超過10毫秒1.25MByte的端口處理上限。在這種情況下,如果交換機buffer下的話,肯定會出現(xiàn)丟包現(xiàn)象,這個情況就是我們遇到的一個“坑”。
6.經(jīng)驗:
- 擴充人員規(guī)模。
隨著異地業(yè)務(wù)的開展,你的人員需要頻繁地出差??墒浅霾畹墓ぷ餍Ч桓?,時間浪費在路上,還造成溝通成本增加。這個問題的解決辦法就是擴大人員規(guī)模。
- 找經(jīng)驗豐富的網(wǎng)絡(luò)架構(gòu)師
網(wǎng)絡(luò)架構(gòu)師建議從5萬臺服務(wù)器規(guī)模以上公司來物色,可以節(jié)省很多試錯成本和快速找到合適資源,你懂得!
- 明確日常操作規(guī)范,避免誤操作發(fā)生的幾率。
- 專業(yè)的網(wǎng)管軟件。
特別關(guān)注日常幾百臺網(wǎng)絡(luò)設(shè)備的狀態(tài)情況,比如電源、風(fēng)扇和溫度,***能夠時刻關(guān)注這些數(shù)據(jù)的狀態(tài),出現(xiàn)情況可以及時報警。
- 整理準確的設(shè)備登記列表,這是上市審計的必要工作,要求詳細記錄每個設(shè)備的機器號、場地和設(shè)備的運轉(zhuǎn)信息等。
如果前期不做好這個工作,當網(wǎng)絡(luò)設(shè)備的規(guī)模達到1萬臺時,后期再做設(shè)備登記的工作將非常繁重,我們就經(jīng)歷了大概有小半年的時間來理清這些列表。如果有上市需求的公司,一定注意提前把這個工作做好。
#p#
階段四、10000-50000臺服務(wù)器規(guī)模
公司推出了搜索,業(yè)務(wù)蒸蒸日上。
1.需求:穩(wěn)定/靈活
2.人員:明確團隊分工,包括建設(shè)、架構(gòu)和運維三方面。
3.架構(gòu):超大規(guī)模數(shù)據(jù)中心,實現(xiàn)多地多點大帶寬互聯(lián)。
4.挑戰(zhàn):
- 業(yè)務(wù)對網(wǎng)絡(luò)的穩(wěn)定提出更高的要求,網(wǎng)絡(luò)不能老斷,不能出現(xiàn)丟包的情況。
因基數(shù)增加導(dǎo)致設(shè)備故障頻發(fā),2014年360損壞了十幾臺網(wǎng)絡(luò)設(shè)備,這種情況還是很嚴重??s短網(wǎng)絡(luò)設(shè)備的故障修復(fù)時間對網(wǎng)絡(luò)運維工程師是一個挑戰(zhàn)。
- 上市審計
5.陷阱:廠商激烈競爭會給網(wǎng)絡(luò)運維工程師帶來壓力。
6.經(jīng)驗:
- 明確網(wǎng)絡(luò)設(shè)備測試標準
各家廠商的競爭白熱化,出現(xiàn)設(shè)備間的對比,***的解決辦法是明確網(wǎng)絡(luò)設(shè)備的測試標準,所有的設(shè)備需要通過我們的測試標準才可以進入采購環(huán)節(jié)。
- 在架構(gòu)設(shè)計時消除單點故障,包括設(shè)備的故障,甚至光纖和路由的故障。
多個路由經(jīng)過一條光纖,如遇到野蠻施工,會出現(xiàn)多點中斷,造成的影響較大,所以網(wǎng)絡(luò)工程師要通過技術(shù)保障避免這種情況的發(fā)生。
- 制定備品備件庫和應(yīng)急預(yù)案,把可能存在故障風(fēng)險的設(shè)備進行列表,逐一排查,或者用其他設(shè)備進行替代,放置到備件庫。
- 網(wǎng)絡(luò)建設(shè)運維自動化提上日程。
階段五、50000-100000臺服務(wù)器規(guī)模
公司完成上市,有充足的資金來進行網(wǎng)絡(luò)的基礎(chǔ)建設(shè),也有更多的業(yè)務(wù)去發(fā)展。
1.需求:彈性/前瞻/可視
(1)彈性業(yè)務(wù)部門出現(xiàn)對網(wǎng)絡(luò)的要求不明確現(xiàn)象。網(wǎng)絡(luò)運維人員需要自發(fā)考慮網(wǎng)絡(luò)彈性,更好適應(yīng)業(yè)務(wù)的發(fā)展,或者根據(jù)不同部門業(yè)務(wù)發(fā)展情況的不同,進行內(nèi)部設(shè)備的部署調(diào)整。
(2)前瞻作為網(wǎng)絡(luò)架構(gòu)師或者網(wǎng)絡(luò)運維負責(zé)人,需要預(yù)知業(yè)務(wù)的發(fā)展方向,并提前進行網(wǎng)絡(luò)準備,安排好工作的順序。
(3)可視業(yè)務(wù)部門對于網(wǎng)絡(luò)的運行情況實現(xiàn)實時可見,比如某業(yè)務(wù)的日常流量分布情況等。
2.人員:團隊分工/梯隊建設(shè)
團隊分工更加明確,需要進行人員的梯隊建設(shè)。
3.架構(gòu):
- 超大規(guī)模的云數(shù)據(jù)中心
一個云數(shù)據(jù)中心定位在1萬臺以上的服務(wù)器規(guī)模。
- 多地多點光傳輸網(wǎng)絡(luò)
- 自有BGP業(yè)務(wù)
4.挑戰(zhàn):
- 對業(yè)務(wù)和行業(yè)的發(fā)展方向有前瞻能力
- 業(yè)務(wù)彈性的支持
5.陷阱:SDN(服務(wù)定義網(wǎng)絡(luò))
SDN的概念很火,個人認為有誤導(dǎo)的嫌疑;廠商為了做SDN而做SDN,沒有明確的目的性。這塊建議其他公司在做SDN的時候,提前考慮清楚業(yè)務(wù)對于網(wǎng)絡(luò)的真正需求是什么,然后現(xiàn)有的網(wǎng)絡(luò)有哪些是滿足不了業(yè)務(wù)的需求??梢悦鞔_看到云,網(wǎng)絡(luò)虛擬化的需求,傳統(tǒng)的網(wǎng)絡(luò)是滿足不了的,需要通過某種技術(shù)放到SDN下面去滿足,這才是一個比較好的發(fā)展方向。
6.經(jīng)驗:
- 通過自動化工具提高人員工作效率
- 提供網(wǎng)絡(luò)可視化接口,提前打好基礎(chǔ),更好地看到網(wǎng)絡(luò)運營的情況。
- 更細粒度的故障監(jiān)控,考量是否做到精細化運維的一個點。
- BGP路由優(yōu)化
當你的路由在國內(nèi)的運營商(中國移動、中國電信和中國聯(lián)通)網(wǎng)絡(luò)上跑起來以后,通過測試看起來網(wǎng)絡(luò)是通的,但是國外運營商的網(wǎng)絡(luò)接口可能存在問題,導(dǎo)致國外的用戶訪問不了360的BGP網(wǎng)絡(luò)資源。這里有兩個工具推薦使用,一個是Looking glass,大的運營商可以通過這個工具從他的AP網(wǎng)絡(luò)查看你的BGP的路由收取情況,如果沒有獲得這塊服務(wù),需要跟運營商進行溝通。比如我們跟美國Sprint就出現(xiàn)過這個問題,業(yè)務(wù)運營一段,有用戶反映我們的網(wǎng)絡(luò)有問題。另一個工具是RADb,需要根據(jù)IP地址進行登記,歐洲的小運營商比較認可這個工具,費用大概一年400美元。
總結(jié)與討論
1.老板是否重視網(wǎng)絡(luò)團隊?
開玩笑的說,老板會在網(wǎng)絡(luò)出問題時,重視網(wǎng)絡(luò)。其實,老板本來就應(yīng)該更關(guān)注公司業(yè)務(wù),因為網(wǎng)絡(luò)是為了滿足公司業(yè)務(wù)的發(fā)展規(guī)模而生的,網(wǎng)絡(luò)運維工程師的責(zé)任就是要提供一個優(yōu)質(zhì)的網(wǎng)絡(luò)。
2.把網(wǎng)絡(luò)做好是否很難?
領(lǐng)導(dǎo)對網(wǎng)絡(luò)的重視程度是一個方面,拋開網(wǎng)絡(luò)基礎(chǔ)來說,把網(wǎng)絡(luò)做好不是很難,只要做好兩件事就好,一個是找到靠譜的人,一個是找到靠譜的設(shè)備。相對其他事情都簡單一些。