案例:整體部署100千兆以太網(wǎng)
為了支持高性能計(jì)算(HPC),有一家研究機(jī)構(gòu)采用Brocade解決方案,建立了一個(gè)全新的100 GbE骨干網(wǎng)。
Spartaco Cicerchia是位于馬里蘭州醫(yī)學(xué)研究所(HHMI)的企業(yè)系統(tǒng)主管,據(jù)他介紹,HHMI研究人員生成大量的數(shù)據(jù)圖像,他們迫切需要在園區(qū)訪問層實(shí)現(xiàn)10 GbE連接。
他說:“我們需要在數(shù)據(jù)采集到存儲(chǔ)、存儲(chǔ)到高性能計(jì)算環(huán)境或到可視化、渲染和估算之間傳輸大量的數(shù)據(jù)?,F(xiàn)在,所有人都會(huì)生成大量的數(shù)據(jù),將這些數(shù)據(jù)從采集點(diǎn)傳輸?shù)酱鎯?chǔ)再傳輸?shù)狡渌恢檬且欢y度,因?yàn)榫W(wǎng)絡(luò)已經(jīng)成為傳輸?shù)钠款i。”
Cicerchia擔(dān)心的是,隨著HHMI研究人員生成的數(shù)據(jù)不斷地增加,他原有的基于Force10基礎(chǔ)架構(gòu)的10 GbE網(wǎng)絡(luò)可能變成瓶頸。去年冬天,在HHMI第5次更新網(wǎng)絡(luò)時(shí),Cicerchia決定將網(wǎng)絡(luò)升級(jí)到更快速的光纖網(wǎng)絡(luò)。
“我們想要設(shè)計(jì)一種實(shí)現(xiàn)超高吞吐量和超低延遲的網(wǎng)絡(luò)。我們?cè)诤诵木W(wǎng)絡(luò)就開始捆綁部署多條10千兆鏈路,其他位置為20至40千兆。所以我們甚至決定不考慮40千兆以太網(wǎng)技術(shù),而直接采用100 GbE。”
用一對(duì)100 GbE鏈路連接核心網(wǎng)絡(luò)與布線柜
在HHMI數(shù)據(jù)中心的核心網(wǎng)絡(luò)中,Cicerchia同時(shí)安裝了兩臺(tái)Brocade MLXe-32機(jī)架,以及Brocade的多機(jī)架線槽(MCT)。MCT是一種網(wǎng)絡(luò)虛擬化技術(shù),它允許客戶將兩臺(tái)交換機(jī)作為一個(gè)虛擬設(shè)備運(yùn)行。每一個(gè)機(jī)架都有32個(gè)以太網(wǎng)刀片機(jī)插槽。HHMI將MLXe-32交換機(jī)的一半插槽連接100 GbE端口,機(jī)架上總共有32個(gè)100 GbE端口。其余插槽則留給千兆和10 GbE端口使用。
Cicerchia在所有布線柜安裝了16個(gè)MLXe-16機(jī)架,這兩臺(tái)MLXe-32機(jī)架則負(fù)責(zé)收集來自這些MLXe-16機(jī)架的流量。每一臺(tái)MLXe-16都具有一對(duì)100 GbE上行鏈路,分別連接一個(gè)HHMI核心交換機(jī)。Cicerchia說,這些100 GbE上行鏈路都是激活的,因?yàn)锽rocade的MCT可以讓他在網(wǎng)絡(luò)中拋棄生成樹協(xié)議。
為了保證100 GbE網(wǎng)絡(luò)的性能,Cicerchia還部署了一個(gè)獨(dú)立的園區(qū)網(wǎng)絡(luò),專門支持語(yǔ)音IP (VoIP)和視頻會(huì)議,作為無線LAN的有線骨干網(wǎng)。這個(gè)附屬網(wǎng)絡(luò)的流量也會(huì)匯集到HHMI的MLXe-32核心交換機(jī),包括帶有筆記本以太網(wǎng)電源(PoE)和無線接入端的多個(gè)可堆疊Brocade FCX交換機(jī)。每一個(gè)FCX交換機(jī)層都通過一對(duì)10 GbE鏈路連接上行鏈路的核心網(wǎng)絡(luò)。
除了聚集這兩個(gè)園區(qū)網(wǎng)絡(luò),MLXe-32機(jī)架還作為HHMI的數(shù)據(jù)中心核心網(wǎng)絡(luò),服務(wù)聚集服務(wù)器和HPC流量。“在數(shù)據(jù)中心,我們使用了Arista網(wǎng)絡(luò)公司的***機(jī)架交換機(jī)。此外,我們還在一些低優(yōu)先級(jí)的機(jī)房部署了一些Brocade FCX交換機(jī),并且我們還有一些遺留的Force10***機(jī)架交換機(jī),但是我們正準(zhǔn)備更換它們。”
提前部署100 GbE網(wǎng)絡(luò)的結(jié)果:不需要生成樹協(xié)議
“9月份,我們完全轉(zhuǎn)換到新的網(wǎng)絡(luò),這使HHMI將由原來的4臺(tái)Force10機(jī)架組成的核心網(wǎng)絡(luò)壓縮為2臺(tái)MLXe-32交換機(jī)。Cicerchia指出,這種架構(gòu)整合既保證了低延遲時(shí)間,也提高了端口密度。同時(shí),我們將使用生成樹的機(jī)架設(shè)計(jì)更改為使用MCT實(shí)現(xiàn)的全雙主動(dòng)設(shè)計(jì)。這樣做的結(jié)果是,因?yàn)?臺(tái)交換機(jī)變成2臺(tái),我們不僅將延遲時(shí)間降低50%;而且還將效率提高了100%,因?yàn)槲覀儝仐壛松蓸涞谋粍?dòng)模式鏈路。轉(zhuǎn)到MCT使我們能夠完全利用整個(gè)架構(gòu)的優(yōu)勢(shì)。”Cicerchia說。
在Cicerchia測(cè)試網(wǎng)絡(luò)時(shí),從機(jī)架生成樹設(shè)計(jì)轉(zhuǎn)變?yōu)槭褂肂rocade MLXe-32核心網(wǎng)絡(luò)的MCT出現(xiàn)了一些問題。他說:“由于我們的通道和資源問題,我們能夠同時(shí)將所有流量繞開生成樹,所以除了運(yùn)行MCT,MLXe-32還運(yùn)行了802.1w快速生成樹協(xié)議。”
不幸的是,核心交換機(jī)上有一些10 GbE接口被重置了,因此Cicerchia的相關(guān)人員無法確定問題的根源。他授權(quán)Brocade捕捉數(shù)據(jù)包,以確定問題發(fā)生的原因。 “我們能夠確定軟件缺陷發(fā)生在MT和802.1w之間,特別是在原有的Force10***機(jī)架上。我們知道Brocade無法快速提供補(bǔ)丁程序,所以我們將生成樹配置從802.1w修改為802.1s,從而解決了這個(gè)問題。這時(shí),Brocade才發(fā)布補(bǔ)丁,但是為了保持網(wǎng)絡(luò)的穩(wěn)定,我們并沒有部署這個(gè)補(bǔ)丁。我們計(jì)劃在圣誕節(jié)再做這件事。”
【編輯推薦】