瞻博網(wǎng)絡(luò)執(zhí)行副總裁談QFabric內(nèi)幕
瞻博網(wǎng)絡(luò)執(zhí)行副總裁兼無數(shù)據(jù)中心業(yè)務(wù)部門總經(jīng)理R.K.阿南德(R.K.Anand)在1996年是這個創(chuàng)業(yè)企業(yè)的第12名員工。加入瞻博網(wǎng)絡(luò)之前他曾是Sun微系統(tǒng)公司的處理器設(shè)計師。幾年后,阿南德離開了瞻博網(wǎng)絡(luò)并且在很短的時間里創(chuàng)建了另一個創(chuàng)業(yè)企業(yè)。但是,他后來又回到了瞻博網(wǎng)絡(luò)并且?guī)椭罱K完成和推出瞻博網(wǎng)絡(luò)的QFabric產(chǎn)品。美國《網(wǎng)絡(luò)世界》總編約翰·迪克斯(John Dix)最近在加州桑尼維爾的瞻博網(wǎng)絡(luò)公司總部采訪了阿南德,深入討論了瞻博網(wǎng)絡(luò)對高端數(shù)據(jù)中心需求做出的回應(yīng)。以下是采訪全文。
問:為什么這個世界需要QFabric?
答:如果你回到4年或4年半以前,那時正在出現(xiàn)一些大趨勢。數(shù)據(jù)中心當(dāng)時正在整合。網(wǎng)絡(luò)正好足以推動向云發(fā)展。也就是說,企業(yè)會說“我的帶寬非常充足。我有合理的延遲。我有多樣性的路徑。因此,我可以分開我的計算元素和存儲元素”。
但是,日益明顯的事情是由于采用了分層次的模式,數(shù)據(jù)中心將面臨升級的挑戰(zhàn)。這些層次有兩個層面。一個是交換機(jī)模型的層次結(jié)構(gòu),擁有接入、聚合和核心交換。另一個層面是工作層,包括網(wǎng)絡(luò)層、應(yīng)用層和數(shù)據(jù)庫層。所有這一切代表了一個需要真正的任意互連(any-to-any)解決方案的大規(guī)模的網(wǎng)絡(luò)問題。
因此,我們觀察了這個問題并且說,人們?nèi)绾稳绾谓鉀Q這個問題?我們認(rèn)識到,我們不能像交換機(jī)技術(shù)在過去的25年中做的那樣來解決這個問題。當(dāng)你建立一個標(biāo)準(zhǔn)的交換的時候,你就達(dá)到了極限。如果你有一臺半個機(jī)架的設(shè)備,你只能為其提供這樣多的電源,你只能為其提供那樣多的冷卻,你只能使用那么多平方英寸的地方用于連接。
那種做法要求我們考慮使用這個單個的半個機(jī)架的交換機(jī)并且充分利用它,也就是說打破這臺機(jī)器的物理金屬框架的束縛。當(dāng)你打破這些束縛的時候,你會看到半個機(jī)架的交換機(jī)基本上是一套與結(jié)構(gòu)連接的線卡。這些結(jié)構(gòu)允許有固定延遲的任意互連的端口連接,并且這臺設(shè)備在以它的規(guī)模工作。如果你打破那個金屬的束縛,打造一個結(jié)構(gòu)技術(shù),以更有伸縮性的方式連接這些線卡,那么,你就解決了這個問題。
不過,讓我們后退一步。有許多制造交換機(jī)的方法。但是,一般來說,交換機(jī)在前面有線卡,在背面有水平結(jié)構(gòu)卡。結(jié)構(gòu)卡一般不相互連接,因此,數(shù)據(jù)包進(jìn)入輸入端口,然后,線卡中的數(shù)據(jù)包轉(zhuǎn)發(fā)引擎把這些數(shù)據(jù)包傳送到整個結(jié)構(gòu),接下來再把這些數(shù)據(jù)包從輸出端口發(fā)出。
一個基座系統(tǒng)中的典型的線卡是一個豐富的組件。它做許多處理工作和繁重的工作以及緩存和查詢工作。而核心結(jié)構(gòu)是一個簡單的組件。它做很少的處理工作。它的任務(wù)是獲取和轉(zhuǎn)移數(shù)據(jù)。因此,我們要應(yīng)用所有的線卡,把它們拿出來并且放在機(jī)架交換機(jī)的頂部,也就是一臺1U、48個10G端口的交換機(jī)(我們最終將看到40G和100G的交換機(jī))。
由于線卡與結(jié)構(gòu)對話,結(jié)構(gòu)卡相互之間沒有聯(lián)系,我們還要把結(jié)構(gòu)卡放在不同的機(jī)箱中。我們把這種機(jī)箱稱作互連機(jī)箱。你可以連接機(jī)架交換機(jī)頂部的128個結(jié)構(gòu)卡。我們稱之為節(jié)點。這里有4個冗余的相互連接,意味著我們能夠最多支持6144個10G端口。
現(xiàn)在,這里還有一個電源部分。一般來說,完成全部以太網(wǎng)數(shù)據(jù)包處理任務(wù)的前面的線卡是耗電量最多的。位于核心的芯片做很少的工作,這意味著電源問題實際上是在邊緣。正是電源問題在年復(fù)一年地增加。隨著你使用1G端口、10G端口、40G端口或者100G端口,耗電量便從5000瓦、1萬瓦、1.5萬瓦一直增加到1.8萬瓦。
通過把工作分配到每個機(jī)架的頂部,而不是使用***一排交換機(jī),你在分配電源。這是一個漂亮的故事。機(jī)架交換機(jī)頂部只有350瓦,正好在服務(wù)器的范圍內(nèi),對嗎?因此,這意味著我能夠使用4萬瓦電源相互連接全部6144個10G端口的數(shù)據(jù)中心。
在這個三層交換模式中,以太網(wǎng)處理是在接入層、聚合層和核心層等每一個層次上完成的。每一臺設(shè)備都在工作,占據(jù)位置和消耗電源。
問:是什么讓你說每一個端口相距僅是一個跳點的距離?
答:這要回到我關(guān)于分層數(shù)據(jù)中心的觀點。分層數(shù)據(jù)中心就是創(chuàng)建人力資源倉、財務(wù)倉、銷售倉,然后你建立Web倉、應(yīng)用倉和數(shù)據(jù)庫倉?,F(xiàn)在,使用QFabric,你突然解除了這些束縛。因為在這個故事中有一個相等的性質(zhì):這些端口之中的任何一個端口之間的距離都是相等的。任何一個端口都可以設(shè)置為2層或者3層端口,使它成為任何一層網(wǎng)絡(luò)的成員。因此,你突然之間不再受你的數(shù)據(jù)所在的應(yīng)用程序、服務(wù)器或者虛擬機(jī)的限制。
當(dāng)你啟用一個虛擬機(jī)的時候,你要做的事情就是詢問“臺服務(wù)器有容量嗎?”,不用擔(dān)心它需要的是一個人力資源倉或者一個IT倉或者財務(wù)倉。當(dāng)你說你是這個組(這個虛擬局域網(wǎng))的一個成員的時候,你可以訪問隨后的存儲。因此,突然之間,任何端口都可以在5微妙之內(nèi)大規(guī)模連接到任何其它端口。因此,這意味著你在云和數(shù)據(jù)中心中需要的大多數(shù)應(yīng)用程序都將很好地工作。
考慮一下云提供商的環(huán)境,在這個環(huán)境中,你不知道這一分鐘與下一分鐘有什么區(qū)別,因為你不知道有多少人打電話并且申請10個以上的虛擬機(jī)或者增加TB容量的存儲。這是一個不斷變化的狀態(tài)。在這些情況下,你需要一個豐富的和靈活的連接模式,你要讓端口適合各種應(yīng)用。這是我們使用QFabric的方法。建設(shè)這個環(huán)境需要拋棄舊思路,有一個明確的觀點。#p#
問:如何配置端口?
當(dāng)你有一個分層次的網(wǎng)絡(luò)的時候,每一臺設(shè)備都需要操作人員登錄設(shè)備和進(jìn)行設(shè)置。每一次修改狀態(tài)的時候,都會出現(xiàn)一臺新的服務(wù)器,一個新的虛擬機(jī),并且狀態(tài)的這些改變要求你回去設(shè)置這些設(shè)備中的每一臺設(shè)備。使用QFabric,你可以在一個地方設(shè)置一切。你到目前為止還沒有明確說明管理和運營的好處,只是想到這個事實:有一天,整個數(shù)據(jù)中心只要一兩個人就可以管理。
因此,我現(xiàn)在有一個管理點,我說:“嗨,你是一個FCoE端口。嗨,你是一個10G以太網(wǎng)端口。嗨,你是光纖通道端口。在你們這些端點,我僅配置2層網(wǎng)絡(luò)設(shè)備。”你需要所有這些靈活性。
問:QFabric僅適用于特大型機(jī)構(gòu)嗎?
答:我們總的觀點是數(shù)據(jù)中心必須從三層減少到二層,然后減少到一層。這樣,我們的***個發(fā)明就將從三層減少到二層,取消這個等式中的一些設(shè)備,使數(shù)據(jù)中心更簡單。我們在2008年推出的EX產(chǎn)品線做了這個事情。這個產(chǎn)品線使我們能夠把許多接入設(shè)備連接在一起,僅使用一個核心的設(shè)備,減少了所需設(shè)備的數(shù)量。
因此,這個技術(shù)創(chuàng)新過程隨后要使用QFabric把網(wǎng)絡(luò)從二層減少到一層。我們知道,有些數(shù)據(jù)中心不需要那樣大的規(guī)模,因此,我們需要很好地劃分界限。我們認(rèn)為,二層數(shù)據(jù)中心將為你提供大約500至600個10G端口。然后,當(dāng)你超過這個界限的時候,QFabric允許你升級到更多的數(shù)量。
我們的***個產(chǎn)品是在去年9月開始出貨的QFabric。盡管我們的***個產(chǎn)品允許客戶連接6144個10G端口,但是,我們認(rèn)為,我們還有機(jī)會減少或者增加端口。我們的技術(shù)最終將使我們能夠增加數(shù)萬個端口。
問:有哪些客戶購買?
答:當(dāng)你用三年半至四年時間做這樣一個項目的時候,你要用許多時間證明這個想法是合理的,你要向客戶灌輸這個想法,解釋它的工作原理。這樣,你將不斷地調(diào)整和微調(diào)產(chǎn)品并且得到客戶的反饋意見。
但是,有時候,客戶說,“這個幻燈片很好,我可以接觸和感受這個產(chǎn)品嗎?”我可以告訴他們,因為我們在全球各地的概念證明實驗室中有這些產(chǎn)品。當(dāng)客戶來觀看一個單一的管理點以及整個系統(tǒng)如何看起來像一臺交換機(jī)的時候,這些實驗室在每一種情況下都能滿足客戶的要求。
問:你們有多少客戶?
答:貝爾加拿大和CODONiS是目前使用QFabri的兩個公開的客戶。此外,我可以告訴你,我們與客戶的所有的交流都是積極的,因為客戶贊揚這個架構(gòu)很精美,客戶贊揚節(jié)省電源和空間的價值定位,此外,還有長期的運營開支的好處。你知道,這個范例的轉(zhuǎn)變需要客戶愿意,因為這個問題是很明顯的:當(dāng)你的服務(wù)器核心增加到1000個、2000個、5000個的時候,你知道,你不能以同樣的方式不斷地建造網(wǎng)絡(luò),你不能對它使用TRILL(多鏈接透明互聯(lián))協(xié)議并且使它的分層次的交換結(jié)構(gòu)看起來相同。你還將在每一個層次上做以太網(wǎng)處理,因此,你仍然沒有解決電源、空間和其它問題。
問:思科的裝機(jī)數(shù)量使其用戶很難采取同樣的方法。
答:你說到了要點。如果這是一個200億美元的網(wǎng)絡(luò)業(yè)務(wù)并且這個目標(biāo)是減少端口,你基本上已經(jīng)消滅了聚合和核心交換機(jī)業(yè)務(wù)。誰愿意跳過這個鴻溝?
問:另一家大談結(jié)構(gòu)的公司是博科。你對他們的方法有什么看法?
答:當(dāng)我觀察這個競爭的時候,我認(rèn)為,他們的基本方法仍然是相同的。這個方法就是把許多交換機(jī)在一個分層次的結(jié)構(gòu)中組合在一起。然后,你說,為什么我們不能運行一個Fabric Path或者Trill協(xié)議,或者使它看起來像一個結(jié)構(gòu)的東西。沒有人從頭開始進(jìn)行設(shè)計。但是,那還沒有從根本上解決這個問題。
第二,我認(rèn)為,他們解決了二層問題。但是,他們沒有大規(guī)模地解決二層和三層的問題。我認(rèn)為,二層和三層在數(shù)據(jù)中心共存是非常重要的,因為那是你如何分區(qū)和分配資源的問題以及多租戶等所有這些問題。
你知道,結(jié)構(gòu)是一個極好的詞匯。我們都依賴它。但是,人們必須后退一步并且問“誰真正建立了一個結(jié)構(gòu)?”一個結(jié)構(gòu)必須有某種屬性,對嗎?你必須要問,它是做任意互連的嗎?有一個單一管理點嗎?它有彈性嗎?它能在2層和3層大規(guī)模工作嗎?你需要問所有這些問題。
【編輯推薦】