為什么網(wǎng)絡(luò)工程師如此糾結(jié)于虛擬化管理?
網(wǎng)絡(luò)工程師很討厭被當(dāng)水管工人用——特別是在虛擬化管理方面。畢竟,支持虛擬化流量比物理線路要復(fù)雜很多。系統(tǒng)團(tuán)隊了解虛擬化環(huán)境的復(fù)雜性,但是有時候沒有意識到網(wǎng)絡(luò)管理員在虛擬化網(wǎng)絡(luò)管理中的作用。這種認(rèn)識的差距會造成故障修復(fù)策略和網(wǎng)絡(luò)架構(gòu)效率低下且不適合在虛擬化環(huán)境中使用。
虛擬化架構(gòu)師Bob Plankers在美國中西部一所綜合大學(xué)中遇到了這個問題,他著手使兩個團(tuán)隊(系統(tǒng)和網(wǎng)絡(luò))溝通,使用管理工具來解決問題。最終,他們確定一種管理虛擬化環(huán)境的新網(wǎng)絡(luò)架構(gòu)和高效方法。
在虛擬化管理方面,網(wǎng)絡(luò)團(tuán)隊和系統(tǒng)團(tuán)隊之間確定存在隔閡嗎?
Bob Plankers:絕對是這樣的,虛擬化或系統(tǒng)人員都沒有網(wǎng)絡(luò)人員的事。在傳統(tǒng)數(shù)據(jù)中心模型中,工作負(fù)載停留在一個地方,一切都是靜態(tài)的,網(wǎng)絡(luò)團(tuán)隊也是能夠發(fā)揮作用的;但是在實現(xiàn)了vMotion時,在數(shù)據(jù)中心內(nèi)移動VM,而系統(tǒng)人員不知道,這對他們是一種困擾。我不想把網(wǎng)絡(luò)團(tuán)隊比作水管工人,但是突然流量從一個地方轉(zhuǎn)到另一個地方,他們就不知道發(fā)生了什么。所以,網(wǎng)絡(luò)人員不理解虛擬化帶來的變化,也不理解系統(tǒng)人員所做的操作。
但是,系統(tǒng)人員也不理解為什么網(wǎng)絡(luò)人員會關(guān)心這個問題。他們只是將網(wǎng)絡(luò)看作是連接工具。他們認(rèn)為,“有一條線路連接我的數(shù)據(jù)中心,所以我在其中部署了ESX主機,然后我會將一臺主機部署在這個位置,”他們完全不知道連接交換機所需要的基礎(chǔ)架構(gòu),也不清楚所需要的帶寬。他們只是將它看作用之不盡的服務(wù),我認(rèn)為這是一般網(wǎng)絡(luò)人員值得驕傲的榮譽,但是,這也是兩個團(tuán)隊必須進(jìn)行溝通的地方。
系統(tǒng)人員必須注意是否有足夠的容量,對嗎?
Plankers:是的,一定要考慮。虛擬化中有兩種容量需要考慮。從外部看,虛擬機作為服務(wù)器會在網(wǎng)絡(luò)上產(chǎn)生流量,然后VMware 集群中vMotion和集群內(nèi)還有通信。vMotion確實是在使用網(wǎng)絡(luò)。如果您有256GB物理內(nèi)存,希望將這塊256GB的內(nèi)存快速復(fù)制到其他位置——這個過程會產(chǎn)生大量的流量 。此外,VMware明確規(guī)定了在使用vMotion時ESX主機之間的延遲限制。在這之間不允許部署路由。
問題是,虛擬化人員事先與網(wǎng)絡(luò)人員就他們的網(wǎng)絡(luò)設(shè)計進(jìn)行溝通,還是直接將它部署到網(wǎng)絡(luò)?在許多情況下,這個環(huán)境是平衡增長的,所以您必須部署一兩個虛擬化主機,然后想,“這是很棒的工具。我省了很多錢。”因此,您會添加第三、第四個主機,但是很快就會出現(xiàn)空間不足了,所以他們必須分散在整個數(shù)據(jù)中心中。
您本身的環(huán)境是怎么樣的?
Plankers:我們使用的是戴爾服務(wù)器——只有機架式服務(wù)器,沒有刀片服務(wù)器。此外,我們還使用思科網(wǎng)絡(luò)產(chǎn)品。我部署了兩個VMware vSphere集群。一個有10臺主機,另一個有8臺主機,以此作為500臺虛擬機的物理宿主。
這是很大的環(huán)境。您與網(wǎng)絡(luò)團(tuán)隊有交流問題嗎?
Plankers:是的,去年8月份我們舉行了一個網(wǎng)絡(luò)技術(shù)領(lǐng)域活動日(由網(wǎng)絡(luò)博主參加的會議),會議中只有我自己是系統(tǒng)人員,其他11位都是網(wǎng)絡(luò)人員。有一個Force10的人想知道系統(tǒng)人員進(jìn)行了什么操作,如何進(jìn)行這些vMotion部署,他的表現(xiàn)是想要說:“我不理解他們?yōu)槭裁匆@樣做!”所以,我舉手并回答:“您想知道原因嗎?”很明顯,這時網(wǎng)絡(luò)人員完全不清楚為什么系統(tǒng)人員要做這些事情,由于被蒙在鼓里,所以他們感到有些惱怒。而另他們更憤怒的是他們被看做管道工人了。
我認(rèn)識到,我必須和網(wǎng)絡(luò)人員進(jìn)行溝通。所以我們現(xiàn)在啟動了一個項目,將虛擬化主機連接修改為1GB。當(dāng)您移動VM消耗了256GB或512內(nèi)存時,主機會變大。在虛擬化中,少量大型主機的費用要大于小型主機。但是,隨著主機的增大,vMotion處理速度也會變慢。如果因為主機遇到硬件故障將它清除,你的速度需要提升。所以,我們認(rèn)為,將所有設(shè)備部署到數(shù)據(jù)中心的機架中會提升性能。我們會部署一個10GB頂級機架,然后將所有集群內(nèi)流量都限定在這個交換機之內(nèi),這樣它就不會影響到網(wǎng)絡(luò)的其他部分了。經(jīng)過這樣的修改,既能讓網(wǎng)絡(luò)人員滿意,我也會滿意,因為我們有了10GB連接。這是與人合作的最佳結(jié)果:雙贏。
這意味著網(wǎng)絡(luò)團(tuán)隊獲得到vSphere環(huán)境內(nèi)部流量的管理權(quán)限嗎?
Plankers:不完全是。他們不會管理任何一個分布式交換機或類似的組件,但是他們確實能夠訪問這些設(shè)備。跨團(tuán)隊交流的另一個結(jié)果是,網(wǎng)絡(luò)團(tuán)隊能夠了解VM的位置與所在主機。幾個月之前,我們遇到了一個問題,而如果他們能夠訪問數(shù)據(jù),他們就能夠幫助我們分析問題,而不是只能看我們分析。他們有監(jiān)控和管理工具,我也有自己的工具。兩個團(tuán)隊仍然是獨立的,但是現(xiàn)在我可以查看他們的路由器日志,所以這是一個更加統(tǒng)一的工作方式。
您允許他們訪問您的VMware嗎?
Plankers:他們能夠訪問vCenter客戶端,能夠查看日志。此外,我還教他們?nèi)绾尾榭淳W(wǎng)絡(luò)配置。他們沒有權(quán)限修改配置,因為我希望他們將修改要求告訴我——就像我也沒有權(quán)限修改他們的交換機和路由器配置一樣。
是否可能轉(zhuǎn)到一個統(tǒng)一的第三方聯(lián)合管理工具,能夠顯示物理與虛擬環(huán)境可用資源?
Plankers:絕對可以。Xangati的一些面向網(wǎng)絡(luò)的跨平臺工具,它們能夠從各種數(shù)據(jù)源獲取數(shù)據(jù),包括物理交換設(shè)備,所以您能夠以端到端的方式監(jiān)控虛擬機。我們已經(jīng)對它進(jìn)行研究,但是對于我們而言,存在預(yù)算問題。
Xangati很好,但是在許多情況中,有一些工具供應(yīng)商聲稱他們能夠管理虛擬化,但是與VMware產(chǎn)品的原生支持相比,它只是一個有限的插件。然而,您必須問自己,“是應(yīng)該使用一個能夠解決所有問題的工具,還是應(yīng)該使用兩個真正擅長解決某個問題的工具?”
Nexus 1000v能夠增強網(wǎng)絡(luò)工程師對虛擬化環(huán)境的控制,您對它有何看法?
Plankers:對于我們而言,它會增加成本;我們不需要它的功能,所以我們并沒有部署這種設(shè)備。在一些地方,它能夠幫助網(wǎng)絡(luò)人員解決一些問題,使他們能夠真正控制虛擬交換機,但是我認(rèn)為每一個組織都有其自身風(fēng)格和處理問題的方式。對于那些嘗試部署這種設(shè)備的人,他們可能首先應(yīng)該進(jìn)行一些交流。
應(yīng)用程序性能通常由網(wǎng)絡(luò)人員負(fù)責(zé)控制。如果他們無法控制虛擬網(wǎng)絡(luò),那么他們又如何能夠解決性能問題?
Plankers:他們無法做到。人們?nèi)绾文軌蚬芾硪恍┎皇芸刂频脑O(shè)備?如果他們負(fù)責(zé)管理性能,那么他們需要有能夠監(jiān)控設(shè)備的工具,否則他們無法管理性能。
在您的環(huán)境中,由誰來負(fù)責(zé)管理應(yīng)用程序性能?
Plankers:對于我們而言,這是一種分層的設(shè)計。我們有網(wǎng)絡(luò)人員、存儲人員、服務(wù)器或虛擬化人員,我是他們的溝通橋梁。然后,系統(tǒng)管理員是我和應(yīng)用人員的溝通橋梁。當(dāng)然,我們還有應(yīng)用人員。如果應(yīng)用程序出現(xiàn)性能問題,那么涉及的人員會很多。
在我們的特定環(huán)境中,很有意思的是,當(dāng)虛擬機變慢時,應(yīng)用人員會指責(zé)虛擬化人員;然后我會指出,虛擬機變慢是由于存儲變慢造成的,而存儲問題可能是由網(wǎng)絡(luò)問題引起的。
對于我們,我實施的任何性能工具都必須共享給所有人,所以應(yīng)用程序管理員、存儲管理員和網(wǎng)絡(luò)人員都需要查看數(shù)據(jù)。
原來,網(wǎng)絡(luò)工程師會使用VLAN劃分流量和保證流量安全。但是虛擬化環(huán)境的情況顯然是不同的。您如何解決這個環(huán)境中的流量劃分和安全性問題?
Plankers:我們一直在虛擬交換機上使用VLAN功能。我們要么使用這種方法,或者在主機上安裝大量的網(wǎng)卡。對于我們,如果VLAN分片足夠多,能夠滿足安全人員和網(wǎng)絡(luò)人員在上行鏈路和后臺中斷中的要求,那么也就符合我們的要求。然后,我只需要在虛擬交換機上配置VLAN功能。
網(wǎng)絡(luò)人員不喜歡自動化,特別是在缺少細(xì)致管理的時候。您如何解決這個問題?
Plankers:對于系統(tǒng)人員,自動化是荒謬的;對于網(wǎng)絡(luò)人員,他們的態(tài)度似乎也是不接受的。如果系統(tǒng)人員遇到問題時,他們會責(zé)怪網(wǎng)絡(luò),而自動化會使問題變得更糟糕。
自動分配VM可能非常麻煩,但是一定程度的自動化能夠幫助我們,還節(jié)省時間。我們必須進(jìn)行監(jiān)督,避免出現(xiàn)問題。如果防火墻規(guī)則會自動修改,安全人員則需要重新確認(rèn),保證它的行為是正確的。自動化不能夠代替審核過程。事實上,它需要進(jìn)行更多的審核。
您使用了VMware內(nèi)置的防火墻嗎?還是使用了第三方的安全組件?
Plankers:我將防火墻設(shè)置交由網(wǎng)絡(luò)人員負(fù)責(zé)。他們擁有非常成熟的網(wǎng)絡(luò)設(shè)備防火墻解決方案(使用思科ASA防火墻)。我不想徹底改變所有的一切。由于需要經(jīng)過一定的更換周期,而且現(xiàn)在我們正在相互溝通,所以我們可以就這些問題展開討論。我們可能會與虛擬防火墻vShield的相關(guān)人員討論。Altor Networks有很好的防火墻。有一些人對它很感興趣,因為它支持在虛擬機中實現(xiàn)防火墻。這意味著,可以通過設(shè)置,使虛擬機“X”不能與虛擬機“Y”通信,即使它們的位置在同一段網(wǎng)絡(luò)和同一個VLAN中。這很適合共享托管的多租賃環(huán)境。