與SDN的一步之遙:讓機(jī)器自動做決策
我也承認(rèn)這個觀點(diǎn),我本身也是一位空間極客。更壞的是,我偶爾還是一位飛行員、認(rèn)證調(diào)度員,我的IT生涯始于一家航空公司。上世紀(jì)70年代,我在孩提時就觀看了阿波羅號發(fā)射升空,和許多工程師一樣,我也在追隨技術(shù)發(fā)展,從非凡的Werner von Braun手工焊接熱機(jī)械似的龐然大物到現(xiàn)代更復(fù)雜的小型電子化空間系統(tǒng)。
在之前新型獵戶座多用途航天飛行器的***發(fā)射計劃推遲后,我最近又觀看了它的***成功發(fā)射之后,我認(rèn)識到SDN與可編程網(wǎng)絡(luò)也將遇到與NASA發(fā)射系統(tǒng)相同的挑戰(zhàn)。我們都在依賴網(wǎng)絡(luò)自動化,但是有時候我們需要人工干預(yù)。兩者的***區(qū)別是,企業(yè)IT必須提供持續(xù)在線時間,幾乎不存在允許一項(xiàng)事務(wù)暫停的可能性。
獵戶座的主要通信方式是以太網(wǎng)
獵戶座攜帶的中央數(shù)據(jù)網(wǎng)絡(luò)是以太網(wǎng)。再詳細(xì)點(diǎn)說,生命支持、導(dǎo)航、推進(jìn)器點(diǎn)火、通信與模塊交互協(xié)調(diào)等等,所有方面都通過時間觸發(fā)的千兆以太網(wǎng)實(shí)現(xiàn)互連。確實(shí),這個網(wǎng)絡(luò)采用了一種IEEE 802.3的私有實(shí)現(xiàn),但是它具有兼容性,增加了一種可靠消息交付分類。此外,它的速度比國際空間站采用的技術(shù)快1000倍,并且還包含抗輻射的ASIC,它很像每一個核心交換機(jī)都采用的技術(shù)。
和現(xiàn)代企業(yè)網(wǎng)絡(luò)類似,最有意思的是獵戶座網(wǎng)絡(luò)將多個原本分散的服務(wù)集中到一個電路上。它混合了關(guān)鍵指令流量、***文件拷貝和中級語音及視頻(但是延遲和抖動要求較高)。與企業(yè)網(wǎng)絡(luò)不同的是,獵戶座的網(wǎng)絡(luò)工程師更關(guān)注于保持大帶寬,更依賴于芯片,而不是路由器的QoS策略映射。
由獨(dú)立軟件定義的決策過程
在獵戶座發(fā)射時,瞬時風(fēng)力曾經(jīng)兩次讓發(fā)射流程自動中止,而且中止就發(fā)生在倒數(shù)期間。這迫使飛行主管焦急萬分地喊出:“中止!中止!中止!”然后團(tuán)隊(duì)作了一個預(yù)警決定——它禁用了自動風(fēng)力傳感器,轉(zhuǎn)而采用阿波羅時代的控制方式——由人來觀測風(fēng)速和風(fēng)向等指數(shù)。
回到SDN和網(wǎng)絡(luò)自動化,我們也會遇到類似的問題。我們將來能交付一些自動決策系統(tǒng),但是我們也知道在一些特定環(huán)境下需要一些人工干預(yù)。
然而,IT面臨著一個NASA遇不到的特殊挑戰(zhàn)。如果NASA沒有備用系統(tǒng),那么它可以選擇推遲發(fā)射。但是企業(yè)IT不可能這樣做。我們一直在壓力中保持系統(tǒng)能夠承受所有這些問題,然后保持不間斷地正常運(yùn)行。可是,在壓力下快速作出決策時,安全性往往會成為網(wǎng)絡(luò)質(zhì)量中被犧牲的一個方面。
在獵戶座***發(fā)射時,有一位經(jīng)驗(yàn)豐富的飛行主管專門負(fù)責(zé)監(jiān)控一個簡單的發(fā)射/不發(fā)射的倒數(shù)控制項(xiàng)。這位飛行主管將自己多年的經(jīng)驗(yàn)用在監(jiān)控一個重要的SLA指標(biāo)值。但是在SDN的高度虛擬化聚合網(wǎng)絡(luò)中,我們不可能有足夠多的飛行主管去監(jiān)控每分鐘可能出現(xiàn)的100、1000或10,000個訪問策略沖突。我們必須將服務(wù)交付需求加到應(yīng)用程序之中,在SDN控制器中部署安全策略訪問規(guī)則,然后再退一步,讓自主配置的網(wǎng)絡(luò)自行挑選。
報告:我們遇到了一個網(wǎng)絡(luò)管理問題
我們的挑戰(zhàn)是,在網(wǎng)絡(luò)運(yùn)營中心(NOC)控制臺發(fā)出大量的策略沖突警報時,我們當(dāng)前的管理與修復(fù)方法是無效的。想象一下現(xiàn)在的vMotioning的應(yīng)用場景,它不僅可以監(jiān)控一個集群中不同的ESX,也可以監(jiān)控打包為支持用Docker傳輸?shù)奶摂M機(jī),它們可以每天大批量、自動地從亞馬遜遷移到本地數(shù)據(jù)中心或Azure。這些實(shí)例可能會經(jīng)常與定義的訪問策略發(fā)生沖突,因?yàn)槲覀兊目刂破鲿討B(tài)尋找更高效和更劃算的配置。當(dāng)找到這種配置時,我們就必須知道如何教會網(wǎng)絡(luò)使用這些配置。
這也是從NASA學(xué)到的一個經(jīng)驗(yàn)教訓(xùn)。無論是一個離火星20分鐘的任務(wù),或是一個離柯伊伯帶4小時的任務(wù),探測器都必須自主運(yùn)行數(shù)十年時間。在30年前,這很多時候都由計時器和猜測來完成,但是現(xiàn)在他們使用一些機(jī)器學(xué)習(xí)技術(shù)和大量預(yù)編程策略定義,讓機(jī)器自動作出重大決策。
作為管理員,我們必須學(xué)習(xí)如何將自己深厚的網(wǎng)絡(luò)連接知識和從各個網(wǎng)絡(luò)獲得的專業(yè)技能轉(zhuǎn)化為智能規(guī)則,而非只是一些靜態(tài)配置。簡單的允許或阻擋決策變成了在什么條件下允許或阻擋。QoS分類也需要感知時間/阻塞環(huán)境。我們的網(wǎng)絡(luò)性能監(jiān)控系統(tǒng)不僅需要監(jiān)控IP范圍,也需要基于設(shè)備發(fā)送的流量來自動發(fā)現(xiàn)設(shè)備。
NASA做到的我們也能做到
NASA的官方行為給了我們希望。NASA有著全世界最聰明的工程師,但是他們的探索激情需要經(jīng)過一系列繁文縟節(jié)的考驗(yàn),其復(fù)雜程度遠(yuǎn)遠(yuǎn)超過我們在辦公室要面對的步驟。但是,他們?nèi)匀荒軌虺晒?shí)現(xiàn)毫無差錯的偉大工程壯舉。只有少量的經(jīng)費(fèi),一點(diǎn)點(diǎn)高明的管理,再加上正確的工具,SDN就可以讓管理員給原本繁雜的手工配置網(wǎng)絡(luò)添加真正的智能。但是,我們可能還需要在各個位置部署一些抗輻射的以太網(wǎng)。