Google用“扳手”給十萬臺服務器作冗余
Google的全球基礎設施啟動了一個專有系統(tǒng),當大型數(shù)據(jù)中不甘心和網(wǎng)絡交換負荷出現(xiàn)硬件問題時自動轉移和重復負載。
這種分布式的技術最早在今年夏季的一個叫做“Google經(jīng)典時尚”(classically coy Google fashion)的會議中初露端倪,Google院士Jeff Dean在本月早些時候的一個研討會上證實了這種技術的存在。
該平臺被稱為“Spanner”(扳手?)。在Dean的演示文稿中,這個平臺被這樣描述:“存儲和計算系統(tǒng),涵蓋了數(shù)據(jù)中心自動移動,增強數(shù)據(jù)的復制和計算使用限制以及模式?!闭甙藥?、數(shù)據(jù)包丟失、資源限制、能耗以及“失敗模式”。
Dean正在談論的是“一整列機器資源的自動調配”——Google全球現(xiàn)在至少有36個大型數(shù)據(jù)中心,一些也許還在建。正如之前提到的,Google這個新系統(tǒng)正希望跨越一個大的數(shù)據(jù)中心艦隊。
從Dean的演講中可以看出,Google希望Spanner能夠控制一百萬到一千萬臺服務器,包括10萬億(1013)目錄和一千萬億(1018)字節(jié)的存儲空間。而這所有一切分散在世界各地的數(shù)據(jù)中心。
想象一下:一個獨立的大房子正在通過線纜控制著這個世界上其它的數(shù)據(jù)中心。
Dean拒絕作出評論。Google的公關部門也沒有就此問題給出具體的回復,不過Google工程與架構部門的高級經(jīng)理Vijay Gill在此前舊金山舉辦的一個迷你會議上提到過這項技術。
當被問及“如果能夠揮動魔杖以創(chuàng)建一個后端網(wǎng)絡技術”時,Gill稱,“我們現(xiàn)在沒有這種技術,”當談及Google著名的分布式在線基礎設施時他略顯神秘——Google將數(shù)據(jù)中心變成了“倉庫規(guī)模”的機器,當某個數(shù)據(jù)中心出現(xiàn)超負荷危險時就轉移到別的地方。
“我們現(xiàn)在要做的是——當然了這是倉庫規(guī)模的計算機,”Gill表示,你必須擁有從冷卻到整合CPU等所有的權利。”
“有時候,有一個溫度的變化,你可能需要一個快速的負載切換去組織溫度的變化,你的數(shù)據(jù)中心有沒有冷水機組?你想要降低一些負載,你希望減少一些CPU和一些RAM里的進程數(shù)?!?/P>
他表示公司可以做自動或者近乎自動不需人工干預的意義,“你怎么做全球范圍內(nèi)管理系統(tǒng)的優(yōu)化呢?這是一個有趣的現(xiàn)象?!?/P>
“我們現(xiàn)在看到,Google大規(guī)模以線性規(guī)劃問題的變量數(shù)十萬計,幾乎都需要實時的計算。當一個數(shù)據(jù)中心里的溫度開始變化時,你沒有寶貴的時間去設定其它數(shù)據(jù)中心的溫度,必須得在幾秒鐘內(nèi)作出判斷。”
當被問及這是否Google正在使用的技術時,Gill回復說這只是Google最樂于見到的情況?!拔覠o法做出評論,”他說,“我也不記得我們發(fā)表任何一個文件?!?/P>
但是看起來Gill描述的技術就是在說Spanner。而且根據(jù)Dean院士的演講,似乎該技術已經(jīng)被部署。Google還表示,其位于比利時Saint Ghislain得一個新數(shù)據(jù)中心也沒有機組運行,顯然,是用了Spanner技術才使得可以度過炎熱的夏季。
Dean表示,Spanner的目的是為50微妙之內(nèi)的數(shù)據(jù)傳遞提供通道。而且,Google至少機會在歐洲部署兩套存儲設備以存儲設備,在美國部署兩套,在亞洲部署一套。
顯然,Google有做分布式計算的天賦。
【編輯推薦】