說說云計(jì)算時(shí)代,運(yùn)維人員會(huì)踩到哪些坑?
近期在ChinaUnix論壇有一場討論,標(biāo)題是——云計(jì)算時(shí)代:運(yùn)維人員會(huì)踩到哪些坑?
整個(gè)討論過程非常活躍,大概有50個(gè)答復(fù),運(yùn)維派這就給大家整理了一些討論的優(yōu)質(zhì)內(nèi)容分享給大家。
背景:
在云計(jì)算領(lǐng)域,運(yùn)維人員就是這樣的存在,小到一條短信,大到一次網(wǎng)上交易,只要和IT相關(guān)的業(yè)務(wù)就需要這些運(yùn)維人員,沒有他們在背后的支持,生活是會(huì)出大亂子的。
可是到了云計(jì)算時(shí)代,不少人說IT人要下崗了,是否真會(huì)如此呢?云計(jì)算的出現(xiàn)是否會(huì)使得整體行業(yè)對(duì)運(yùn)維的需求萎縮了呢?
面對(duì)傳統(tǒng)的幾十臺(tái)服務(wù)器時(shí),運(yùn)維人員還能手動(dòng)處理一些問題,但是當(dāng)機(jī)器發(fā)展到1000臺(tái)、甚至是10000多臺(tái)時(shí),自動(dòng)化運(yùn)維必須得派上用場了。企業(yè)根據(jù)業(yè)務(wù)來分配和釋放資源,運(yùn)維人員不僅需要一個(gè)強(qiáng)大的控制系統(tǒng)來控制對(duì)網(wǎng)絡(luò)流量、CPU利用率、進(jìn)程、內(nèi)存等等節(jié)點(diǎn),還需要一個(gè)資源管理系統(tǒng)來管理這些資源的生命狀態(tài),還有權(quán)限管理,就像AWS的IAM一樣。
話題討論:
1.云計(jì)算時(shí)代,運(yùn)維人員是否會(huì)面臨著失業(yè)的風(fēng)險(xiǎn)?
2.傳統(tǒng)的數(shù)據(jù)中心里,設(shè)備是真實(shí)存在的,管理起來相對(duì)簡單,而虛擬化技術(shù)將這些資源都“池化了”,一旦故障發(fā)生,需要檢查排除,云時(shí)代下您覺得在運(yùn)維管理方面存在哪些痛點(diǎn)困擾呢?
3.對(duì)云計(jì)算而言,一大堆機(jī)器和設(shè)備放在一起,安全成為了一大挑戰(zhàn)。有哪些監(jiān)控工具可以實(shí)現(xiàn)對(duì)資源的管理,對(duì)網(wǎng)絡(luò)流量、CPU利用率、進(jìn)程、內(nèi)存等狀態(tài)監(jiān)控呢?
4.在使用云服務(wù),比如阿里云、騰訊云等,磁盤用到一定時(shí)候就會(huì)不穩(wěn)定,很莫名其妙,磁盤I/O會(huì)變慢,到底是什么原因?您是否遇到過類似的經(jīng)歷?當(dāng)時(shí)是如何解決的?
5.考慮到安全性問題,大多數(shù)企業(yè)都會(huì)選擇混合云,選擇IBM的云,穩(wěn)定但貴,您比較看好哪些云服務(wù)提供商?為什么?
下面就來看看運(yùn)維的小伙伴們都是怎么回答的?
網(wǎng)友stukirito的回答:
1.云計(jì)算時(shí)代,運(yùn)維人員是否會(huì)面臨著失業(yè)的風(fēng)險(xiǎn)?
以上說的是整體的國內(nèi)運(yùn)維趨勢 如今云計(jì)算時(shí)代 對(duì)運(yùn)維保障的要求自然更上一個(gè)臺(tái)階 失業(yè)不失業(yè)完全取決于自己.
2.傳統(tǒng)的數(shù)據(jù)中心里,設(shè)備是真實(shí)存在的,管理起來相對(duì)簡單,而虛擬化技術(shù)將這些資源都“池化了”,一旦故障發(fā)生,需要檢查排除,云時(shí)代下您覺得在運(yùn)維管理方面存在哪些痛點(diǎn)困擾呢?
既然使用到了虛擬化技術(shù) 那這個(gè)是具體問題具體分析。
3.對(duì)云計(jì)算而言,一大堆機(jī)器和設(shè)備放在一起,安全成為了一大挑戰(zhàn)。有哪些監(jiān)控工具可以實(shí)現(xiàn)對(duì)資源的管理,對(duì)網(wǎng)絡(luò)流量、CPU利用率、進(jìn)程、內(nèi)存等狀態(tài)監(jiān)控呢?
可監(jiān)控的軟件多的去了 不過我相信目前大多數(shù)企業(yè)開始使用開源軟件的多 譬如 catic、nagios、zabbix等都可以 關(guān)鍵在于這些監(jiān)控軟件如何適應(yīng)你現(xiàn)有環(huán)境 那取決于運(yùn)維對(duì)企業(yè)業(yè)務(wù)的熟悉度 對(duì)服務(wù)器環(huán)境的熟悉度等 才能因地制宜的去部署構(gòu)建相關(guān)的監(jiān)控環(huán)境 并根據(jù)相關(guān)反饋給的數(shù)據(jù)進(jìn)行分析判斷
4.在使用云服務(wù),比如阿里云、騰訊云等,磁盤用到一定時(shí)候就會(huì)不穩(wěn)定,很莫名其妙,磁盤I/O會(huì)變慢,到底是什么原因?您是否遇到過類似的經(jīng)歷?當(dāng)時(shí)是如何解決的?
如果是托管類的直接找云服務(wù)商去看 如果是私有云就要慢慢找原因了
5.考慮到安全性問題,大多數(shù)企業(yè)都會(huì)選擇混合云,選擇IBM的云,穩(wěn)定但貴,您比較看好哪些云服務(wù)提供商?為什么?
這個(gè)比較難說 目前大多數(shù)企業(yè)選擇混合云 就是擔(dān)心云服務(wù)提供商提供的服務(wù)會(huì)有中斷 所以看企業(yè)自身需求做選擇吧
網(wǎng)友stay_sun的回答:
1.云計(jì)算時(shí)代,運(yùn)維人員是否會(huì)面臨著失業(yè)的風(fēng)險(xiǎn)?
在it圈里技術(shù)的革新總是很快的,當(dāng)你跟不上技術(shù)的發(fā)展的時(shí)候。你永遠(yuǎn)面臨著淘汰。原來的vb,daifei,等等。傳統(tǒng)的運(yùn)維注定被淘汰。自動(dòng)化運(yùn)維會(huì)持續(xù)發(fā)展
2.傳統(tǒng)的數(shù)據(jù)中心里,設(shè)備是真實(shí)存在的,管理起來相對(duì)簡單,而虛擬化技術(shù)將這些資源都“池化了”,一旦故障發(fā)生,需要檢查排除,云時(shí)代下您覺得在運(yùn)維管理方面存在哪些痛點(diǎn)困擾呢?
新的數(shù)據(jù)中心雖然池化了,但是他對(duì)應(yīng)的還是物理主機(jī)。檢查的難度更大。但是對(duì)于單點(diǎn)的故障解決就簡單多了。我覺得,云的運(yùn)維最有難度的是平臺(tái)的故障。很不好解決
3.對(duì)云計(jì)算而言,一大堆機(jī)器和設(shè)備放在一起,安全成為了一大挑戰(zhàn)。有哪些監(jiān)控工具可以實(shí)現(xiàn)對(duì)資源的管理,對(duì)網(wǎng)絡(luò)流量、CPU利用率、進(jìn)程、內(nèi)存等狀態(tài)監(jiān)控呢?
***的方法是調(diào)用系統(tǒng)的命令來收集你需要的數(shù)據(jù)。完成相應(yīng)的問題。達(dá)到資源的***化。
4.在使用云服務(wù),比如阿里云、騰訊云等,磁盤用到一定時(shí)候就會(huì)不穩(wěn)定,很莫名其妙,磁盤I/O會(huì)變慢,到底是什么原因?您是否遇到過類似的經(jīng)歷?當(dāng)時(shí)是如何解決的?
運(yùn)用這種平臺(tái)云服務(wù)器,及本可以保證使用。偶爾這種問題,也是沒有辦法的。畢竟他是寄宿在實(shí)體機(jī)上面,多個(gè)主機(jī)總會(huì)有資源的沖突。找供應(yīng)商。解決問題吧。沒有辦法的
5.考慮到安全性問題,大多數(shù)企業(yè)都會(huì)選擇混合云,選擇IBM的云,穩(wěn)定但貴,您比較看好哪些云服務(wù)提供商?為什么?
我還是考慮自建云平臺(tái)。作為互聯(lián)網(wǎng)公司。這個(gè)東西使用太貴了
#p#
網(wǎng)友pure_lotus的回答:
1.云計(jì)算時(shí)代,運(yùn)維人員是否會(huì)面臨著失業(yè)的風(fēng)險(xiǎn)?
不會(huì),云平臺(tái)也需要有人運(yùn)維,云計(jì)算時(shí)代產(chǎn)生的云平臺(tái)運(yùn)維新崗位比普遍運(yùn)維更重要,工資還高了。但對(duì)于一般性的非IT企業(yè)的某些基礎(chǔ)架構(gòu)類IT運(yùn)維人員,是存在失業(yè)的風(fēng)險(xiǎn),需要加緊轉(zhuǎn)型。
2.傳統(tǒng)的數(shù)據(jù)中心里,設(shè)備是真實(shí)存在的,管理起來相對(duì)簡單,而虛擬化技術(shù)將這些資源都“池化了”,一旦故障發(fā)生,需要檢查排除,云時(shí)代下您覺得在運(yùn)維管理方面存在哪些痛點(diǎn)困擾呢?
資源都虛擬池后后,故障定位和排除明顯是痛點(diǎn),很容易牽一發(fā)而動(dòng)全身;另外自動(dòng)化運(yùn)維管理本身的可靠性要求也更高;還有運(yùn)維是如何滿足客戶的安全審計(jì)要求也是難題。
3.對(duì)云計(jì)算而言,一大堆機(jī)器和設(shè)備放在一起,安全成為了一大挑戰(zhàn)。有哪些監(jiān)控工具可以實(shí)現(xiàn)對(duì)資源的管理,對(duì)網(wǎng)絡(luò)流量、CPU利用率、進(jìn)程、內(nèi)存等狀態(tài)監(jiān)控呢?
多吧,一般在開源基礎(chǔ)上做訂制開發(fā),而且要分層級(jí),平臺(tái)層和應(yīng)用層要開分開。
4.在使用云服務(wù),比如阿里云、騰訊云等,磁盤用到一定時(shí)候就會(huì)不穩(wěn)定,很莫名其妙,磁盤I/O會(huì)變慢,到底是什么原因?您是否遇到過類似的經(jīng)歷?當(dāng)時(shí)是如何解決的?
原因不明,猜測可能當(dāng)時(shí)云服務(wù)廠商由于資源達(dá)到臨界點(diǎn),在調(diào)整后臺(tái)部署或者做整體性的升級(jí)維護(hù),造成臨時(shí)性的IO瓶頸。
解決辦法就是打電話或者等,有錢也可以選擇遠(yuǎn)程冗員的硬盤空間備份,臨時(shí)切換到備份空間來操作。
5.考慮到安全性問題,大多數(shù)企業(yè)都會(huì)選擇混合云,選擇IBM的云,穩(wěn)定但貴,您比較看好哪些云服務(wù)提供商?為什么?
國內(nèi)嘛,估計(jì)以后微軟云和阿里云前景更好一些。主要是平衡成本和服務(wù)質(zhì)量,微軟自有軟硬件產(chǎn)品比較多,使用顧客擁有成本比較低;阿里的中小客戶基數(shù)大。
網(wǎng)友xuexiaogang的回答:
1.云計(jì)算時(shí)代,運(yùn)維人員是否會(huì)面臨著失業(yè)的風(fēng)險(xiǎn)?
如果有自動(dòng)化運(yùn)維的,那么運(yùn)維人員的要求更加高,而且壓力也越來越大,技能還要提升。如果沒有自動(dòng)化運(yùn)維,那么運(yùn)維人員不僅不會(huì)失業(yè),而且人員還要不斷增加。
2.傳統(tǒng)的數(shù)據(jù)中心里,設(shè)備是真實(shí)存在的,管理起來相對(duì)簡單,而虛擬化技術(shù)將這些資源都“池化了”,一旦故障發(fā)生,需要檢查排除,云時(shí)代下您覺得在運(yùn)維管理方面存在哪些痛點(diǎn)困擾呢?
全面監(jiān)控難度大,而且問題排查不容易。很多是虛擬化來完成的,內(nèi)部出現(xiàn)問題不好查也不好定位。
4.在使用云服務(wù),比如阿里云、騰訊云等,磁盤用到一定時(shí)候就會(huì)不穩(wěn)定,很莫名其妙,磁盤I/O會(huì)變慢,到底是什么原因?您是否遇到過類似的經(jīng)歷?當(dāng)時(shí)是如何解決的?
扇區(qū),塊等都會(huì)產(chǎn)生碎片或者邏輯故障等。需要的是經(jīng)常的維護(hù)和檢查。空間回收和壞塊的處理尤為重要。
5.考慮到安全性問題,大多數(shù)企業(yè)都會(huì)選擇混合云,選擇IBM的云,穩(wěn)定但貴,您比較看好哪些云服務(wù)提供商?為什么?
百度云、360云、新浪云還有七牛等都是不錯(cuò)的云存儲(chǔ)供應(yīng)商。在很多技術(shù)交流上都和他們接觸過并且使用過。感覺還可以。
網(wǎng)友“淡定與灑脫”的回答:
1.云計(jì)算時(shí)代,運(yùn)維人員是否會(huì)面臨著失業(yè)的風(fēng)險(xiǎn)?
還奉行老思路吃老本的大齡運(yùn)維,其實(shí)已經(jīng)相當(dāng)危險(xiǎn)了,存在感將不斷下降,手工作坊式的低技術(shù)含量運(yùn)維將越來越out。建議年輕入行的運(yùn)維,一定要多學(xué)點(diǎn)開發(fā)技術(shù),光會(huì)用幾個(gè)開源工具,養(yǎng)不起老婆孩子的。
2.傳統(tǒng)的數(shù)據(jù)中心里,設(shè)備是真實(shí)存在的,管理起來相對(duì)簡單,而虛擬化技術(shù)將這些資源都“池化了”,一旦故障發(fā)生,需要檢查排除,云時(shí)代下您覺得在運(yùn)維管理方面存在哪些痛點(diǎn)困擾呢?
如果是公有云,那完全沒脾氣,只有選一個(gè)服務(wù)好的廠家了。如果是私有云,自己可以把原理性的東西研究清楚,提高troubleshooting能力。
3.對(duì)云計(jì)算而言,一大堆機(jī)器和設(shè)備放在一起,安全成為了一大挑戰(zhàn)。有哪些監(jiān)控工具可以實(shí)現(xiàn)對(duì)資源的管理,對(duì)網(wǎng)絡(luò)流量、CPU利用率、進(jìn)程、內(nèi)存等狀態(tài)監(jiān)控呢?
saltStack、puppet、nagios、cacti、zabbix。。?,F(xiàn)在有一堆開源監(jiān)控和配置管理工具了,但問題是,如果只是會(huì)用這些工具,運(yùn)維的價(jià)值何在?作為一個(gè)有理想的運(yùn)維,應(yīng)該搞點(diǎn)自己的小工具,成為這些工具的補(bǔ)充。
4.在使用云服務(wù),比如阿里云、騰訊云等,磁盤用到一定時(shí)候就會(huì)不穩(wěn)定,很莫名其妙,磁盤I/O會(huì)變慢,到底是什么原因?您是否遇到過類似的經(jīng)歷?當(dāng)時(shí)是如何解決的?
有冗余,不用怕,往往重啟后就恢復(fù)了。具體原因,還得問廠家。
5.考慮到安全性問題,大多數(shù)企業(yè)都會(huì)選擇混合云,選擇IBM的云,穩(wěn)定但貴,您比較看好哪些云服務(wù)提供商?為什么?
看企業(yè)老板是什么思路,有的不差錢,有的很差錢。貴的一般都好一些。
網(wǎng)友forgaoqiang的回答:
1.云計(jì)算時(shí)代,運(yùn)維人員是否會(huì)面臨著失業(yè)的風(fēng)險(xiǎn)?
這個(gè)是肯定滴,現(xiàn)在的趨勢就和農(nóng)民種地類似,整體的崗位數(shù)量在下降,每個(gè)人管理的“田地”(服務(wù)器等IT資源)在增加。小型企業(yè)的運(yùn)維人員需求(哪怕是兼職的網(wǎng)管)也在減少,小公司會(huì)把大部分的IT運(yùn)維遷移到一些公有云上,管理簡單,成本也可以接受。中型企業(yè)可能也會(huì)用公有云和部分自己的服務(wù)器,至于大型公司,基本上都在維護(hù)自己的私有云,幾乎不會(huì)使用其它公司的服務(wù)。
所以整體來說,工作崗位數(shù)量在下降,但是對(duì)于運(yùn)維人員的技能要求卻在上漲,運(yùn)維開始成為高大上的職業(yè),只有真正具有高技能的運(yùn)維人員不會(huì)面臨失業(yè),而是面臨漲工資。
2.傳統(tǒng)的數(shù)據(jù)中心里,設(shè)備是真實(shí)存在的,管理起來相對(duì)簡單,而虛擬化技術(shù)將這些資源都“池化了”,一旦故障發(fā)生,需要檢查排除,云時(shí)代下您覺得在運(yùn)維管理方面存在哪些痛點(diǎn)困擾呢?
個(gè)人感覺云時(shí)代的時(shí)候更像是一個(gè)統(tǒng)計(jì)學(xué)的結(jié)論,只要集群整體運(yùn)行正常就算是正常了,對(duì)于“池”中的某條“魚”(硬件設(shè)備)死了,可以短暫的不用去理會(huì),定期替換維修即可。云時(shí)代下大家都是看著各種“儀表盤”來進(jìn)行管理,很少關(guān)心底層的硬件,經(jīng)過層層抽象導(dǎo)致的結(jié)果就是排查難度上升,需要一層一層的去檢查,最終故障很有可能發(fā)生在最下一層的物理層次上。
3.對(duì)云計(jì)算而言,一大堆機(jī)器和設(shè)備放在一起,安全成為了一大挑戰(zhàn)。有哪些監(jiān)控工具可以實(shí)現(xiàn)對(duì)資源的管理,對(duì)網(wǎng)絡(luò)流量、CPU利用率、進(jìn)程、內(nèi)存等狀態(tài)監(jiān)控呢?
工具非常多,很多商業(yè)化的工具、開源的管理工具等等,比較經(jīng)典的仍然是 Zabix、Cacti 等開源監(jiān)控程序,同事Puppet等管理工具也具有監(jiān)控功能,這些工具都是開源的,能夠根據(jù)自己的需要進(jìn)行定制,很多支持插件模式,可以使用很多其它人已經(jīng)開發(fā)好的插件完成一些個(gè)性化的需求,完整整個(gè)運(yùn)維的監(jiān)控工作。
4.在使用云服務(wù),比如阿里云、騰訊云等,磁盤用到一定時(shí)候就會(huì)不穩(wěn)定,很莫名其妙,磁盤I/O會(huì)變慢,到底是什么原因?您是否遇到過類似的經(jīng)歷?當(dāng)時(shí)是如何解決的?
是的,這個(gè)情況的確有遇到,很多時(shí)候是因?yàn)樽约旱臉I(yè)務(wù)系統(tǒng)出問題了,整體來說感覺阿里云還是比較穩(wěn)定和公正的,磁盤和CPU資源限制的比較準(zhǔn)確,作為 IaaS的基礎(chǔ)設(shè)施,它們除了對(duì)硬件性能進(jìn)行限制之外,剩下的都是客戶的OS操作系統(tǒng)在處理自己的業(yè)務(wù)。對(duì)于I/O變慢的情況,好多都是自己的程序過度使用磁盤I/O造成的。
5.考慮到安全性問題,大多數(shù)企業(yè)都會(huì)選擇混合云,選擇IBM的云,穩(wěn)定但貴,您比較看好哪些云服務(wù)提供商?為什么?
現(xiàn)在國內(nèi)有多種云服務(wù)提供商,有些針對(duì)性的提供對(duì) 消息語音隊(duì)列,有些是針對(duì)存儲(chǔ),有些則能夠提供 平臺(tái)托管,有些就是提供IaaS級(jí)別的,目前公司主要采用的服務(wù)是阿里云的,也考慮過騰訊云,看上去目前阿里是技術(shù)上做的***的,SAE、BAE等平臺(tái)不太適合我們的業(yè)務(wù)。對(duì)于消息隊(duì)列還是比較看好 語音云 這家提供商。至于基礎(chǔ)設(shè)施類的,個(gè)人感覺還是vmware或者xenserver的比較靠譜,但是費(fèi)用高昂,中小型公司不會(huì)采用。
對(duì)于中大型企業(yè)應(yīng)該會(huì)采用商用的私有云服務(wù),但是對(duì)于阿里、騰訊、百度,它們應(yīng)該是完全自主的云管理系統(tǒng)。