避免云計(jì)算SLA陷阱,你需要給云劃責(zé)任區(qū)
幾乎所有的云計(jì)算用戶都認(rèn)為服務(wù)水平協(xié)議(SLA)對云來說很重要,但是大多數(shù)用戶都承認(rèn)他們沒有執(zhí)行任何加強(qiáng)SLA的措施。沒有正確的考量和工具,即便是一個好的SLA都有可能失敗,因?yàn)槟悴粫浪呀?jīng)被違反或者原因是什么。要做出正確的云計(jì)算SLA決策,你需要將你的云劃分成責(zé)任區(qū)域,使用分析工具來設(shè)置應(yīng)用的行為基準(zhǔn)條件,并將SLA故障當(dāng)作一個有自身流程的“項(xiàng)目”來處理。
劃分云責(zé)任區(qū)域
云計(jì)算SLA挑戰(zhàn)之一是,云應(yīng)用交付的體驗(yàn)是三個或更多個實(shí)體的性能總和。搞清楚到底哪一個可能會引起問題是一大挑戰(zhàn),所以在為云創(chuàng)建一個SLA決策框架時的首要任務(wù)是建立一個簡單的實(shí)體圖,顯示云服務(wù)的每一部分都是由誰來提供的,又會傳輸?shù)胶翁帯?/p>
一個典型的云應(yīng)用從提供用戶連接的用戶自有設(shè)備開始。它可以是一個移動設(shè)備或者是整個公司網(wǎng)絡(luò)。云應(yīng)用從用戶提供的這一組件通過WAN,通常是互聯(lián)網(wǎng),連接到云提供商的基礎(chǔ)設(shè)施。一些用戶使用VPN服務(wù)從固定地點(diǎn)訪問云,而其他人可能擁有多個云服務(wù)供應(yīng)商,因此在你的云里可能會有比這三個標(biāo)準(zhǔn)的責(zé)任區(qū)域更多的責(zé)任區(qū)域。
云應(yīng)用產(chǎn)生橫跨這些區(qū)域的工作流,對于每種運(yùn)行的云應(yīng)用你會想了解這種活動究竟是如何發(fā)生的。你可以基于應(yīng)用的名字說出這些工作流是如何滿足其用戶的需求。此工作流是你的SLA決策的基礎(chǔ)。
為了獲得良好的SLA管理和政策決定,你需要衡量每一個供應(yīng)商在你的應(yīng)用云區(qū)域內(nèi)的行為。你應(yīng)該始終從衡量響應(yīng)時間的機(jī)制開始,再到測量區(qū)域邊界點(diǎn)條件。
端到端響應(yīng)時間的測量最好在用戶連接的時候進(jìn)行,這樣你可以獲得完整的響應(yīng)時間。在某些情況下,這意味著將響應(yīng)時間監(jiān)控構(gòu)建到應(yīng)用里,盡管通常一個設(shè)備的TCP/IP軟件可以通過一個管理接口提供一些數(shù)據(jù)。
對于區(qū)域邊界監(jiān)測任務(wù),某些形式的流量或協(xié)議監(jiān)控可能是最好的選擇。這些工具在網(wǎng)絡(luò)的各個地方放置探測器,軟件工具或硬件,它們可以通過一個中央管理控制臺,使用深度包檢測來對應(yīng)用進(jìn)行梳理,以查看數(shù)據(jù)包流量。
避免網(wǎng)絡(luò)分析陷阱
用戶在這一點(diǎn)上會犯的一個很大的錯誤是變得越來越注重監(jiān)測本身而不知道什么才是好的和壞的。網(wǎng)絡(luò)管理系統(tǒng)(NMS)可以自動收集在一個數(shù)據(jù)存儲庫里的數(shù)據(jù)(例如OpenNMS)。該數(shù)據(jù)集合允許你運(yùn)行一個查詢來分析一段時間內(nèi)的性能和條件,并設(shè)置正常行為的基準(zhǔn)以及你認(rèn)為會違反SLA的閾值。如果你的管理系統(tǒng)沒有提供一個數(shù)據(jù)存儲庫,你需要添加網(wǎng)絡(luò)分析工具來收集和關(guān)聯(lián)管理數(shù)據(jù)并設(shè)置你的性能基準(zhǔn)。
網(wǎng)絡(luò)分析可以為圍繞云計(jì)算服務(wù)水平協(xié)議的決定奠定堅(jiān)實(shí)的基礎(chǔ)。確保工具有將從云管理系統(tǒng)API獲得的性能數(shù)據(jù)添加到你自己的NMS獲得的網(wǎng)絡(luò)數(shù)據(jù)的功能。如果你有一個VPN或一個擁有大數(shù)據(jù)中心的混合云,它甚至可以智能的首先開始在你的主網(wǎng)絡(luò)廠商里選擇可能的工具。這些對維護(hù)你的IT和網(wǎng)絡(luò)基礎(chǔ)設(shè)施的性能頗有助益,也有助于管理基于云SLA的決策。
當(dāng)然,這一切最后都?xì)w結(jié)到如何檢測SLA故障。一個好的系統(tǒng)為云計(jì)算SLA的決策過程提供三種輸入。一種是主觀的用戶對于性能不佳的報(bào)告;第二種是一個檢測到的一個或多個應(yīng)用的端到端的響應(yīng)時間問題;第三種是在一個區(qū)域邊界的特定問題報(bào)告。在任何情況下,你應(yīng)該先評估該問題的影響,然后再定位可能的原因。
你的工作流程區(qū)域地圖會讓你看出這是否是幾個應(yīng)用在一個區(qū)域邊界點(diǎn)的一個普遍問題,還是只有某一個應(yīng)用的問題在前一種情況下,你可能遇到的是網(wǎng)絡(luò)或云基礎(chǔ)設(shè)施的問題,在第二種情況下可能是云應(yīng)用本身的問題。對于第一種情況,你需要使用監(jiān)控工具來檢查受影響的工作流的所有區(qū)域邊界,看看問題到底出在哪里。這個問題應(yīng)表現(xiàn)為兩個區(qū)域邊界點(diǎn)之間更長的延遲或一個區(qū)域內(nèi)的包丟失。你的流量探測器通常都可以確認(rèn)其中任何一種故障。
以項(xiàng)目的方式來處理云計(jì)算SLA決策
如果發(fā)生問題,那么修復(fù)的過程應(yīng)該被視為一個小項(xiàng)目,配備一個項(xiàng)目經(jīng)理和一組固定的任務(wù)集,通常稱為升級程序。有些用戶甚至?xí)褂煤唵蔚能浖?xiàng)目管理或故障跟蹤工具來追蹤從發(fā)現(xiàn)問題到解決云計(jì)算SLA問題的整個過程。有時候可以使用那些用于軟件項(xiàng)目的故障跟蹤工具,還可以使用某些包括故障跟蹤選項(xiàng)的網(wǎng)絡(luò)分析工具。
要讓云計(jì)算SLA以及它提供的服務(wù)能夠成功,采取有組織的方式和作出加強(qiáng)的決策是至關(guān)重要的。如果你在開始審議時就計(jì)劃支持SLA決策,那么你會在整體上獲得更好的業(yè)務(wù)體驗(yàn)。除非你能按照一個小項(xiàng)目的方式來處理云計(jì)算服務(wù)水平協(xié)議的過程,否則云計(jì)算SLA將會失敗。專家Tom Nolle提供給我們3個步驟來創(chuàng)建一個有效的云SLA。
原文鏈接:http://www.searchcloudcomputing.com.cn/showcontent_91496.htm