自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

運(yùn)維如何為公司節(jié)省一個(gè)億?

運(yùn)維 系統(tǒng)運(yùn)維
提升設(shè)備的使用率是運(yùn)維界常用的管控運(yùn)營成本的有效辦法,那么如何能夠針對(duì)不同的設(shè)備使用場(chǎng)景、不同的設(shè)備類型制定出適宜的度量與管理辦法呢?請(qǐng)看騰訊運(yùn)維在實(shí)踐中總結(jié)出的6個(gè)方法,希望能給大家得到幫助。

[[171410]]

作者簡(jiǎn)介:

梁定安,現(xiàn)就職于騰訊社交網(wǎng)絡(luò)運(yùn)營部,負(fù)責(zé)社交平臺(tái)、增值業(yè)務(wù)的運(yùn)維負(fù)責(zé)人;開放運(yùn)維聯(lián)盟委員;騰訊云布道師;騰訊課堂運(yùn)維講師。

SNG社交網(wǎng)絡(luò)運(yùn)營部管理著近10萬臺(tái)的Linux服務(wù)器,以此支撐著騰訊社交業(yè)務(wù)海量業(yè)務(wù)與用戶,如日活2.47億的QQ、月活5.96億的QQ空間(數(shù)據(jù)來源:騰訊2016Q2財(cái)報(bào))等眾多***在線的胖子業(yè)務(wù)。

面對(duì)業(yè)務(wù)體量的不斷增胖的社交類UGC業(yè)務(wù),如何能既保證業(yè)務(wù)的發(fā)展,又能有效的控制運(yùn)營成本的增長?是運(yùn)維團(tuán)隊(duì)迫在眉睫要解決的運(yùn)營成本難題。經(jīng)過不斷的探索和深挖,我們慶幸

在過去的2年中,找到了一條有效的設(shè)備成本管理的路子——精細(xì)化容量管理的設(shè)備成本優(yōu)化之路,并連續(xù)2年,每年為公司節(jié)約過億的運(yùn)營成本。

眾所周知,提升設(shè)備的使用率是運(yùn)維界常用的管控運(yùn)營成本的有效辦法,那么如何能夠針對(duì)不同的設(shè)備使用場(chǎng)景、不同的設(shè)備類型制定出適宜的度量與管理辦法呢?請(qǐng)看騰訊運(yùn)維在實(shí)踐中總結(jié)出的6個(gè)方法:

方法1:性能管理法

在衡量服務(wù)器的使用合理性中,CPU使用率當(dāng)仁不讓的成為頭號(hào)被關(guān)注對(duì)象。隨著多核超線程技術(shù)CPU的普及,CPU負(fù)載不均的問題逐漸在海量運(yùn)維場(chǎng)景下,成為了設(shè)備運(yùn)營成本的吞噬者。

為了發(fā)現(xiàn)并優(yōu)化多核CPU負(fù)載不均的現(xiàn)象,我們提出了CPU極差的度量指標(biāo),

CPU(極差)=CPU(max)-CPU(min),若CPU(極差)>30%,則該設(shè)備存在CPU使用率不合理的問題,需優(yōu)化整改。(備注:優(yōu)化方法可參考多隊(duì)列網(wǎng)卡優(yōu)化與CPU親和,本文不展開)。

同理,在分布式集群的模塊容量管理中,運(yùn)維規(guī)范要求實(shí)現(xiàn)模塊的一致性管理,包括容量一致性,為此我們同樣提出模塊的容量極差的度量指標(biāo),模塊CPU使用率極差= CPU***的IP的CPU使用率 - CPU***的設(shè)備的CPU使用率,若同模塊下不同設(shè)備的CPU使用率極差>30%,則該模塊容量使用不合理,需要優(yōu)化整改。(備注:一般此類情況源于配置、權(quán)重、調(diào)度等不一致管理問題,不問不展開。)

方法2:密度管理法

對(duì)于內(nèi)存使用的合理性,很難直接用內(nèi)存使用率來度量,為此,在內(nèi)存型設(shè)備使用中,我們提出了密度管理的管控辦法——訪問密度。訪問密度計(jì)算公式:,模塊下的設(shè)備內(nèi)存訪問密度應(yīng)該一致,否則納入負(fù)載不均的一致性整改范疇。通過對(duì)全量?jī)?nèi)存型模塊訪問密度的統(tǒng)計(jì)分析,我們可以得出一條平均負(fù)載水平線,結(jié)合容量管理的實(shí)際需要,提高平均水平線或優(yōu)化低于水平線的模塊,都能實(shí)現(xiàn)優(yōu)化設(shè)備成本管理的目的。同時(shí),密度管理法也適用于SSD盤的使用場(chǎng)景。(備注:訪問密度會(huì)受業(yè)務(wù)請(qǐng)求包大小的影響,但是在海量的運(yùn)維場(chǎng)景下,個(gè)別情況可以忽略。)

方法3:特性管理法

特性管理法,同功能模塊的QPS管理類似,就是用來衡量在特定業(yè)務(wù)場(chǎng)景下,業(yè)務(wù)邏輯的處理性能是否***,要結(jié)合不同產(chǎn)品下的同類應(yīng)用場(chǎng)景的QPS同比來得出分析結(jié)論。這種管理辦法因業(yè)務(wù)邏輯而異,本文主要舉例說明下。

例如,在移動(dòng)互聯(lián)網(wǎng)的業(yè)務(wù)運(yùn)維場(chǎng)景中,有些場(chǎng)景是非常規(guī)容量管理手段能度量的,針對(duì)一些個(gè)性但是規(guī)模龐大的模塊,我們提出了特性管理法。舉個(gè)例子,QQ、QQ空間、信鴿等業(yè)務(wù)都有長連接功能模塊,該場(chǎng)景的容量CPU少而使用內(nèi)存多,因此可以使用每G內(nèi)存維持的長連接數(shù)量來橫向比較QQ、QQ空間、信鴿等業(yè)務(wù),督促性能低的業(yè)務(wù)程序整改優(yōu)化。

又例如,在直播場(chǎng)景中,有對(duì)主播視頻實(shí)時(shí)在線轉(zhuǎn)碼的需求,不同的開發(fā)可能使用的轉(zhuǎn)碼技術(shù)方案不一,也可以利用同樣的特性管理法來衡量在線轉(zhuǎn)碼的性能是否有優(yōu)化空間。

方法4:碎片管理法

騰訊社交網(wǎng)絡(luò)業(yè)務(wù)歷史悠久,從“大哥”QQ到“新秀”企鵝FM,業(yè)務(wù)類型覆蓋IM、UGC、多媒體、閱讀、動(dòng)漫、游戲、直播等主流的娛樂化社交玩法,其中有當(dāng)紅的產(chǎn)品,也有長尾的產(chǎn)品;有幾十億次每秒功能模塊,也有幾十次每秒的功能模塊。碎片化管理法,就是針對(duì)請(qǐng)求量不高的小集群準(zhǔn)備的。因?yàn)榉植际礁呖捎玫倪\(yùn)維要求,通常生產(chǎn)環(huán)境的部署最小單元都為2臺(tái)設(shè)備,在物理機(jī)時(shí)代,訪問量小的模塊浪費(fèi)成本嚴(yán)重,但隨著虛擬化技術(shù)的廣泛應(yīng)用,該場(chǎng)景遇到的問題迎刃而解。利用虛擬化技術(shù)將硬件資源碎片化,讓小模塊可以很好的兼顧設(shè)備成本和高可用。

與虛擬化解決碎片資源利用率的方案類似,我們還有PaaS平臺(tái)“蜂巢”,基于騰訊社交的標(biāo)準(zhǔn)開發(fā)框架SPP,解決小業(yè)務(wù)小模塊的容量管理難題。(后續(xù)專題聊蜂巢。)

方法5:木桶管理法

騰訊平臺(tái)級(jí)的業(yè)務(wù),如QQ、QQ空間、QQ音樂等,基本上都普及了三地三活的SET(專區(qū))容災(zāi)架構(gòu)能力,這是真正意義上的異地多活。(正巧在923上海運(yùn)維大會(huì)的海量運(yùn)維專場(chǎng),會(huì)有個(gè)主題與異地容災(zāi)的海量運(yùn)維實(shí)踐分享,如果大家感興趣的話,誠邀大家參加。)對(duì)于平臺(tái)級(jí)業(yè)務(wù)的運(yùn)維,我們會(huì)根據(jù)運(yùn)維規(guī)范管理的要求,將實(shí)現(xiàn)一定業(yè)務(wù)場(chǎng)景的多個(gè)模塊劃分為SET(減少運(yùn)維對(duì)象),在不同的社交場(chǎng)景下,我們就得出了各種不同類型的SET,通過自動(dòng)化運(yùn)維能力擴(kuò)大到SET的自動(dòng)化運(yùn)維能力,運(yùn)維能很輕松的實(shí)現(xiàn)SET異地化部署,如此實(shí)現(xiàn)該業(yè)務(wù)場(chǎng)景異地多活的容災(zāi)容錯(cuò)。

再說SET的容量管理,平臺(tái)級(jí)SET就意味著用戶量和請(qǐng)求量不會(huì)暴增,那么對(duì)于SET的可運(yùn)維性而言,我們必須要對(duì)SET的請(qǐng)求量和用戶量等指標(biāo)進(jìn)行量化度量。為此,運(yùn)維賦予SET一個(gè)可量化的指標(biāo),在我們的場(chǎng)景下,如在線用戶數(shù)、核心請(qǐng)求量等視SET的用途而定,基于壓測(cè)可以得到單SET的最合理的容量值,該值符合木桶原理,也就是我們的木桶管理法,SET由多個(gè)模塊組成(SET=木桶,模塊=木板),支撐一定的用戶量,SET的容量管理就像木桶原理一樣,木桶的水位高低取決于最短板,因此SET的***容量取決于SET中性能***的模塊容量。

[[171413]]

騰訊的平臺(tái)級(jí)業(yè)務(wù)同時(shí)在線用戶數(shù)是相對(duì)穩(wěn)定的,也就意味著全國要實(shí)現(xiàn)多地多活,需要準(zhǔn)備多少冗余容量是可預(yù)期可規(guī)劃的,換而言之,要部署的SET的數(shù)量是能被提前量化的。同時(shí),結(jié)合業(yè)務(wù)的自動(dòng)化部署、調(diào)度方案、柔性策略和有損服務(wù)能力,我們就可以利用很合理的成本就能實(shí)現(xiàn)異地多活。

舉例說明,假設(shè)我們共有1000w的同時(shí)在線用戶,且用戶量相對(duì)穩(wěn)定,我們就可以規(guī)劃3個(gè)支撐500w在線的SET,利用業(yè)務(wù)架構(gòu)的調(diào)度能力分別讓3個(gè)SET的容量平均化,在災(zāi)難場(chǎng)景時(shí),1個(gè)SET不可用,另外兩個(gè)SET可以完全容災(zāi),在此規(guī)劃下,極端場(chǎng)景2個(gè)SET不可用是要開有損服務(wù)的。通過量化SET管理,業(yè)務(wù)運(yùn)維則可以靈活的根據(jù)成本管理的需求調(diào)整SET的容量水位,以達(dá)到***性價(jià)比的高可用架構(gòu)。

方法6:硬件選型法

關(guān)注硬件瓶頸,升級(jí)硬件降低單機(jī)運(yùn)營成本。比如,過去做UGC內(nèi)存存儲(chǔ)時(shí)(QQ相冊(cè)、視頻),使用了大量2T硬盤,當(dāng)4T、8T硬盤成本量產(chǎn)使用,及時(shí)的升級(jí)硬盤容量,可以有效的提升單機(jī)存儲(chǔ)量,以規(guī)模效應(yīng)實(shí)現(xiàn)花小價(jià)格換來了大成本。又如,在圖片社交或視頻社交的業(yè)務(wù)場(chǎng)景下,因玩法的多樣性需求,會(huì)延伸出很多計(jì)算量繁重的邏輯,像人臉識(shí)別、鑒黃等功能,這時(shí)候選用GPU設(shè)備代替CPU設(shè)備,也是讓性能飛的一種有效做法。(該方法尤為適用于UGC類的存儲(chǔ)量只增不減的業(yè)務(wù),如微云、網(wǎng)盤、圖片存儲(chǔ)、視頻存儲(chǔ)等。)

后記:

包括但不限于上述6種容量管理的方法,使得我們能在用戶數(shù)據(jù)只增不減社交UGC業(yè)務(wù)中,能穩(wěn)步的可持續(xù)前行。設(shè)備成本管理還涉及很多細(xì)節(jié)的技術(shù)手段和業(yè)務(wù)代碼優(yōu)化,本文只是從運(yùn)維的視角闡述對(duì)容量管理的思考,希望能夠拋磚引玉,對(duì)各位同行有幫助。帶寬成本管理的優(yōu)化帶來的成本節(jié)省價(jià)值會(huì)更大,因?yàn)槠渲猩婕暗募夹g(shù)點(diǎn)和方法論更多,此文不深入探討。

責(zé)任編輯:武曉燕 來源: 互聯(lián)網(wǎng)運(yùn)維雜談
相關(guān)推薦

2018-05-07 08:04:38

2017-03-27 17:49:40

戴爾服務(wù)器

2011-01-10 14:24:35

CIO快樂運(yùn)維

2018-12-10 08:10:39

2016-11-17 12:49:36

云運(yùn)維銀行卡建設(shè)

2020-02-20 14:47:26

運(yùn)維HTTPS機(jī)密性

2017-09-04 07:34:11

IT運(yùn)維運(yùn)營

2011-10-27 21:13:28

2009-09-16 13:33:01

運(yùn)維管理

2023-04-23 14:40:22

智能運(yùn)維物聯(lián)網(wǎng)人工智能

2022-09-29 15:13:47

健康管理平臺(tái)—鴻蒙

2012-11-15 09:38:46

2018-11-01 13:23:02

網(wǎng)關(guān)APIHTTP

2017-04-25 16:12:49

2020-11-06 08:43:21

AIOps運(yùn)維DevOps

2017-04-19 15:57:26

NVIDIAGPU

2022-03-29 10:57:39

運(yùn)維服務(wù)架構(gòu)

2021-08-04 17:55:38

keysRedis數(shù)據(jù)庫

2018-11-26 08:06:24

API網(wǎng)關(guān)億級(jí)

2020-02-19 21:28:36

物聯(lián)網(wǎng)投資IOT
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)