性能測(cè)試應(yīng)該怎么做?
偶然間看到了阿里中間件Dubbo的性能測(cè)試報(bào)告(http://t.cn/R53tm9q),我覺(jué)得這份性能測(cè)試報(bào)告讓人覺(jué)得做這性能測(cè)試的人根本不懂性能測(cè)試,我覺(jué)得這個(gè)測(cè)試報(bào)告會(huì)把大眾帶溝里去,所以,想寫(xiě)算這篇文章,做一點(diǎn)科普。
首先,這份測(cè)試報(bào)告里的主要問(wèn)題如下:
- 用的全是平均值。老實(shí)說(shuō),平均值是非常不靠譜的。
- 響應(yīng)時(shí)間沒(méi)有和吞吐量TPS/QPS掛鉤。而只是測(cè)試了低速率的情況,這是完全錯(cuò)誤的。
- 響應(yīng)時(shí)間和吞吐量沒(méi)有和成功率掛鉤。
為什么平均值不靠譜
關(guān)于平均值為什么不靠譜,我相信大家讀新聞的時(shí)候經(jīng)常可以看到,平均工資,平均房?jī)r(jià),平均支出,等等這樣的字眼,你就知道為什么平均值不靠譜了。(這些都是數(shù)學(xué)游戲,對(duì)于理工科的同學(xué)來(lái)說(shuō),天生應(yīng)該有免疫力)
軟件的性能測(cè)試也一樣,平均數(shù)也是不靠譜的,這里可以參看這篇詳細(xì)的文章《Why Averages Suck and Percentiles are Great》(http://t.cn/R53cChA),我在這里簡(jiǎn)單說(shuō)一下。
我們知道,性能測(cè)試時(shí),測(cè)試得到的結(jié)果數(shù)據(jù)不總是一樣的,而是有高有低的,如果算平均值就會(huì)出現(xiàn)這樣的情況,假如,測(cè)試了10次,有9次是1ms,而有1次是1s,那么平均數(shù)據(jù)就是100ms,很明顯,這完全不能反應(yīng)性能測(cè)試的情況,也許那1s的請(qǐng)求就是一個(gè)不正常的值,是個(gè)噪點(diǎn)。所以,我們會(huì)在一些評(píng)委打分中看到要去掉一個(gè)最高分一個(gè)最低分,然后再算平均值。
另外,中位數(shù)(Mean)可能會(huì)比平均數(shù)要稍微靠譜一些,所謂中位數(shù)的意就是把將一組數(shù)據(jù)按大小順序排列,處在最中間位置的一個(gè)數(shù)叫做這組數(shù)據(jù)的中位數(shù) ,這意味著至少有50%的數(shù)據(jù)低于或高于這個(gè)中位數(shù)。
當(dāng)然,最為正確的統(tǒng)計(jì)做法是用百分比分布統(tǒng)計(jì)。也就是英文中的TP – Top Percentile ,TP50的意思在,50%的請(qǐng)求都小于某個(gè)值,TP90表示90%的請(qǐng)求小于某個(gè)時(shí)間。
比如:我們有一組數(shù)據(jù):[ 10ms, 1s, 200ms, 100ms],我們把其從小到大排個(gè)序:[10ms, 100ms, 200ms, 1s],于是我們知道,TP50,就是50%的請(qǐng)求ceil(4*0.5)=2時(shí)間是小于100ms的,TP90就是90%的請(qǐng)求ceil(4*0.9)=4時(shí)間小于1s。于是:TP50就是100ms,TP90就是1s。
我以前在路透做的金融系統(tǒng)響應(yīng)時(shí)間的性能測(cè)試的要求是這樣的,99.9%的請(qǐng)求必須小于1ms,所有的平均時(shí)間必須小于1ms。兩個(gè)條件的限制。
為什么響應(yīng)時(shí)間(latency)要和吞吐量(Thoughput)掛鉤
系統(tǒng)的性能如果只看吞吐量,不看響應(yīng)時(shí)間是沒(méi)有意義的。我的系統(tǒng)可以頂10萬(wàn)請(qǐng)求,但是響應(yīng)時(shí)間已經(jīng)到了5秒鐘,這樣的系統(tǒng)已經(jīng)不可用了,這樣的吞吐量也是沒(méi)有意義的。
我們知道,當(dāng)并發(fā)量(吞吐量)上漲的時(shí)候,系統(tǒng)會(huì)變得越來(lái)越不穩(wěn)定,響應(yīng)時(shí)間的波動(dòng)也會(huì)越來(lái)越大,響應(yīng)時(shí)間也會(huì)變得越來(lái)越慢,而吞吐率也越來(lái)越上不去(如下圖所示),包括CPU的使用率情況也會(huì)如此。所以,當(dāng)系統(tǒng)變得不穩(wěn)定的時(shí)候,吞吐量已經(jīng)沒(méi)有意義了。吞吐量有意義的時(shí)候僅當(dāng)系統(tǒng)穩(wěn)定的時(shí)候。
所以,吞吐量的值必需有響應(yīng)時(shí)間來(lái)卡。比如:TP99小于100ms的時(shí)候,系統(tǒng)可以承載的最大并發(fā)數(shù)是1000qps。這意味著,我們要不斷的在不同的并發(fā)數(shù)上測(cè)試,以找到軟件的最穩(wěn)定時(shí)的最大吞吐量。
為什么響應(yīng)時(shí)間吞吐量和成功率要掛鉤
我們這應(yīng)該不難理解了,如果請(qǐng)求不成功的話(huà),都還做毛的性能測(cè)試。比如,我說(shuō)我的系統(tǒng)并發(fā)可以達(dá)到10萬(wàn),但是失敗率是40%,那么,這10萬(wàn)的并發(fā)完全就是一個(gè)笑話(huà)了。
性能測(cè)試的失敗率的容忍應(yīng)該是非常低的。對(duì)于一些關(guān)鍵系統(tǒng),成功請(qǐng)求數(shù)必須在100%,一點(diǎn)都不能含糊。
如何嚴(yán)謹(jǐn)?shù)刈鲂阅軠y(cè)試
一般來(lái)說(shuō),性能測(cè)試要統(tǒng)一考慮這么幾個(gè)因素:Thoughput吞吐量,Latency響應(yīng)時(shí)間,資源利用(CPU/MEM/IO/Bandwidth…),成功率,系統(tǒng)穩(wěn)定性。
下面的這些性能測(cè)試的方式基本上來(lái)源自我的老老東家湯森路透,一家做real-time的金融數(shù)據(jù)系統(tǒng)的公司。
一,你得定義一個(gè)系統(tǒng)的響應(yīng)時(shí)間latency,建議是TP99,以及成功率。比如路透的定義:99.9%的響應(yīng)時(shí)間必需在1ms之內(nèi),平均響應(yīng)時(shí)間在1ms以?xún)?nèi),100%的請(qǐng)求成功。
二,在這個(gè)響應(yīng)時(shí)間的限制下,找到最高的吞吐量。測(cè)試用的數(shù)據(jù),需要有大中小各種尺寸的數(shù)據(jù),并可以混合。最好使用生產(chǎn)線(xiàn)上的測(cè)試數(shù)據(jù)。
三,在這個(gè)吞吐量做Soak Test,比如:使用第二步測(cè)試得到的吞吐量連續(xù)7天的不間斷的壓測(cè)系統(tǒng)。然后收集CPU,內(nèi)存,硬盤(pán)/網(wǎng)絡(luò)IO,等指標(biāo),查看系統(tǒng)是否穩(wěn)定,比如,CPU是平穩(wěn)的,內(nèi)存使用也是平穩(wěn)的。那么,這個(gè)值就是系統(tǒng)的性能
四,找到系統(tǒng)的極限值。比如:在成功率100%的情況下(不考慮響應(yīng)時(shí)間的長(zhǎng)短),系統(tǒng)能堅(jiān)持10分鐘的吞吐量。
五,做Burst Test。用第二步得到的吞吐量執(zhí)行5分鐘,然后在第四步得到的極限值執(zhí)行1分鐘,再回到第二步的吞吐量執(zhí)行5鐘,再到第四步的權(quán)限值執(zhí)行1分鐘,如此往復(fù)個(gè)一段時(shí)間,比如2天。收集系統(tǒng)數(shù)據(jù):CPU、內(nèi)存、硬盤(pán)/網(wǎng)絡(luò)IO等,觀(guān)察他們的曲線(xiàn),以及相應(yīng)的響應(yīng)時(shí)間,確保系統(tǒng)是穩(wěn)定的。
(注:在路透,路透會(huì)用第二步得到的吞吐量乘以66.7%來(lái)做為系統(tǒng)的軟報(bào)警線(xiàn),80%做為系統(tǒng)的硬報(bào)警線(xiàn),而極限值僅僅用來(lái)扛突發(fā)的peak)
是不是很煩鎖?是的,只因?yàn)?,這是工程,工程是一門(mén)科學(xué),科學(xué)是嚴(yán)謹(jǐn)?shù)摹?/p>
歡迎大家也分享一下你們性能測(cè)試的經(jīng)驗(yàn)和方法。