美團(tuán)如何從0到1構(gòu)建壓測(cè)工具
美團(tuán)內(nèi)部的RPC服務(wù)大多構(gòu)建在Thrift之上,在日常開(kāi)發(fā)服務(wù)的過(guò)程中,需要針對(duì)這些服務(wù)進(jìn)行壓力測(cè)試(以下簡(jiǎn)稱壓測(cè))來(lái)發(fā)現(xiàn)潛在問(wèn)題。常用的方法有:
◆使用一些腳本語(yǔ)言如:Python、Ruby等,讀取線上日志構(gòu)建請(qǐng)求,用多線程模擬用戶請(qǐng)求進(jìn)行壓測(cè)。
◆使用開(kāi)源工具進(jìn)行壓測(cè)。
然而,無(wú)論采取哪種方法,壓測(cè)都是一個(gè)十分耗時(shí)而又繁瑣的過(guò)程,主要痛點(diǎn)有:
◆需要寫很多代碼解析日志,還原請(qǐng)求,對(duì)于比較復(fù)雜的請(qǐng)求,解析很容易出錯(cuò)。
◆需要搭建腳本或者工具的運(yùn)行環(huán)境,通常這一過(guò)程比較耗時(shí)。
◆由于打壓方法沒(méi)有統(tǒng)一,導(dǎo)致打壓的結(jié)果指標(biāo)比較混亂,有的結(jié)果甚至以終端輸出的方式展示,非常不直觀。
◆對(duì)一個(gè)應(yīng)用的打壓測(cè)試,由于環(huán)境、代碼的問(wèn)題,導(dǎo)致組內(nèi)同學(xué)很難共享。
針對(duì)上述問(wèn)題,提供一個(gè)簡(jiǎn)單好用的壓測(cè)工具是十分有必要的。
是否有必要重復(fù)造輪子
在構(gòu)建壓測(cè)工具之前,對(duì)于一些現(xiàn)有的開(kāi)源工具進(jìn)行了調(diào)研。現(xiàn)在主流的壓測(cè)工具主要有以下幾個(gè):
1.JMeter
JMeter是一個(gè)比較老牌的壓測(cè)工具,主要針對(duì)HTTP服務(wù)進(jìn)行打壓,該工具在以下方面并不滿足美團(tuán)內(nèi)部的壓測(cè)需求:
◆默認(rèn)不支持Thrift的打壓測(cè)試。
◆需要本地安裝,并且配置復(fù)雜。
◆對(duì)于用戶操作并不友好。
2.twitter/iago
iago 是一個(gè)由Twitter開(kāi)源的壓測(cè)工具,支持對(duì)HTTP、Thrift等服務(wù)進(jìn)行壓測(cè),其主要問(wèn)題如下:
◆對(duì)每個(gè)壓測(cè)應(yīng)用都需要?jiǎng)?chuàng)建一個(gè)項(xiàng)目。
◆壓測(cè)結(jié)果并不直觀。
◆流量重放依賴本地文件。
◆項(xiàng)目依賴于一個(gè)較老版本的Scala,搭建不便。
◆相關(guān)文檔比較少。
除此之外,當(dāng)時(shí)還考察了Gatling、Grinder、Locust等一些常見(jiàn)的壓測(cè)工具,都因?yàn)檫m用場(chǎng)景和美團(tuán)的需求有些出入而排除了。
綜上,針對(duì)當(dāng)前壓測(cè)工具的一些現(xiàn)狀,構(gòu)建一個(gè)簡(jiǎn)單易用的壓測(cè)工具還是很有必要的。
目標(biāo)
針對(duì)之前提到的痛點(diǎn),新的壓測(cè)工具主要提供以下功能:
◆線上流量拷貝。
◆簡(jiǎn)單易用的操作界面(接入壓測(cè)的時(shí)間應(yīng)該控制在1小時(shí)以內(nèi))。
◆清晰的圖表能反映壓測(cè)應(yīng)用的各項(xiàng)指標(biāo)。
◆滿足包括Thrift、HTTP等服務(wù)的壓測(cè)需求。
如何構(gòu)建
抽象
目標(biāo)已經(jīng)明確,怎么實(shí)現(xiàn)呢?首先是抽象壓測(cè)的過(guò)程。
一個(gè)典型的壓測(cè)過(guò)程如圖所示,首先在init方法里面,進(jìn)行一些初始化的工作,比如連接數(shù)據(jù)庫(kù),創(chuàng)建客戶端等。接下來(lái),在run方法里面發(fā)出壓測(cè)請(qǐng)求,為了保證能夠?qū)Ψ?wù)產(chǎn)生足夠的壓力,這里通常采用多線程并發(fā)訪問(wèn),同時(shí)記錄每次請(qǐng)求的發(fā)起時(shí)間和結(jié)束時(shí)間,這兩個(gè)時(shí)間的簡(jiǎn)單相減就能夠得到每次請(qǐng)求的響應(yīng)時(shí)間,利用該結(jié)果就可以計(jì)算出TP90、平均響應(yīng)時(shí)間、最大響應(yīng)時(shí)間等指標(biāo),等壓測(cè)結(jié)束后,通過(guò)destroy方法進(jìn)行資源回收等工作。
以上過(guò)程可以用接口表示,無(wú)論是壓測(cè)Thrift服務(wù)還是HTTP服務(wù),本質(zhì)上都是這三個(gè)方法實(shí)現(xiàn)的不同??紤]到壓測(cè)工具的靈活性和通用性,壓測(cè)工具可以將這個(gè)接口交給打壓測(cè)試的同學(xué)實(shí)現(xiàn),而壓測(cè)工具則重點(diǎn)實(shí)現(xiàn)多線程打壓,打壓結(jié)果的聚合等比較耗時(shí)的工作。
- interface Runner {
- def init(Test app) // 初始化壓測(cè)
- def run(Test app, String log) // 每次打壓請(qǐng)求,傳入log方便構(gòu)建請(qǐng)求
- def destroy(Test app) // 壓測(cè)完畢后,回收資源
- }
拷貝流量
Thrift服務(wù)打壓的難點(diǎn)之一就是如何簡(jiǎn)單地拷貝線上真實(shí)流量用來(lái)構(gòu)建打壓請(qǐng)求。一些大型的Thrift服務(wù)數(shù)據(jù)結(jié)構(gòu)非常復(fù)雜,寫打壓腳本的時(shí)候,需要很多代碼來(lái)解析日志,而且容易出錯(cuò)。 因此,提供一個(gè)簡(jiǎn)單好用的拷貝流量方法是十分有必要的。
在這里壓測(cè)工具提供了一個(gè)叫VCR(錄像機(jī))的工具來(lái)拷貝流量。VCR能夠?qū)⒕€上的請(qǐng)求序列化后寫到Redis里面。
考慮到用戶需要查看具體請(qǐng)求和易用性等需求,最終選取了JSON格式作為序列化和反序列化的協(xié)議。同時(shí),需要部署在生產(chǎn)環(huán)境,為了降低對(duì)線上服務(wù)的影響,這里采取了單線程異步寫的方式來(lái)拷貝流量。
聚合數(shù)據(jù)
應(yīng)用打壓完成后,需要一些指標(biāo)來(lái)評(píng)估壓測(cè)結(jié)果,常見(jiàn)的指標(biāo)有:
◆最大響應(yīng)時(shí)間
◆平均響應(yīng)時(shí)間
◆QPS
◆TP90
◆TP50
壓測(cè)工具采用了 InfluxDB 來(lái)完成數(shù)據(jù)的聚合工作。
以TP90為例子,僅需要一行查詢就能實(shí)現(xiàn)需求。
- SELECT PERCENTILE(response_time, 90) FROM test_series GROUP BY time(10s)
架構(gòu)
整體而言,整個(gè)打壓過(guò)程如下:
實(shí)踐
拷貝流量
美團(tuán)內(nèi)部的服務(wù)大多使用Java來(lái)構(gòu)建,VCR以Maven Package的方式提供給用戶。
對(duì)用戶來(lái)說(shuō)只需要2行代碼就可以拷貝流量。
為了不影響線上服務(wù),通常選取單臺(tái)機(jī)器進(jìn)行流量拷貝工作。
- public class TestAppRPC implements TestApp.Iface {
- private Vcr _vcr = new Vcr("testapp"); // 指定拷貝流量的key
- @Override
- public TestResponse echo(TestRequest req) throws TException {
- _vcr.copy(req); // 拷貝操作
- long start = System.currentTimeMillis();
- TestResponse response = new TestResponse();
- return response;
- }
- }
一旦流量拷貝完成后,通過(guò)Web界面,用戶能夠查看日志的收集情況和單條日志的詳情。
壓測(cè)邏輯實(shí)現(xiàn)
壓測(cè)工具采用Groovy來(lái)進(jìn)行編寫。對(duì)每個(gè)應(yīng)用來(lái)說(shuō),只需要實(shí)現(xiàn)runner接口就可以實(shí)現(xiàn)對(duì)應(yīng)用的打壓。
- interface Runner {
- def init(Test app)
- def run(Test app, String log)
- def destroy(Test app)
- }
以Thrift服務(wù)為例。
- class TestServiceRunner implements Runner {
- RPCService.Client _client
- TTransport _transport;
- @Override
- def init(Test app) {
- def conf = app.config // 讀取應(yīng)用配置
- _transport = new TFramedTransport(new TSocket(conf.get("thrift_service_host") as String, conf.get("thrift_service_port") as int))
- TProtocol protocol = new TBinaryProtocol(_transport)
- _client = new RPCService.Client(protocol)
- _transport.open()
- }
- @Override
- def run(Test app, String log) {
- TestRequest req = Vcr.deSerialize(log, TestRequest.class) // 將拷貝流量反序列化
- _client.echo(req) // 發(fā)送請(qǐng)求
- }
- @Override
- def destroy(Test app) {
- _transport.close() // 關(guān)閉服務(wù)
- }
- }
創(chuàng)建應(yīng)用
實(shí)現(xiàn)以上接口后,就可以對(duì)應(yīng)用進(jìn)行打壓了。
用戶可以通過(guò)Web界面創(chuàng)建應(yīng)用,除了必填配置以外,用戶可以按照應(yīng)用靈活配置。
性能指標(biāo)
用戶可以通過(guò)直觀的圖表來(lái)查看應(yīng)用的各種性能指標(biāo)。
結(jié)束語(yǔ)
壓測(cè)工具上線以來(lái),已經(jīng)接入了20多個(gè)應(yīng)用,完成數(shù)百次打壓實(shí)驗(yàn),現(xiàn)在應(yīng)用的接入時(shí)間僅需要15~30分鐘。保證了美團(tuán)服務(wù)的穩(wěn)定和節(jié)省了開(kāi)發(fā)同學(xué)的時(shí)間,使大家告別了以往繁瑣冗長(zhǎng)的打壓測(cè)試。