淘寶開發(fā)的系統(tǒng)監(jiān)控工具 Tsar 安裝配置詳解
據(jù)@淘叔度 4月13日微博:Tsar(Taobao System Activity Reporter)是淘寶開發(fā)的一個非常好用的系統(tǒng)監(jiān)控工具,在淘寶內(nèi)部大量使用。它不僅可以監(jiān)控CPU、IO、內(nèi)存、TCP等系統(tǒng)狀態(tài),也可以監(jiān)控Apache,Nginx/Tengine,Squid等服務(wù)器狀態(tài)。
Tsar介紹
Tsar是淘寶的一個用來收集服務(wù)器系統(tǒng)和應(yīng)用信息的采集報告工具,如收集服務(wù)器的系統(tǒng)信息(cpu,mem等),以及應(yīng)用數(shù)據(jù)(nginx、swift等),收集到的數(shù)據(jù)存儲在服務(wù)器磁盤上,可以隨時查詢歷史信息,也可以將數(shù)據(jù)發(fā)送到nagios報警。
Tsar能夠比較方便地增加模塊,只需要按照 tsar 的要求編寫數(shù)據(jù)的采集函數(shù)和展現(xiàn)函數(shù),就可以把自定義的模塊加入到tsar中。
安裝
Tsar目前托管在GitHub上,下載編譯安裝步驟:
$git clone git://github.com/kongjian/tsar.git $cd tsar $make $make install
安裝后:
定時任務(wù)配置:/etc/cron.d/tsar,負責每分鐘調(diào)用tsar執(zhí)行采集任務(wù);
日志文件輪轉(zhuǎn)配置:/etc/logrotate.d/tsar,每個月會把tsar的本地存儲進行輪轉(zhuǎn);
Tsar配置文件路徑:/etc/tsar/tsar.conf,tsar的采集模塊和輸出的具體配置;
模塊路徑:/usr/local/tsar/modules,各個模塊的動態(tài)庫so文件;
Tsar配置
Tsar剛安裝完,還沒有歷史數(shù)據(jù),想要check是否正常,執(zhí)行tsar -l,查看是否有實時信息輸出:
[kongjian@v132172.sqa.cm4 tsar]$ tsar -l -i 1 Time ---cpu-- ---mem-- ---tcp-- -----traffic---- --xvda-- -xvda1-- -xvda2-- -xvda3-- -xvda4-- -xvda5-- ---load- Time util util retran pktin pktout util util util util util util load1 11/04/13-14:09:10 0.20 11.57 0.00 9.00 2.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 11/04/13-14:09:11 0.20 11.57 0.00 4.00 2.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
Tsar的配置主要都在/etc/tsar/tsar.conf中,常用的有:
- 增加一個模塊,添加 mod_<yourmodname> on 到配置文件中
- 打開或者關(guān)閉一個模塊,修改mod_<yourmodname> on/off
- output_stdio_mod 能夠配置執(zhí)行tsar時的輸出模塊
- output_file_path 采集到的數(shù)據(jù)默認保存到的文件(如果修改的話需要對應(yīng)修改輪轉(zhuǎn)的配置/etc/logrotate.d/tsar)
- output_interface 指定tsar的數(shù)據(jù)輸出目的,默認file保存本地,nagios/db輸出到監(jiān)控中心/數(shù)據(jù)庫中,這兩個功能還需要結(jié)合其它配置,具體見后面。
Tsar使用
查看歷史數(shù)據(jù),tsar
- -l/–list 查看可用的模塊列表
- -l/–live 查看實時數(shù)據(jù),tsar -l –cpu
- -i/–interval 指定間隔,歷史,tsar -i 1 –cpu
- –modname 指定模塊,tsar –cpu
- -s/–spec 指定字段,tsar –cpu -s sys,util
- -d/–date 指定日期,YYYYMMDD或者n代表n天前
- -C/–check 查看最后一次的采集數(shù)據(jù)
- -d/–detail 能夠指定查看主要字段還是模塊的所有字段
- -h/–help 幫助功能
高級功能
- 輸出到nagios
配置: 首先配置output_interface file,nagios,增加nagios輸出,然后配置nagios服務(wù)器和端口,以及發(fā)送的間隔時間。
####The IP address or the host running the NSCA daemon server_addr nagios.server.com ####The port on which the daemon is running - default is 5667 server_port 8086 ####The cycle of send alert to nagios cycle_time 300
由于是nagios的被動監(jiān)控模式,需要制定nsca的位置和配置文件位置:
####nsca client program send_nsca_cmd /usr/bin/send_nsca send_nsca_conf /home/a/conf/amon/send_nsca.conf
接下來制定哪些模塊和字段需要進行監(jiān)控,一共四個閥值對應(yīng)nagios中的不同報警級別:
####tsar mod alert config file ####threshold [hostname.]servicename.key;w-min;w-max;c-min;cmax; threshold cpu.util;50;60;70;80;
- 輸出到mysql
配置: 首先配置output_interface file,db,增加db輸出,然后配置哪些模塊數(shù)據(jù)需要輸出:
output_db_mod mod_cpu,mod_mem,mod_traffic,mod_load,mod_tcp,mod_udpmod_io
然后配置sql語句發(fā)送的目的地址和端口:
output_db_addr console2:56677
目的地址在該端口監(jiān)聽tcp數(shù)據(jù),并且把數(shù)據(jù)入庫即可,可以參照tsar2db。
模塊開發(fā)
Tsar的一個比較好的功能是能夠增加自己的采集,這時候需要編寫模塊代碼,編譯成so文件即可。
首先安裝tsardevel,剛才安裝時,如果執(zhí)行make tsardevel,就會把模塊開發(fā)的基本文件安裝到系統(tǒng) 然后執(zhí)行tsardevel ,就能在當前模塊生成一個模塊目錄:
[kongjian@v132172.sqa.cm4 tsar]$ tsardevel test build:make install:make install uninstall:make uninstall [kongjian@v132172.sqa.cm4 tsar]$ ls test Makefile mod_test.c mod_test.conf
按照要求修改mod_test.c中的read_test_stats,set_test_record 完成后make;make install就完成新模塊的配置文件和so的設(shè)置,執(zhí)行tsar –test就能查看效果
另外也可以通過配置文件對自定義模塊傳遞參數(shù),方法是 修改配置文件中的mod_test on myparameter 然后在mod_test.c中的read_test_stats函數(shù)中,通過parameter參數(shù)就可以獲得剛才配置文件中的內(nèi)容。
TSAR 源碼地址:https://github.com/alibaba/tsar
TSAR 項目主頁:http://tsar.taobao.org/
如果有關(guān)于tsar的問題,可以聯(lián)系咨詢tsar現(xiàn)在的開發(fā)同學 @淘空見。