程序員筆記 | 一次Zookeeper擴展之殤
背景
基于公司發(fā)展硬性需求,生產(chǎn)VM服務(wù)器要統(tǒng)一遷移到ZStack 虛擬化服務(wù)器。檢查自己項目使用的服務(wù)器,其中zookeeper集群中招,所以需要進行遷移。
遷移計劃
為了使遷移不對業(yè)務(wù)產(chǎn)生影響,***是采用擴容 -> 縮容的方式進行。
說明:
- 原生產(chǎn)集群為VM-1,VM-2,VM-3組成一個3節(jié)點的ZK集群;
- 對該集群擴容,增加至6節(jié)點(新增ZS-1,ZS-2,ZS-3),進行數(shù)據(jù)同步完成;
- 進行縮容,下掉原先來的三個節(jié)點(VM-1,VM-2,VM-3);
- 替換nginx解析地址。OK! 目標很明確,過程也很清晰,然后開干。
步驟 (過程已在測試環(huán)境驗證無問題)
1. 對新增的三臺服務(wù)器進行zk環(huán)境配置,和老集群配置一樣即可,***使用同一版本(版主使用的是3.4.6);
2. 對老節(jié)點的zoo.cfg 增加新集群的地址(逐一增加),然后對新增加節(jié)點逐一重啟。
問題
ZS-1 啟動成功,zkServer.sh status 報錯,用zkServer.sh status查看,反饋如下異常:
- [root@localhost bin]# ./zkServer.sh status
- ZooKeeper JMX enabled by default
- Using config: /usr/zookeeper/zookeeper-3.4.6/bin/../conf/zoo.cfg
- Error contacting service. It is probably not running.
此時查看數(shù)據(jù),數(shù)據(jù)同步正常:
- ZS-1 數(shù)據(jù)同步正常,但是無法查看節(jié)點的狀態(tài)信息;
- 懷疑是因為老節(jié)點沒有重啟的原因;此時去查看原集群節(jié)點信息,發(fā)現(xiàn)原集群節(jié)點狀態(tài)異常。 經(jīng)排查定位,原集群的狀態(tài)一直處于異常狀態(tài)。
- 初步定位原因可能是原集群的選舉存在異常,導致新節(jié)點無法正常納入,繼續(xù)排查。
- 恢復集群初始狀態(tài),如果集群節(jié)點的狀態(tài)一直沒法正常查看。OK 繼續(xù)定位...
排查過程
以下方法來自于網(wǎng)絡(luò):
可能有以下幾個原因:
***、zoo.cfg文件配置:dataLogDir指定的目錄未被創(chuàng)建。
- 1.zoo.cfg
- [root@SIA-215 conf]# cat zoo.cfg
- ...
- dataDir=/app/zookeeperdata/data
- dataLogDir=/app/zookeeperdata/log
- ...
- 2.路徑
- [root@SIA-215 conf]# cd /app/zookeeperdata/
- [root@SIA-215 zookeeperdata]# ll
- total 8
- drwxr-xr-x 3 root root 4096 Apr 23 19:59 data
- drwxr-xr-x 3 root root 4096 Aug 29 2015 log
經(jīng)排查,排除該因素。
第二、myid文件中的整數(shù)格式不對,或者與zoo.cfg中的server整數(shù)不對應(yīng)。
- [root@SIA-215 data]# cd /app/zookeeperdata/data
- [root@SIA-215 data]# cat myid
- 2[root@SIA-215 data]#
定位排查后排除不是該原因。
第三、防火墻未關(guān)閉。
使用service iptables stop 關(guān)閉防火墻 使用service iptables status確認使用chkconfig iptables off禁用防火墻。
確認防火墻是關(guān)閉的。
- [root@localhost ~]# service iptables status
- iptables: Firewall is not running.
- 確認防火墻是關(guān)閉的
第四、端口被占用。
- [root@localhost bin]# netstat -tunlp | grep 2181
- tcp 0 0 :::12181 :::* LISTEN 30035/java
- tcp 0 0 :::22181 :::* LISTEN 30307/java
- 確認端口沒有被占用
第五、zoo.cfg文件中主機名出錯。
- 經(jīng)測試環(huán)境測試,主機名正確,多域名解析也正常,不存在此問題
第六、hosts文件中,本機的主機名有兩個對應(yīng),只需保留主機名和ip地址的映射。
- 經(jīng)測試環(huán)境測試,主機名正確,多域名解析也正常,不存在此問題 排除。
第七、zkServer.sh里的nc命令有問題。
- 可能是機器上沒有安裝nc命令,還有種說法是在zkServer.sh里找到這句:
- STAT=`echo stat | nc localhost $(grep clientPort “$ZOOCFG” | sed -e ‘s/.*=//’) 2> /dev/null| grep Mode`
- 在nc與localhost之間加上 -q 1 (是數(shù)字1而不是字母l)
- zookeeper版本是3.4.6,zkServer.sh里根本沒有這一句(獲取狀態(tài)的語句沒有用nc命令)
- # -q is necessary on some versions of linux where nc returns too quickly, and no stat result is output
- clientPortAddress=`grep "^[[:space:]]*clientPortAddress[^[:alpha:]]" "$ZOOCFG" | sed -e 's/.*=//'`
- if ! [ $clientPortAddress ]
- then
- clientPortAddress="localhost"
- fi
- clientPort=`grep "^[[:space:]]*clientPort[^[:alpha:]]" "$ZOOCFG" | sed -e 's/.*=//'`
- STAT=`"$JAVA" "-Dzookeeper.log.dir=${ZOO_LOG_DIR}" "-Dzookeeper.root.logger=${ZOO_LOG4J_PROP}" \
- -cp "$CLASSPATH" $JVMFLAGS org.apache.zookeeper.client.FourLetterWordMain \
- $clientPortAddress $clientPort srvr 2> /dev/null \
- | grep Mode`
- if [ "x$STAT" = "x" ]
- then
- echo "Error contacting service. It is probably not running."
- exit 1
- else
- echo $STAT
- exit 0
- fi
- ;;
以下是自己排查的方式
目前現(xiàn)象老集群數(shù)據(jù)同步正常,也能進行l(wèi)eader選舉(從日志獲取),但是無法查看節(jié)點狀態(tài),同異常信息;進行集群擴容,數(shù)據(jù)不能同步。
解決方法:
1. 嘗試進行foreground 模式啟動,選擇一臺非主節(jié)點進行重啟,可以前臺查看啟動日志。
- zkserver.sh start-foreground
- 節(jié)點啟動正常,無異常輸出。
2. 查看shell腳本:分析zkServer.sh。
"Error contacting service. It is probably not running." 這塊日志出現(xiàn)以下腳本中。
- STAT=`"$JAVA" "-Dzookeeper.log.dir=${ZOO_LOG_DIR}" "-Dzookeeper.root.logger=${ZOO_LOG4J_PROP}" \
- -cp "$CLASSPATH" $JVMFLAGS org.apache.zookeeper.client.FourLetterWordMain \
- $clientPortAddress $clientPort srvr 2> /dev/null \
- | grep Mode`
- if [ "x$STAT" = "x" ]
- then
- echo "Error contacting service. It is probably not running."
- exit 1
- else
- echo $STAT
- exit 0
- fi
- ;;
截取其中一部分腳本內(nèi)容:我們可以初步定為應(yīng)該是 $STAT 獲取存在異常 如果STAT變量為空,則會顯示Error contacting service. It is probably not running.: OK,那就分析下這個$STAT到底是什么鬼?
- if [ “x$STAT” = “x” ]
- then
- echo “Error contacting service. It is probably not running.”
- exit 1
- else
- echo $STAT
- exit 0
- fi
3. 嘗試用shell的debug模式看下執(zhí)行過程。
截取片段執(zhí)行日志如下 :果然STAT變量確實為空,導致輸出Error contacting service. It is probably not running.并且退出。
- ++ grep '^[[:space:]]*clientPort[^[:alpha:]]' /app/zookeeper-3.4.6/bin/../conf/zoo.cfg
- + clientPort=5181
- ++ grep Mode
- ++ /opt/jdk1.8.0_131/bin/java -Dzookeeper.log.dir=. -Dzookeeper.root.logger=INFO,CONSOLE -cp '/app/zookeeper-3.4.6/bin/../build/classes:/app/zookeeper-3.4.6/bin/../build/lib/*.jar:/app/zookeeper-3.4.6/bin/../lib/slf4j-log4j12-1.6.1.jar:/app/zookeeper-3.4.6/bin/../lib/slf4j-api-1.6.1.jar:/app/zookeeper-3.4.6/bin/../lib/netty-3.7.0.Final.jar:/app/zookeeper-3.4.6/bin/../lib/log4j-1.2.16.jar:/app/zookeeper-3.4.6/bin/../lib/jline-0.9.94.jar:/app/zookeeper-3.4.6/bin/../zookeeper-3.4.6.jar:/app/zookeeper-3.4.6/bin/../src/java/lib/*.jar:/app/zookeeper-3.4.6/bin/../conf:.:/opt/jdk1.8.0_131/lib/dt.jar:/opt/jdk1.8.0_131/lib/tools.jar' org.apache.zookeeper.client.FourLetterWordMain localhost 5181 srvr
- + STAT=
- + ‘[‘ xx = x ‘]’
- + echo ‘Error contacting service. It is probably not running.’
- Error contacting service. It is probably not running.
- + exit 1
4、修改shell腳本:分析zkServer.sh 在腳本總增加輸出STAT 內(nèi)容,這次我們不進行過濾。
- STAT1=`"$JAVA" "-Dzookeeper.log.dir=${ZOO_LOG_DIR}" "-Dzookeeper.root.logger=${ZOO_LOG4J_PROP}" \
- -cp "$CLASSPATH" $JVMFLAGS org.apache.zookeeper.client.FourLetterWordMain \
- $clientPortAddress $clientPort srvr 2> test.log \ `
- echo "$STAT1"
***的方式是copy一個新腳本,以免污染原本的腳本。我是這么做的;然后運行該腳本。
- [root@localhost bin]# ./zkServer.sh status
- ZooKeeper JMX enabled by default
- Using config: /usr/zookeeper/zookeeper-3.4.10/bin/../conf/zoo.cfg
- Error contacting service. It is probably not running.
然后查看生成的test.log 文件:果然存在異常內(nèi)容。
- in thread “main” java.lang.NumberFormatException: For input string: “2181
- at java.lang.NumberFormatException.forInputString(NumberFormatException.java:65)
- at java.lang.Integer.parseInt(Integer.java:492)
- at java.lang.Integer.parseInt(Integer.java:527)
- at org.apache.zookeeper.client.FourLetterWordMain.main(FourLetterWordMain.java:76)
從日志信息來看,提示說2181這個端口號造成的。 不是一個合法的數(shù)字。
zkServer.sh里有這么一句:
- clientPort=`grep “^[[:space:]]*clientPort[^[:alpha:]]” “$ZOOCFG” | sed -e ‘s/.*=//’`
- grep “^[[:space:]]*clientPort[^[:alpha:]]” “$ZOOCFG” | sed -e ‘s/.*=//’在執(zhí)行過程中,實際命令如下:
- grep ‘^[[:space:]]*clientPort[^[:alpha:]]’ /app/zookeeper-3.4.6/bin/../conf/zoo.cfg | sed -e ‘s/.*=//’
- 最終可以基本確認配置文件存在問題:
- 替換配置文件:重啟 問題解決;
- 存在原因可能是編輯zoo.cfg 編碼格式等等引起文件內(nèi)容解析異常。
【本文是51CTO專欄機構(gòu)宜信技術(shù)學院的原創(chuàng)文章,微信公眾號“宜信技術(shù)學院( id: CE_TECH)”】