科來:利用網(wǎng)絡(luò)分析技術(shù)分析航空客服系統(tǒng)故障
案例背景
某航空公司華南客服中心,客服人員用客服系統(tǒng)接電話時(shí)經(jīng)常出現(xiàn)接聽失敗的現(xiàn)象,由于客服服務(wù)器位于北京數(shù)據(jù)中心,中間涉及的網(wǎng)絡(luò)設(shè)備較多,一直未能定位到故障原因。
故障現(xiàn)象
如下拓?fù)渌?,每個(gè)客服人員桌面都會(huì)有一臺(tái)電腦跟電話機(jī),一天中會(huì)出現(xiàn)幾次偶發(fā)故障,故障發(fā)生時(shí),用電腦上的客服軟件接聽用戶電話失敗,如果及時(shí)改用座機(jī)接聽則可成功,我們用科來網(wǎng)絡(luò)回溯分析系統(tǒng)在華南客服中心廣域網(wǎng)出口抓包分析。
故障規(guī)律摸索
客服人員可以用電腦和座機(jī)接聽電話,電腦接聽電話失敗時(shí),改用座機(jī)可以成功接聽。
規(guī)律分析:電腦與座機(jī)是連接同一個(gè)hub上,座機(jī)可以成功接聽電話說明網(wǎng)絡(luò)連接正常,需要從電腦客服軟件的角度分析問題。
故障發(fā)生時(shí)間段主要集中在中午午休后及凌晨時(shí)段,重置電腦的客服軟件后也能恢復(fù)正常。
規(guī)律分析:這兩個(gè)時(shí)間段的特點(diǎn)就是接聽的電話數(shù)量比較少,很可能是空閑時(shí)間太長,電腦客服軟件某些連接被終端了。
排障思路
重現(xiàn)故障,在科來網(wǎng)絡(luò)回溯分析系統(tǒng)將客服的電腦與北京服務(wù)器之間的通信流量進(jìn)行回溯、分析,尋找故障原因。
故障重現(xiàn)
在深圳客服中心尋找一臺(tái)客服電腦,首先驗(yàn)證該客服電腦、座機(jī)都能正常接聽電話;然后從16:12開始閑置該客服電腦,超過半個(gè)小時(shí)候,16:48再撥打該客戶座機(jī),接聽失敗,故障成功重現(xiàn)。
IP會(huì)話分析
客服電腦的IP為10.110.22.21,與北京的兩臺(tái)服務(wù)器有通信流量,分別是:
10.10.176.51,經(jīng)確認(rèn)為客服軟件界面的服務(wù)器
10.10.203.155,經(jīng)確認(rèn)為客服軟件控制插件的服務(wù)器
軟件界面連接分析
從客服電腦10.10.22.21與服務(wù)器10.10.176.51通信的TCP幾乎時(shí)序圖可以看到,兩者采用了長連接的機(jī)制,在空閑的時(shí)間,客戶端每隔幾秒鐘就會(huì)發(fā)送一個(gè)GET的請求與服務(wù)器保持連接。
從16:12分至16:48分,每個(gè)6分鐘客戶端與服務(wù)器就跟新一次TCP連接,未曾中斷過,因此軟件界面一直能夠正常顯示。
控制插件連接分析
從客服電腦10.10.22.21與服務(wù)器10.10.203.155在16:12分至16:48期間只有3對(duì)TCP連接一直保持,如果這三對(duì)TCP連接沒有采用長連接的傳輸機(jī)制,很可能會(huì)因?yàn)榭臻e太長時(shí)間而被網(wǎng)絡(luò)中的防火墻等設(shè)備中斷連接。
果然,客戶端在空閑的2090秒(34分鐘)的時(shí)間內(nèi)沒有發(fā)送任何保持連接的數(shù)據(jù)包,等到客服電腦重新發(fā)起接聽電話請求的時(shí)候,客戶端的請求已經(jīng)無法到達(dá)服務(wù)器端,一直在發(fā)起重傳的請求,***客服人員看到請求超時(shí)的告警提示。
故障原因分析
大部分防火墻都會(huì)將空閑時(shí)間超過30分鐘的TCP連接斷開,而控制進(jìn)程在空閑的34分鐘內(nèi)沒有采用長連接機(jī)制保持連接,所以被防火墻中斷了,再有電話接入的時(shí)候便會(huì)出現(xiàn)接聽失敗的現(xiàn)象。
解決問題建議
修改防火墻的策略:增長訪問北京10.10.203.155的TCP連接的空閑時(shí)間。(注:該策略實(shí)施后,偶發(fā)故障出現(xiàn)的次數(shù)明顯下降)
優(yōu)化客服控制插件程序設(shè)置,能從根本上解決問題。