這些 Nginx 負(fù)載均衡配置誤區(qū),運(yùn)維請(qǐng)注意
之前有很多朋友問關(guān)于 Nginx 的 upstream 模塊中 max_fails 及 fail_timeout,這兩個(gè)指令,分別是配置關(guān)于負(fù)載均衡過程中,對(duì)于上游(后端)服務(wù)器的失敗嘗試次數(shù)和不可用時(shí)間,很多人不是很理解這兩個(gè)參數(shù)到底怎么用及具體的含義。
先看官網(wǎng)文檔中的描述
官網(wǎng)文檔中解釋 max_fails 是指在 fail_timeout 配置的時(shí)間內(nèi),服務(wù)器通信失敗的次數(shù),默認(rèn)為1,即在 fail_timeout 時(shí)間內(nèi),1次請(qǐng)求失敗即不再嘗試,將請(qǐng)求根據(jù) hash 規(guī)則,轉(zhuǎn)發(fā)到下一個(gè)上游服務(wù)
fail_timeout 有兩種含義:
- 當(dāng)已經(jīng)確認(rèn)上游服務(wù)不可用時(shí),是指與上游服務(wù)器通信失敗次數(shù)的時(shí)間
- 服務(wù)器不可用的時(shí)間段
默認(rèn)是10s
文字不是很好理解,搭建個(gè)實(shí)驗(yàn)環(huán)境,環(huán)境如下:
- Nginx
- PHP-FPM(x2)
nginx 通過 fast-cgi 將 php 請(qǐng)求轉(zhuǎn)發(fā)到 PHP-FPM,這里 PHP-FPM 服務(wù)即上游服務(wù),設(shè)置 upstream,負(fù)載 PHP-FPM
upstream 按照默認(rèn)配置,即 max_fails=1,fail_timeout=10
現(xiàn)在通過 tailf 分別監(jiān)聽兩個(gè) PHP-FPM 日志
請(qǐng)求4次,因?yàn)槭悄J(rèn)輪詢的,所以可以看時(shí)間,輪詢將請(qǐng)求分發(fā)到兩個(gè)PHP-FPM上游
可以從上面的日志中看到,按照輪詢規(guī)則,下次請(qǐng)求應(yīng)該落到 PHP-FPM2 上面,接著,關(guān)掉 PHP-FPM1,繼續(xù)請(qǐng)求
可以看到,PHP-FPM1肯定是不響應(yīng)了,PHP-FPM2正常響應(yīng),接著看下Nginx日志
可以看到,關(guān)掉 PHP-FPM1 后,發(fā)起的請(qǐng)求,本來第二次請(qǐng)求(17:49:58)應(yīng)該分發(fā)到 PHP-FPM1 的,然后從 Nginx 錯(cuò)誤日志可以看到,連接 PHP-FPM1 失敗,這里只做了一次失敗嘗試,然后 Nginx 將請(qǐng)求轉(zhuǎn)發(fā)到 PHP-FPM2 處理了。
接著將 max_fails 設(shè)置為2,繼續(xù)上面的請(qǐng)求
開啟 PHP-FPM1,繼續(xù)請(qǐng)求,兩個(gè)負(fù)載輪詢轉(zhuǎn)發(fā)請(qǐng)求
接著繼續(xù)關(guān)掉 PHP-FPM1,連續(xù)發(fā)起多次請(qǐng)求,查看日志
所有請(qǐng)求都在 PHP-FPM2上,看 Nginx 錯(cuò)誤日志
兩次輪詢到PHP-FPM1的時(shí)候,失敗,之后不會(huì)再將請(qǐng)求分發(fā)到 PHP-FPM1 上游服務(wù)
接著,不開啟 PHP-FPM1,繼續(xù)發(fā)起多次請(qǐng)求,由于默認(rèn)的 fail_timeout=10,所以在上面的失敗檢測(cè) 10s 之后再次發(fā)起請(qǐng)求,查看日志
繼續(xù)分發(fā)到 PHP-FPM2,接著看 Nginx 錯(cuò)誤日志
可以看到,過了 fail_timeout 的時(shí)間后,Ngxin 會(huì)再次將請(qǐng)求發(fā)往 FPM-PHP1 進(jìn)行嘗試,嘗試2次失敗后,在 fail_timeout 時(shí)間內(nèi),不會(huì)再將請(qǐng)求分發(fā),
這里有幾個(gè)誤區(qū):
- Nginx 記錄了連接上游失敗,這個(gè)請(qǐng)求就返回錯(cuò)誤請(qǐng)求,或這個(gè)請(qǐng)求丟失沒處理
這個(gè)理解是錯(cuò)誤的,Nginx 只是記錄了失敗的請(qǐng)求到日志,并將這個(gè)請(qǐng)求又轉(zhuǎn)發(fā)到了可用的其他上游服務(wù),知道所有上游都不可用時(shí),才會(huì)返回錯(cuò)誤狀態(tài)
- max_fails 是指連續(xù)請(qǐng)求失敗的次數(shù)
max_fails 是在 fail_timeout 指定的時(shí)間內(nèi)的失敗次數(shù),請(qǐng)求還是按照配置的負(fù)載均衡算法來走,并不是第一次請(qǐng)求失敗之后,繼續(xù)將這個(gè)請(qǐng)求在嘗試一次,達(dá)到失敗次數(shù)之后,標(biāo)記為不可用
- fail_timeout 越短越好
當(dāng)訪問量大的時(shí)候,fail_timeout 設(shè)置太短,會(huì)導(dǎo)致不斷的嘗試與不可用上游的連接,耗費(fèi)大量的 tcp 資源進(jìn)行連接
- fail_timeout 越長(zhǎng)越好
當(dāng)訪問量大的時(shí)候,fail_timeout設(shè)置太長(zhǎng),會(huì)導(dǎo)致負(fù)載不均衡,有可能會(huì)擊穿某個(gè)上游后端,達(dá)不到負(fù)載的效果。