四個實(shí)驗(yàn),徹底搞懂TCP連接的斷開
前言
看到這個標(biāo)題你可能會說,TCP 連接的建立與斷開,這個我熟,不就是三次握手與四次揮手嗎?且慢,腦海中可以先嘗試回答這幾個問題:
四次揮手是誰發(fā)起的?
如果斷電/斷網(wǎng)了連接會斷開嗎?
什么情況下沒有四次揮手連接也會斷開?
這不是面試,而是遇到了實(shí)際問題,至于是什么問題,容我先賣個關(guān)子,本文也不會解答,后面會有一篇專門的文章來說遇到的問題是啥,所以在講實(shí)際問題之前,先弄懂理論。
正常斷開
我們由淺入深,先了解正常情況下 TCP 連接是如何斷開的,下圖為 TCP 三次握手與四次揮手的經(jīng)典圖(來自《TCP/IP詳解卷1》)
在我們的電腦上,可以使用 python 的 SimpleHTTPServer 來快速起一個 http 服務(wù)(http 也是基于 TCP 協(xié)議),比如這樣:
- python -m SimpleHTTPServer 20880
再通過 nc 或 telnet 這兩個命令來創(chuàng)建 TCP 連接,比如我測試使用 nc 來創(chuàng)建連接
- nc -v ip port
Connection to ip port [tcp/*] succeeded! 表示連接成功
我們?nèi)绾斡^察這個連接呢?可以通過 netstat 或 lsof 來查看這條"連接",這里我使用 lsof(mac 與 Linux 系統(tǒng)的 netstat 命令不太一樣,使用起來有點(diǎn)別扭 )
- lsof -i:20880
無論是客戶端還是服務(wù)端都會占用一個端口,不過服務(wù)端端口是固定的,客戶端端口是隨機(jī)的。
如果我們想看 TCP 連接和斷開時握手與揮手的 TCP 報文怎么查看呢?可以使用 tcpdump 命令
三次握手
- tcpdump -A -vv -i any -S host 10.179.245.95
為了方便查看,和上面的經(jīng)典圖放在了一起
這里的參數(shù)需要提一下的是 -S,如果不加 -S 參數(shù)看到的第三次握手的ack=1,與書上的理論不太一樣,其實(shí)這里只是 tcpdump 簡化了展示,想看實(shí)際值需要加 -S
這里的 Flags [S]/[S.]/[.]
- [S] 代表 SYN
- [.] 代表 ACK,[S.] 就是 SYN + ACK
四次揮手
命令與抓三次握手相同,我們抓到如下?lián)]手?jǐn)?shù)據(jù)
- [F] 代表 FIN
這張圖有點(diǎn)奇怪,四次揮手居然變成了三次,這其實(shí)是 TCP 協(xié)議的實(shí)現(xiàn)問題,如果第二次與第三次揮手之間沒有數(shù)據(jù)發(fā)送,那么被動斷開連接的一方就可能會把第二次的 ACK 與 第三次的 FIN 合并為一次揮手。
當(dāng)然我也抓到過正常的四次揮手,大概長這樣
異常斷開
上面鋪墊了這么多,現(xiàn)在開始進(jìn)入正題。
TCP 連接斷開是誰發(fā)起的
我們來思考一個問題:TCP 連接的斷開是誰發(fā)起的?程序本身還是操作系統(tǒng)?
我們來看一段非常簡單的 TCP 連接創(chuàng)建與斷開的代碼
- tcpAddr, _ := net.ResolveTCPAddr("tcp", "127.0.0.1:20880")
- conn, err := net.DialTCP("tcp", nil, tcpAddr)
- if err != nil {
- fmt.Println("Client connect error ! " + err.Error())
- return
- }
- defer func() {
- err := conn.Close()
- fmt.Println("Client connect closed !")
- if err != nil {
- fmt.Println(err)
- }
- }()
- fmt.Println(conn.LocalAddr().String() + " : Client connected!")
- time.Sleep(10 * time.Second)
運(yùn)行后,效果如下,也符合我們預(yù)期:當(dāng)程序打印 Client connected! 時,能看到連接,當(dāng)打印 Client connect closed! 時,連接斷開
如果我們在連接斷開前使用 kill -9 強(qiáng)殺進(jìn)程呢?(這里我用了兩臺電腦來測試)
我們發(fā)現(xiàn) conn.Close() 并沒有執(zhí)行,但四次揮手還是發(fā)生了!
查閱資料發(fā)現(xiàn)如下結(jié)論:
a、b 兩個正常連接的對端進(jìn)程。假如 b 進(jìn)程沒有調(diào)用 close 就異常終止,那么發(fā)送 FIN 包是內(nèi)核 OS 代勞
斷電/斷網(wǎng)時的連接是怎樣斷開的
我們通過上面的實(shí)驗(yàn)發(fā)現(xiàn)就算進(jìn)程異常終止,操作系統(tǒng)也會幫忙發(fā)起四次揮手
但如果是斷電或斷網(wǎng)的情況下,操作系統(tǒng)就無法代勞了,這時會怎樣呢?為了便于測試,這里用兩臺電腦,client 連接 server,斷開 server 的網(wǎng)絡(luò)來模擬斷網(wǎng)斷電情況。
可以肯定的是斷網(wǎng),斷電后,連接不會立即斷開,那么后續(xù)連接是否會斷開呢?我們分成下面幾種情況來看
斷網(wǎng)時有數(shù)據(jù)傳輸
斷網(wǎng)時如果有數(shù)據(jù)發(fā)送,由于收不到 ACK,所以會重試,但并不會無限重試下去,達(dá)到一定的重發(fā)次數(shù)之后,如果仍然沒有任何確認(rèn)應(yīng)答返回,就會判斷為網(wǎng)絡(luò)或者對端主機(jī)發(fā)生了異常,強(qiáng)制關(guān)閉連接。此時的關(guān)閉是直接關(guān)閉,而沒有揮手(數(shù)據(jù)都發(fā)不出去,還揮啥手),Linux 下的設(shè)置為
最小重傳時間是200ms 最大重傳時間是120s 重傳次數(shù)為15
斷網(wǎng)時沒有數(shù)據(jù)傳輸
斷網(wǎng)時如果沒有數(shù)據(jù)傳輸,還得看 TCP 連接的 KeepAlive 是否打開,關(guān)于 TCP 的 KeepAlive 簡介如下:
- TCP KeepAlive 是一種在不影響數(shù)據(jù)流內(nèi)容的情況下探測對方的方式,采用 ?;钣嫊r器實(shí)現(xiàn),當(dāng)計時器被觸發(fā)時,一端發(fā)送?;顖笪?,另一端接收到報文后發(fā)送 ACK 響應(yīng)
- 它并不是 TCP 的規(guī)范,但大部分的實(shí)現(xiàn)都提供了這一機(jī)制
- 該機(jī)制存在爭議,有的人?;顧C(jī)制應(yīng)該在應(yīng)用程序中實(shí)現(xiàn)
開啟KeepAlive
操作系統(tǒng)中有這么幾個參數(shù)控制 KeepAlive 的配置:
- Keepalive_time:空閑時間,即多長時間連接沒有發(fā)送數(shù)據(jù)時開始 KeepAlive 檢測
- Keepalive_intvl:發(fā)送間隔時間,即上述代碼的設(shè)置
- Keepalive_probs:最多發(fā)送多少個檢測數(shù)據(jù)包
在 Linux 上可以通過如下文件查看
- cat /proc/sys/net/ipv4/tcp_keepalive_time
- cat /proc/sys/net/ipv4/tcp_keepalive_intvl
- cat /proc/sys/net/ipv4/tcp_keepalive_probes
如果按照這個默認(rèn)值來看,得2小時沒有數(shù)據(jù)傳輸,KeepAlive 才開始工作!
而在 Go 中只有兩個參數(shù)可以設(shè)置:
- conn.SetKeepAlive(true)
- conn.SetKeepAlivePeriod(5 * time.Second)
其中第二個 SetKeepAlivePeriod 源碼是這樣的:
- func setKeepAlivePeriod(fd *netFD, d time.Duration) error {
- // The kernel expects seconds so round to next highest second.
- secs := int(roundDurationUp(d, time.Second))
- if err := fd.pfd.SetsockoptInt(syscall.IPPROTO_TCP, sysTCP_KEEPINTVL, secs); err != nil {
- return wrapSyscallError("setsockopt", err)
- }
- err := fd.pfd.SetsockoptInt(syscall.IPPROTO_TCP, syscall.TCP_KEEPALIVE, secs)
- runtime.KeepAlive(fd)
- return wrapSyscallError("setsockopt", err)
- }
SetKeepAlivePeriod 的參數(shù)同時設(shè)置了 tcp_keepalive_intvl 和 tcp_keepalive_time,tcp_keepalive_probes 沒法設(shè)置
做個簡單測試:client 開啟 KeepAlive 連接 server 后,什么數(shù)據(jù)都不發(fā)送,把server 的網(wǎng)斷掉,可以看到 KeepAlive 心跳包,一段時間后連接被置為 CLOSED 狀態(tài)
關(guān)閉KeepAlive
關(guān)閉 KeepAlive 后,如果沒有數(shù)據(jù)傳輸,連接永遠(yuǎn)不會斷開
斷網(wǎng)后 server 重啟再恢復(fù)
再思考一個場景,如果 client 與 server 建立連接后,沒有數(shù)據(jù)傳輸,斷掉 server 端的網(wǎng)絡(luò),這時如果把 server 程序重啟一下,再恢復(fù)網(wǎng)絡(luò),那這條連接還能用嗎?
如果 server 重啟后,client 還是不發(fā)數(shù)據(jù),那這條連接看起來還是可用的,因?yàn)樗麄兏静恢缹Ψ绞莻€什么情況,但如果此時 client 發(fā)送一點(diǎn)數(shù)據(jù)給 server,你會發(fā)現(xiàn) server 會發(fā)送一個 RST 給client,然后 client 就斷開連接了
總結(jié)
除了正常情況之外,本文從 TCP 連接斷開的角度結(jié)合實(shí)驗(yàn)給出了一些結(jié)論:
TCP 連接斷開的揮手,在進(jìn)程崩潰時,會由操作系統(tǒng)內(nèi)核代勞
當(dāng) TCP 連接建立后,如果某一方斷電或斷網(wǎng),如果此時剛好正在發(fā)送數(shù)據(jù),TCP 數(shù)據(jù)包發(fā)送失敗后會重試,重試達(dá)到上限時也會斷開連接
當(dāng) TCP 連接建立后,如果某一方斷電或斷網(wǎng),且這條連接沒有數(shù)據(jù)傳輸時
如果開啟了 KeepAlive 則會在一定心跳檢測后斷開連接,這個默認(rèn)檢測時間大概2個多小時,比較久
如果未開啟 KeepAlive 則連接永遠(yuǎn)存在
如果一方發(fā)送 RST 包給另一方,也是會強(qiáng)制對方斷開連接的