騰訊二面:在瀏覽器地址欄輸入 URL 并按下回車鍵,背后發(fā)生了什么?
這次應(yīng)該是互聯(lián)網(wǎng)及軟件行業(yè)的第三次寒潮,大家在寒潮中一定要繼續(xù)保持學(xué)習(xí),寒潮挺過(guò)去以后還是會(huì)迎來(lái)新的發(fā)展機(jī)遇。
有粉絲去騰訊面試,跟碼哥分享了其中一題面試問(wèn)題「在瀏覽器地址欄輸入 URL 并按下回車鍵,背后發(fā)生了什么?」。
今天,碼哥從多個(gè)角度帶你完全攻克這個(gè)知識(shí)點(diǎn),讓面試官眼前一亮。
切入正文......
輸入網(wǎng)址點(diǎn)擊回車,后臺(tái)到底發(fā)生了什么。透析 HTTP 協(xié)議與 TCP 連接之間的千絲萬(wàn)縷的關(guān)系。
掌握為何是三次握手四次揮手?time_wait 存在的意義是什么?全面圖解重點(diǎn)問(wèn)題,再也不用擔(dān)心面試問(wèn)這個(gè)問(wèn)題。
大致流程
- URL 解析,解析 http 協(xié)議、端口、資源地址。
- DNS 查詢:首先查詢本地 host,再訪問(wèn) DNS 服務(wù)器將 域名解析成 ip 地址。
- 建立 TCP 連接。
- 服務(wù)器收到請(qǐng)求后處理,并且構(gòu)造響應(yīng)返回給客戶端。
- 客戶端接收 HTTP 報(bào)文響應(yīng)。
- 渲染頁(yè)面,最后有可能會(huì)四次揮手?jǐn)嚅_連接,也可能不會(huì)而是復(fù)用連接。
重點(diǎn)來(lái)了:
- 如何理解 TCP 的三次握手與四次揮手?每次握手客戶端與服務(wù)端是怎樣的狀態(tài)?
- 為何揮手會(huì)出現(xiàn) 2MSL,遇到大量 Socket 處在 TIME_WAIT 或者 CLOSE_WAIT 狀態(tài)是什么問(wèn)題?
- 三次握手與四次揮手的過(guò)程是怎樣的?
- HTTP 的報(bào)文格式又是怎樣的?
繼續(xù)閱讀本文,且聽碼哥答疑解惑
URL 解析
比如 【碼哥】在思否發(fā)布的一篇文章的地址:https://segmentfault.com/a/1190000023475177。url 遵守的規(guī)則是這個(gè)樣子
scheme://host.domain:port/path/filename
每個(gè)名詞的含義如下解釋:
- scheme 定義應(yīng)用層協(xié)議類型,比如 http、https、 ftp 等。
- host 定義域主機(jī)(http 的默認(rèn)主機(jī)是 www)。
- domain 定義因特網(wǎng)域名,比如 segmentfault.com。
- port 主機(jī)的端口,http 默認(rèn)是 80, https 默認(rèn)是 443。
- path 服務(wù)器上的資源路徑。
- filename - 定義文檔/資源的名稱。
DNS 查詢
瀏覽器不能直接通過(guò)域名找到服務(wù)器,只能通過(guò) IP 地址。
那瀏覽器是如何通過(guò)域名查詢到我們輸入的 url 對(duì)應(yīng)的 IP 呢?
- 瀏覽器緩存:按照一定頻率緩存 DNS 數(shù)據(jù)。
- 操作系統(tǒng)緩存:如果瀏覽器緩存好啊不到記錄則去操作系統(tǒng)中找。
- 路由緩存:路由器 DNS 緩存。
- ISP 的 DNS 服務(wù)器:ISP 是互聯(lián)網(wǎng)服務(wù)提供商(Internet Service Provider)的簡(jiǎn)稱,ISP 有專門的 DNS 服務(wù)器應(yīng)對(duì) DNS 查詢請(qǐng)求。
- 根服務(wù)器:ISP 的 DNS 服務(wù)器還找不到的話,它就會(huì)向根服務(wù)器發(fā)出請(qǐng)求,進(jìn)行遞歸查詢(DNS 服務(wù)器先問(wèn)根域名服務(wù)器.com 域名服務(wù)器的 IP 地址,然后再問(wèn) .baidu 域名服務(wù)器,依次類推)
TCP 連接建立與斷開
通過(guò)域名解析出 IP 地址以后就要建立 TCP/IP 連接了。
TCP/IP 分為四層,每一層都會(huì)加上一個(gè)頭部再發(fā)送給下一層。
到了接收方后,對(duì)應(yīng)的每一層則把對(duì)應(yīng)層的頭部解析拆除,丟上上一層,跟發(fā)送端的過(guò)程反過(guò)來(lái)。
TCP/IP四層模型
應(yīng)用層:發(fā)送 HTTP 請(qǐng)求
瀏覽器從地址欄得到服務(wù)器 IP,接著構(gòu)造一個(gè) HTTP 報(bào)文,其中包括:
- 請(qǐng)求行包含請(qǐng)求方法、URL、協(xié)議版本。
- 請(qǐng)求報(bào)頭(Request Header):由 “關(guān)鍵字: 值”對(duì)組成,每行一對(duì),關(guān)鍵字與值使用英文 “:” 分割。
- 請(qǐng)求體:請(qǐng)求參數(shù),并不是所有的請(qǐng)求有又請(qǐng)求參數(shù)。一般 get 參數(shù) 的格式 name=tom&password=1234&realName=tomson,也可以將參數(shù)放在 body 里面。
傳輸層:TCP 傳輸報(bào)文
在傳輸報(bào)文之前會(huì)先建立 TCP/IP 連接,也就是后面我們要說(shuō)的三次握手。
在這一層解決了數(shù)據(jù)可靠傳輸、及流量控制、擁塞控制。
可靠傳輸
對(duì)于發(fā)送方發(fā)送的數(shù)據(jù),接收方在接受到數(shù)據(jù)之后必須要給予確認(rèn),確認(rèn)它收到了數(shù)據(jù)。
如果在規(guī)定時(shí)間內(nèi),沒(méi)有給予確認(rèn)則意味著接收方?jīng)]有接受到數(shù)據(jù),然后發(fā)送方對(duì)數(shù)據(jù)進(jìn)行重發(fā)。
TCP 的可靠傳輸是通過(guò)確認(rèn)和超時(shí)重傳的機(jī)制來(lái)實(shí)現(xiàn)的,而確認(rèn)和超時(shí)重傳的具體的實(shí)現(xiàn)是通過(guò)以字節(jié)為單位的滑動(dòng)窗口機(jī)制來(lái)完成。
TCP 擁塞控制
TCP 協(xié)議通過(guò)慢啟動(dòng)機(jī)制、擁塞避免機(jī)制、加速遞減機(jī)制、快重傳和快恢復(fù)機(jī)制來(lái)共同實(shí)現(xiàn)擁塞控制。
流量控制
采用通知窗口實(shí)現(xiàn)對(duì)發(fā)送端的流量控制,通知窗口大小的單位是字節(jié)。
TCP 通過(guò)在 TCP 數(shù)據(jù)段首部的窗口字段中填入當(dāng)前設(shè)定的接收窗口(即通知窗口)的大小,用來(lái)告知對(duì)方 '我方當(dāng)前的接收窗口大小',以實(shí)現(xiàn)流量控制。
通信雙方的發(fā)送窗口大小由雙方在連接建立的時(shí)候商定,在通信過(guò)程,雙方可以動(dòng)態(tài)地根據(jù)自己的情況調(diào)整對(duì)方的發(fā)送窗口大小。
網(wǎng)絡(luò)層:IP 協(xié)議查詢 MAC 地址
將數(shù)據(jù)段打包,并加入源及目標(biāo)的 IP 地址,并且負(fù)責(zé)尋找傳輸路線。
判斷目標(biāo)地址是否與當(dāng)前地址處于同一網(wǎng)絡(luò)中,是的話直接根據(jù) Mac 地址發(fā)送,否則使用路由表查找下一跳地址,以及使用 ARP 協(xié)議查詢它的 Mac 地址。
鏈路層:以太網(wǎng)協(xié)議
根據(jù)以太網(wǎng)協(xié)議將數(shù)據(jù)分為以“幀”為單位的數(shù)據(jù)包,每一幀分為兩個(gè)部分:
- 標(biāo)頭:數(shù)據(jù)包的發(fā)送者、接受者、數(shù)據(jù)類型
- 數(shù)據(jù):數(shù)據(jù)包具體內(nèi)容
Mac 地址
以太網(wǎng)規(guī)定了連入網(wǎng)絡(luò)的所有設(shè)備都必須具備“網(wǎng)卡”接口,數(shù)據(jù)包都是從一塊網(wǎng)卡傳遞到另一塊網(wǎng)卡,網(wǎng)卡的地址就是 Mac 地址。每一個(gè) Mac 地址都是獨(dú)一無(wú)二的,具備了一對(duì)一的能力。
三次握手
在傳輸層傳輸數(shù)據(jù)之前需要建立連接,也就是三次握手創(chuàng)建可靠連接。
三次握手
首先建立鏈接前需要 Server 端先監(jiān)聽端口,因此 Server 端建立鏈接前的初始狀態(tài)就是 LISTEN 狀態(tài),這時(shí) Client 端準(zhǔn)備建立鏈接,先發(fā)送一個(gè) SYN 同步包,發(fā)送完同步包后,Client 端的鏈接狀態(tài)變成了 SYN_SENT 狀態(tài)。
Server 端收到 SYN 后,同意建立鏈接,會(huì)向 Client 端回復(fù)一個(gè) ACK。
由于 TCP 是雙工傳輸,Server 端也會(huì)同時(shí)向 Client 端發(fā)送一個(gè) SYN,申請(qǐng) Server 向 Client 方向建立鏈接。發(fā)送完 ACK 和 SYN 后,Server 端的鏈接狀態(tài)就變成了 SYN_RCVD。
Client 收到 Server 的 ACK 后,Client 端的鏈接狀態(tài)就變成了 ESTABLISHED 狀態(tài),同時(shí),Client 向 Server 端發(fā)送 ACK,回復(fù) Server 端的 SYN 請(qǐng)求。
Server 端收到 Client 端的 ACK 后,Server 端的鏈接狀態(tài)也就變成了的 ESTABLISHED 狀態(tài),此時(shí)建連完成,雙方隨時(shí)可以進(jìn)行數(shù)據(jù)傳輸。
在面試時(shí)需要明白三次握手是為了建立雙向的鏈接,需要記住 Client 端和 Server 端的鏈接狀態(tài)變化。另外回答建連的問(wèn)題時(shí),可以提到 SYN 洪水攻擊發(fā)生的原因,就是 Server 端收到 Client 端的 SYN 請(qǐng)求后,發(fā)送了 ACK 和 SYN,但是 Client 端不進(jìn)行回復(fù),導(dǎo)致 Server 端大量的鏈接處在 SYN_RCVD 狀態(tài),進(jìn)而影響其他正常請(qǐng)求的建連??梢栽O(shè)置 tcp_synack_retries = 0 加快半鏈接的回收速度,或者調(diào)大 tcp_max_syn_backlog 來(lái)應(yīng)對(duì)少量的 SYN 洪水攻擊。
四次揮手
我們只要關(guān)注 80 端口與 13743 端口建立的連接斷開過(guò)程,瀏覽器通過(guò) 13747 端口發(fā)送 [FIN, ACK] 這里是不是跟很多網(wǎng)上看到的不一樣?
- 其實(shí)是客戶端在發(fā)送 [FIN] 報(bào)文的時(shí)候順帶發(fā)了一個(gè) [ACK] 確認(rèn)上次傳輸確認(rèn)。
- 接著服務(wù)端通過(guò) 80 端口響應(yīng)了 [ACK] ,然后立馬響應(yīng) [FIN, ACK] 表示數(shù)據(jù)傳輸完了,可以關(guān)閉連接。
- 最后瀏覽器通過(guò) 13743 端口 發(fā)送 [ACK] 包給服務(wù)端,客服端與服務(wù)端連接就關(guān)閉了。
具體流程如下圖抓包所示:
四次揮手
三次握手與四次揮手
TCP 連接與斷開
客戶端:
- SYN_SENT - 客戶端發(fā)起第 1 次握手后,連接狀態(tài)為 SYN_SENT ,等待服務(wù)端內(nèi)核進(jìn)行應(yīng)答,如果服務(wù)端來(lái)不及處理(例如服務(wù)端的 backlog 隊(duì)列已滿)就可以看到這種狀態(tài)的連接。
- ESTABLISHED - 表示連接處于正常狀態(tài),可以進(jìn)行數(shù)據(jù)傳送??蛻舳耸盏椒?wù)器回復(fù)的 SYN+ACK 后,對(duì)服務(wù)端的 SYN 單獨(dú)回復(fù)(第 3 次握手),連接建立完成,進(jìn)入 ESTABLISHED 狀態(tài)。服務(wù)端程序收到第 3 次握手包后,也進(jìn)入 ESTABLISHED 狀態(tài)。
- FIN_WAIT_1 - 客戶端發(fā)送了關(guān)閉連接的 FIN 報(bào)文后,等待服務(wù)端回復(fù) ACK 確認(rèn)。
- FIN_WAIT_2 - 表示我方已關(guān)閉連接,正在等待服務(wù)端關(guān)閉。客戶端發(fā)了關(guān)閉連接的 FIN 報(bào)文后,服務(wù)器發(fā)回 ACK 應(yīng)答,但是沒(méi)進(jìn)行關(guān)閉,就會(huì)處于這種狀態(tài)。
- TIME_WAIT - 雙方都正常關(guān)閉連接后,客戶端會(huì)維持 TIME_WAIT 一段時(shí)間,以確保最后一個(gè) ACK 能成功發(fā)送到服務(wù)器端。停留時(shí)長(zhǎng)為 2 倍的 MSL (報(bào)文最大生存時(shí)間),Linux 下大約是 60 秒。所以在一個(gè)頻繁建立短連接的服務(wù)器上通??梢钥吹匠汕先f(wàn)的 TIME_WAIT 連接。
服務(wù)端:
- LISTEN - 表示當(dāng)前程序正在監(jiān)聽某個(gè)端口時(shí)。
- SYN_RCVD - 服務(wù)端收到第 1 次握手后,進(jìn)入 SYN_RCVD 狀態(tài),并回復(fù)一個(gè) SYN+ACK(第 2 次握手),再等待對(duì)方確認(rèn)。
- ESTABLISHED - 表示連接處于正常狀態(tài),可以進(jìn)行數(shù)據(jù)傳送。完成 TCP3 次握手后,連接建立完成,進(jìn)入 ESTABLISHED 狀態(tài)。
- CLOSE_WAIT - 表示客戶端已經(jīng)關(guān)閉連接,但是本地還沒(méi)關(guān)閉,正在等待本地關(guān)閉。有時(shí)客戶端程序已經(jīng)退出了,但服務(wù)端程序由于異?;?BUG 沒(méi)有調(diào)用 close()函數(shù)對(duì)連接進(jìn)行關(guān)閉,那在服務(wù)器這個(gè)連接就會(huì)一直處于 CLOSE_WAIT 狀態(tài),而在客戶機(jī)已經(jīng)不存在這個(gè)連接了。
- LAST_ACK - 表示正在等待客戶端對(duì)服務(wù)端的關(guān)閉請(qǐng)求進(jìn)行最終確認(rèn)。
TIME_WAIT 狀態(tài)存在的理由:
劃重點(diǎn)了
- 可靠地實(shí)現(xiàn) TCP 全雙工連接的終止 在進(jìn)行關(guān)閉連接四路握手協(xié)議時(shí),最后的 ACK 是由主動(dòng)關(guān)閉端發(fā)出的,如果這個(gè)最終的 ACK 丟失,服務(wù)器將重發(fā)最終的 FIN,因此客戶端必須維護(hù)狀態(tài)信息允 許它重發(fā)最終的 ACK。
- 如果不維持這個(gè)狀態(tài)信息,那么客戶端將響應(yīng) RST 分節(jié),服務(wù)器將此分節(jié)解釋成一個(gè)錯(cuò)誤( 在 java 中會(huì)拋出 connection reset 的 SocketException)。因而,要實(shí)現(xiàn) TCP 全雙工連接的正常終 止,必須處理終止序列四個(gè)分節(jié)中任何一個(gè)分節(jié)的丟失情況,主動(dòng)關(guān)閉 的客戶端必須維持狀 態(tài)信息進(jìn)入 TIME_WAIT 狀態(tài)。
- 允許老的重復(fù)分節(jié)在網(wǎng)絡(luò)中消逝 TCP 分節(jié)可能由于路由器異常而“迷途”,在迷途期間,TCP 發(fā)送端可能因確認(rèn)超時(shí)而重發(fā)這個(gè) 分節(jié),迷途的分節(jié)在路由器修復(fù)后也會(huì)被送到最終目的地,這個(gè) 原來(lái)的迷途分節(jié)就稱為 lost duplicate。在關(guān)閉一個(gè) TCP 連接后,馬上又重新建立起一個(gè)相同的 IP 地址和端口之間的 TCP 連接,后一個(gè)連接被稱為前一個(gè)連接的化身 ( incarnation),那么有可能出現(xiàn)這種情況,前一 個(gè)連接的迷途重復(fù)分組在前一個(gè)連接終止后出現(xiàn),從而被誤解成從屬于新的化身。為了避免 這個(gè)情 況,TCP 不允許處于 TIME_WAIT 狀態(tài)的連接啟動(dòng)一個(gè)新的化身,因?yàn)?TIME_WAIT 狀 態(tài)持續(xù) 2MSL,就可以保證當(dāng)成功建立一個(gè) TCP 連接的時(shí) 候,來(lái)自連接先前化身的重復(fù)分組已 經(jīng)在網(wǎng)絡(luò)中消逝。
另外回答斷鏈的問(wèn)題時(shí),可以提到實(shí)際應(yīng)用中有可能遇到大量 Socket 處在 TIME_WAIT 或者 CLOSE_WAIT 狀態(tài)的問(wèn)題。一般開啟 tcp_tw_reuse 和 tcp_tw_recycle 能夠加快 TIME-WAIT 的 Sockets 回收;而大量 CLOSE_WAIT 可能是被動(dòng)關(guān)閉的一方存在代碼 bug,沒(méi)有正確關(guān)閉鏈接導(dǎo)致的。
簡(jiǎn)單地說(shuō)就是
- 保證 TCP 協(xié)議的全雙工連接能夠可靠關(guān)閉;
- 保證這次連接的重復(fù)數(shù)據(jù)段從網(wǎng)絡(luò)中消失,防止端口被重用時(shí)可能產(chǎn)生數(shù)據(jù)混淆;
服務(wù)器處理請(qǐng)求并響應(yīng) HTTP 報(bào)文
深入分析下 HTTP 報(bào)文到底是什么玩意。數(shù)據(jù)傳輸都是通過(guò) TCP/IP 協(xié)議負(fù)責(zé)底層的傳輸工作, HTTP 協(xié)議基本不用操心,所謂的 “超文本傳輸協(xié)議” 似乎不怎么例會(huì) “傳輸” 這個(gè)事情,那 HTTP 的核心又是什么呢?
比圖 TCP 報(bào)文,它在實(shí)際要傳輸?shù)臄?shù)據(jù)之前附加了一個(gè) 20 字節(jié)的頭部數(shù)據(jù),存儲(chǔ) TCP 協(xié)議必須的額外信息,例如發(fā)送方的端口號(hào)、接收方的端口號(hào)、包序號(hào)、標(biāo)志位等等。
有了這個(gè)附加的 TCP 頭,數(shù)據(jù)包才能夠正確傳輸,到了目的地后把頭部去掉,就可以拿到真正的數(shù)據(jù)。這個(gè)很容易理解,設(shè)置起點(diǎn)與終點(diǎn),不同協(xié)議貼上不同的頭部,到了對(duì)應(yīng)目的地就拆下這個(gè)頭部,提取真正的數(shù)據(jù)。
HTTP報(bào)文
與 TCP/UDP 類似需要在傳輸數(shù)據(jù)前設(shè)置一些請(qǐng)求頭,不同的是 HTTP 是一個(gè) “純文本” 的協(xié)議,所有的頭都是 ASCII 碼的文本,很容易看出來(lái)是什么。
再者就是他的請(qǐng)求報(bào)文與響應(yīng)報(bào)文的結(jié)構(gòu)基本一樣,主要三大部分組成:
- 起始行(Start Line):描述請(qǐng)求或者響應(yīng)的基本信息。
- Header:使用 key-value 的形式詳細(xì)說(shuō)明報(bào)文信息。
- 空行。
- 消息正文(Entity):傳輸?shù)臄?shù)據(jù),圖片、視頻、文本等都可以。
這其中前兩部分起始行和頭部字段經(jīng)常又合稱為“請(qǐng)求頭”或“響應(yīng)頭”,消息正文又稱為“實(shí)體”,但與“header”對(duì)應(yīng),很多時(shí)候就直接稱為“body”。
敲黑板了
HTTP 協(xié)議規(guī)定報(bào)文必須包含 Header,而且之后必須有一個(gè) “空行”,也就是“CRLF”,十六進(jìn)制的“0D0A”,可以沒(méi)有 “body”。
報(bào)文結(jié)構(gòu)如下圖所示:
HTTP報(bào)文
截取一段報(bào)文:
HTTP報(bào)文抓取
請(qǐng)求頭-起始行
請(qǐng)求行由請(qǐng)求方法字段、URL 字段和 HTTP 協(xié)議版本字段 3 個(gè)字段組成,它們用空格分隔。例如,GET / HTTP/1.1。
HTTP 協(xié)議的請(qǐng)求方法有 GET、POST、HEAD、PUT、DELETE、OPTIONS、TRACE、CONNECT。
GET 是請(qǐng)求方法, “/” 是請(qǐng)求的目標(biāo)資源,“HTTP/1.1” 請(qǐng)求協(xié)議版本號(hào)。
GET / HTTP/1.1 翻譯成文字大概就是:“hello,服務(wù)器,我要請(qǐng)求根目錄下的默認(rèn)文件使用的是 HTTP 1.1 協(xié)議版本”。
頭部 Header
第二部分就是 Header,組成形式是 key:value,使用自定義頭需要注意事項(xiàng):
- header 字段不區(qū)分大小寫,通常是首字母大寫;
- 字段名不允許有空格,可以使用 “-”,不能使用 “_”;
- 字段名必須緊接著 “:”,不能有空格,但是 “:” 后面可以有空格。
- 字段名順序沒(méi)有意義;
瀏覽器接收響應(yīng)并渲染數(shù)據(jù)
接收到響應(yīng)文本 HTML,則開始執(zhí)行瀏覽器渲染機(jī)制。
不同的瀏覽器渲染可能有所差異,但是基本按照以下步驟執(zhí)行:
- 根據(jù) HTML 解析 DOM 樹;
- 根據(jù) CSS 解析出 CSS 規(guī)則樹;
- 結(jié)合 DOM 樹與 CSS 規(guī)則樹,生成渲染樹;
- 根據(jù)生成的渲染樹計(jì)算每個(gè)節(jié)點(diǎn)的信息;
- 根據(jù)節(jié)點(diǎn)信息繪制畫面展示給用戶。
瀏覽器渲染頁(yè)面