通俗易懂網(wǎng)絡(luò)協(xié)議(TCP/IP概述)
近期工作,跟網(wǎng)絡(luò)協(xié)議相關(guān),這讓我有機(jī)會更深入學(xué)習(xí)網(wǎng)絡(luò)協(xié)議,而之前很長一段時間,我對網(wǎng)絡(luò)協(xié)議的理解都停留在比較淺的層面。
比如:TCP是面向連接的、可靠傳輸,而UDP是非連接的、不可靠傳輸,TCP建連需要3次握手,會造成delay,UDP更快。
比如:socket編程,服務(wù)器socket create、bind、listen、accept、read/write、shutdown/close,客戶端socket create、connect、read/write、shutdown/close,再加上epoll/select這幾下子。
再比如:我知道網(wǎng)絡(luò)編程要忽視SIGPIPE信號不然會掛,read返回0代表對端主動關(guān)閉,非阻塞的read要放在循環(huán)里要考慮返回值,多路復(fù)用以及阻塞、非阻塞的區(qū)別。
TCP/UDP的區(qū)別上,我是這樣理解的:從北京到杭州,TCP相當(dāng)于修了一條高鐵線路(建連)再通車發(fā)貨(傳輸數(shù)據(jù)),而UDP相當(dāng)于寄快遞,丟了不管(直接傳輸數(shù)據(jù))。
上面的理解對不對?可以說對,也可以說不對。對于應(yīng)用程序員來說,有了上面的認(rèn)識+熟悉socket編程接口,夠了嗎?不夠嗎?
大物理學(xué)家費(fèi)曼提出一個高效的費(fèi)曼學(xué)習(xí)法,即從問題入手,試著把問題都講出來,以教代學(xué),一旦你能把問題都講清楚,便學(xué)會了。所以我想嘗試一下把TCP/IP講清楚,借此讓自己學(xué)明白,順便幫助一下讀者。
雖然《TCP/IP詳解卷1》是一本關(guān)于互聯(lián)網(wǎng)協(xié)議族很嚴(yán)謹(jǐn)詳盡的書,但在我看來,它稍微有點(diǎn)晦澀,可能需要讀幾遍,才能心領(lǐng)神會。雖然我沒有能力把這個問題說的更好,但因?yàn)槲医?jīng)歷過從稀里糊涂到稍有所悟的過程,這可能是大師不可比的,我將盡量用通俗易懂的語言把TCP/IP相關(guān)的知識講清楚。
TCP/IP是什么
TCP/IP協(xié)議族是一組協(xié)議的集合,也叫互聯(lián)網(wǎng)協(xié)議族,用來實(shí)現(xiàn)互聯(lián)網(wǎng)上主機(jī)之間的相互通信。TCP和IP只是其中的2個協(xié)議,也是很重要的2個協(xié)議,所以用TCP/IP來命名這個互聯(lián)網(wǎng)協(xié)議族,實(shí)際上,它還包括其他協(xié)議,比如UDP、ICMP、IGMP、ARP/RARP等。
網(wǎng)絡(luò)分層
大學(xué)《計(jì)算機(jī)網(wǎng)絡(luò)》教科書上有經(jīng)典的網(wǎng)絡(luò)ISO七層模型,但七層劃分太細(xì)了,稍顯繁瑣,不容易記住。
互聯(lián)網(wǎng)協(xié)議族TCP/IP按粗粒度的四層劃分,兩種劃分的對照圖讓彼此關(guān)系一目了然。
分層是計(jì)算機(jī)領(lǐng)域的常用技巧,比如互聯(lián)網(wǎng)后端的三層架構(gòu)“接入-邏輯-存儲”就是分層思想的典型應(yīng)用。
分層是為了隔離,通過分層劃分職能,拆解問題,層與層之間約定接口,屏蔽實(shí)現(xiàn)細(xì)節(jié)。
TCP/IP自下到上劃分為鏈路層、網(wǎng)絡(luò)層、傳輸層、應(yīng)用層。下層向上層提供能力,上層利用下層的能力提供更高的抽象。
- 鏈路層,也稱網(wǎng)絡(luò)接口層,包括操作系統(tǒng)的設(shè)備驅(qū)動程序和網(wǎng)卡,它們一起處理與傳輸媒介(光纖等)的物理接口細(xì)節(jié)。
- 網(wǎng)絡(luò)層,也就是IP層,負(fù)責(zé)處理IP datagram在網(wǎng)絡(luò)中的傳輸,IP層傳輸?shù)氖荌P datagram,借助路由表,把IP datagram從網(wǎng)絡(luò)的一端傳輸?shù)搅硪欢?,簡而言之:IP實(shí)現(xiàn)包的路由傳輸,IP協(xié)議和路由器工作在網(wǎng)絡(luò)層。
- 傳輸層,提供端到端之間的通信,包括提供面向連接和高可靠性的TCP,以及無連接不可靠的UDP。貌似TCP更好,但實(shí)際不是這樣,UDP因?yàn)椴恍枰ㄟB開銷,所以更快,應(yīng)用得也很廣,比如新一代互聯(lián)網(wǎng)協(xié)議HTTP3就從TCP轉(zhuǎn)向UDP,應(yīng)根據(jù)適應(yīng)場景選擇傳輸層協(xié)議。
- 應(yīng)用層,跟應(yīng)用相關(guān),不同應(yīng)用解決不同問題,需要不同的應(yīng)用層協(xié)議。
鏈路層處理數(shù)據(jù)在媒介上的傳輸,以及主機(jī)與網(wǎng)卡、光纖等打交道的細(xì)節(jié)。因?yàn)榕c硬件相關(guān),所以需要借助系統(tǒng)的驅(qū)動程序,鏈路層協(xié)議就是定義這些細(xì)節(jié)的,比如怎么把數(shù)據(jù)從網(wǎng)卡發(fā)送到光纖,采用什么格式編碼等,它解決的數(shù)據(jù)在媒介上表示、流動的問題。
光有鏈路層功能肯定是不夠的,網(wǎng)絡(luò)上有成千上萬的機(jī)器,主機(jī)A與B通信,你不能將數(shù)據(jù)發(fā)到主機(jī)C,所以仿照現(xiàn)實(shí),要為主機(jī)分配網(wǎng)絡(luò)地址,通過IP地址去標(biāo)識網(wǎng)絡(luò)中的一臺主機(jī),發(fā)送一個數(shù)據(jù)包,需要正確路由到目的地,這就好比你從家到公司,要經(jīng)過哪些路徑,需要地圖,而路由表就類似這張地圖。IP解決的是數(shù)據(jù)包在網(wǎng)絡(luò)中的傳輸路由的問題。
有了網(wǎng)絡(luò)層的傳輸路由能力,還不夠,因?yàn)镮P報(bào)在傳輸過程中可能丟包,比如中間經(jīng)歷過的路由器緩沖區(qū)滿了便會丟包,這樣不可靠,如果需要可靠傳輸?shù)哪芰Γ阈枰獋鬏攲踊贗P層,提供更多的能力,TCP解決了可靠性問題。具體而言,如果丟包了,TCP層會負(fù)責(zé)超時重傳,它通過接收確認(rèn)和重傳機(jī)制保證了可靠傳輸。另外,因?yàn)镮P報(bào)都是獨(dú)立路由的,所以從主機(jī)A到主機(jī)B,一份數(shù)據(jù)被拆分成x、y兩個IP報(bào)先后發(fā)送,這2個包可能選擇不同的傳輸路徑,這樣有可能y包先于x包到達(dá),但我們希望在接收端(主機(jī)B)恢復(fù)這個數(shù)據(jù)的信息,但我們無法控制IP報(bào)的到達(dá)順序,所以,我們需要在接收端恢復(fù)數(shù)據(jù),我只需要在x、y包里記錄它屬于數(shù)據(jù)塊的哪個部分,然后重組這份數(shù)據(jù),這正是TCP做的,它會重新組裝IP報(bào),從而保證順序性,遞交給應(yīng)用層。
有時候并不需要保證可靠性和順序性,這便是UDP能提供的,它只是簡單的把數(shù)據(jù)封裝成IP報(bào),然后通過IP層路由發(fā)送到目的端。
再往上,便是應(yīng)用層協(xié)議了,比如http,又比如游戲服務(wù)器自定義協(xié)議,應(yīng)用層協(xié)議通?;赥CP或者UDP做傳輸。
分層
什么是協(xié)議?懶得去翻協(xié)議的各種權(quán)威定義了,我認(rèn)為協(xié)議就是約定,跟現(xiàn)實(shí)生活中協(xié)議這個詞含義差不多。網(wǎng)絡(luò)協(xié)議就是通信雙方共同遵守的約定,更具體一點(diǎn),就是定義數(shù)據(jù)在網(wǎng)絡(luò)上傳輸?shù)母袷健⒁?guī)則和流程。
因?yàn)榫W(wǎng)絡(luò)是分層模型,不同層有不同層的作用,所以為各層定義各層的規(guī)則,各層對應(yīng)的各層協(xié)議。
前面講了TCP/IP協(xié)議族包含很多協(xié)議,這些協(xié)議分屬不同的分層,承擔(dān)不同的作用。
- TCP和UDP是兩種主要的傳輸層協(xié)議。
- IP是網(wǎng)絡(luò)層的主要協(xié)議,TCP、UDP都需要利用IP協(xié)議進(jìn)行數(shù)據(jù)傳輸。
- ICMP是互聯(lián)網(wǎng)控制報(bào)文協(xié)議,是IP的附屬協(xié)議,IP層用它來與其他主機(jī)或路由器交換錯誤報(bào)文和其他重要信息。比如一個Packet經(jīng)過某個路由器節(jié)點(diǎn)的時候,超過網(wǎng)絡(luò)對Packet的長度限制,而又不分片,則會給發(fā)送端發(fā)送一個ICMP包報(bào)告錯誤信息,屬于ICMP是用來輔助IP完成數(shù)據(jù)包傳輸?shù)摹?/li>
- IGMP是Internet組管理協(xié)議,用來把一個包多播到多個主機(jī)。
- ARP(地址解析協(xié)議)和RARP(逆地址解析協(xié)議)是用來轉(zhuǎn)換IP層和鏈路層的地址,IP層使用IP地址,鏈路層使用Mac地址
- 應(yīng)用層和傳輸層使用端到端(end-to-end)協(xié)議,網(wǎng)絡(luò)層提供的是逐跳(hop-by-hop)協(xié)議。
封裝
A給B通過網(wǎng)絡(luò)傳送一塊數(shù)據(jù),可以設(shè)想僅僅是傳輸這塊原始數(shù)據(jù)是不夠的,因?yàn)榫W(wǎng)絡(luò)傳輸過程中,網(wǎng)絡(luò)包到了某個路由器,需要轉(zhuǎn)發(fā),而轉(zhuǎn)發(fā)必須依賴數(shù)據(jù)包的一些附加信息,比如目標(biāo)機(jī)器。
發(fā)送端在發(fā)送數(shù)據(jù)的時候,將原始數(shù)據(jù)按照協(xié)議格式加上一些控制信息,包裝成可在網(wǎng)絡(luò)上正確傳輸數(shù)據(jù)包的過程叫封裝。
TCP/IP協(xié)議族是層層封裝的,從應(yīng)用層到鏈路層,每經(jīng)過一層都要添加一些額外信息(首、尾部)。
- 用戶數(shù)據(jù)經(jīng)過應(yīng)用程序加上應(yīng)用程序首部,轉(zhuǎn)給TCP層處理
- 經(jīng)過TCP層加上TCP首部,產(chǎn)生TCP段(segment)
- TCP segment經(jīng)過IP層再加上IP首部,產(chǎn)生IP數(shù)據(jù)包(datagram)
- IP datagram通過鏈路層,經(jīng)以太網(wǎng)驅(qū)動程序處理后,加上以太網(wǎng)首部+尾部,產(chǎn)生以太網(wǎng)幀(frame),以太網(wǎng)幀的長度在46~1500之間
更準(zhǔn)確的說,在IP和鏈路層傳輸?shù)臄?shù)據(jù)單元叫分組(Packet),分組既可以是一個IP datagram也可以是IP datagram的一個分片(fragment)。
UDP的封裝跟TCP略有不同,主要體現(xiàn)在經(jīng)過傳輸層(UDP)之后添加的是8字節(jié)UDP首部,產(chǎn)生UDP datagram。
封裝過程中,經(jīng)過TCP/UDP層的時候,會把端口號添加到TCP/UDP首部;經(jīng)過IP層的時候,會把協(xié)議類型(TCP or UDP or ICMP or IGMP)添加到IP首部;經(jīng)過鏈路層的時候,會把幀類型(IP or ARP or RARP)添加到以太網(wǎng)首部。這些信息將被用于接收端的處理。
接收端收到數(shù)據(jù)后,要執(zhí)行跟發(fā)送端相反的解封操作,我們可以把發(fā)送端的數(shù)據(jù)封裝比喻成洗澡后一層層穿衣服,而接收端的操作,類似洗澡前一層層脫衣服,把首尾部剝離,獲取傳遞的原始數(shù)據(jù)。
因?yàn)榫W(wǎng)絡(luò)上的主機(jī)有不同字節(jié)序,現(xiàn)在要通過網(wǎng)絡(luò)傳輸,便需要約定統(tǒng)一的網(wǎng)絡(luò)字節(jié)序(大端序),采用小端序的主機(jī)在網(wǎng)絡(luò)傳輸數(shù)據(jù)的時候要轉(zhuǎn)為大端序。
地址
互聯(lián)網(wǎng)上每個接口都有一個唯一的網(wǎng)絡(luò)地址,也叫IP地址,IP地址有IPv4和IPv6兩個版本,IPv4是32位4字節(jié)的整數(shù),每個字節(jié)(8bit)的取值范圍是0~255,所以可以把4字節(jié)的IPv4用四個點(diǎn)分隔的byte值表示,比如140.252.13.88,每個十進(jìn)制數(shù)值對應(yīng)32位整數(shù)中的每個字節(jié),這種表示法叫點(diǎn)分十進(jìn)制表示法,很顯然,點(diǎn)分十進(jìn)制法和int32兩種表示法之間很容易相互轉(zhuǎn)換。
IPv4地址劃分為ABCDE五類,32位地址表示的數(shù)值空間有限,難以為互聯(lián)網(wǎng)上的所有聯(lián)網(wǎng)設(shè)備分配獨(dú)立的IP地址,所以便存在動態(tài)分配、共享、公網(wǎng)+內(nèi)網(wǎng)地址轉(zhuǎn)化(NAT)等問題,本質(zhì)上是為了解決IP地址不夠用的問題。
IPv6使用128bit,2的128次方就非常大了,號稱可以為地球上每粒沙子分配一個ip地址。
IP數(shù)據(jù)報(bào)(網(wǎng)絡(luò)層)用IP地址、而以太網(wǎng)幀(鏈路層)則是用硬件(48位Mac)地址,ARP和RARP用于IP地址和硬件地址之間做映射(轉(zhuǎn)換)。
端口
TCP/UDP采用16位端口號來識別(區(qū)分)應(yīng)用,比如主機(jī)A向主機(jī)B發(fā)送了一個IP報(bào),主機(jī)B的內(nèi)核收到該IP報(bào)之后,應(yīng)該交給哪個應(yīng)用程序去處理呢?端口號就是用來干這個的,內(nèi)核會維護(hù)端口號到應(yīng)用程序之間的對應(yīng)關(guān)系。
比較常用的應(yīng)用層協(xié)議有約定的端口號,也就是知名端口號,而1024~5000之間的端口號是分配給TCP/IP臨時用的,而大于5000的另做他用。也就是說,你用TCP方式去連網(wǎng)絡(luò)服務(wù)器,本地為該socket分配的端口號會在1024~5000之間,這取決于操作系統(tǒng)的端口分配策略。
域名系統(tǒng)
域名系統(tǒng)(DNS)提供主機(jī)名字和IP地址之間的轉(zhuǎn)換,比如www.baidu.com是一個域名,應(yīng)用程序可以通過一個標(biāo)準(zhǔn)庫函數(shù)(gethostbyname)來獲得給定名字主機(jī)的IP地址,標(biāo)準(zhǔn)庫函數(shù)(gethostbyaddr)實(shí)現(xiàn)逆操作。
ip地址是一串?dāng)?shù)字,含義不清、也不便于記憶,主機(jī)名含義更清晰,www.baidu.com你就很容易記住,這也是為什么存在IP地址還需要主機(jī)名的原因。
分用
接收端接收到以太網(wǎng)數(shù)據(jù)幀(Frame)之后,需要像剝洋蔥一樣,從協(xié)議棧由底向上升,即遵照鏈路層->網(wǎng)絡(luò)層->傳輸層->應(yīng)用層的順序,去掉各層協(xié)議添加的首尾部,將數(shù)據(jù)取出,交給最上層應(yīng)用程序,這個過程叫Demultiplexing,尊從書本的翻譯叫分用。
回顧前面封裝的描述,在傳輸層、網(wǎng)絡(luò)層、鏈路層,分別將端口號存入TCP/IP首部,將協(xié)議類型存入IP首部,將幀類型存入以太網(wǎng)幀首部。所以在接收端,將一層層拆掉首部,取出對應(yīng)信息,然后做分派,丟給不同模塊處理,上圖就是整個處理過程。
小結(jié)
本文講了地址、域名、端口、TCP/IP分層模型、封裝、分用等概念。
你***能記住TCP/IP鏈路層->網(wǎng)絡(luò)層->傳輸層->應(yīng)用層的四層劃分。
TCP segment、UDP datagram、IP datagram、IP fragment、以太網(wǎng)frame、以及IP層和鏈路層之間傳輸?shù)臄?shù)據(jù)單元packet,這些概念你***分清楚,這樣交談的時候會顯得比較專業(yè)而不是很土。
數(shù)據(jù)封裝,多看幾遍你便能記住了。
- TCP封裝格式:以太網(wǎng)首部(14)+IP首部(20)+TCP首部(20)+應(yīng)用數(shù)據(jù)+以太網(wǎng)尾部(4)
- UDP封裝格式:以太網(wǎng)首部(14)+IP首部(20)+UDP首部(8)+應(yīng)用數(shù)據(jù)+以太網(wǎng)尾部(4)
應(yīng)用層協(xié)議在應(yīng)用層實(shí)現(xiàn),而傳輸層、網(wǎng)絡(luò)層、鏈路層都是在內(nèi)核實(shí)現(xiàn),所以想修改或者優(yōu)化底層協(xié)議很難,因?yàn)槟銕缀鮿硬涣藘?nèi)核,因?yàn)榫W(wǎng)絡(luò)上的大量設(shè)備OS你沒法一并改過來,這就是所謂的網(wǎng)絡(luò)設(shè)備僵化問題,HTTP3用UDP替代TCP,就是想在應(yīng)用層自己去實(shí)現(xiàn)可靠傳輸?shù)取?/p>
每個以太網(wǎng)幀有長度限制(48~1500),網(wǎng)絡(luò)上每個設(shè)備也有對包的長度限制,IP報(bào)大了就要分片,分片可能發(fā)生在發(fā)送端,也有可能發(fā)生在中間設(shè)備,但應(yīng)該盡量避免分片,IP報(bào)會帶有信息讓分片后可以重組,MTU的概念可以了解一下。
ICMP和IGMP邏輯上屬于網(wǎng)絡(luò)層,因?yàn)樗麄兪荌P協(xié)議的附屬協(xié)議,但實(shí)際上,ICMP和IGMP報(bào)文都被封裝為IP datagram傳輸,所以又可以把他們視為IP層之上的協(xié)議。
同樣ARP和RARP用于IP地址和硬件MAC地址相互轉(zhuǎn)換,邏輯上屬于鏈路層,但實(shí)際上arp和rarp報(bào)文跟IP datagram一樣,都被封裝成以太網(wǎng)Frame傳輸。
接收端收到以太網(wǎng)幀之后,會走分用流程,最終將原始數(shù)據(jù)交給應(yīng)用程序。
TCP/IP協(xié)議的應(yīng)用程序經(jīng)常使用socket編程接口。
有很多跟網(wǎng)絡(luò)相關(guān)的工具,比如ping、ifconfig、netstat、arp、tcpdump、wireshark等。