自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Linux網(wǎng)絡(luò) - 數(shù)據(jù)包的發(fā)送過程

系統(tǒng) Linux
繼上一篇介紹了數(shù)據(jù)包的接收過程后,本文將介紹在Linux系統(tǒng)中,數(shù)據(jù)包是如何一步一步從應(yīng)用程序到網(wǎng)卡并最終發(fā)送出去的。

Linux網(wǎng)絡(luò) - 數(shù)據(jù)包的發(fā)送過程

繼上一篇介紹了數(shù)據(jù)包的接收過程后,本文將介紹在Linux系統(tǒng)中,數(shù)據(jù)包是如何一步一步從應(yīng)用程序到網(wǎng)卡并最終發(fā)送出去的。

如果英文沒有問題,強烈建議閱讀后面參考里的文章,里面介紹的更詳細。

本文只討論以太網(wǎng)的物理網(wǎng)卡,并且以一個UDP包的發(fā)送過程作為示例,由于本人對協(xié)議棧的代碼不熟,有些地方可能理解有誤,歡迎指正

socket層

  1.                +-------------+ 
  2.                | Application | 
  3.                +-------------+ 
  4.                      | 
  5.                      | 
  6.                      ↓ 
  7. +------------------------------------------+ 
  8. | socket(AF_INET, SOCK_DGRAM, IPPROTO_UDP) | 
  9. +------------------------------------------+ 
  10.                      | 
  11.                      | 
  12.                      ↓ 
  13.            +-------------------+ 
  14.            | sendto(sock, ...) | 
  15.            +-------------------+ 
  16.                      | 
  17.                      | 
  18.                      ↓ 
  19.               +--------------+ 
  20.               | inet_sendmsg | 
  21.               +--------------+ 
  22.                      | 
  23.                      | 
  24.                      ↓ 
  25.              +---------------+ 
  26.              | inet_autobind | 
  27.              +---------------+ 
  28.                      | 
  29.                      | 
  30.                      ↓ 
  31.                +-----------+ 
  32.                | UDP layer | 
  33.                +-----------+  
  • socket(...): 創(chuàng)建一個socket結(jié)構(gòu)體,并初始化相應(yīng)的操作函數(shù),由于我們定義的是UDP的socket,所以里面存放的都是跟UDP相關(guān)的函數(shù)
  • sendto(sock, ...): 應(yīng)用層的程序(Application)調(diào)用該函數(shù)開始發(fā)送數(shù)據(jù)包,該函數(shù)數(shù)會調(diào)用后面的inet_sendmsg
  • inet_sendmsg: 該函數(shù)主要是檢查當前socket有沒有綁定源端口,如果沒有的話,調(diào)用inet_autobind分配一個,然后調(diào)用UDP層的函數(shù)
  • inet_autobind: 該函數(shù)會調(diào)用socket上綁定的get_port函數(shù)獲取一個可用的端口,由于該socket是UDP的socket,所以get_port函數(shù)會調(diào)到UDP代碼里面的相應(yīng)函數(shù)。

UDP層

  1.      | 
  2.             | 
  3.             ↓ 
  4.      +-------------+ 
  5.      | udp_sendmsg | 
  6.      +-------------+ 
  7.             | 
  8.             | 
  9.             ↓ 
  10.  +----------------------+ 
  11.  | ip_route_output_flow | 
  12.  +----------------------+ 
  13.             | 
  14.             | 
  15.             ↓ 
  16.      +-------------+ 
  17.      | ip_make_skb | 
  18.      +-------------+ 
  19.             | 
  20.             | 
  21.             ↓ 
  22. +------------------------+ 
  23. | udp_send_skb(skb, fl4) | 
  24. +------------------------+ 
  25.             | 
  26.             | 
  27.             ↓ 
  28.        +----------+ 
  29.        | IP layer | 
  30.        +----------+  
  • udp_sendmsg: udp模塊發(fā)送數(shù)據(jù)包的入口,該函數(shù)較長,在該函數(shù)中會先調(diào)用ip_route_output_flow獲取路由信息(主要包括源IP和網(wǎng)卡),然后調(diào)用ip_make_skb構(gòu)造skb結(jié)構(gòu)體,***將網(wǎng)卡的信息和該skb關(guān)聯(lián)。
  • ip_route_output_flow: 該函數(shù)會根據(jù)路由表和目的IP,找到這個數(shù)據(jù)包應(yīng)該從哪個設(shè)備發(fā)送出去,如果該socket沒有綁定源IP,該函數(shù)還會根據(jù)路由表找到一個最合適的源IP給它。 如果該socket已經(jīng)綁定了源IP,但根據(jù)路由表,從這個源IP對應(yīng)的網(wǎng)卡沒法到達目的地址,則該包會被丟棄,于是數(shù)據(jù)發(fā)送失敗,sendto函數(shù)將返回錯誤。該函數(shù)***會將找到的設(shè)備和源IP塞進flowi4結(jié)構(gòu)體并返回給udp_sendmsg
  • ip_make_skb: 該函數(shù)的功能是構(gòu)造skb包,構(gòu)造好的skb包里面已經(jīng)分配了IP包頭,并且初始化了部分信息(IP包頭的源IP就在這里被設(shè)置進去),同時該函數(shù)會調(diào)用__ip_append_dat,如果需要分片的話,會在__ip_append_data函數(shù)中進行分片,同時還會在該函數(shù)中檢查socket的send buffer是否已經(jīng)用光,如果被用光的話,返回ENOBUFS
  • udp_send_skb(skb, fl4) 主要是往skb里面填充UDP的包頭,同時處理checksum,然后調(diào)用IP層的相應(yīng)函數(shù)。

IP層

  1.         | 
  2.          | 
  3.          ↓ 
  4.   +-------------+ 
  5.   | ip_send_skb | 
  6.   +-------------+ 
  7.          | 
  8.          | 
  9.          ↓ 
  10.  +-------------------+       +-------------------+       +---------------+ 
  11.  | __ip_local_out_sk |------>| NF_INET_LOCAL_OUT |------>| dst_output_sk | 
  12.  +-------------------+       +-------------------+       +---------------+ 
  13.                                                                  | 
  14.                                                                  | 
  15.                                                                  ↓ 
  16. +------------------+        +----------------------+       +-----------+ 
  17. | ip_finish_output |<-------| NF_INET_POST_ROUTING |<------| ip_output | 
  18. +------------------+        +----------------------+       +-----------+ 
  19.          | 
  20.          | 
  21.          ↓ 
  22.  +-------------------+      +------------------+       +----------------------+ 
  23.  | ip_finish_output2 |----->| dst_neigh_output |------>| neigh_resolve_output | 
  24.  +-------------------+      +------------------+       +----------------------+ 
  25.                                                                   | 
  26.                                                                   | 
  27.                                                                   ↓ 
  28.                                                           +----------------+ 
  29.                                                           | dev_queue_xmit | 
  30.                                                           +----------------+  
  • ip_send_skb: IP模塊發(fā)送數(shù)據(jù)包的入口,該函數(shù)只是簡單的調(diào)用一下后面的函數(shù)
  • __ip_local_out_sk: 設(shè)置IP報文頭的長度和checksum,然后調(diào)用下面netfilter的鉤子
  • NF_INET_LOCAL_OUT: netfilter的鉤子,可以通過iptables來配置怎么處理該數(shù)據(jù)包,如果該數(shù)據(jù)包沒被丟棄,則繼續(xù)往下走
  • dst_output_sk: 該函數(shù)根據(jù)skb里面的信息,調(diào)用相應(yīng)的output函數(shù),在我們UDP IPv4這種情況下,會調(diào)用ip_output
  • ip_output: 將上面udp_sendmsg得到的網(wǎng)卡信息寫入skb,然后調(diào)用NF_INET_POST_ROUTING的鉤子
  • NF_INET_POST_ROUTING: 在這里,用戶有可能配置了SNAT,從而導(dǎo)致該skb的路由信息發(fā)生變化
  • ip_finish_output: 這里會判斷經(jīng)過了上一步后,路由信息是否發(fā)生變化,如果發(fā)生變化的話,需要重新調(diào)用dst_output_sk(重新調(diào)用這個函數(shù)時,可能就不會再走到ip_output,而是走到被netfilter指定的output函數(shù)里,這里有可能是xfrm4_transport_output),否則往下走
  • ip_finish_output2: 根據(jù)目的IP到路由表里面找到下一跳(nexthop)的地址,然后調(diào)用__ipv4_neigh_lookup_noref去arp表里面找下一跳的neigh信息,沒找到的話會調(diào)用__neigh_create構(gòu)造一個空的neigh結(jié)構(gòu)體
  • dst_neigh_output: 在該函數(shù)中,如果上一步ip_finish_output2沒得到neigh信息,那么將會走到函數(shù)neigh_resolve_output中,否則直接調(diào)用neigh_hh_output,在該函數(shù)中,會將neigh信息里面的mac地址填到skb中,然后調(diào)用dev_queue_xmit發(fā)送數(shù)據(jù)包
  • neigh_resolve_output: 該函數(shù)里面會發(fā)送arp請求,得到下一跳的mac地址,然后將mac地址填到skb中并調(diào)用dev_queue_xmit

netdevice子系統(tǒng)

  1.                       | 
  2.                         | 
  3.                         ↓ 
  4.                  +----------------+ 
  5. +----------------| dev_queue_xmit | 
  6. |                +----------------+ 
  7. |                       | 
  8. |                       | 
  9. |                       ↓ 
  10. |              +-----------------+ 
  11. |              | Traffic Control | 
  12. |              +-----------------+ 
  13. | loopback              | 
  14. |   or                  +--------------------------------------------------------------+ 
  15. | IP tunnels            ↓                                                              | 
  16. |                       ↓                                                              | 
  17. |            +---------------------+  Failed   +----------------------+         +---------------+ 
  18. +----------->| dev_hard_start_xmit |---------->| raise NET_TX_SOFTIRQ |- - - - >| net_tx_action | 
  19.              +---------------------+           +----------------------+         +---------------+ 
  20.                         | 
  21.                         +----------------------------------+ 
  22.                         |                                  | 
  23.                         ↓                                  ↓ 
  24.                 +----------------+              +------------------------+ 
  25.                 | ndo_start_xmit |              | packet taps(AF_PACKET) | 
  26.                 +----------------+              +------------------------+  
  • dev_queue_xmit: netdevice子系統(tǒng)的入口函數(shù),在該函數(shù)中,會先獲取設(shè)備對應(yīng)的qdisc,如果沒有的話(如loopback或者IP tunnels),就直接調(diào)用dev_hard_start_xmit,否則數(shù)據(jù)包將經(jīng)過Traffic Control模塊進行處理
  • Traffic Control: 這里主要是進行一些過濾和優(yōu)先級處理,在這里,如果隊列滿了的話,數(shù)據(jù)包會被丟掉,詳情請參考文檔,這步完成后也會走到dev_hard_start_xmit
  • dev_hard_start_xmit: 該函數(shù)中,首先是拷貝一份skb給“packet taps”,tcpdump就是從這里得到數(shù)據(jù)的,然后調(diào)用ndo_start_xmit。如果dev_hard_start_xmit返回錯誤的話(大部分情況可能是NETDEV_TX_BUSY),調(diào)用它的函數(shù)會把skb放到一個地方,然后拋出軟中斷NET_TX_SOFTIRQ,交給軟中斷處理程序net_tx_action稍后重試(如果是loopback或者IP tunnels的話,失敗后不會有重試的邏輯)
  • ndo_start_xmit: 這是一個函數(shù)指針,會指向具體驅(qū)動發(fā)送數(shù)據(jù)的函數(shù)

Device Driver

ndo_start_xmit會綁定到具體網(wǎng)卡驅(qū)動的相應(yīng)函數(shù),到這步之后,就歸網(wǎng)卡驅(qū)動管了,不同的網(wǎng)卡驅(qū)動有不同的處理方式,這里不做詳細介紹,其大概流程如下:

  1. 將skb放入網(wǎng)卡自己的發(fā)送隊列
  2. 通知網(wǎng)卡發(fā)送數(shù)據(jù)包
  3. 網(wǎng)卡發(fā)送完成后發(fā)送中斷給CPU
  4. 收到中斷后進行skb的清理工作

在網(wǎng)卡驅(qū)動發(fā)送數(shù)據(jù)***程中,會有一些地方需要和netdevice子系統(tǒng)打交道,比如網(wǎng)卡的隊列滿了,需要告訴上層不要再發(fā)了,等隊列有空閑的時候,再通知上層接著發(fā)數(shù)據(jù)。

其它

  • SO_SNDBUF: 從上面的流程中可以看出來,對于UDP來說,沒有一個對應(yīng)send buffer存在,SO_SNDBUF只是一個限制,當這個socket分配的skb占用的內(nèi)存超過這個值的時候,會返回ENOBUFS,所以說只要不出現(xiàn)ENOBUFS錯誤,把這個值調(diào)大沒有意義。從sendto函數(shù)的幫助文件里面看到這樣一句話:(Normally, this does not occur in Linux. Packets are just silently dropped when a device queue overflows.)。這里的device queue應(yīng)該指的是Traffic Control里面的queue,說明在linux里面,默認的SO_SNDBUF值已經(jīng)夠queue用了,疑問的地方是,queue的長度和個數(shù)是可以配置的,如果配置太大的話,按道理應(yīng)該有可能會出現(xiàn)ENOBUFS的情況。
  • txqueuelen: 很多地方都說這個是控制qdisc里queue的長度的,但貌似只是部分類型的qdisc用了該配置,如linux默認的pfifo_fast。
  • hardware RX: 一般網(wǎng)卡都有一個自己的ring queue,這個queue的大小可以通過ethtool來配置,當驅(qū)動收到發(fā)送請求時,一般是放到這個queue里面,然后通知網(wǎng)卡發(fā)送數(shù)據(jù),當這個queue滿的時候,會給上層調(diào)用返回NETDEV_TX_BUSY
  • packet taps(AF_PACKET): 當***次發(fā)送數(shù)據(jù)包和重試發(fā)送數(shù)據(jù)包時,都會經(jīng)過這里,如果發(fā)生重試的情況的話,不確定tcpdump是否會抓到兩次包,按道理應(yīng)該不會,可能是我哪里沒看懂

參考

責任編輯:龐桂玉 來源: segmentfault
相關(guān)推薦

2017-03-28 13:25:14

Linux網(wǎng)絡(luò)數(shù)據(jù)包

2025-02-26 07:59:47

2019-04-29 07:53:11

TCP數(shù)據(jù)包TCP網(wǎng)絡(luò)編程

2023-03-27 00:17:21

eBPF技術(shù)網(wǎng)絡(luò)

2023-03-27 00:13:26

數(shù)據(jù)包Kubernete網(wǎng)絡(luò)

2013-01-28 13:32:52

路由器網(wǎng)絡(luò)設(shè)置數(shù)據(jù)傳輸

2017-10-26 16:29:43

2020-10-29 15:05:31

Linux網(wǎng)絡(luò)包代碼

2012-09-04 11:08:57

VMwarevSwitchvSwitch配置

2019-03-28 13:34:22

IP TCP握手

2021-10-08 10:05:10

數(shù)據(jù)包三次握手HTTP

2013-05-21 14:41:42

數(shù)據(jù)包分析內(nèi)聯(lián)監(jiān)控

2017-08-22 11:30:15

LinuxWireshark過濾數(shù)據(jù)包

2019-11-12 08:46:42

網(wǎng)絡(luò)數(shù)據(jù)包欺騙網(wǎng)絡(luò)攻擊

2013-05-24 08:56:23

VMware虛擬機數(shù)據(jù)包

2012-12-04 09:54:33

路由器數(shù)據(jù)包TCP

2013-01-21 15:11:39

路由器數(shù)據(jù)包路由技術(shù)

2020-11-18 07:54:31

太網(wǎng)數(shù)據(jù)包架構(gòu)

2021-07-15 09:57:39

Wireshark數(shù)據(jù)包長度

2017-03-15 15:21:59

數(shù)據(jù)包漏洞攻擊
點贊
收藏

51CTO技術(shù)棧公眾號