阻塞和非阻塞的實(shí)現(xiàn)
本文轉(zhuǎn)載自微信公眾號(hào)「編程雜技」,作者theanarkh。轉(zhuǎn)載本文請(qǐng)聯(lián)系編程雜技公眾號(hào)。
我們可能都已經(jīng)聽過阻塞非阻塞的概念,本文以tcp中的connect系統(tǒng)調(diào)用為例子(基于1.12.13內(nèi)核,新版的原理類似,但是過程就很復(fù)雜了,有時(shí)間再分析),分析阻塞和非阻塞是什么并且看他是如何實(shí)現(xiàn)的。話不多說,直接開始。
- static int inet_connect(struct socket *sock, struct sockaddr * uaddr,
- int addr_len, int flags)
- {
- struct sock *sk=(struct sock *)sock->data;
- // 調(diào)用底層的連接函數(shù),發(fā)一個(gè)syn包
- err = sk->prot->connect(sk, (struct sockaddr_in *)uaddr, addr_len);
- if (err < 0)
- return(err);
- // 還沒建立連接成功并且是非阻塞的方式,直接返回
- if (sk->state != TCP_ESTABLISHED &&(flags & O_NONBLOCK))
- return(-EINPROGRESS);
- // 早期通過關(guān)中斷防止競(jìng)態(tài)情況
- cli();
- // 連接建立中,阻塞當(dāng)前進(jìn)程
- while(sk->state == TCP_SYN_SENT || sk->state == TCP_SYN_RECV)
- {
- // 阻塞進(jìn)程
- interruptible_sleep_on(sk->sleep);
- // 連接失敗
- if(sk->err && sk->protocol == IPPROTO_TCP)
- {
- sti();
- sock->state = SS_UNCONNECTED;
- err = -sk->err;
- sk->err=0;
- return err; /* set by tcp_err() */
- }
- }
- sti();
- // 連接建立
- sock->state = SS_CONNECTED;
- // 返回成功
- return(0);
- }
我們看到connect函數(shù)首先會(huì)調(diào)用tcp層的函數(shù)發(fā)送一個(gè)sync包,然后根據(jù)socket的屬性(阻塞非阻塞,可以通過setsocketopt設(shè)置)做下一步處理,如果是非阻塞,那么就比較簡(jiǎn)單,直接返回給應(yīng)用層。這也是非阻塞+事件驅(qū)動(dòng)架構(gòu)中的做法。因?yàn)檫@種架構(gòu)下通常是單進(jìn)程的,要避免阻塞進(jìn)程,那么返回后什么時(shí)候才能知道連接成功呢?這就是epoll提供的機(jī)制,當(dāng)連接成功后,tcp層會(huì)通知epoll,epoll就會(huì)通知應(yīng)用層。下面我們繼續(xù)分析阻塞的過程,interruptible_sleep_on(sk->sleep)。我們看到socket中有一個(gè)sleep字段,該字段用于管理隊(duì)列。我們看看interruptible_sleep_on
- void interruptible_sleep_on(struct wait_queue **p)
- {
- __sleep_on(p,TASK_INTERRUPTIBLE);
- }
- static inline void __sleep_on(struct wait_queue **p, int state)
- {
- unsigned long flags;
- struct wait_queue wait = { current, NULL };
- current->state = state;
- add_wait_queue(p, &wait);
- save_flags(flags);
- sti();
- schedule();
- remove_wait_queue(p, &wait);
- restore_flags(flags);
- }
這里我們只關(guān)注兩個(gè)地方add_wait_queue和schedule。add_wait_queue就是把一個(gè)節(jié)點(diǎn)插入隊(duì)列。我們看看wait_queue的定義。
- struct wait_queue {
- struct task_struct * task;
- struct wait_queue * next;
- };
所以add_wait_queue執(zhí)行完之后架構(gòu)如下。
接著調(diào)用schedule調(diào)度其他進(jìn)程執(zhí)行,我們發(fā)現(xiàn)這時(shí)候當(dāng)前進(jìn)程的狀態(tài)是TASK_INTERRUPTIBLE,所以是不會(huì)被調(diào)度執(zhí)行的。這就是進(jìn)程阻塞的原理,主要是兩個(gè)過程
1 加入等待隊(duì)列
2 讓出CPU,調(diào)度其他進(jìn)程執(zhí)行。
我們這個(gè)進(jìn)程什么時(shí)候被喚醒呢?我們從收到sync的回包開始分析。具體邏輯在tcp_rcv中。
- if(sk->state==TCP_SYN_SENT)
- {
- /* Crossed SYN or previous junk segment */
- // 發(fā)送了syn包,收到ack包說明可能是建立連接的ack包
- if(th->ack)
- {
- // 發(fā)送第三次握手的ack包,進(jìn)入連接建立狀態(tài)
- tcp_send_ack(sk->sent_seq,sk->acked_seq,sk,th,sk->daddr);
- tcp_set_state(sk, TCP_ESTABLISHED);
- // 喚醒阻塞在connect函數(shù)的進(jìn)程
- if(!sk->dead)
- {
- // 喚醒進(jìn)程
- sk->state_change(sk);
- // 給進(jìn)程發(fā)送SIGIO信號(hào)
- sock_wake_async(sk->socket, 0);
- }
- }
- }
我們看到收到ack后,tcp層調(diào)用state_change回調(diào),state_change的值是def_callback1。
- static void def_callback1(struct sock *sk)
- {
- if(!sk->dead)
- wake_up_interruptible(sk->sleep);
- }
我們看到這里會(huì)調(diào)用wake_up_interruptible喚醒進(jìn)程。我們看看實(shí)現(xiàn)。
- void wake_up_interruptible(struct wait_queue **q)
- {
- struct wait_queue *tmp;
- struct task_struct * p;
- if (!q || !(tmp = *q))
- return;
- do {
- if ((p = tmp->task) != NULL) {
- if (p->state == TASK_INTERRUPTIBLE) {
- p->state = TASK_RUNNING;
- if (p->counter > current->counter + 3)
- need_resched = 1;
- }
- }
- tmp = tmp->next;
- } while (tmp != *q);
- }
我們看到wake_up_interruptible會(huì)喚醒所有進(jìn)程,這就是導(dǎo)致景群效應(yīng)的地方,新版內(nèi)核已經(jīng)處理了相關(guān)問題。另外我們看到,這里這是修改進(jìn)程為可執(zhí)行狀態(tài),但是不會(huì)立刻調(diào)度,要等下一次進(jìn)程調(diào)度的時(shí)候才發(fā)生進(jìn)程調(diào)度。以上就是進(jìn)程阻塞和非阻塞的原理。