Linux0.12任務(wù)調(diào)度、休眠與喚醒
Linux是一個(gè)多用戶多任務(wù)的操作系統(tǒng),其中多用戶,是指多個(gè)用戶可以在同一時(shí)間使用計(jì)算機(jī)系統(tǒng);多任務(wù),是指Linux可以在同一時(shí)間內(nèi)運(yùn)行多個(gè)應(yīng)用程序,每個(gè)正在執(zhí)行的應(yīng)用程序被稱為一個(gè)任務(wù)。
但我們知道單核CPU在某一時(shí)刻只能執(zhí)行一個(gè)任務(wù),所以Linux將CPU的時(shí)間分片,時(shí)間片很短大概幾十到上百毫秒,調(diào)度器輪流分配給各個(gè)任務(wù)使用,因此形成多任務(wù)"同時(shí)運(yùn)行"的錯(cuò)覺(jué)。當(dāng)任務(wù)執(zhí)行時(shí),即占用CPU,其時(shí)間片會(huì)遞減,OS會(huì)在當(dāng)前任務(wù)的時(shí)間片用完時(shí),切換任務(wù),讓CPU去執(zhí)行其他任務(wù)(Linux是任務(wù)搶占調(diào)度機(jī)制)。
所以怎么去衡量和維護(hù)這些CPU的時(shí)間片?Linux是事先定義的節(jié)拍率,來(lái)處理時(shí)間中斷,并使用全局變量Jiffies記錄了開(kāi)機(jī)以來(lái)的節(jié)拍數(shù),即每發(fā)生一次時(shí)間中斷,Jiffies的值就加1。
進(jìn)程調(diào)度
timer_interrupt
還記得我們?cè)谌蝿?wù)調(diào)度初始化sched_init中費(fèi)了很大功夫來(lái)初始化8253定時(shí)器,經(jīng)過(guò)設(shè)置,它會(huì)每10毫秒,產(chǎn)生一次時(shí)間中斷信號(hào),通知CPU來(lái)調(diào)用對(duì)應(yīng)的中斷服務(wù)程序timer_interrupt,其中斷號(hào)0x20。
在Linux0.12中,進(jìn)程調(diào)度的核心驅(qū)動(dòng)動(dòng)力,來(lái)源于時(shí)間中斷,定時(shí)器每10毫秒,就產(chǎn)生1次時(shí)間中斷信號(hào),來(lái)驅(qū)動(dòng)系統(tǒng)進(jìn)程調(diào)度。
下圖為主要流程:
圖片
我們先來(lái)看一下timer_interrupt的源碼:
// /kernel/sched.c
void sched_init(void)
{
...
outb_p(0x36,0x43); /* binary, mode 3, LSB/MSB, ch 0 */
outb_p(LATCH & 0xff , 0x40); /* LSB */
outb(LATCH >> 8 , 0x40); /* MSB */
set_intr_gate(0x20,&timer_interrupt); !
...
}
// /kernel/sys_call.s
....
.align 2
_timer_interrupt: //時(shí)鐘中斷處理程序
push %ds # save ds,es and put kernel data space
push %es # into them. %fs is used by _system_call
push %fs # # 保存ds、es并讓其指向內(nèi)核數(shù)據(jù)段。fs將用于system_call
pushl $-1 # 這里填-1,表明不是系統(tǒng)調(diào)用
//下面我們保存寄存器eax、ecx和edx。這是因?yàn)間cc編譯器在調(diào)用函數(shù)時(shí)不會(huì)保存它們。
//這里也保存了ebx寄存器,會(huì)后面ret_from_sys_call中會(huì)用到它。
pushl %edx # we save %eax,%ecx,%edx as gcc doesn't
pushl %ecx # save those across function calls. %ebx
pushl %ebx # is saved as we use that in ret_sys_call
pushl %eax
movl $0x10,%eax # ds,es置為指向內(nèi)核數(shù)據(jù)段
mov %ax,%ds
mov %ax,%es
movl $0x17,%eax # fs置為指向局部數(shù)據(jù)段(程序的數(shù)據(jù)段)
mov %ax,%fs
incl _jiffies #系統(tǒng)啟動(dòng)后的時(shí)鐘滴答值+1
// 由于初始化中斷控制芯片時(shí)沒(méi)有采用自動(dòng)EOI,所以這里需要發(fā)指令結(jié)束該硬件中斷
movb $0x20,%al # EOI to interrupt controller #1
outb %al,$0x20
// 下面從堆棧中取出執(zhí)行系統(tǒng)調(diào)用代碼的選擇符(CS段寄存器值)中的當(dāng)前特權(quán)級(jí)別(0或3)并壓入
// 堆棧,作為do_timer的參數(shù)
movl CS(%esp),%eax
andl $3,%eax # %eax is CPL (0 or 3, 0=supervisor) 獲取當(dāng)前特權(quán)級(jí)別
pushl %eax
//do_timer()函數(shù)執(zhí)行任務(wù)切換、計(jì)時(shí)等
call _do_timer # 'do_timer(long CPL)' does everything from
addl $4,%esp # task switching to accounting ...
jmp ret_from_sys_call
注意這里pushl $-1,這里把-1壓入棧中,表明不是系統(tǒng)調(diào)用。其中incl _jiffies表示jiffies值加1,jiffies則記錄著,系統(tǒng)開(kāi)機(jī)之后的時(shí)鐘滴答值;另一個(gè)核心函數(shù)_do_timer,用來(lái)執(zhí)行任務(wù)切換、計(jì)時(shí)等功能。
do_timer
我們接著看下do_timer的源碼:
// /kernel/sched.c
//參數(shù)cpl是當(dāng)前特權(quán)級(jí)0或3,它是時(shí)鐘中斷發(fā)生時(shí)正被執(zhí)行的代碼選擇符中的特權(quán)級(jí)。
// cpl=0時(shí)表示中斷發(fā)生時(shí)正在執(zhí)行內(nèi)核代碼;cpl=3時(shí)表示中斷發(fā)生時(shí)正在執(zhí)行用戶代碼。
void do_timer(long cpl)
{
static int blanked = 0;
//首先判斷是否需要執(zhí)行黑屏(blankout)操作
if (blankcount || !blankinterval) {
if (blanked)
unblank_screen();// 屏幕恢復(fù)
if (blankcount)
blankcount--;
blanked = 0;
} else if (!blanked) {
blank_screen();// 屏幕黑屏
blanked = 1;
}
// 接著處理硬盤操作超時(shí)問(wèn)題。如果硬盤超時(shí)計(jì)數(shù)遞減之后為0,則進(jìn)行硬盤訪問(wèn)超時(shí)處理
if (hd_timeout)
if (!--hd_timeout)
hd_times_out();
//如果發(fā)聲計(jì)數(shù)次數(shù)到,則關(guān)閉發(fā)聲。(向0x61口發(fā)送命令,復(fù)位位0和1。位0控制8253計(jì)數(shù)器2的工作,位1控制揚(yáng)聲器)
if (beepcount)
if (!--beepcount)
sysbeepstop();
// 如果當(dāng)前特權(quán)級(jí)(cpl)為0(最高,表示是內(nèi)核程序在工作),則將內(nèi)核代碼運(yùn)行時(shí)間stime遞增
if (cpl)
current->utime++;
else
current->stime++;
//如果有定時(shí)器存在,則將鏈表第1個(gè)定時(shí)器的值減1。如果已等于0,則調(diào)用相應(yīng)的處理程序,
// 并將該處理程序指針置為空。然后去掉該項(xiàng)定時(shí)器-和軟盤有關(guān)
if (next_timer) { // 定時(shí)器鏈表的頭指針
next_timer->jiffies--;
while (next_timer && next_timer->jiffies <= 0){
void (*fn)(void);//插入了一個(gè)函數(shù)指針定義,利用函數(shù)指針臨時(shí)保存當(dāng)前定時(shí)器的處理函數(shù)
fn = next_timer->fn;
next_timer->fn = NULL;
next_timer = next_timer->next;
(fn)(); //調(diào)用定時(shí)處理函數(shù)
}
}
//如果當(dāng)前軟盤控制器FDC的數(shù)字輸出寄存器DOR中馬達(dá)啟動(dòng)位有置位的,則執(zhí)行軟盤定時(shí)程序
if (current_DOR & 0xf0)
do_floppy_timer();
//如果當(dāng)前進(jìn)程時(shí)間片不為0,則退出繼續(xù)執(zhí)行當(dāng)前進(jìn)程。否則置當(dāng)前任務(wù)運(yùn)行計(jì)數(shù)值為0。
if ((--current->counter)>0) return;
current->counter=0;
// 如果當(dāng)前特權(quán)級(jí)表示發(fā)生中斷時(shí)正在內(nèi)核態(tài)運(yùn)行,則返回(內(nèi)核任務(wù)不可被搶占)
if (!cpl) return;
schedule();//執(zhí)行調(diào)度函數(shù)
}
do_timer中與屏幕、硬盤處理、發(fā)生器處理、軟盤處理,我們暫時(shí)忽略。其中current全局變量,表示當(dāng)前任務(wù)指針,永遠(yuǎn)指向當(dāng)前的任務(wù)。當(dāng)初始化的時(shí)候struct task_struct *current = &(init_task.task);,current是指向0號(hào)進(jìn)程的。
current->counter表示當(dāng)前進(jìn)程的運(yùn)行時(shí)間片,用來(lái)計(jì)時(shí)的,在Linux0.12中每經(jīng)過(guò)一次時(shí)鐘中斷(10ms), counter就會(huì)減去1。
如果當(dāng)前進(jìn)程的運(yùn)行時(shí)間片大于0,時(shí)間片沒(méi)用完,就直接退出該函數(shù),繼續(xù)執(zhí)行當(dāng)前進(jìn)程;如果時(shí)間片用完了,就重置為0,且當(dāng)前程序運(yùn)行在用戶態(tài),去執(zhí)行任務(wù)調(diào)度函數(shù)(任務(wù)切換),這就是典型的時(shí)間片輪轉(zhuǎn)策略。
其中在執(zhí)行任務(wù)調(diào)度之前,還會(huì)判斷當(dāng)前任務(wù)的特權(quán)級(jí),如果當(dāng)前特權(quán)級(jí)如果表示發(fā)生中斷時(shí)正在內(nèi)核態(tài)運(yùn)行,哪怕其時(shí)間片用完了,也直接返回不進(jìn)行任務(wù)切換,來(lái)表示內(nèi)核態(tài)任務(wù)不可被搶占。
schedule
我們接著看schedule函數(shù)的源碼:
//kernel/sched.c
void schedule(void) //調(diào)度程序
{
int i,next,c;
struct task_struct ** p; // 任務(wù)結(jié)構(gòu)指針的指針
/* check alarm, wake up any interruptible tasks that have got a signal */
//檢測(cè)alarm(進(jìn)程的報(bào)警定時(shí)值),喚醒任何已得到信號(hào)的可中斷任務(wù)
for(p = &LAST_TASK ; p > &FIRST_TASK ; --p) // 從任務(wù)數(shù)組中最后一個(gè)任務(wù)開(kāi)始循環(huán)檢測(cè)alarm
if (*p) { //在循環(huán)時(shí)跳過(guò)空指針項(xiàng), 即如果任務(wù)數(shù)組中有任務(wù)
//當(dāng)前任務(wù)超時(shí),則重置當(dāng)前任務(wù)超時(shí)時(shí)間
if ((*p)->timeout && (*p)->timeout < jiffies) {
(*p)->timeout = 0;
//如果任務(wù)處于可中斷睡眠狀態(tài)TASK_INTERRUPTIBLE下
if ((*p)->state == TASK_INTERRUPTIBLE)
(*p)->state = TASK_RUNNING;//將其置為就緒狀態(tài)(TASK_RUNNING)
}
//如果任務(wù)的alarm值超時(shí)則向任務(wù)發(fā)送SIGALARM信號(hào)
if ((*p)->alarm && (*p)->alarm < jiffies) {
(*p)->signal |= (1<<(SIGALRM-1));
(*p)->alarm = 0; //重置任務(wù)alarm
}
// 如果當(dāng)前任務(wù)中除了阻塞信號(hào)還有其他信號(hào),并且該任務(wù)處于可中斷狀態(tài)
if (((*p)->signal & ~(_BLOCKABLE & (*p)->blocked)) &&
(*p)->state==TASK_INTERRUPTIBLE)
(*p)->state=TASK_RUNNING; //則置任務(wù)為就緒狀態(tài)
}
/* this is the scheduler proper: */
//下面是是調(diào)度程序的核心部分,簡(jiǎn)短高效
while (1) {
c = -1;
next = 0;
i = NR_TASKS;//當(dāng)前任務(wù)數(shù)組長(zhǎng)度
p = &task[NR_TASKS];
while (--i) {//從任務(wù)數(shù)組的最后一個(gè)任務(wù)開(kāi)始循環(huán)處理,并跳過(guò)不含任務(wù)的數(shù)組槽
if (!*--p)
continue;
// 如果任務(wù)為運(yùn)行態(tài),就循環(huán)找出剩余時(shí)間片最大的那個(gè)任務(wù)
if ((*p)->state == TASK_RUNNING && (*p)->counter > c)
c = (*p)->counter, next = i;
}
// 如果比較得出的結(jié)果不為0,則結(jié)束循環(huán),執(zhí)行switch_to
if (c) break;
// 如果比較結(jié)果為0,則重新循環(huán)任務(wù)數(shù)組
for(p = &LAST_TASK ; p > &FIRST_TASK ; --p)
if (*p) // 判斷任務(wù)數(shù)組值不為空
(*p)->counter = ((*p)->counter >> 1) +
(*p)->priority;//counter 值的計(jì)算方式為 counter = counter/2 + priority
//回到while(1)
}
//任務(wù)切換
switch_to(next);
}
schedule任務(wù)調(diào)度函數(shù),非常簡(jiǎn)短但很優(yōu)雅, Linux0.12這里采用了基于優(yōu)先級(jí)排隊(duì)的調(diào)度策略 ,主要是在循環(huán)中找到系統(tǒng)中處于就緒態(tài)的且時(shí)間片最大的任務(wù),進(jìn)行調(diào)度。
退出循環(huán)并執(zhí)行任務(wù)切換,主要有2種情況:
- 一種是找到處于就緒態(tài)的且時(shí)間片最大的任務(wù)。
- 另一種就是系統(tǒng)中沒(méi)有一個(gè)可運(yùn)行的任務(wù)存在(c=-1,next=0);其他情況則重新循環(huán)任務(wù)數(shù)組,更新任務(wù)的運(yùn)行時(shí)間值counter = counter/2 + priority,繼續(xù)進(jìn)行循環(huán)。
父子進(jìn)程的調(diào)度的順序是由調(diào)度器決定的,與所謂進(jìn)程的創(chuàng)建順序無(wú)關(guān)。另外我們可以發(fā)現(xiàn)隨著循環(huán)往后,哪些任務(wù)的優(yōu)先級(jí)越高,分配到的時(shí)間片就會(huì)越大,即優(yōu)先級(jí)高的任務(wù)優(yōu)先運(yùn)行。
switch_to
我們?cè)賮?lái)看下switch_to源碼,又是內(nèi)聯(lián)匯編寫法:
// /include/linux/sched.h
#define switch_to(n) {\
struct {long a,b;} __tmp; \
__asm__("cmpl %%ecx,_current\n\t" \ // 比較n是否是當(dāng)前任務(wù)
"je 1f\n\t" \ // 如果是就什么都不作
"movw %%dx,%1\n\t" \ // 將新任務(wù)的16位選擇符存入__tmp.b中
"xchgl %%ecx,_current\n\t" \ // current = task[n];ecx = 被切換出的任務(wù)
"ljmp %0\n\t" \ // 長(zhǎng)跳轉(zhuǎn)到__tmp處,此時(shí)會(huì)自動(dòng)發(fā)生任務(wù)切換?。。?!
"cmpl %%ecx,_last_task_used_math\n\t" \ // 判斷是否使用了協(xié)處理器
"jne 1f\n\t" \ // 沒(méi)有就退出
"clts\n" \ // 原任務(wù)使用過(guò)則清理cr0中的任務(wù)
"1:" \
::"m" (*&__tmp.a),"m" (*&__tmp.b), \
"d" (_TSS(n)),"c" ((long) task[n])); \ //_TSS(n)傳入給dx,任務(wù)號(hào)n對(duì)應(yīng)的任務(wù)傳入給ecx
}
switch_to主要功能是,切換當(dāng)前任務(wù)到任務(wù)n,也就是schedule函數(shù)中的next,這個(gè)函數(shù)還是比較復(fù)雜的,我們來(lái)講解一下其實(shí)現(xiàn)任務(wù)切換的流程:
- 定義8字節(jié)結(jié)構(gòu)體__tmp,只用到了其中的六個(gè)字節(jié),來(lái)作為后面ljmp的操作數(shù)。
- je 1f首先比較n是否是當(dāng)前任務(wù)current,如果是就什么都不做,直接跳轉(zhuǎn)到標(biāo)號(hào)1處。
- movw %%dx,%1新任務(wù)TSS選擇符(16位)賦值給第一個(gè)參數(shù)__tmp.b,也就是__tmp.b存放的是進(jìn)程n的tss段選擇符。
- xchgl %%ecx,_current交換兩個(gè)操作數(shù)的值,等同于current = task[n] ,ecx = 被切換出去的任務(wù)(即原任務(wù))。
- ljmp %0,這步非常重要,ljmp跳轉(zhuǎn)指令表示跳轉(zhuǎn)到進(jìn)程n的TSS描述符處(__tmp.b存放的是進(jìn)程n的tss段選擇符,_tmp.a存放的是偏移地址0)。當(dāng)ljmp識(shí)別描述符為TSS時(shí),會(huì)告訴CPU進(jìn)行任務(wù)切換,CPU會(huì)自動(dòng)將當(dāng)前任務(wù)的現(xiàn)場(chǎng)信息保存到當(dāng)前任務(wù)私有的TSS中,然后將進(jìn)程n的TSS中信息保存到對(duì)應(yīng)的寄存器中,CPU會(huì)根據(jù)這些寄存器的值來(lái)跳轉(zhuǎn)到新的進(jìn)程的代碼段執(zhí)行任務(wù)。
- cmpl %%ecx,_last_task_used_math判斷是否使用了協(xié)處理器,需要注意的是,只有當(dāng)任務(wù)切換回來(lái)后才會(huì)繼續(xù)執(zhí)行該行,因?yàn)樵谇袚Q前,EIP指向引起任務(wù)切換指令ljmp的下一條指令,當(dāng)保存進(jìn)程現(xiàn)場(chǎng)信息時(shí),EIP的值夜會(huì)保存到原任務(wù)的TSS中;直到當(dāng)任務(wù)切換回來(lái)后,原任務(wù)的TSS中進(jìn)程現(xiàn)場(chǎng)信息,重新恢復(fù)到對(duì)應(yīng)的寄存器中,CPU繼續(xù)從EIP指向的指令開(kāi)始執(zhí)行任務(wù)。
- jne 1f、clts,如果使用了協(xié)處理器,就復(fù)位控制寄存器cr0中的TS標(biāo)志,不然就跳轉(zhuǎn)到標(biāo)號(hào)1處直接退出。
圖片
當(dāng)此時(shí)完成任務(wù)切換后,會(huì)返回到時(shí)間處理函數(shù)_timer_interrupt中,繼續(xù)執(zhí)行ret_from_sys_call,主要是參與信號(hào)處理,我們本文就不再細(xì)講了,后面有機(jī)會(huì)再詳細(xì)聊聊。
休眠與喚醒
我們接著趁熱打鐵,了解一下進(jìn)程的休眠與喚醒。在linux0.12中進(jìn)程的休眠,主要是通過(guò)sleep_on函數(shù)來(lái)實(shí)現(xiàn)的,它是一個(gè)關(guān)鍵的調(diào)度函數(shù),用于將當(dāng)前進(jìn)程置于等待狀態(tài),直到某個(gè)資源可用。
//不可中斷等待狀態(tài) // /kernel/sched.c
static inline void __sleep_on(struct task_struct **p, int state)
{
struct task_struct *tmp;
if (!p) // 若指針無(wú)效,則退出
return;
if (current == &(init_task.task))//如果當(dāng)前任務(wù)是任務(wù) 0,則恐慌
panic("task[0] trying to sleep");
//讓 tmp 指向已經(jīng)在等待隊(duì)列上的任務(wù)(如果有的話),例如 inode->i_wait,并且將睡眠隊(duì)列頭
// 的指針指向當(dāng)前任務(wù)。這樣就把當(dāng)前任務(wù)插入到 *p 的等待隊(duì)列中。然后將當(dāng)前任務(wù)置為指定
// 的等待狀態(tài),并執(zhí)行重新調(diào)度
tmp = *p;
*p = current;
current->state = state;
repeat: schedule();
//只有當(dāng)這個(gè)等待任務(wù)被喚醒時(shí),程序才又會(huì)從這里繼續(xù)執(zhí)行。表示進(jìn)程已被明確地喚醒并執(zhí)行
//如果隊(duì)列中還有等待的任務(wù),并且隊(duì)列頭指針 *p 所指向的任務(wù)不是當(dāng)前任務(wù),則說(shuō)明在本任務(wù)
// 插入隊(duì)列后還有任務(wù)進(jìn)入隊(duì)列,于是我們應(yīng)該也要喚醒這些后續(xù)進(jìn)入隊(duì)列的任務(wù),因此這里將隊(duì)
// 列頭所指任務(wù)先置為就緒狀態(tài),而自己則置為不可中斷等待狀態(tài),即要等待這些后續(xù)進(jìn)入隊(duì)列的
// 任務(wù)被喚醒后才用 wake_up()喚醒本任務(wù)。然后跳轉(zhuǎn)至 repeat 標(biāo)號(hào)處重新執(zhí)行調(diào)度函數(shù)
if (*p && *p != current) {
(**p).state = 0;//0是運(yùn)行態(tài)
current->state = TASK_UNINTERRUPTIBLE;//TASK_UNINTERRUPTIBLE,2,不可中斷等待狀態(tài)
goto repeat;
}
// 執(zhí)行到這里,說(shuō)明任務(wù)被真正被喚醒執(zhí)行。此時(shí)等待隊(duì)列頭指針應(yīng)該指向本任務(wù)。若它為空,
// 則表明調(diào)度有問(wèn)題,
if (!*p)
printk("Warning: *P = NULL\n\r");
if (*p = tmp) //最后我們讓頭指針指向在我們的前面進(jìn)入隊(duì)列的任務(wù)//(*p = tmp)
tmp->state=0;
}
//把當(dāng)前任務(wù)置為不可中斷的等待狀態(tài)(TASK_UNINTERRUPTIBLE);需要利用wake_up()函數(shù)來(lái)明確喚醒,即使有信號(hào)也無(wú)法喚醒
void sleep_on(struct task_struct **p)
{
__sleep_on(p,TASK_UNINTERRUPTIBLE);//同時(shí)傳入了當(dāng)前任務(wù)指針p
}
// 將當(dāng)前任務(wù)置為可中斷的等待狀態(tài)(TASK_INTERRUPTIBLE);可以通過(guò)信號(hào)、任務(wù)超時(shí)等手段喚醒
void interruptible_sleep_on(struct task_struct **p)
{
__sleep_on(p,TASK_INTERRUPTIBLE);
}
當(dāng)多個(gè)進(jìn)程在調(diào)用sleep_on函數(shù)時(shí),會(huì)隱式構(gòu)建一個(gè)等待隊(duì)列,通過(guò)每個(gè)進(jìn)程在內(nèi)核棧中的臨時(shí)變量tmp,形成了"鏈表"結(jié)構(gòu),它并不是一個(gè)真正的鏈表。每個(gè)調(diào)用sleep_on的進(jìn)程會(huì)被插入到等待隊(duì)列的頭部。隨著sleep_on函數(shù)的執(zhí)行,使得tmp指針指向隊(duì)列中隊(duì)列頭指針指向的原等待任務(wù),而隊(duì)列頭指針p則指向本次新加入的等待任務(wù)。
這里還是比較特殊的,大家可以參考下面筆者吐血畫的一張等待隊(duì)列示意圖:
圖片
sleep_on函數(shù)將指定的進(jìn)程進(jìn)行休眠,其實(shí)就是將進(jìn)程的狀態(tài)設(shè)置為可中斷等待狀態(tài)(TASK_INTERRUPTIBLE 1)或不可中斷等待狀態(tài)(TASK_UNINTERRUPTIBLE 2),那么反過(guò)來(lái)喚醒的話,就直接將進(jìn)程的狀態(tài)重新設(shè)置為TASK_RUNNING 0 運(yùn)行態(tài)
// sched.h
#define TASK_RUNNING 0 // 運(yùn)行態(tài)
#define TASK_INTERRUPTIBLE 1 // 可中斷等待狀態(tài)
#define TASK_UNINTERRUPTIBLE 2 // 不可中斷等待狀態(tài)
#define TASK_ZOMBIE 3 // 僵死
#define TASK_STOPPED 4 // 停止?fàn)顟B(tài)
sleep_on函數(shù)在將當(dāng)前進(jìn)程置于等待狀態(tài)后,它還會(huì)調(diào)用schedule()函數(shù),讓CPU切換到其他可運(yùn)行的進(jìn)程去執(zhí)行。
另外我們還需知道這里可中斷等待狀態(tài)和不可中斷等待狀態(tài)的區(qū)別,可中斷的等待狀態(tài)的進(jìn)程可以被信號(hào)或其他中斷方式手段喚醒;而不可中斷的等待狀態(tài),必須通過(guò)wake_up函數(shù)來(lái)顯式喚醒,即使有信號(hào)也無(wú)法喚醒!
如果是操作系統(tǒng)的0號(hào)進(jìn)程的話,當(dāng)其嘗試調(diào)用sleep_on函數(shù)時(shí),會(huì)進(jìn)行特殊處理,0號(hào)進(jìn)程不允許進(jìn)入睡眠狀態(tài),系統(tǒng)會(huì)觸發(fā)一個(gè)恐慌panic。
接著再來(lái)看看wake_up喚醒函數(shù):
void wake_up(struct task_struct **p)
{
if (p && *p) {
if ((**p).state == TASK_STOPPED)// 處于停止?fàn)顟B(tài)
printk("wake_up: TASK_STOPPED");
if ((**p).state == TASK_ZOMBIE) // 處于僵死狀態(tài)
printk("wake_up: TASK_ZOMBIE");
(**p).state=0;//設(shè)置為就緒狀態(tài) TASK_RUNNING
}
}
這個(gè)函數(shù)還是非常簡(jiǎn)單的,核心就是將進(jìn)程的狀態(tài)再設(shè)置為就緒狀態(tài)(0)。需要注意的是, 調(diào)用該函數(shù)喚醒的是最后進(jìn)入等待隊(duì)列的任務(wù),即等待隊(duì)列中的隊(duì)頭任務(wù)。被喚醒的進(jìn)程會(huì)重新進(jìn)入調(diào)度隊(duì)列task[NR_TASKS],等待再次被調(diào)度執(zhí)行。
參考資料:
https://elixir.bootlin.com/linux/0.12/source/kernel/sched.c
《Linux內(nèi)核完全注釋5.0》
《Understanding Linux Kernel and its Impact on System Efficiency》