讓我們一起捋一捋系統(tǒng)調(diào)用
本文轉(zhuǎn)載自微信公眾號「Rand」,作者Rand。轉(zhuǎn)載本文請聯(lián)系Rand公眾號。
系統(tǒng)調(diào)用就是調(diào)用操作系統(tǒng)提供的一系列內(nèi)核功能函數(shù),因為內(nèi)核總是對用戶程序持不信任的態(tài)度,一些核心功能不能交由用戶程序來實現(xiàn)執(zhí)行。用戶程序只能發(fā)出請求,然后內(nèi)核調(diào)用相應(yīng)的內(nèi)核函數(shù)來幫著處理,將結(jié)果返回給應(yīng)用程序。如此才能保證系統(tǒng)的穩(wěn)定和安全,關(guān)于系統(tǒng)調(diào)用的這些理論知識不多說,書本上有一大堆,本文旨在捋清楚系統(tǒng)調(diào)用這條線。
總述
Linux 里系統(tǒng)調(diào)用是由中斷來實現(xiàn)的,既然利用中斷實現(xiàn),那么總體來說系統(tǒng)調(diào)用的過程應(yīng)該與中斷的過程相似。也的確如此,總體流程是差不多,但也有所區(qū)別。
每一種中斷都會有一個中斷向量號或中斷類型號,有相應(yīng)的中斷服務(wù)程序也就是處理中斷的函數(shù)。但是我們應(yīng)該知道,系統(tǒng)調(diào)用是有很多的,比如 fork,read,write 等等。雖然中斷向量號有空缺多余的,但系統(tǒng)調(diào)用數(shù)目更多,到2.6.23版的 Linux,就已經(jīng)有325個,而中斷向量號只有 256 個,明顯為每一個系統(tǒng)調(diào)用單獨分配一個中斷向量號不現(xiàn)實。
那怎么解決呢,采用的辦法是直接為所有的系統(tǒng)調(diào)用分配一個中斷類型號,一般是 0x80,再用系統(tǒng)調(diào)用號來區(qū)分各個不同的系統(tǒng)調(diào)用。
所以我們的系統(tǒng)調(diào)用大致流程變?yōu)楦鶕?jù)中斷向量號去IDT中索引相應(yīng)的中斷門描述符,得到選擇子和偏移量,根據(jù)選擇子去GDT中索引相應(yīng)的段描述符得到段基址,與上面得到的偏移量相加得到中斷服務(wù)程序的地址。中斷處理程序根據(jù)系統(tǒng)調(diào)用號再調(diào)用相應(yīng)的系統(tǒng)調(diào)用函數(shù)做具體的處理,最后返回。
上述為系統(tǒng)調(diào)用的大致過程,下面我們一步步地來具體看看系統(tǒng)調(diào)用的過程,或者說系統(tǒng)調(diào)用是如何實現(xiàn)的。
1. 用戶接口
我們平常編寫程序調(diào)用的是操作系統(tǒng)或者說 C 庫提供的用戶接口,也就是常說的 API,而并不是直接使用系統(tǒng)調(diào)用來編程,用戶接口可以看作實際的系統(tǒng)調(diào)用函數(shù)的封裝。
這里要注意我們平常所說的 API 和系統(tǒng)調(diào)用之間并沒有一定的對應(yīng)關(guān)系。一個 API 可以對應(yīng)一個系統(tǒng)調(diào)用,也可以對應(yīng)多個系統(tǒng)調(diào)用,甚至不依賴任何系統(tǒng)調(diào)用,更甚多個API對應(yīng)一個系統(tǒng)調(diào)用。所以 API 就只是一個接口,具體使用哪些系統(tǒng)調(diào)用實現(xiàn)什么功能,從理論上來講只要邏輯沒問題隨便怎么定義怎么實現(xiàn)都可以,但是為了可移植兼容的考慮,還是必須得遵循一定的規(guī)則,大多操作系統(tǒng) API 都是遵循POSIX標準的。
上述說過系統(tǒng)調(diào)用的用戶接口可以看作是系統(tǒng)調(diào)用的封裝,咱們以 getpid 來舉例具體看看:
- int getpid(){
- return _syscall0(SYS_getpid);
- }
2. 系統(tǒng)調(diào)用接口
系統(tǒng)調(diào)用接口指的就是上面那個 _syscall 函數(shù),早期的 Linux 里面的 _syscall是用宏來實現(xiàn)的,一共有 7 個,后面跟不同的數(shù)字來區(qū)分,如_syscall0,_syscall1,分別支持0—6個參數(shù)。咱們在這兒也不搬出具體代碼解釋說明,有興趣的朋友可以自己去看看,這7個宏的實現(xiàn)原理都一樣,主要做了以下三件事:
- 系統(tǒng)調(diào)用號傳給 eax 寄存器
- 傳入?yún)?shù)
- int 80h
傳參,如果參數(shù)少,直接存到寄存器里即可,采用寄存器傳參方便而且速度快。在下x86的系統(tǒng)上,前5個參數(shù)按順序存放在ebx, ecx,edx, esi,edi 5 個寄存中。而如果參數(shù)過多,會使用一個單獨的寄存器存放所有參數(shù)在用戶空間的地址,陷入內(nèi)核后再將參數(shù)從用戶空間拷貝到內(nèi)核。
系統(tǒng)調(diào)用號和最后的返回值都存在 eax 寄存器中,約定俗成的東西。
接著就是 int n 指令,int n 就相當于發(fā)生了一個n號中斷,屬于軟中斷,雖然引發(fā)中斷的方式不同,但對中斷的處理基本是一樣的,中斷這一塊前文講述的應(yīng)該很清楚了,這里不再贅述只是簡單說明一下:
- 有特權(quán)級變化的話壓入 ss 和 esp,因為是系統(tǒng)調(diào)用,特權(quán)級是肯定發(fā)生了變化的
- 壓入 eflags,cs,eip 寄存器
- 根據(jù)中斷類型號索引 IDT 中的中斷門描述符,取出里面的內(nèi)容修改 cs,eip 寄存器的值;根據(jù) cs 里面的選擇子又去 GDT 中索引段描述符,獲取段基址。再根據(jù) eip 中的偏移量找到系統(tǒng)調(diào)用服務(wù)程序。
這里對于用戶態(tài)的 ss和 esp 寄存器值保存作為題外話補充說明一下。不知大家有沒有想過這個問題,用戶態(tài)下的 ss 和 esp 怎么保存到內(nèi)核棧里面去的,切換到內(nèi)核棧需要改變 ss 和 esp,那原 ss 和esp不就丟掉了嗎?所以處理器會臨時保存 ss 和 esp 的值,切換到內(nèi)核態(tài)時再重新拷貝一份用戶態(tài)的 ss 和 esp 的值。之后再壓入 eflags,cs,eip 寄存器,當然如果特權(quán)級沒有發(fā)生變化,也就不會有上述過程。
這一塊兒在我寫的中斷文章里面忘記說了,在此補上,這些所有有關(guān)處理器的規(guī)則約定功能都由指令集體系結(jié)構(gòu)ISA所管,它規(guī)定了我們需要做什么,提供什么,然后它就自動完成一些事情。就像調(diào)用 API 編程一樣,我們提供合理的參數(shù),然后相應(yīng)的函數(shù)自動完成一些工作。對于CPU而言同樣的道理,只是更偏向于底層具體的物理實現(xiàn),但從邏輯上來講是相通的。
3. 系統(tǒng)調(diào)用號
每個系統(tǒng)調(diào)用都有自己的專屬號碼,其實就是個索引號,如下面所示:
- #define __NR_eixt 1
- #define __NR_fork 2
- #define __NR_read 3
- /*...................*/
4. 系統(tǒng)調(diào)用服務(wù)例程
系統(tǒng)調(diào)用服務(wù)例程才是具體干事的內(nèi)核功能函數(shù),前面的那些用戶接口,系統(tǒng)調(diào)用接口,中斷服務(wù)程序都不是具體干事的,全都相當于接口一類,而這個系統(tǒng)調(diào)用服務(wù)例程才是具體做事的一個函數(shù),舉個簡單例子,用 getpid 這個系統(tǒng)調(diào)用來說明:
- int sys_getpid(void){
- return current->pid //current指向當前進程
- }
5. 系統(tǒng)調(diào)用表
每個系統(tǒng)調(diào)用都對應(yīng)著一個服務(wù)例程,將它們的首地址集中起來放在一個數(shù)組里方便使用系統(tǒng)調(diào)用號來索引,這個表(數(shù)組一個意思)在Linux里面是 sys_call_table,就像這樣:
- ENTRY(sys_call_table)
- .long sys_restart_syscall
- .long sys_exit
- .long sys_fork
6. 系統(tǒng)調(diào)用服務(wù)程序
這個系統(tǒng)調(diào)用服務(wù)程序就是中斷服務(wù)程序,以前的哪些外設(shè)引發(fā)的中斷相應(yīng)的服務(wù)程序會處理實際的事務(wù),而系統(tǒng)調(diào)用前面說過不太一樣,它交給系統(tǒng)調(diào)用服務(wù)例程來處理的,下面來仔細看看:
- system_call:
- SAVE_ALL #保存上下文
- push arg #壓入?yún)?shù)
- call *sys_call_table(,%eax,4) #根據(jù)eax里面的系統(tǒng)調(diào)用號調(diào)用相應(yīng)服務(wù)例程
- mov %eax, 24(%esp) #將服務(wù)例程的返回值保存到上下文中的eax處
- syscall_exit:
- #返回退出
系統(tǒng)調(diào)用利用中斷實現(xiàn),所以處理中斷要先保存上下文,因為系統(tǒng)調(diào)用不具體處理事務(wù)而是調(diào)用其他函數(shù)來處理,所以壓入?yún)?shù)然后調(diào)用函數(shù)。這是調(diào)用函數(shù)前的一慣做法:先壓入?yún)?shù)再調(diào)用。參數(shù)從何而來?還記得前面把參數(shù)放在寄存器里面吧,所以這兒push arg就是壓入寄存器,就不具體寫了,知道就好。
系統(tǒng)調(diào)用服務(wù)例程的運行結(jié)果是要傳回到用戶態(tài)的,eax 里面存放的返回值,所以當服務(wù)例程運行完后,只要將當前寄存器 eax 里面的值保存到上下文里面的 eax 處即可。在Linux2.6 里面棧頂向上 24 個字節(jié)處就是用戶態(tài)下的 eax,這個用戶態(tài)下eax的位置與具體保存上下文時如何壓棧有關(guān),前后能夠?qū)?yīng)上就行。
注:上述是根據(jù) Linux2.6 簡化來的偽碼,Linux2.6里面是確有 SAVE_ALL 這個宏的,其中壓入?yún)?shù)就是 SAVE_ALL 的一部分,在這兒只是為了過程更清晰所以單獨寫了出來。
7. 總結(jié)捋線
上述就是系統(tǒng)調(diào)用的大概過程,這兒再總結(jié)總結(jié)捋一捋:
- 調(diào)用用戶接口函數(shù)
- 用戶接口封裝的是系統(tǒng)調(diào)用接口,早期的 Linux 里就是那7個宏
- _syscall 傳系統(tǒng)調(diào)用號,傳參,int 80h
- int 80h 陷入內(nèi)核,保存ss,esp,eflags,cs,eip寄存器
- 根據(jù)中斷向量號 80h 去IDT中索引中斷門描述符,根據(jù)其內(nèi)容修改 cs,eip 的值
- 根據(jù) cs 里的選擇子去 GDT 中索引段描述符,獲得中斷(系統(tǒng)調(diào)用)服務(wù)程序的段基址,結(jié)合 eip 里面的偏移量就得到系統(tǒng)調(diào)用服務(wù)程序的地址
- 系統(tǒng)調(diào)用服務(wù)程序中 system_call 保存上下文,壓入系統(tǒng)調(diào)用服務(wù)例程需要的參數(shù)
- 根據(jù) eax 里面的系統(tǒng)調(diào)用號索引 sys_call_table,然后調(diào)用執(zhí)行
- 修改上下文中 eax 處的值,將其修改為服務(wù)例程返回值
- 返回,相當于第4步的逆過程
大致的過程圖如下所示:
并不是所有的系統(tǒng)調(diào)用都有上述的過程,在這兒只是從頭至尾的捋一捋,知曉有這么一個過程就好,畢竟本文的目的就是捋一捋系統(tǒng)調(diào)用這條線嘛
8. syscall說明
_syscall 宏這種形式的系統(tǒng)調(diào)用在 Linux 里面已經(jīng)廢棄不再提供庫實現(xiàn)支持,因為這種方式最多支持6個參數(shù),而且每個參數(shù)還要提供相應(yīng)的類型,總共就是2n個參數(shù)。但是這種實現(xiàn)方式思路清晰簡單,所以上述我也是以這種實現(xiàn)為基來說明的。
現(xiàn)在 Linux 的系統(tǒng)調(diào)用都是用庫函數(shù)syscall來實現(xiàn)的,原型為:
- int syscall(int number, ...);
number指的是系統(tǒng)調(diào)用號。從這原型就能看出,庫函數(shù)這種實現(xiàn)方式支持變參(...),所以能夠?qū)⑺械南到y(tǒng)調(diào)用統(tǒng)一起來,不像宏實現(xiàn)方式不同參數(shù)的系統(tǒng)調(diào)用還需要使用不同的宏。