使用 Python 創(chuàng)建你自己的 Shell (上)
我很想知道一個(gè) shell (像 bash,csh 等)內(nèi)部是如何工作的。于是為了滿足自己的好奇心,我使用 Python 實(shí)現(xiàn)了一個(gè)名為yosh (Your Own Shell)的 Shell。本文章所介紹的概念也可以應(yīng)用于其他編程語言。
(提示:你可以在這里查找本博文使用的源代碼,代碼以 MIT 許可證發(fā)布。在 Mac OS X 10.11.5 上,我使用 Python 2.7.10 和 3.4.3 進(jìn)行了測(cè)試。它應(yīng)該可以運(yùn)行在其他類 Unix 環(huán)境,比如 Linux 和 Windows 上的 Cygwin。)
讓我們開始吧。
步驟 0:項(xiàng)目結(jié)構(gòu)
對(duì)于此項(xiàng)目,我使用了以下的項(xiàng)目結(jié)構(gòu)。
- yosh_project
- |-- yosh
- |-- __init__.py
- |-- shell.py
yosh_project 為項(xiàng)目根目錄(你也可以把它簡(jiǎn)單命名為 yosh)。
yosh 為包目錄,且 __init__.py 可以使它成為與包的目錄名字相同的包(如果你不用 Python 編寫的話,可以忽略它。)
shell.py 是我們主要的腳本文件。
步驟 1:Shell 循環(huán)
當(dāng)啟動(dòng)一個(gè) shell,它會(huì)顯示一個(gè)命令提示符并等待你的命令輸入。在接收了輸入的命令并執(zhí)行它之后(稍后文章會(huì)進(jìn)行詳細(xì)解釋),你的 shell 會(huì)重新回到這里,并循環(huán)等待下一條指令。
在 shell.py 中,我們會(huì)以一個(gè)簡(jiǎn)單的 main 函數(shù)開始,該函數(shù)調(diào)用了 shell_loop() 函數(shù),如下:
- def shell_loop():
- # Start the loop here
- def main():
- shell_loop()
- if __name__ == "__main__":
- main()
接著,在 shell_loop() 中,為了指示循環(huán)是否繼續(xù)或停止,我們使用了一個(gè)狀態(tài)標(biāo)志。在循環(huán)的開始,我們的 shell 將顯示一個(gè)命令提示符,并等待讀取命令輸入。
- import sys
- SHELL_STATUS_RUN = 1
- SHELL_STATUS_STOP = 0
- def shell_loop():
- status = SHELL_STATUS_RUN
- while status == SHELL_STATUS_RUN:
- ### 顯示命令提示符
- sys.stdout.write('> ')
- sys.stdout.flush()
- ### 讀取命令輸入
- cmd = sys.stdin.readline()
之后,我們切分命令tokenize輸入并進(jìn)行執(zhí)行execute(我們即將實(shí)現(xiàn) tokenize 和 execute 函數(shù))。
因此,我們的 shell_loop() 會(huì)是如下這樣:
- import sys
- SHELL_STATUS_RUN = 1
- SHELL_STATUS_STOP = 0
- def shell_loop():
- status = SHELL_STATUS_RUN
- while status == SHELL_STATUS_RUN:
- ### 顯示命令提示符
- sys.stdout.write('> ')
- sys.stdout.flush()
- ### 讀取命令輸入
- cmd = sys.stdin.readline()
- ### 切分命令輸入
- cmd_tokens = tokenize(cmd)
- ### 執(zhí)行該命令并獲取新的狀態(tài)
- status = execute(cmd_tokens)
這就是我們整個(gè) shell 循環(huán)。如果我們使用 python shell.py 啟動(dòng)我們的 shell,它會(huì)顯示命令提示符。然而如果我們輸入命令并按回車,它會(huì)拋出錯(cuò)誤,因?yàn)槲覀冞€沒定義 tokenize 函數(shù)。
為了退出 shell,可以嘗試輸入 ctrl-c。稍后我將解釋如何以優(yōu)雅的形式退出 shell。
步驟 2:命令切分tokenize
當(dāng)用戶在我們的 shell 中輸入命令并按下回車鍵,該命令將會(huì)是一個(gè)包含命令名稱及其參數(shù)的長(zhǎng)字符串。因此,我們必須切分該字符串(分割一個(gè)字符串為多個(gè)元組)。
咋一看似乎很簡(jiǎn)單。我們或許可以使用 cmd.split(),以空格分割輸入。它對(duì)類似 ls -a my_folder 的命令起作用,因?yàn)樗軌驅(qū)⒚罘指顬橐粋€(gè)列表 ['ls', '-a', 'my_folder'],這樣我們便能輕易處理它們了。
然而,也有一些類似 echo "Hello World" 或 echo 'Hello World' 以單引號(hào)或雙引號(hào)引用參數(shù)的情況。如果我們使用 cmd.spilt,我們將會(huì)得到一個(gè)存有 3 個(gè)標(biāo)記的列表 ['echo', '"Hello', 'World"'] 而不是 2 個(gè)標(biāo)記的列表 ['echo', 'Hello World']。
幸運(yùn)的是,Python 提供了一個(gè)名為 shlex 的庫,它能夠幫助我們?nèi)缒Хò愕胤指蠲睢?提示:我們也可以使用正則表達(dá)式,但它不是本文的重點(diǎn)。)
- import sys
- import shlex
- ...
- def tokenize(string):
- return shlex.split(string)
- ...
然后我們將這些元組發(fā)送到執(zhí)行進(jìn)程。
步驟 3:執(zhí)行
這是 shell 中核心而有趣的一部分。當(dāng) shell 執(zhí)行 mkdir test_dir 時(shí),到底發(fā)生了什么?(提示: mkdir 是一個(gè)帶有test_dir 參數(shù)的執(zhí)行程序,用于創(chuàng)建一個(gè)名為 test_dir 的目錄。)
execvp 是這一步的首先需要的函數(shù)。在我們解釋 execvp 所做的事之前,讓我們看看它的實(shí)際效果。
- import os
- ...
- def execute(cmd_tokens):
- ### 執(zhí)行命令
- os.execvp(cmd_tokens[0], cmd_tokens)
- ### 返回狀態(tài)以告知在 shell_loop 中等待下一個(gè)命令
- return SHELL_STATUS_RUN
- ...
再次嘗試運(yùn)行我們的 shell,并輸入 mkdir test_dir 命令,接著按下回車鍵。
在我們敲下回車鍵之后,問題是我們的 shell 會(huì)直接退出而不是等待下一個(gè)命令。然而,目錄正確地創(chuàng)建了。
因此,execvp 實(shí)際上做了什么?
execvp 是系統(tǒng)調(diào)用 exec 的一個(gè)變體。***個(gè)參數(shù)是程序名字。v 表示第二個(gè)參數(shù)是一個(gè)程序參數(shù)列表(參數(shù)數(shù)量可變)。p 表示將會(huì)使用環(huán)境變量 PATH 搜索給定的程序名字。在我們上一次的嘗試中,它將會(huì)基于我們的 PATH 環(huán)境變量查找mkdir 程序。
(還有其他 exec 變體,比如 execv、execvpe、execl、execlp、execlpe;你可以 google 它們獲取更多的信息。)
exec 會(huì)用即將運(yùn)行的新進(jìn)程替換調(diào)用進(jìn)程的當(dāng)前內(nèi)存。在我們的例子中,我們的 shell 進(jìn)程內(nèi)存會(huì)被替換為 mkdir 程序。接著,mkdir 成為主進(jìn)程并創(chuàng)建 test_dir 目錄。***該進(jìn)程退出。
這里的重點(diǎn)在于我們的 shell 進(jìn)程已經(jīng)被 mkdir 進(jìn)程所替換。這就是我們的 shell 消失且不會(huì)等待下一條命令的原因。
因此,我們需要其他的系統(tǒng)調(diào)用來解決問題:fork。
fork 會(huì)分配新的內(nèi)存并拷貝當(dāng)前進(jìn)程到一個(gè)新的進(jìn)程。我們稱這個(gè)新的進(jìn)程為子進(jìn)程,調(diào)用者進(jìn)程為父進(jìn)程。然后,子進(jìn)程內(nèi)存會(huì)被替換為被執(zhí)行的程序。因此,我們的 shell,也就是父進(jìn)程,可以免受內(nèi)存替換的危險(xiǎn)。
讓我們看看修改的代碼。
- ...
- def execute(cmd_tokens):
- ### 分叉一個(gè)子 shell 進(jìn)程
- ### 如果當(dāng)前進(jìn)程是子進(jìn)程,其 `pid` 被設(shè)置為 `0`
- ### 否則當(dāng)前進(jìn)程是父進(jìn)程的話,`pid` 的值
- ### 是其子進(jìn)程的進(jìn)程 ID。
- pid = os.fork()
- if pid == 0:
- ### 子進(jìn)程
- ### 用被 exec 調(diào)用的程序替換該子進(jìn)程
- os.execvp(cmd_tokens[0], cmd_tokens)
- elif pid > 0:
- ### 父進(jìn)程
- while True:
- ### 等待其子進(jìn)程的響應(yīng)狀態(tài)(以進(jìn)程 ID 來查找)
- wpid, status = os.waitpid(pid, 0)
- ### 當(dāng)其子進(jìn)程正常退出時(shí)
- ### 或者其被信號(hào)中斷時(shí),結(jié)束等待狀態(tài)
- if os.WIFEXITED(status) or os.WIFSIGNALED(status):
- break
- ### 返回狀態(tài)以告知在 shell_loop 中等待下一個(gè)命令
- return SHELL_STATUS_RUN
- ...
當(dāng)我們的父進(jìn)程調(diào)用 os.fork() 時(shí),你可以想象所有的源代碼被拷貝到了新的子進(jìn)程。此時(shí)此刻,父進(jìn)程和子進(jìn)程看到的是相同的代碼,且并行運(yùn)行著。
如果運(yùn)行的代碼屬于子進(jìn)程,pid 將為 0。否則,如果運(yùn)行的代碼屬于父進(jìn)程,pid 將會(huì)是子進(jìn)程的進(jìn)程 id。
當(dāng) os.execvp 在子進(jìn)程中被調(diào)用時(shí),你可以想象子進(jìn)程的所有源代碼被替換為正被調(diào)用程序的代碼。然而父進(jìn)程的代碼不會(huì)被改變。
當(dāng)父進(jìn)程完成等待子進(jìn)程退出或終止時(shí),它會(huì)返回一個(gè)狀態(tài),指示繼續(xù) shell 循環(huán)。
運(yùn)行
現(xiàn)在,你可以嘗試運(yùn)行我們的 shell 并輸入 mkdir test_dir2。它應(yīng)該可以正確執(zhí)行。我們的主 shell 進(jìn)程仍然存在并等待下一條命令。嘗試執(zhí)行 ls,你可以看到已創(chuàng)建的目錄。
但是,這里仍有一些問題。
***,嘗試執(zhí)行 cd test_dir2,接著執(zhí)行 ls。它應(yīng)該會(huì)進(jìn)入到一個(gè)空的 test_dir2 目錄。然而,你將會(huì)看到目錄并沒有變?yōu)? test_dir2。
第二,我們?nèi)匀粵]有辦法優(yōu)雅地退出我們的 shell。