從虛擬內(nèi)存看可執(zhí)行文件的裝載
本文轉(zhuǎn)載自微信公眾號「Linux澡堂子」,作者冷面不冷 。轉(zhuǎn)載本文請聯(lián)系Linux澡堂子公眾號。
當(dāng)雙擊打開一個可執(zhí)行文件的時候,計算機究竟干了什么?磁盤上的可執(zhí)行文件是怎么裝載到內(nèi)存當(dāng)中去的?對于眾多程序猿來說,這也仍然是一個不太容易回答的問題。
這次讓我們從虛擬內(nèi)存的角度來看看可執(zhí)行文件的裝載過程,仔細分析從可執(zhí)行文件開始裝載到第一條指令執(zhí)行時發(fā)生了什么。
本文不再詳細解釋進程的概念、ELF文件結(jié)構(gòu)、虛擬內(nèi)存的定義、分頁的概念、請求分頁的工作原理,之前的文章講過,感興趣的小伙伴自行搜索。
裝載大體上可以分為以下幾步:
- 創(chuàng)建進程
- 創(chuàng)建虛擬地址空間
- 讀取可執(zhí)行文件頭,建立虛擬地址空間與可執(zhí)行文件的映射關(guān)系
- 設(shè)置CPU指令寄存器為可執(zhí)行文件入口地址
- 執(zhí)行,觸發(fā)缺頁中斷
創(chuàng)建進程
創(chuàng)建進程不必多說了,此時會創(chuàng)建如進程標(biāo)識符、進程優(yōu)先級之類的信息。注意此時還不涉及到可執(zhí)行文件。
創(chuàng)建虛擬地址空間
這一步其實應(yīng)該算在創(chuàng)建進程里面,實際就是創(chuàng)建頁表(多級頁表),用來與物理內(nèi)存建立連接,此時這個頁表是空的。此時仍然不涉及到可執(zhí)行文件。
讀取可執(zhí)行文件頭
這個就是關(guān)鍵的一步了。進程開始讀取可執(zhí)行文件頭,即ELF文件的頭部,此時進程也僅僅讀取ELF文件頭部,不涉及到其他段。ELF文件頭中含有可執(zhí)行文件各段的起始地址和長度等信息,以及可執(zhí)行文件入口地址,注意這里"地址"即虛擬內(nèi)存地址。
這里需要強調(diào)的是:整個裝載過程也僅僅是讀取了ELF頭部,僅此而已。因為ELF頭部記錄了整個可執(zhí)行文件的節(jié)奏,所以根據(jù)ELF頭部即可建立整個可執(zhí)行文件的框架。因此,這一步是在建立與磁盤的連接。舉個簡單的例子,當(dāng)發(fā)生缺頁中斷時,操作系統(tǒng)該去哪把缺的頁加載到物理內(nèi)存?這就是這一步的關(guān)鍵之處了。將虛擬內(nèi)存地址與磁盤地址建立聯(lián)系,當(dāng)缺頁時即可尋找到對應(yīng)的磁盤地址,從而加載到物理內(nèi)存。
還需要強調(diào)的一點是,此時在進程中,實際相當(dāng)于是僅僅保存了一個函數(shù)映射關(guān)系。如下圖有更直觀的理解。
請記住這個圖,后續(xù)我們講到內(nèi)存管理的時候再把進程和內(nèi)存結(jié)合起來看,到時候你就會站在上帝視角對內(nèi)核有了指點江山的感覺。
設(shè)置CPU指令寄存器
如上兩步建立了虛擬地址空間和物理內(nèi)存、磁盤的映射關(guān)系,現(xiàn)在就要準(zhǔn)備運行此程序了。運行的第一條指令地址在哪?在ELF頭部中。將CPU指令寄存器的值設(shè)置為第一條指令地址即可。
執(zhí)行,觸發(fā)缺頁中斷
想想CPU在從入口地址取指令時會發(fā)生什么。假設(shè)入口地址指向.text段首,如圖所示為0x8049000;CPU以此虛擬地址查找頁表發(fā)現(xiàn)該頁尚未裝載,觸發(fā)缺頁中斷。此時操作系統(tǒng)接管,從之前建立的虛擬地址空間與磁盤的映射關(guān)系中找到此頁在磁盤中的地址;再從此地址讀取頁,加載到物理內(nèi)存,缺頁中斷完畢。CPU重新從入口地址取指令,此時由頁表得到物理地址,從內(nèi)存中得到對應(yīng)的指令,交給CPU。
隨著進程的執(zhí)行,缺頁中斷不斷出現(xiàn),磁盤中的可執(zhí)行文件也逐漸加載到內(nèi)存中。
總結(jié)
如上便是簡單的可執(zhí)行文件的裝載過程,最需要強調(diào)的一點是,可執(zhí)行文件的數(shù)據(jù)是 按需 加載到物理內(nèi)存的,缺頁中斷驅(qū)動著進程的執(zhí)行。