從貓蛇之戰(zhàn)三看內(nèi)核戲CPU
小時候曾經(jīng)目睹過貓與蛇戰(zhàn)斗,面對昂首發(fā)威的毒蛇,小貓不慌不忙,揮舞前爪,沉著冷靜,看準時機進攻,膽大心細。
在網(wǎng)上搜一下,可以看到很多貓蛇戰(zhàn)斗的照片,看來貓蛇之戰(zhàn)是很多人都喜歡看的“精彩節(jié)目”。
(照片來自搜索引擎)
再來一張更清晰一些的。
(照片來自搜索引擎)
之所以想到貓蛇之戰(zhàn),是因為今天在“格友會講”群里一位同行問了一個很有深度的問題。
(前方內(nèi)容只適合技術控,其他讀者止步)
簡單說問題是,調試器是如何訪問不能訪問的內(nèi)存的。
看了這個問題,我立刻覺得這位同行是有功力的。因為普通的程序員是問不出這樣的問題的。
要理解這個問題,必須有些底層的基礎。
***個基礎是要有保護模式的概念。很多同行都知道,今天的CPU是運行在所謂的保護模式中,軟件訪問的內(nèi)存空間都是虛擬空間。而且這個虛擬空間中的內(nèi)容是分三六九等的,是分平民區(qū)和富人區(qū)的,是分道路和深坑的。因為此,訪問內(nèi)存時是要小心的,有些地方可以訪問,有些地方一訪問就可能出大問題的,爆炸崩潰甚至“死亡”的。
大多數(shù)的應用程序崩潰和系統(tǒng)藍屏都是因為訪問了不該訪問的地方。
第二個基礎是對調試器有比較深的認識,知道在調試器里可以放心大膽地想訪問哪里就訪問哪里,不用那么小心。
舉例來說,在普通程序里,如果訪問空地址,那么不死也傷半條命(處理不好,就被系統(tǒng)殺了)。但是在調試器里,dd 0沒有問題,調試器會給出一串串可愛的問號,代表不可訪問,子虛烏有。
- 6: kd> dd 0
- 00000000`00000000 ???????? ???????? ???????? ????????
- 00000000`00000010 ???????? ???????? ???????? ????????
- 00000000`00000020 ???????? ???????? ???????? ????????
- 00000000`00000030 ???????? ???????? ???????? ????????
- 00000000`00000040 ???????? ???????? ???????? ????????
- 00000000`00000050 ???????? ???????? ???????? ????????
- 00000000`00000060 ???????? ???????? ???????? ????????
- 00000000`00000070 ???????? ???????? ???????? ????????
那么問題來了,為啥普通程序一碰就爆炸,而調試器訪問卻安然無恙呢?
坦率說,***次在腦海中出現(xiàn)這個問題時,也令我困惑了一陣。直到后來發(fā)現(xiàn)了內(nèi)核中的一個神秘機制。這個機制是跨操作系統(tǒng)的,Windows中有,Linux也有,而且都是相同的名字,叫Probe。
有點令人詫異的是,連函數(shù)名很類似,比如Windows(NT內(nèi)核)中的兩個函數(shù)為:
- 6: kd> x nt!probe*
- fffff800`06581d70 nt!ProbeForWrite (void)
- fffff800`06518ad0 nt!ProbeForRead (<no parameter info>)
而Linux內(nèi)核中的兩個函數(shù)為:
- root@gedu-VirtualBox:/home/gedu/labs/linux-source-4.8.0# sudo cat /proc/kallsyms | grep "\bprobe_ke"
- ffffffff811a5f00 W probe_kernel_read
- ffffffff811a5fc0 W probe_kernel_write
搜一下KDB/KGDB的源代碼,可以看到很多地方調用了上面兩個函數(shù):
簡單來說,內(nèi)核里封裝了兩個特殊的函數(shù),提供給包括調試器在內(nèi)的一些特殊客戶使用。
接下來的問題是,probe函數(shù)內(nèi)部是如何做的呢?有關的源代碼如下。
(更完整的請見https://elixir.bootlin.com/linux/v4.8/source/mm/maccess.c#L23 )
其中的關鍵是在__copy動作前后分別有:
- pagefault_disable();
- pagefault_enable();
也就是先禁止了pagefault,訪問好之后再啟用。這有點像是在耍蛇之前,先把它的毒牙包上。
繼續(xù)深挖,在目前的Linux內(nèi)核實現(xiàn)中,是維護一個計數(shù)器:pagefault_disabled。
(https://elixir.bootlin.com/linux/v5.0-rc8/source/include/linux/uaccess.h)
在處理頁錯誤的do_page_fault函數(shù)中,會判斷這個標志,如果發(fā)現(xiàn)禁止條件,則忽略這次訪問錯誤。
講到這里,問題說清了一半,要繼續(xù)深追的話,還有一些細節(jié),今天有點晚了,改日再敘。