一篇學(xué)會(huì)Linux ptrace 的實(shí)現(xiàn)
ptrace 是 Linux 內(nèi)核提供的非常強(qiáng)大的系統(tǒng)調(diào)用,通過(guò) ptrace 可以實(shí)現(xiàn)進(jìn)程的單步調(diào)試和收集系統(tǒng)調(diào)用情況。比如 strace 和 gdb 都是基于 ptrace 實(shí)現(xiàn)的,strace 可以顯示進(jìn)程調(diào)用了哪些系統(tǒng)調(diào)用,gdb 可以實(shí)現(xiàn)對(duì)進(jìn)程的調(diào)試。本文介紹這些工具的底層 ptrace 是如何實(shí)現(xiàn)的。這里選用了 1.2.13 的早期版本,原理是類(lèi)似的,新版內(nèi)核代碼過(guò)多,沒(méi)必要陷入過(guò)多細(xì)節(jié)中。
1 進(jìn)程調(diào)試
ptrace 系統(tǒng)調(diào)用的實(shí)現(xiàn)中包含了很多功能,首先來(lái)看一下單步調(diào)試的實(shí)現(xiàn)。通過(guò) ptrace 實(shí)現(xiàn)單步調(diào)試的方式有兩種。
1. 父進(jìn)程執(zhí)行 fork 創(chuàng)建一個(gè)子進(jìn)程,通過(guò) ptrace 設(shè)置子進(jìn)程為 PF_PTRACED 標(biāo)記,然后執(zhí)行 execve 加載被調(diào)試的程序。
2. 通過(guò) ptrace attach 到指定的 pid 完成對(duì)進(jìn)程的調(diào)試(控制)。
首先看一下第一種的實(shí)現(xiàn)。
1.1 方式1
- pid_t pid = fork();// 子進(jìn)程if (pid == 0) {
- ptrace(PTRACE_TRACEME,0,NULL,NULL);
- // 加載被調(diào)試的程序
- execve(argv[1], NULL, NULL);
- }
執(zhí)行 fork 創(chuàng)建子進(jìn)程后,通過(guò) ptrace 的 PTRACE_TRACEME 指示操作系統(tǒng)設(shè)置子進(jìn)程為被調(diào)試(設(shè)置 PF_PTRACED 標(biāo)記)。來(lái)看一下這一步操作系統(tǒng)做了什么事情。
- asmlinkage int sys_ptrace(long request, long pid, long addr, long data){
- if (request == PTRACE_TRACEME) {
- current->flags |= PF_PTRACED;
- return 0;
- }
- }
這一步非常簡(jiǎn)單,接著看 execve 加載程序到內(nèi)存執(zhí)行時(shí)又是如何處理的。
- int do_execve(char * filename, char ** argv, char ** envp, struct pt_regs * regs) {
- // 加載程序
- for (fmt = formats ; fmt ; fmt = fmt->next) {
- int (*fn)(struct linux_binprm *, struct pt_regs *) = fmt->load_binary;
- retval = fn(&bprm, regs);
- }
- }
do_execve 邏輯非常復(fù)雜,不過(guò)我們只關(guān)注需要的就好。do_execve 通過(guò)鉤子函數(shù)加載程序,我們看看 formats 是什么。
- struct linux_binfmt {
- struct linux_binfmt * next;
- int *use_count;
- int (*load_binary)(struct linux_binprm *, struct pt_regs * regs);
- int (*load_shlib)(int fd);
- int (*core_dump)(long signr, struct pt_regs * regs);
- };
- static struct linux_binfmt *formats = &aout_format;int register_binfmt(struct linux_binfmt * fmt){
- struct linux_binfmt ** tmp = &formats;
- if (!fmt)
- return -EINVAL;
- if (fmt->next)
- return -EBUSY;
- while (*tmp) {
- if (fmt == *tmp)
- return -EBUSY;
- tmp = &(*tmp)->next;
- }
- *tmp = fmt;
- return 0;
- }
可以看到 formats 是一個(gè)鏈表??梢酝ㄟ^(guò) register_binfmt 函數(shù)注冊(cè)節(jié)點(diǎn)。那么誰(shuí)調(diào)用了這個(gè)函數(shù)呢?
- struct linux_binfmt elf_format = {
- NULL, NULL, load_elf_binary, load_elf_library, NULL};int init_module(void) {
- register_binfmt(&elf_format);
- return 0;
- }
所以最終調(diào)用了 load_elf_binary 函數(shù)加載程序。同樣我們只關(guān)注相關(guān)的邏輯。
- if (current->flags & PF_PTRACED)
- send_sig(SIGTRAP, current, 0);
load_elf_binary 中會(huì)判斷如果進(jìn)程設(shè)置了 PF_PTRACED 標(biāo)記,那么會(huì)給當(dāng)前進(jìn)程發(fā)送一個(gè) SIGTRAP 信號(hào)。接著看信號(hào)處理函數(shù)的相關(guān)邏輯。
- if ((current->flags & PF_PTRACED) && signr != SIGKILL) {
- current->exit_code = signr;
- // 修改當(dāng)前進(jìn)程(被調(diào)試的進(jìn)程)為暫停狀態(tài)
- current->state = TASK_STOPPED;
- // 通知父進(jìn)程
- notify_parent(current);
- // 調(diào)度其他進(jìn)程執(zhí)行
- schedule();
- }
所以程序被加載到內(nèi)存后,根本沒(méi)有機(jī)會(huì)執(zhí)行就直接被修改為暫停狀態(tài)了,接下來(lái)看看 notify_parent 通知父進(jìn)程干什么。
- void notify_parent(struct task_struct * tsk){
- // 給父進(jìn)程發(fā)送 SIGCHLD 信號(hào)
- if (tsk->p_pptr == task[1])
- tsk->exit_signal = SIGCHLD;
- send_sig(tsk->exit_signal, tsk->p_pptr, 1);
- wake_up_interruptible(&tsk->p_pptr->wait_chldexit);
- }
父進(jìn)程收到信號(hào)后,可以通過(guò) sys_ptrace 控制子進(jìn)程,sys_ptrace 還提供了很多功能,比如讀取子進(jìn)程的數(shù)據(jù)。
- // pid 為子進(jìn)程 id
- num = ptrace(PTRACE_PEEKUSER, pid, ORIG_RAX * 8, NULL);
這個(gè)就不展開(kāi)了,主要是內(nèi)存的校驗(yàn)和數(shù)據(jù)讀取。這里講一下 PTRACE_SINGLESTEP 命令,這個(gè)命令控制子進(jìn)程單步執(zhí)行的。
- case PTRACE_SINGLESTEP: { /* set the trap flag. */
- long tmp;
- child->flags &= ~PF_TRACESYS;
- // 設(shè)置 eflags 的單步調(diào)試 flag
- tmp = get_stack_long(child, sizeof(long)*EFL-MAGICNUMBER) | TRAP_FLAG;
- put_stack_long(child, sizeof(long)*EFL-MAGICNUMBER,tmp);
- // 修改子進(jìn)程狀態(tài)為可執(zhí)行
- child->state = TASK_RUNNING;
- child->exit_code = data;
- return 0;
- }
PTRACE_SINGLESTEP 讓子進(jìn)程重新進(jìn)入運(yùn)行狀態(tài),但是有一個(gè)很關(guān)鍵的是,設(shè)置好了單步調(diào)試 flag。我們看看 trap flag 是什么。
- A trap flag permits operation of a processor in single-step mode. If such a flag is available, debuggers can use it to step through the execution of a computer program.
也就是說(shuō),子進(jìn)程執(zhí)行一個(gè)指令后,就會(huì)被中斷,然后系統(tǒng)會(huì)給被調(diào)試進(jìn)程發(fā)送 SIGTRAP 信號(hào)。同樣,被調(diào)試進(jìn)程在信號(hào)處理函數(shù)里,通知父進(jìn)程,從而控制權(quán)又回到了父進(jìn)程手中,如此循環(huán)。
1.2 方式2
除了開(kāi)始時(shí)通過(guò) ptrace 設(shè)置進(jìn)程調(diào)試,也可以通過(guò) ptrace 動(dòng)態(tài)設(shè)置調(diào)試進(jìn)程的能力,具體是通過(guò) PTRACE_ATTACH 命令實(shí)現(xiàn)的。
- if (request == PTRACE_ATTACH) {
- // 設(shè)置被調(diào)試標(biāo)記
- child->flags |= PF_PTRACED;
- // 設(shè)置和父進(jìn)程的關(guān)系
- if (child->p_pptr != current) {
- REMOVE_LINKS(child);
- child->p_pptr = current;
- SET_LINKS(child);
- }
- // 給被調(diào)試進(jìn)程發(fā)送 SIGSTOP 信號(hào)
- send_sig(SIGSTOP, child, 1);
- return 0;
- }
前面已經(jīng)分析過(guò),信號(hào)處理函數(shù)里會(huì)設(shè)置進(jìn)程為暫停狀態(tài),然后通知主進(jìn)程,主進(jìn)程就可以控制子進(jìn)程,具體和前面流程一樣。
2 跟蹤系統(tǒng)調(diào)用
ptrace 處理追蹤進(jìn)程執(zhí)行過(guò)程之外,還可以實(shí)現(xiàn)跟蹤系統(tǒng)調(diào)用。具體是通過(guò) PTRACE_SYSCALL 命令實(shí)現(xiàn)。
- case PTRACE_SYSCALL:
- case PTRACE_CONT: {
- long tmp;
- // 設(shè)置 PF_TRACESYS 標(biāo)記
- if (request == PTRACE_SYSCALL)
- child->flags |= PF_TRACESYS;
- child->exit_code = data;
- child->state = TASK_RUNNING;
- // 清除 trap flag 標(biāo)記
- tmp = get_stack_long(child, sizeof(long)*EFL-MAGICNUMBER) & ~TRAP_FLAG;
- put_stack_long(child, sizeof(long)*EFL-MAGICNUMBER,tmp);
- return 0;
- }
看起來(lái)很簡(jiǎn)單,就是設(shè)置了一個(gè)新的標(biāo)記 PF_TRACESYS??纯催@個(gè)標(biāo)記有什么用。
- // 調(diào)用 syscall_trace 函數(shù)
- 1: call _syscall_trace
- movl
- movl ORIG_EAX(%esp),%eax
- // 調(diào)用系統(tǒng)調(diào)用
- call _sys_call_table(,%eax,4)
- movl %eax,EAX(%esp) # save the return value
- movl _current,%eax
- movl errno(%eax),%edx
- negl %edx
- je 1f
- movl %edx,EAX(%esp)
- orl $(CF_MASK),EFLAGS(%esp) # set carry to indicate error
- // 調(diào)用 syscall_trace 函數(shù)
- 1: call _syscall_trace
可以看到在系統(tǒng)調(diào)用的前后都有一個(gè) syscall_trace 的邏輯,所以在系統(tǒng)調(diào)用前和后,我們都可以做點(diǎn)事情。來(lái)看看這個(gè)函數(shù)做了什么。
- asmlinkage void syscall_trace(void){
- // 暫停子進(jìn)程,通知父進(jìn)程,并調(diào)度其他進(jìn)程執(zhí)行
- current->exit_code = SIGTRAP;
- current->state = TASK_STOPPED;
- notify_parent(current);
- schedule();
- }
這里的邏輯就是把邏輯切換到主進(jìn)程中,然后主進(jìn)程就可以通過(guò)命令獲取被調(diào)試進(jìn)程的系統(tǒng)調(diào)用信息。下面是一個(gè)追蹤進(jìn)程所有系統(tǒng)調(diào)用的例子。
- /*
- use ptrace to find all system call that call by certain process
- */
- #include <sys/ptrace.h>
- #include <unistd.h>
- #include <stdlib.h>
- #include <sys/wait.h>
- #include <stdio.h>
- #include <sys/reg.h>
- int main(int argc, char *argv[]) {
- pid_t pid = fork();
- if (pid < 0) {
- printf("fork failed");
- exit(-1);
- } else if (pid == 0) {
- // set state of child process to PTRACE
- ptrace(PTRACE_TRACEME,0,NULL,NULL);
- // child will change to stopped state when in execve call, then send the signal to parent
- execve(argv[1], NULL, NULL);
- } else {
- int status;
- int bit = 1;
- long num;
- long ret;
- // wait for child
- wait(&status);
- if(WIFEXITED(status))
- return 0;
- // this is for execve call which will not return, and for os of 64-it => ORIG_RAX * 8 or os of 32-it => ORIG_EAX * 4
- num = ptrace(PTRACE_PEEKUSER, pid, ORIG_RAX * 8, NULL);
- printf("system call num = %ld\n", num);
- ptrace(PTRACE_SYSCALL, pid, NULL, NULL);
- while(1) {
- wait(&status);
- if(WIFEXITED(status))
- return 0;
- // for enter system call
- if(bit) {
- num = ptrace(PTRACE_PEEKUSER, pid, ORIG_RAX * 8, NULL);
- printf("system call num = %ld", num);
- bit = 0;
- } else { // for return of system call
- ret = ptrace(PTRACE_PEEKUSER, pid, RAX*8, NULL);
- printf("system call return = %ld \n", ret);
- bit = 1;
- }
- // let this child process continue to run until call next system call
- ptrace(PTRACE_SYSCALL,pid,NULL,NULL);
- }
- }
- }
總結(jié)
ptrace 功能復(fù)雜而強(qiáng)大,理解它的原理對(duì)理解其他技術(shù)和工具都非常有意義,本文大概做了一個(gè)介紹,有興趣的同學(xué)可以自行查看源碼。