開發(fā)一個(gè)Linux調(diào)試器(三):寄存器和內(nèi)存
上一篇博文中我們給調(diào)試器添加了一個(gè)簡(jiǎn)單的地址斷點(diǎn)。這次,我們將添加讀寫寄存器和內(nèi)存的功能,這將使我們能夠使用我們的程序計(jì)數(shù)器、觀察狀態(tài)和改變程序的行為。
系列文章索引
隨著后面文章的發(fā)布,這些鏈接會(huì)逐漸生效。
- 準(zhǔn)備環(huán)境
- 斷點(diǎn)
- 寄存器和內(nèi)存
- Elves 和 dwarves
- 源碼和信號(hào)
- 源碼級(jí)逐步執(zhí)行
- 源碼級(jí)斷點(diǎn)
- 調(diào)用棧展開
- 讀取變量
- 下一步
注冊(cè)我們的寄存器
在我們真正讀取任何寄存器之前,我們需要告訴調(diào)試器一些關(guān)于我們的目標(biāo)平臺(tái)的信息,這里是 x8664 平臺(tái)。除了多組通用和專用目的寄存器,x8664 還提供浮點(diǎn)和向量寄存器。為了簡(jiǎn)化,我將跳過(guò)后兩種寄存器,但是你如果喜歡的話也可以選擇支持它們。x86_64 也允許你像訪問(wèn) 32、16 或者 8 位寄存器那樣訪問(wèn)一些 64 位寄存器,但我只會(huì)介紹 64 位寄存器。由于這些簡(jiǎn)化,對(duì)于每個(gè)寄存器我們只需要它的名稱、它的 DWARF 寄存器編號(hào)以及 ptrace 返回結(jié)構(gòu)體中的存儲(chǔ)地址。我使用范圍枚舉引用這些寄存器,然后我列出了一個(gè)全局寄存器描述符數(shù)組,其中元素順序和 ptrace 中寄存器結(jié)構(gòu)體相同。
- enum class reg {
- rax, rbx, rcx, rdx,
- rdi, rsi, rbp, rsp,
- r8, r9, r10, r11,
- r12, r13, r14, r15,
- rip, rflags, cs,
- orig_rax, fs_base,
- gs_base,
- fs, gs, ss, ds, es
- };
- constexpr std::size_t n_registers = 27;
- struct reg_descriptor {
- reg r;
- int dwarf_r;
- std::string name;
- };
- const std::array<reg_descriptor, n_registers> g_register_descriptors {{
- { reg::r15, 15, "r15" },
- { reg::r14, 14, "r14" },
- { reg::r13, 13, "r13" },
- { reg::r12, 12, "r12" },
- { reg::rbp, 6, "rbp" },
- { reg::rbx, 3, "rbx" },
- { reg::r11, 11, "r11" },
- { reg::r10, 10, "r10" },
- { reg::r9, 9, "r9" },
- { reg::r8, 8, "r8" },
- { reg::rax, 0, "rax" },
- { reg::rcx, 2, "rcx" },
- { reg::rdx, 1, "rdx" },
- { reg::rsi, 4, "rsi" },
- { reg::rdi, 5, "rdi" },
- { reg::orig_rax, -1, "orig_rax" },
- { reg::rip, -1, "rip" },
- { reg::cs, 51, "cs" },
- { reg::rflags, 49, "eflags" },
- { reg::rsp, 7, "rsp" },
- { reg::ss, 52, "ss" },
- { reg::fs_base, 58, "fs_base" },
- { reg::gs_base, 59, "gs_base" },
- { reg::ds, 53, "ds" },
- { reg::es, 50, "es" },
- { reg::fs, 54, "fs" },
- { reg::gs, 55, "gs" },
- }};
如果你想自己看看的話,你通??梢栽?/usr/include/sys/user.h 找到寄存器數(shù)據(jù)結(jié)構(gòu),另外 DWARF 寄存器編號(hào)取自 System V x86_64 ABI。
現(xiàn)在我們可以編寫一堆函數(shù)來(lái)和寄存器交互。我們希望可以讀取寄存器、寫入數(shù)據(jù)、根據(jù) DWARF 寄存器編號(hào)獲取值,以及通過(guò)名稱查找寄存器,反之類似。讓我們先從實(shí)現(xiàn) get_register_value 開始:
- uint64_t get_register_value(pid_t pid, reg r) {
- user_regs_struct regs;
- ptrace(PTRACE_GETREGS, pid, nullptr, ®s);
- //...
- }
ptrace 使得我們可以輕易獲得我們想要的數(shù)據(jù)。我們只需要構(gòu)造一個(gè) user_regs_struct 實(shí)例并把它和 PTRACE_GETREGS 請(qǐng)求傳遞給 ptrace。
現(xiàn)在根據(jù)要請(qǐng)求的寄存器,我們要讀取 regs。我們可以寫一個(gè)很大的 switch 語(yǔ)句,但由于我們 g_register_descriptors 表的布局順序和 user_regs_struct 相同,我們只需要搜索寄存器描述符的索引,然后作為 uint64_t 數(shù)組訪問(wèn) user_regs_struct 就行。(你也可以重新排序 reg 枚舉變量,然后使用索引把它們轉(zhuǎn)換為底層類型,但第一次我就使用這種方式編寫,它能正常工作,我也就懶得改它了。)
- auto it = std::find_if(begin(g_register_descriptors), end(g_register_descriptors),
- [r](auto&& rd) { return rd.r == r; });
- return *(reinterpret_cast<uint64_t*>(®s) + (it - begin(g_register_descriptors)));
到 uint64_t 的轉(zhuǎn)換是安全的,因?yàn)?user_regs_struct 是一個(gè)標(biāo)準(zhǔn)布局類型,但我認(rèn)為指針?biāo)阈g(shù)技術(shù)上是未定義的行為undefined behavior。當(dāng)前沒有編譯器會(huì)對(duì)此產(chǎn)生警告,我也懶得修改,但是如果你想保持最嚴(yán)格的正確性,那就寫一個(gè)大的 switch 語(yǔ)句。
set_register_value 非常類似,我們只是寫入該位置并在最后寫回寄存器:
- void set_register_value(pid_t pid, reg r, uint64_t value) {
- user_regs_struct regs;
- ptrace(PTRACE_GETREGS, pid, nullptr, ®s);
- auto it = std::find_if(begin(g_register_descriptors), end(g_register_descriptors),
- [r](auto&& rd) { return rd.r == r; });
- *(reinterpret_cast<uint64_t*>(®s) + (it - begin(g_register_descriptors))) = value;
- ptrace(PTRACE_SETREGS, pid, nullptr, ®s);
- }
下一步是通過(guò) DWARF 寄存器編號(hào)查找。這次我會(huì)真正檢查一個(gè)錯(cuò)誤條件以防我們得到一些奇怪的 DWARF 信息。
- uint64_t get_register_value_from_dwarf_register (pid_t pid, unsigned regnum) {
- auto it = std::find_if(begin(g_register_descriptors), end(g_register_descriptors),
- [regnum](auto&& rd) { return rd.dwarf_r == regnum; });
- if (it == end(g_register_descriptors)) {
- throw std::out_of_range{"Unknown dwarf register"};
- }
- return get_register_value(pid, it->r);
- }
就快完成啦,現(xiàn)在我們已經(jīng)有了寄存器名稱查找:
- std::string get_register_name(reg r) {
- auto it = std::find_if(begin(g_register_descriptors), end(g_register_descriptors),
- [r](auto&& rd) { return rd.r == r; });
- return it->name;
- }
- reg get_register_from_name(const std::string& name) {
- auto it = std::find_if(begin(g_register_descriptors), end(g_register_descriptors),
- [name](auto&& rd) { return rd.name == name; });
- return it->r;
- }
最后我們會(huì)添加一個(gè)簡(jiǎn)單的幫助函數(shù)用于導(dǎo)出所有寄存器的內(nèi)容:
- void debugger::dump_registers() {
- for (const auto& rd : g_register_descriptors) {
- std::cout << rd.name << " 0x"
- << std::setfill('0') << std::setw(16) << std::hex << get_register_value(m_pid, rd.r) << std::endl;
- }
- }
正如你看到的,iostreams 有非常精確的接口用于美觀地輸出十六進(jìn)制數(shù)據(jù)(啊哈哈哈哈哈哈)。如果你喜歡你也可以通過(guò) I/O 操縱器來(lái)擺脫這種混亂。
這些已經(jīng)足夠支持我們?cè)谡{(diào)試器接下來(lái)的部分輕松地處理寄存器,所以我們現(xiàn)在可以把這些添加到我們的用戶界面。
顯示我們的寄存器
這里我們要做的就是給 handle_command 函數(shù)添加一個(gè)命令。通過(guò)下面的代碼,用戶可以輸入 register read rax、 register write rax 0x42 以及類似的語(yǔ)句。
- else if (is_prefix(command, "register")) {
- if (is_prefix(args[1], "dump")) {
- dump_registers();
- }
- else if (is_prefix(args[1], "read")) {
- std::cout << get_register_value(m_pid, get_register_from_name(args[2])) << std::endl;
- }
- else if (is_prefix(args[1], "write")) {
- std::string val {args[3], 2}; //assume 0xVAL
- set_register_value(m_pid, get_register_from_name(args[2]), std::stol(val, 0, 16));
- }
- }
接下來(lái)做什么?
設(shè)置斷點(diǎn)的時(shí)候我們已經(jīng)讀取和寫入內(nèi)存,因此我們只需要添加一些函數(shù)用于隱藏 ptrace 調(diào)用。
- uint64_t debugger::read_memory(uint64_t address) {
- return ptrace(PTRACE_PEEKDATA, m_pid, address, nullptr);
- }
- void debugger::write_memory(uint64_t address, uint64_t value) {
- ptrace(PTRACE_POKEDATA, m_pid, address, value);
- }
你可能想要添加支持一次讀取或者寫入多個(gè)字節(jié),你可以在每次希望讀取另一個(gè)字節(jié)時(shí)通過(guò)遞增地址來(lái)實(shí)現(xiàn)。如果你需要的話,你也可以使用 process_vm_readv 和 process_vm_writev 或 /proc/<pid>/mem 代替 ptrace。
現(xiàn)在我們會(huì)給我們的用戶界面添加命令:
- else if(is_prefix(command, "memory")) {
- std::string addr {args[2], 2}; //assume 0xADDRESS
- if (is_prefix(args[1], "read")) {
- std::cout << std::hex << read_memory(std::stol(addr, 0, 16)) << std::endl;
- }
- if (is_prefix(args[1], "write")) {
- std::string val {args[3], 2}; //assume 0xVAL
- write_memory(std::stol(addr, 0, 16), std::stol(val, 0, 16));
- }
- }
給 continue_execution 打補(bǔ)丁
在我們測(cè)試我們的更改之前,我們現(xiàn)在可以實(shí)現(xiàn)一個(gè)更健全的 continue_execution 版本。由于我們可以獲取程序計(jì)數(shù)器,我們可以檢查我們的斷點(diǎn)映射來(lái)判斷我們是否處于一個(gè)斷點(diǎn)。如果是的話,我們可以停用斷點(diǎn)并在繼續(xù)之前跳過(guò)它。
為了清晰和簡(jiǎn)潔起見,首先我們要添加一些幫助函數(shù):
- uint64_t debugger::get_pc() {
- return get_register_value(m_pid, reg::rip);
- }
- void debugger::set_pc(uint64_t pc) {
- set_register_value(m_pid, reg::rip, pc);
- }
然后我們可以編寫函數(shù)來(lái)跳過(guò)斷點(diǎn):
- void debugger::step_over_breakpoint() {
- // - 1 because execution will go past the breakpoint
- auto possible_breakpoint_location = get_pc() - 1;
- if (m_breakpoints.count(possible_breakpoint_location)) {
- auto& bp = m_breakpoints[possible_breakpoint_location];
- if (bp.is_enabled()) {
- auto previous_instruction_address = possible_breakpoint_location;
- set_pc(previous_instruction_address);
- bp.disable();
- ptrace(PTRACE_SINGLESTEP, m_pid, nullptr, nullptr);
- wait_for_signal();
- bp.enable();
- }
- }
- }
首先我們檢查當(dāng)前程序計(jì)算器的值是否設(shè)置了一個(gè)斷點(diǎn)。如果有,首先我們把執(zhí)行返回到斷點(diǎn)之前,停用它,跳過(guò)原來(lái)的指令,再重新啟用斷點(diǎn)。
wait_for_signal 封裝了我們常用的 waitpid 模式:
- void debugger::wait_for_signal() {
- int wait_status;
- auto options = 0;
- waitpid(m_pid, &wait_status, options);
- }
最后我們像下面這樣重寫 continue_execution:
- void debugger::continue_execution() {
- step_over_breakpoint();
- ptrace(PTRACE_CONT, m_pid, nullptr, nullptr);
- wait_for_signal();
- }
測(cè)試效果
現(xiàn)在我們可以讀取和修改寄存器了,我們可以對(duì)我們的 hello world 程序做一些有意思的更改。類似第一次測(cè)試,再次嘗試在 call 指令處設(shè)置斷點(diǎn)然后從那里繼續(xù)執(zhí)行。你可以看到輸出了 Hello world。現(xiàn)在是有趣的部分,在輸出調(diào)用后設(shè)一個(gè)斷點(diǎn)、繼續(xù)、將 call 參數(shù)設(shè)置代碼的地址寫入程序計(jì)數(shù)器(rip)并繼續(xù)。由于程序計(jì)數(shù)器操縱,你應(yīng)該再次看到輸出了 Hello world。為了以防你不確定在哪里設(shè)置斷點(diǎn),下面是我上一篇博文中的 objdump 輸出:
- 0000000000400936 <main>:
- 400936: 55 push rbp
- 400937: 48 89 e5 mov rbp,rsp
- 40093a: be 35 0a 40 00 mov esi,0x400a35
- 40093f: bf 60 10 60 00 mov edi,0x601060
- 400944: e8 d7 fe ff ff call 400820 <_ZStlsISt11char_traitsIcEERSt13basic_ostreamIcT_ES5_PKc@plt>
- 400949: b8 00 00 00 00 mov eax,0x0
- 40094e: 5d pop rbp
- 40094f: c3 ret
你要將程序計(jì)數(shù)器移回 0x40093a 以便正確設(shè)置 esi 和 edi 寄存器。
在下一篇博客中,我們會(huì)第一次接觸到 DWARF 信息并給我們的調(diào)試器添加一系列逐步調(diào)試的功能。之后,我們會(huì)有一個(gè)功能工具,它能逐步執(zhí)行代碼、在想要的地方設(shè)置斷點(diǎn)、修改數(shù)據(jù)以及其它。一如以往,如果你有任何問(wèn)題請(qǐng)留下你的評(píng)論!
你可以在這里找到這篇博文的代碼。