自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sup id="bet01"><rt id="bet01"></rt></sup>

<blockquote id="bet01"><rt id="bet01"></rt></blockquote>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

用gdb分析coredump的一些技巧

作者：佚名 2017-05-10 15:30:30

開發(fā) 前端

前幾天我們正在運營的一款產(chǎn)品發(fā)生了崩潰，我花了兩天嘗試用 gdb 分析了 coredump ，雖然最后還是沒能找到 bug ，但還是覺得應(yīng)該做一些總結(jié)。

前幾天我們正在運營的一款產(chǎn)品發(fā)生了崩潰，我花了兩天嘗試用 gdb 分析了 coredump ，雖然最后還是沒能找到 bug ，但還是覺得應(yīng)該做一些總結(jié)。

產(chǎn)品是基于 skynet 開發(fā)的，由于歷史原因，它基于的是 skynet 1.0 之前 2015 年中的一個版本，由于這兩年一直沒出過什么問題，所以維護人員懈怠而沒有更新。

崩潰的時候，關(guān)于 Lua 部分的代碼缺少調(diào)試符號信息，這加大了分析難度?，F(xiàn)在的 skynet 在編譯 lua 時，加入了 -g 選項，這應(yīng)該可以幫助未來出現(xiàn)類似問題時更好的定位問題。

導致代碼崩潰的直接原因是 rip 指向了一個數(shù)據(jù)段的地址，準確的說，跳轉(zhuǎn)到了當前工作線程擁有的 lua 虛擬機的主線程 L 那里。

發(fā)現(xiàn)這條線索很容易，skynet 的其它部分是有調(diào)試符號的，可以在崩潰的調(diào)用棧上看到，服務(wù)的 callback 函數(shù)的 ud 和崩潰地址一致，而 lua 服務(wù)的 ud 正是 L 。用 gdb 的 p ( lua_State *)地址查看這個結(jié)構(gòu)，也能觀察到這個數(shù)據(jù)結(jié)構(gòu)的內(nèi)容正是一個 lua_State 。

由于用 bt 查看的調(diào)用棧是不正常的，所以可以斷定在函數(shù)調(diào)用鏈的過程中應(yīng)該是發(fā)生了某種錯誤改寫了 C 棧的內(nèi)容。在這種情況下，gdb 多半靠猜測來重建調(diào)用鏈(就是用 bt 看到的那些)。

現(xiàn)代編譯器經(jīng)過優(yōu)化代碼之后， C 棧上已經(jīng)沒有 stack frame 的基地址了，所以現(xiàn)在不能簡單的看堆棧的數(shù)據(jù)內(nèi)容來推測 stack frame 。也就是經(jīng)過優(yōu)化的代碼不一定適用 rbp 來保存 stack frame ，它也不一定入棧。對于 gcc ，這個優(yōu)化策略是通過 -fomit-frame-pointer 開啟的，只要用 -O 編譯，就一定打開的。在 stack 本身出問題時，gdb 的猜測很可能不準確，人工來猜或手工補全或許更靠譜一些。方法就是先用 x/40xg $rsp 打印出 C stack 的內(nèi)容，然后觀察確定 stack 上的哪些數(shù)據(jù)落在代碼段上。所有有函數(shù)調(diào)用的地方，一定有處于代碼段上的某處返回地址指針。

主程序的代碼段一般都地址偏低，動態(tài)鏈入的代碼段可以用 info sharedlibrary 來查看。返回地址肯定是落在函數(shù)代碼的內(nèi)部，而肯定不會是函數(shù)入口，而這些地址除了函數(shù)調(diào)用外，都不可能用正常的 C 代碼生成出來，所以識別性很強，不會有歧義。

如果覺得某個指針是函數(shù)返回地址，可以用 x/10i 地址來反匯編確認。

但是需要注意的是，即使在 C stack 上發(fā)現(xiàn)一個函數(shù)返回地址，并不說明這個函數(shù)調(diào)用尚未返回。它只能說明這個函數(shù)至少被調(diào)用過。這是因為，匯編在 call 一個函數(shù)時，會把當前調(diào)用處的地址壓棧。而調(diào)用結(jié)束后，ret 指令返回只是修改了 rsp 這個棧指針，而數(shù)據(jù)本身是殘留在棧上的。這也是為什么 gdb 有時候也會猜錯。

在這次的案例里，崩潰發(fā)生在執(zhí)行跳轉(zhuǎn)到了數(shù)據(jù)段，這種情況多半是因為 call 指令調(diào)用的是一個間接引用，在 C 層面來看，就是調(diào)用了一個函數(shù)指針。這種情況下，跳轉(zhuǎn)地址肯定還在寄存器里。用 info registers 可以查看。(注：在 64bit 平臺下，查看寄存器內(nèi)容非常重要，因為 64bit 下，函數(shù)調(diào)用的前四個參數(shù)是通過寄存器 rdi rsi 傳遞而非堆棧，往往需要結(jié)合 disass 反匯編看代碼去推算。)

當然，按 lua 自己的正常邏輯，是不可能把 L 作為一個函數(shù)指針來調(diào)用的。按我的猜測，這里出錯比較大的可能是 longjmp 的時候數(shù)據(jù)出錯，恢復了錯誤的寄存器。btw, setjmp 在生成 jmp_buf 時，對于 rsp rbp 這類很可能用于地址的寄存器，crt 做了變形(mangling)處理，所以很難簡單的靠寫越界寫出一個巧合的錯誤值。

對于調(diào)試崩潰在 lua 內(nèi)部的情況，比較關(guān)鍵的線索通常是 L 本身的狀態(tài)。因為業(yè)務(wù)的主流程其實是用 lua vm 驅(qū)動的，L 的 callinfo 也就是 lua 的 stack frame 信息更多。

對于 skynet ，在正常運行的時候通常會有兩個活動的 L 。一個是主線程，用來分發(fā)消息;但消息本身是在一個獨立的 coroutine 中進行的。以上可以確定主線程，而子線程的 L 可以在寄存器和 stack frame 里找。由于沒有調(diào)試符號，所以可以靠猜來尋找，這并不算太麻煩。要確定一個地址是否是 L ，只需要查看 L->l_G 看是否和前面找到的主線程 L 的對應(yīng)值是否相同。

在缺少調(diào)試符號的情況下，會發(fā)現(xiàn) lua 下的一些內(nèi)部數(shù)據(jù)結(jié)構(gòu) gdb 無法識別。這個時候可以用 add-symbol-file 來導入需要的結(jié)構(gòu)信息。方法是加上 -g 重新編譯一下 lua ，把一些包含這些結(jié)構(gòu)的文件，例如 ldo.o 加進來。

我在分析這次的問題時，寫了腳本查看兩個 L 的 lua 調(diào)用棧，這些腳本只要對 lstate.h 里的 callinfo 數(shù)據(jù)結(jié)構(gòu)熟悉就很容易寫出來。lua 的調(diào)試信息很豐富，找到源文件名和行號都很容易。另外，L 棧頂?shù)臄?shù)據(jù)是什么也是重要的線索，可以推導出崩潰發(fā)生時 Lua 的狀態(tài)。

這次我們崩潰的程序最后停在主線程的 resume 調(diào)用子線程上。子線程調(diào)用了 skynet.sleep ，也就是最后把 "SLEEP", session 通過 yield 傳給了主線程。這些要傳出的量可以在子線程的 L->top 上查到。雖然 lua 本身已經(jīng)把值 pop 出去了，但 pop 本身是不清空棧的，只是調(diào)整了棧頂指針，所以在 gdb 下依然可見。主線程也接收到了傳過來的數(shù)據(jù)，數(shù)據(jù)棧上可見。

不過這次的吊詭之處在于，lua 線程間拷貝數(shù)據(jù)這個過程是在 lcorolib.c 中的 auxresume 函數(shù)中執(zhí)行的，在 luaB_coresume 里還需要在結(jié)果中插入一個 boolean 。而我在 coredump 數(shù)據(jù)中發(fā)現(xiàn)了拷貝過程已經(jīng)完成，但是 boolean 卻沒有壓入。那么事故發(fā)生點只可能在兩者之間。不過在 auxresume 返回到后續(xù) push boolean 之間只有幾行匯編代碼，絕對不可能出錯。

唯一能解釋的就是在 lua_resume 期間，子線程運行的流程破壞了 C 的 stackframe ，讓 auxresume 沒能正確的返回到調(diào)用它的 luaB_coresume 中。但怎樣才能制造出這種情況，我暫時沒有想法。

在 C 層面制造出崩潰的可能性并不是很多，數(shù)據(jù)越界是一類常見的 bug (這次并不像);另一類是內(nèi)存管理出錯，比如對同一個指針 free 多次，導致內(nèi)存管理器出錯，把同一個地址分配給兩個位置，導致兩個對象地址重疊。后一類問題能干擾到 C 的 stack frame 可能性比較小，除非有堆上的對象指針指向了棧地址，然后并引用。這次的 bug 中，最打的線索是 L->errorJmp ，也就是 lua 線程中指向恢復點的 jmp_buf ，它是在 C 棧上的。

L 中有一些相關(guān)變量可以推測 resume/yield/pcall 等的執(zhí)行狀態(tài)： L->nny L->nCcalls L->ci->callstatus 等都是。我分析的結(jié)果是在 auxresume 返回后，沒有繼續(xù)運行 luaB_coresume 中的 push boolean 過程，卻又運行了新的一輪 luaD_pcall ，導致了最終的崩潰。這可以通過 L 的 errorJmp 的 status 得到一定的佐證。不過 C stack 上沒有 luaB_coresume 的返回地址比較難解釋，只能說是可能被錯誤的運行流程覆蓋掉了。

gc 會是觸發(fā) bug 的多發(fā)點，因為 gc 是平行于主流程同步進行的。這次崩潰點的子線程的 lua 棧幀停留在 yield 函數(shù)上，在此之前也的確調(diào)用了 gc step 。但是，我們可以通過查閱 L 的 gcstate 變量查看 gc 處于什么階段。在這次的事發(fā)現(xiàn)場，可以看到 gcstate 為 GCSpropagate 也就是 mark 階段，所以并不會引發(fā)任何 __gc 流程，也沒有內(nèi)存釋放。

結(jié)論：對于 bug ，暫時沒有結(jié)論。不過對于調(diào)試 lua 編寫的程序，還是積累了一些經(jīng)驗：

一定要在編譯 lua 時加 -g ，雖然 lua 本身出嚴重 bug 的可能性極低，但可以方便在出問題時用 gdb 分析。
在 gdb 中查看 lua 的調(diào)用棧很有意義，分析 L->ci 很容易拿到調(diào)用棧信息。
記得查看一下 lua 的數(shù)據(jù)棧內(nèi)容，包括已經(jīng) pop 出去，但還殘留在內(nèi)存中的數(shù)據(jù)，可以幫助分析崩潰時的狀態(tài)。
記得查看 L 中保留的 gcstate GCdebt 等 gc 相關(guān)變量，可以用于推斷 lua gc 的工作狀態(tài)。
L 中的 nny nCcalls errorJmp 可以幫助確定 lua 到 C 的調(diào)用層次。注意：一個 yield 狀態(tài)的 coroutine ，errorJmp 指針應(yīng)該為 NULL 。

另外，gdb 分析 skynet 可以從下面的線索入手：

context 對象里能找到當前服務(wù)的地址、最后一個向外提起的請求的 session 、接收過多少條消息等。結(jié)合 log 文件來看會有參考價值。
如果想找到內(nèi)存中其它的服務(wù)對象(非當前線程上活動的)，可以試試 p *H 。 H 是個數(shù)組，定義在 skynet_handle.c 中，里面有所有服務(wù)的地址。
如果想找到內(nèi)存中待喚醒的 timer ，可以試試 p *TI 。它定義在 skynet_timer.c 中。

責任編輯：未麗燕來源：云風的 BLOG

skynet 崩潰程序

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<big id="g0upe"><code id="g0upe"><option id="g0upe"></option></code></big>