記一次 .NET某上位視覺程序離奇崩潰分析
一、背景
1. 講故事
前段時間有位朋友找到我,說他們有一個崩潰的dump讓我?guī)兔聪略趺椿厥隆?/p>
話不多說,既然有 dump 來了,那就上 windbg 說話吧。
二:WinDbg 分析
1. 為什么會崩潰
說實話windbg非常強大,雙擊打開dump就能第一時間幫你顯示出簡略的異常信息,輸出如下:
This dump file has an exception of interest stored in it.
The stored exception information can be accessed via .ecxr.
(bf8.5dc4): Access violation - code c0000005 (first/second chance not available)
For analysis of this file, run !analyze -v
clr!WKS::gc_heap::mark_object_simple1+0x220:
00007ffb`380453c4 833a00 cmp dword ptr [rdx],0 ds:00007ffa`35451300=????????
從卦中又看到了經(jīng)典的 mark_object_simple1 方法,這個方法是GC用來做對象標(biāo)記之用的,所以大概率又是托管堆損壞,真是無語了,接下來用 !verifyheap 檢查下托管堆。
0:083> !verifyheap
object 00000218e96963d8: bad member 00000218E9696450 at 00000218E9696420
Last good object: 00000218E96963C0.
Could not request method table data for object 00000218E9696450 (MethodTable: 00007FFA35451300).
Last good object: 00000218E96963D8.
一看這卦就很不吉利,真的是有對象的mt是不對的,至此我們把崩潰的直接原因給找到了。
2. 為什么對象損壞了
要找到這個答案就需要深挖 00000218e96963d8 對象,分別使用 !do 命令以及 dp 來觀察內(nèi)存地址。
0:083> !do 00000218e96963d8
Name: System.Threading.Tasks.Task+DelayPromise
MethodTable: 00007ffb3542b3e8
EEClass: 00007ffb3567c7c0
Size: 120(0x78) bytes
File: C:\Windows\Microsoft.Net\assembly\GAC_64\mscorlib\v4.0_4.0.0.0__b77a5c561934e089\mscorlib.dll
Fields:
...
00007ffb35451300 40035d5 48 ...m.Threading.Timer 0 instance 00000218e9696450 Timer
0:083> dp 00000218e9696450 L6
00000218`e9696450 00007ffa`35451301 00000000`00000000
00000218`e9696460 00000218`e96964c8 00000000`00000000
00000218`e9696470 00007ffb`353e4b51 00000218`e9696368
仔細觀察卦中對象 00000218e9696450 所顯示的mt,你會發(fā)現(xiàn)一個是 00007ffb35451300,一個是 00007ffa35451301,很顯然前者是對的,后者是錯的,可以分別用 !dumpmt 做個驗證。
0:083> !dumpmt 00007ffb35451300
EEClass: 00007ffb356942f0
Module: 00007ffb353b1000
Name: System.Threading.Timer
mdToken: 0000000002000504
File: C:\Windows\Microsoft.Net\assembly\GAC_64\mscorlib\v4.0_4.0.0.0__b77a5c561934e089\mscorlib.dll
BaseSize: 0x20
ComponentSize: 0x0
Slots in VTable: 23
Number of IFaces in IFaceMap: 1
0:083> !dumpmt 00007ffa35451301
00007ffa35451301 is not a MethodTable
細心的朋友會發(fā)現(xiàn)雖然兩個mt地址不一樣,但已經(jīng)非常相近,看樣子又是一例經(jīng)典的bit位翻轉(zhuǎn),我去,用 .formats 轉(zhuǎn)成二進制觀察一下,截圖如下:
圖片
從卦中可以清晰的看到當(dāng)前地址有兩個 bit 的翻轉(zhuǎn),分別是第0位和第32位,接下來就要洞察為什么會有兩個bit位的翻轉(zhuǎn)?
3. 真的存在兩個bit位翻轉(zhuǎn)嗎
接下來我們逐一來聊一下。
- bit 0 為什么會翻轉(zhuǎn)
熟悉 coreclr 底層的朋友應(yīng)該知道,gc 在標(biāo)記的過程中會給 mt 的第0位設(shè)置為1,表示當(dāng)前對象在深度優(yōu)先中已經(jīng)標(biāo)記過,防止重復(fù)標(biāo)記,當(dāng)然這個也是有源碼作證的,簡化后的代碼如下:
inline BOOL gc_heap::gc_mark(uint8_t* o, uint8_t* low, uint8_t* high, int condemned_gen)
{
if ((o >= low) && (o < high))
{
BOOL already_marked = marked(o);
if (already_marked)
{
return FALSE;
}
set_marked(o);
return TRUE;
}
}
#define marked(i) header(i)->IsMarked()
BOOL IsMarked() const
{
return !!(((size_t)RawGetMethodTable()) & GC_MARKED);
}
有了這段源碼,這個 bit 為什么為 1 就能輕松的解釋了,所以這個翻轉(zhuǎn)是一個正常情況。
- bit 32 為什么會翻轉(zhuǎn)
這個是我無法解釋的,也正是因為這個 bit32 的翻轉(zhuǎn)導(dǎo)致 gc 認為這個 obj 是一個損壞的對象,到底是什么原因呢?民間眾說紛紜,在我的過往分析旅程中我已見過兩例,但我不敢確定自己又遇到了輻射類的奇葩情況,所以也第一時間找朋友確認程序周邊是否存在輻射環(huán)境。
圖片
朋友反饋過來附近有 伺服電機 類,說實話工控的東西我是真的不太懂,只能上網(wǎng)搜搜這玩意是否有輻射,截圖如下:
圖片
到底是不是這玩意導(dǎo)致的,其實我心里也沒底,跟朋友的溝通后說是只出現(xiàn)過一次,這就更加玄乎了。
圖片
不管怎么說,我只能給出如下兩個方案:
- 上 ECC 糾錯內(nèi)存
- 遠離輻射環(huán)境
三:總結(jié)
在大工控領(lǐng)域里,這是我見過第三例bit位翻轉(zhuǎn)導(dǎo)致的程序崩潰,太無語了,惡魔到底是不是旁邊的 伺服電機 ?