自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

這是我調(diào)過的最難調(diào)的Bug

開發(fā) 測試 后端
我向我們的CPU供應(yīng)商提交了一個(gè)bug報(bào)告,之后他們制定了一個(gè)解決方案,并在下一版本CPU里修復(fù)了這個(gè)bug。我期望聽到更多牛掰的此類故事,也期望我自己可以再攢點(diǎn)這樣的。

你調(diào)過的最難調(diào)的bug是哪個(gè)?

每個(gè)程序員都有些不畏死亡決戰(zhàn)猛獸的英雄事跡。以下這些是我的。

內(nèi)存沖突

畢業(yè)不到半年,拿著剛到手的文憑,我在Lexmark公司的一個(gè)嵌入式Linux固件開發(fā)團(tuán)隊(duì)中負(fù)責(zé)追蹤一個(gè)內(nèi)存沖突的問題。因?yàn)閮?nèi)存沖突的原因和問題表象總是相差非常大,所以這類問題很難調(diào)。有可能是因?yàn)榫彺嬉绯?,也有可能是指針未初始化,或是指針被多次free,亦或是某處的DMA錯(cuò)誤,但是你所見的卻是一堆神秘的問題:掛起、指令未定義、打印錯(cuò)誤,以及未處理的內(nèi)核錯(cuò)誤。這些都非常頻繁,內(nèi)存沖突看上去似乎是隨機(jī)出現(xiàn)又很難重現(xiàn)。

要調(diào)試這種問題,第一步是可重現(xiàn)問題。在我們奇跡般地找到這樣一個(gè)場景之后,故事開始變得好玩起來。

當(dāng)時(shí),我們發(fā)現(xiàn)在運(yùn)行時(shí)因內(nèi)存沖突而產(chǎn)生的程序崩潰每幾百小時(shí)就會(huì)出現(xiàn)一次。之后有一天有人發(fā)現(xiàn)一個(gè)特別的打印任務(wù)會(huì)產(chǎn)生內(nèi)存沖突從而在幾分鐘之內(nèi)就使程序崩潰。我從來不知道為什么這個(gè)打印任務(wù)會(huì)產(chǎn)生這個(gè)問題?,F(xiàn)在,我們就可以進(jìn)一步做些什么了。

調(diào)試

這個(gè)問題可重現(xiàn)之后,我就開始尋找崩潰中出現(xiàn)的模式。最引人注意的是未定義指令和內(nèi)核錯(cuò)誤,它們差不多三分之一的時(shí)間就會(huì)發(fā)生一次。未定義指令的地址是一個(gè)合理的內(nèi)核代碼地址,但是CPU讀到的這個(gè)指令卻不是我們期望出現(xiàn)的。這就很簡單了,可能是有人不小心寫了這些指令。把這些未定義指令的句柄打印出來之后,我可以看到這些錯(cuò)誤的指令所在位置的周邊內(nèi)存的狀態(tài)。

在做了大量失敗的將更多的代碼排除出崩潰的嘗試之后,一個(gè)特殊的崩潰漸漸顯現(xiàn)。

崩潰之王

這個(gè)崩潰解開了所有秘密。當(dāng)時(shí)我們用了一個(gè)雙核CPU。在這個(gè)特殊的崩潰里,首先CPU1在有效的模塊地址范圍內(nèi)收到了一個(gè)未處理的內(nèi)核錯(cuò)誤,而此時(shí)它正在嘗試執(zhí)行模塊代碼,這段代碼可能是一個(gè)沖突的頁表或是一個(gè)無效TLB。而正在處理這個(gè)錯(cuò)誤時(shí),CPU0在內(nèi)核地址空間內(nèi)收到了一個(gè)非法的指令陷阱。

以下是從修改后的未定義指令句柄中打印出來的數(shù)據(jù)(已轉(zhuǎn)為物理地址,括號(hào)中是出錯(cuò)地址)

  1. undefined instruction: pc=0018abc4  
  2. 0018aba0: e7d031a2 e1b03003 1a00000e e2822008  
  3. 0018abb0: e1520001 3afffff9 e1a00001 e1a0f00e  
  4. 0018abc0: 0bd841e6 (ceb3401c) 00000004 00000001  
  5. 0018abd0: 0d066010 5439541b 49fa30e7 c0049ab8  
  6. 0018abe0: e2822001 eafffff1 e2630000 e0033000  
  7. 0018abf0: e16f3f13 e263301f e0820003 e1510000 

以下是內(nèi)存域應(yīng)該顯示的數(shù)據(jù):

  1. 0018aba0: e7d031a2 e1b03003 1a00000e e2822008  
  2. 0018abb0: e1520001 3afffff9 e1a00001 e1a0f00e  
  3. 0018abc0: e3310000 (0afffffb) e212c007 0afffff3  
  4. 0018abd0: e7d031a2 e1b03c33 1a000002 e3822007  
  5. 0018abe0: e2822001 eafffff1 e2630000 e0033000  
  6. 0018abf0: e16f3f13 e263301f e0820003 e1510000 

確切地來說,只有一行緩存(中間那32byte)是有沖突的。一個(gè)同事指出沖突行中0x49fa30e7這個(gè)字是一個(gè)魔術(shù)cookie,它標(biāo)記了系統(tǒng)中一個(gè)特殊環(huán)形緩沖區(qū)的入口。入口值的最后一個(gè)字永遠(yuǎn)是一個(gè)時(shí)間戳,所以0x5439541b是上一個(gè)入口的時(shí)間戳。我決定去讀取這個(gè)環(huán)形緩沖的內(nèi)容,但它現(xiàn)在掛在一個(gè)不可執(zhí)行的KGDB提示那了。機(jī)器現(xiàn)在跟死了一樣。

冷啟動(dòng)攻擊

為獲取環(huán)形緩沖區(qū)的數(shù)據(jù),我進(jìn)行了一次冷啟動(dòng)攻擊。我為正在使用的主板搞到了一份概要拷貝,然后發(fā)現(xiàn)CPU的復(fù)位線上連了一塊不受歡迎的板子。我把它短路了,重置CPU而不妨礙DRAM的完整性。然后,我把Boot掛載在引導(dǎo)程序上。

在引導(dǎo)程序里,我dump到了問題中環(huán)形緩沖區(qū)的內(nèi)容。謝天謝地,這個(gè)緩存總是在一個(gè)固定的物理地址上被定位到,所以找到它不是問題了。

通過分析錯(cuò)誤時(shí)間戳周邊的環(huán)形緩沖區(qū),我們發(fā)現(xiàn)了兩個(gè)老的cache line。這兩個(gè)cache line里有有效數(shù)據(jù),但是在這兩個(gè)cache line里的時(shí)間戳卻是環(huán)形緩沖區(qū)里之前的時(shí)間。

導(dǎo)致CPU0上未定義指令的cache line與環(huán)形緩沖區(qū)里那兩個(gè)老cache line之一相當(dāng)契合,但是這并不說明其他可能的地方也是這樣。我發(fā)現(xiàn)一個(gè)決定性的證據(jù)。假設(shè),另一個(gè)消失的cache line是導(dǎo)致CPU1上未處理內(nèi)核錯(cuò)誤的元兇。

錯(cuò)置的cache line

cache line應(yīng)該被寫入0x0ebd2bc0(環(huán)形緩沖區(qū)里的cache line),但是事實(shí)上卻寫入了0x0018abc0(沖突的內(nèi)核碼)。這些地址在我們CPU上屬于相同的緩存,它們的位[14:5]的值是相同的。不知為何它們有別名。

  1.                     bit   28   24   20   16   12    8    4    0  
  2.                            |    |    |    |    |    |    |    |  
  3. 0x0ebd2bc0 in binary is 0000 1110 1011 1101 0010 1011 1100 0000  
  4. 0x0018abc0 in binary is 0000 0000 0001 1000 1010 1011 1100 0000 

一個(gè)地址的低5位是cache line(32字節(jié)cache line)里的索引。后10位,即位[14:5],表示緩存集。剩下的17位,即位[31:15],用來表示緩存里當(dāng)前存的是哪個(gè)cache line.

我向我們的CPU供應(yīng)商提交了一個(gè)bug報(bào)告,之后他們制定了一個(gè)解決方案,并在下一版本CPU里修復(fù)了這個(gè)bug。

我期望聽到更多牛掰的此類故事,也期望我自己可以再攢點(diǎn)這樣的。

原文鏈接: Peter Lundgren   翻譯: 伯樂在線 - Elaine

譯文鏈接: http://blog.jobbole.com/68840/

責(zé)任編輯:林師授 來源: 伯樂在線
相關(guān)推薦

2013-11-08 09:22:17

程序員Bug調(diào)試

2019-01-21 15:17:59

Java微軟JCP

2017-11-27 11:26:35

程序員Bug調(diào)試

2024-03-26 00:54:42

預(yù)測模型數(shù)據(jù)

2020-02-11 16:25:47

JavaLinux字符串

2020-01-07 14:44:09

GitHub代碼開發(fā)者

2016-12-13 10:57:22

Bug程序員錯(cuò)誤報(bào)告

2018-06-29 15:29:13

Tensorflow代碼谷歌

2023-06-26 00:19:13

2023-06-12 11:53:08

數(shù)據(jù)活躍率流失率

2024-12-03 12:05:57

2018-04-10 08:59:37

2013-06-17 09:54:17

Python程序代碼

2023-09-04 11:32:28

數(shù)據(jù)診斷模型

2018-05-15 15:27:06

IT行業(yè)培訓(xùn)語言

2025-02-06 11:52:44

2021-09-08 18:35:31

系統(tǒng)調(diào)試日志

2022-05-16 08:42:26

Pandasbug

2024-04-17 08:21:44

2016-03-25 09:59:38

性能調(diào)優(yōu)LinuxMySQL
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)