自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<style id="oviat"><rp id="oviat"></rp></style>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

系統(tǒng)干崩了，只認代碼不認人

作者：不焦躁程序員 2024-02-05 22:48:32

為了保障系統(tǒng)的高可用和穩(wěn)定，我發(fā)誓以后只認代碼不認人。文末總結(jié)了幾個小教訓，希望對你有幫助。

各位朋友聽我一句勸，寫代碼提供方法給別人調(diào)用時，不管是內(nèi)部系統(tǒng)調(diào)用，還是外部系統(tǒng)調(diào)用，還是被動觸發(fā)調(diào)用（比如MQ消費、回調(diào)執(zhí)行等），一定要加上必要的條件校驗。千萬別信某些同事說的這個條件肯定會傳、肯定有值、肯定不為空等等。這不，臨過年了我就被坑了一波，弄了個生產(chǎn)事故，年終獎基本是涼了半截。

為了保障系統(tǒng)的高可用和穩(wěn)定，我發(fā)誓以后只認代碼不認人。文末總結(jié)了幾個小教訓，希望對你有幫助。

一、事發(fā)經(jīng)過

我的業(yè)務場景是：業(yè)務A有改動時，發(fā)送MQ，然后應用自身接受到MQ后，再組合一些數(shù)據(jù)寫入到Elasticsearch。以下是事發(fā)經(jīng)過：

(1) 收到一個業(yè)務A的異常告警，當時的告警如下：

(2) 咋一看覺得有點奇怪，怎么會是Redis異常呢？然后自己連了下Redis沒有問題，又看了下Redis集群，一切正常。所以就放過了，以為是偶然出現(xiàn)的網(wǎng)絡問題。

(3) 然后技術(shù)問題群里客服反饋有部分用戶使用異常，我警覺性的感覺到是系統(tǒng)出問題了。趕緊打開了系統(tǒng)，確實有偶發(fā)性的問題。

(4) 于是我習慣性的看了幾個核心部件：

網(wǎng)關(guān)情況、核心業(yè)務Pod的負載情況、用戶中心Pod的負載情況。
Mysql的情況：內(nèi)存、CPU、慢SQL、死鎖、連接數(shù)等。

(5) 果然發(fā)現(xiàn)了慢SQL和元數(shù)據(jù)鎖時間過長的情況。找到了一張大表的全表查詢，數(shù)據(jù)太大，執(zhí)行太慢，從而導致元數(shù)據(jù)鎖持續(xù)時間太長，最終數(shù)據(jù)庫連接數(shù)快被耗盡。

SELECT xxx,xxx,xxx,xxx FROM 一張大表

(6) 立馬Kill掉幾個慢會話之后，發(fā)現(xiàn)系統(tǒng)仍然沒有完全恢復，為啥呢？現(xiàn)在數(shù)據(jù)庫已經(jīng)正常了，怎么還沒完全恢復呢？又繼續(xù)看了應用監(jiān)控，發(fā)現(xiàn)用戶中心的10個Pod里有2個Pod異常了，CPU和內(nèi)存都爆了。難怪使用時出現(xiàn)偶發(fā)性的異常呢。于是趕緊重啟Pod，先把應用恢復。

(7) 問題找到了，接下來就繼續(xù)排查為什么用戶中心的Pod掛掉了。從以下幾個懷疑點開始分析：

同步數(shù)據(jù)到Elasticsearch的代碼是不是有問題，怎么會出現(xiàn)連不上Redis的情況呢？
會不會是異常過多，導致發(fā)送異常告警消息的線程池隊列滿了，然后就OOM？
哪里會對那張業(yè)務A的大表做不帶條件的全表查詢呢？

(8) 繼續(xù)排查懷疑點a，剛開始以為：是拿不到Redis鏈接，導致異常進到了線程池隊列，然后隊列撐爆，導致OOM了。按照這個設想，修改了代碼，升級，繼續(xù)觀察，依舊出現(xiàn)同樣的慢SQL 和用戶中心被干爆的情況。因為沒有異常了，所以懷疑點b也可以被排除了。

(9) 此時基本可以肯定是懷疑點c了，是哪里調(diào)用了業(yè)務A的大表的全表查詢，然后導致用戶中心的內(nèi)存過大，JVM來不及回收，然后直接干爆了CPU。同時也是因為全表數(shù)據(jù)太大，導致查詢時的元數(shù)據(jù)鎖時間過長造成了連接不能夠及時釋放，最終幾乎被耗盡。

(10) 于是修改了查詢業(yè)務A的大表必要校驗條件，重新部署上線觀察。最終定位出了問題。

二、問題的原因

因為在變更業(yè)務B表時，需要發(fā)送MQ消息（同步業(yè)務A表的數(shù)據(jù)到ES），接受到MQ消息后，查詢業(yè)務A表相關(guān)連的數(shù)據(jù)，然后同步數(shù)據(jù)到Elasticsearch。

但是變更業(yè)務B表時，沒有傳業(yè)務A表需要的必要條件，同時我也沒有校驗必要條件，從而導致了對業(yè)務A的大表的全表掃描。因為：

某些同事說，“這個條件肯定會傳、肯定有值、肯定不為空...”，結(jié)果我真信了他！??！

由于業(yè)務B表當時變更頻繁，發(fā)出和消費的MQ消息較多，觸發(fā)了更多的業(yè)務A的大表全表掃描，進而導致了更多的Mysql元數(shù)據(jù)鎖時間過長，最終連接數(shù)消耗過多。

同時每次都是把業(yè)務A的大表查詢的結(jié)果返回到用戶中心的內(nèi)存中，從而觸發(fā)了JVM垃圾回收，但是又回收不了，最終內(nèi)存和CPU都被干爆了。

至于Redis拿不到連接的異常也只是個煙霧彈，因為發(fā)送和消費的MQ事件太多，瞬時間有少部分線程確實拿不到Redis連接。

最終我在消費MQ事件處的代碼里增加了條件校驗，同時也在查詢業(yè)務A表處也增加了的必要條件校驗，重新部署上線，問題解決。

三、總結(jié)教訓

經(jīng)過此事，我也總結(jié)了一些教訓，與君共勉：

(1) 時刻警惕線上問題，一旦出現(xiàn)問題，千萬不能放過，趕緊排查。不要再去懷疑網(wǎng)絡抖動問題，大部分的問題，都跟網(wǎng)絡無關(guān)。

(2) 業(yè)務大表自身要做好保護意識，查詢處一定要增加必須條件校驗。

(3) 消費MQ消息時，一定要做必要條件校驗，不要相信任何信息來源。

(4) 千萬別信某些同事說，“這個條件肯定會傳、肯定有值、肯定不為空”等等。為了保障系統(tǒng)的高可用和穩(wěn)定，咱們只認代碼不認人。

(5) 一般出現(xiàn)問題時的排查順序：

數(shù)據(jù)庫的CPU、死鎖、慢SQL。
應用的網(wǎng)關(guān)和核心部件的CPU、內(nèi)存、日志。

(6) 業(yè)務的可觀測性和告警必不可少，而且必須要全面，這樣才能更快的發(fā)現(xiàn)問題和解決問題。

責任編輯：趙寧寧來源：不焦躁程序員

系統(tǒng)代碼

51CTO技術(shù)棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營