自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

一次 MySQL 誤操作導(dǎo)致的事故，「高可用」都頂不住了！

作者：悟空聊架構(gòu) 2022-06-15 08:26:23

數(shù)據(jù)庫 MySQL

其實操作同步數(shù)據(jù)庫的時候，不應(yīng)該用這種覆蓋同步的方式，可以采取單庫同步的方式，也就不會干掉 log 數(shù)據(jù)庫了。

上次我們項目不是把 MySQL 高可用部署好了么，MySQL 雙主模式 + Keepalived，來保證高可用。簡單來說就是有兩個 MySQL 主節(jié)點，分別有兩個 Keepalived 安裝在宿主機上監(jiān)控 MySQL 的狀態(tài)，一旦發(fā)現(xiàn)有問題，就重啟 MySQL，而客戶端也會自動連接到另外一臺 MySQL。

詳情可以看悟空寫的這篇：??實戰(zhàn) MySQL 高可用架構(gòu)??

這次是我們在項目中遇到的一次事故，來一起復(fù)盤下吧。

本文目錄如下：

?事故現(xiàn)場

環(huán)境：測試環(huán)境
時間：上午10:30
反饋人員：測試群，炸鍋了，研發(fā)同事初步排查后，發(fā)現(xiàn)可能是數(shù)據(jù)庫問題。

然后就開始找原因吧。因為這套集群環(huán)境是我部署的，所以我來排查的話輕車熟路。

系統(tǒng)部署圖

先說下系統(tǒng)的部署圖，方便大家理解。

兩個數(shù)據(jù)庫部署在 node55 和 node56 節(jié)點上，他們互為主從關(guān)系，所以叫做雙主。

還有兩個 Keepalived 部署在 node55 和 node56 上面，分別監(jiān)控 MySQL 容器的狀態(tài)。

?報錯原因和解決方案

① 我第一個想法就是，不是有 Keepalived 來保證高可用么，即使 MySQL 掛了，也可以通過 Keepalived 來自動重啟才對。即使一臺重啟不起來，還有另外一臺可以用的吧？

② 那就到服務(wù)器上看下 MySQL 容器的狀態(tài)吧。到 MySQL 的兩臺服務(wù)器上，先看下 MySQL 容器的狀態(tài)，docker ps 命令，發(fā)現(xiàn)兩臺 MySQL 容器都不在列表中，這代表容器沒正常運行。

③ 這不可能，我可是安裝了 Keepalived 高可用組件的，難道 Keepalived 也掛了？

④ 趕緊檢查一波 Keepalived，發(fā)現(xiàn)兩臺 Keepalived 是正常運行的。通過執(zhí)行命令查看：systemctl status keepalived

⑤ 納尼，Keepalived 也是正常的， Keepalived 每隔幾秒會重啟 MySQL，可能我在那一小段空閑時間沒看到 MySQL 容器啟動？換個命令執(zhí)行下，docker ps -a，列出所有容器的狀態(tài)?？梢钥吹?MySQL 啟動后又退出了，說明 MySQL 確實是在重啟。

⑥ 那說明 Keepalived 雖然重啟了 MySQL 容器，但是 MySQL 自身有問題，那 Keepalived 的高可用也沒辦法了。

⑦ 那怎么整？只能看下 MySQL 報什么錯了。執(zhí)行查看容器日志的命令。docker logs <容器 id>。找到最近發(fā)生的日志：

⑧ 提示 mysql-bin.index 文件不存在，這個文件是配置在主從同步那里的，在 my.cnf 配置里面。

這個配置好后，然后執(zhí)行主從同步的時候，就會在 var/lib/mysql/log 目錄下生成多個 mysql-bin.xxx? 的文件。還有一個 mysql-bin.index? 索引文件，它會標(biāo)記現(xiàn)在 binlog 日志文件記錄到哪里了。

mysql-bin.index 文件里面的內(nèi)容如下：

/var/lib/mysql/log/mysql-bin.000001

這個 mysql-bin.000001 文件還是帶序號的，這里還有坑，后面我再說。

⑨ 報錯信息是提示缺少 mysql-bin.index，那我們就去檢查下唄，確實沒有??！先不管這個文件怎么消失的吧，趕緊把這個 log 文件夾先創(chuàng)建出來，然后 mysql 會自動給我們生成這個文件的。

解決方案：執(zhí)行以下命令創(chuàng)建文件夾和添加權(quán)限。

mkdir log
chmod 777 log -R

⑩ 兩臺服務(wù)器上都有這個 log 目錄后，Keepalived 也幫我們自動重啟好了 MySQL 容器，再來訪問下其中一個節(jié)點 node56 的 MySQL 的狀態(tài)，咦，居然報錯了。

Last_IO_Error: Got fatal error 1236 from master when reading data from binary log: 'Could not find first log file name in binary log index file'

可以看到幾個關(guān)鍵信息：

Slave_IO_Running: NO，當(dāng)前同步的 I/O 線程沒有運行，這個 I/O 線程是從庫的，它會去請求主庫的 binlog，并將得到的 binlog 寫到本地的 relay-log (中繼日志)文件中。沒有運行，則代表從庫同步是沒有正常運行。
Master_Log_File: mysql-bin.000014，說明當(dāng)前同步的日志文件為??000014??，之前我們看到節(jié)點 node56 上 mysql.index 里面寫的是 000001，這個 000014 根本就不在 index 文件里面，所以就會報錯了。

這里涉及到主從同步的原理，上一張圖：

從庫會生成兩個線程,一個 I/O 線程,一個 SQL 線程;
I/O線程會去請求主庫的 binlog 日志文件,并將得到的 binlog 日志文件寫到本地的 relay-log (中繼日志)文件中;
主庫會生成一個 dump 線程,用來給從庫 I/O 線程傳 binlog;
SQL線程，會讀取 relay log 文件中的日志,并解析成 SQL 語句逐一執(zhí)行。

那好辦啊，我們重新指定下同步哪個日志文件，以及同步的位置就好了。

?解決方案：

看下主庫 node55 上日志文件狀態(tài)。

記下這兩個信息：File=mysql-bin.00001，Position=117748。（這里也有個坑：先要鎖表，再看這兩個值，從庫開始同步后，再解鎖表）。

具體執(zhí)行的命令如下：

FLUSH TABLES WITH READ LOCK;
SHOW MASTER STATUS
UNLOCK TABLES

然后在從庫 node56 上重新指定同步的日志文件和位置：

# 停止從庫同步
STOP SLAVE;

# 設(shè)置同步文件和位置
CHANGE MASTER TO MASTER_HOST='10.2.1.55',
MASTER_PORT=3306,
MASTER_USER='vagrant',
MASTER_PASSWORD='vagrant',
MASTER_LOG_FILE='mysql-bin.000001',
MASTER_LOG_POS=117748;

# 開啟同步
START SLAVE;

再次查看就不報錯了，I/O 線程也跑起來了，

在這里插入圖片描述

然后將 node55 當(dāng)做從庫，node56 當(dāng)做主庫，同樣執(zhí)行上面的幾步，狀態(tài)顯示正常了，然后用 navicat 工具連下數(shù)據(jù)庫，都是正常的，在測試群反饋下結(jié)果，搞定收工。

?好像忘了一個問題，為啥 log 文件夾被干掉了？？

為什么會出現(xiàn)問題？

然后問了一波當(dāng)時有沒有人刪除這個 /var/lib/mysql/log 目錄，也沒有人會隨便刪除這個目錄的吧。

但是發(fā)現(xiàn) log 的上級目錄 /var/lib/mysql 有很多其他文件夾，比如 xxcloud, xxcenter 等。這不就是我們項目中幾個數(shù)據(jù)庫的名字么，只要在這個目錄的文件夾，都會顯示在 navicat 上，是一一對應(yīng)的，如下圖所示。其中也顯示了 log 數(shù)據(jù)庫。

那會不會有人從 navicat 上干掉了 log 數(shù)據(jù)庫？極有可能啊！

果然，有位同事之前在遷移升級的過程中，發(fā)現(xiàn)這個 log 數(shù)據(jù)庫在老的系統(tǒng)是沒有的，所以就清理了，這就相當(dāng)于把 log 數(shù)據(jù)庫干掉了，同時也會把 log 文件夾干掉了。好了，終于水落石出了！這個其實也是我前期沒有考慮到 log 目錄的一個問題。沒錯，這是我的鍋~

改進(jìn)

其實操作同步數(shù)據(jù)庫的時候，不應(yīng)該用這種覆蓋同步的方式，可以采取單庫同步的方式，也就不會干掉 log 數(shù)據(jù)庫了。但是，這個 log 數(shù)據(jù)庫放在這里有點奇怪啊，能不能不要出現(xiàn)在這里呢？

我們只要指定這個 log 目錄不在 /var/lib/mysql 目錄下就好了。

東哥建議：log 文件和數(shù)據(jù)庫 data 文件進(jìn)行隔離：

datadir = /var/lib/mysql/data
log_bin = /var/lib/mysql/log

?另外一個問題，我們的高可用真的高可用了嗎？

至少沒有做到及時報警，MySQL 數(shù)據(jù)庫掛了，我是不知道的，都是通過測試同學(xué)反饋的。

能不能及時感知到 MySQL 異常呢？

這里可以利用 Keepalived 發(fā)送郵件的功能，或者通過日志報警系統(tǒng)。這個是后面需要改進(jìn)的地方。

責(zé)任編輯：趙寧寧來源：悟空聊架構(gòu)

數(shù)據(jù)庫 MySQL

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<sub id="p5b6s"></sub>

<label id="p5b6s"></label>

^{<blockquote id="p5b6s"></blockquote>}

<blockquote id="p5b6s"><p id="p5b6s"></p></blockquote><rt id="p5b6s"></rt>

<sub id="p5b6s"></sub>