對(duì)MySQL數(shù)據(jù)庫(kù)復(fù)制中斷的處理
前言
在復(fù)制中,有時(shí)會(huì)因?yàn)閺?fù)制報(bào)錯(cuò),而中斷復(fù)制。通常是因?yàn)橐粋€(gè)SQL語(yǔ)句在主庫(kù)執(zhí)行時(shí)是正常的,但同步到從庫(kù)時(shí),因?yàn)楦鞣N原因,找不到對(duì)應(yīng)的數(shù)據(jù),造成執(zhí)行SQL失敗,報(bào)出復(fù)制錯(cuò)誤。下面主要寫了幾個(gè)常見的錯(cuò)誤。
復(fù)制中斷的情況和處理
復(fù)制中斷的情況:
- 1062錯(cuò)誤:在寫入數(shù)據(jù)使,從庫(kù)已存在了。多出現(xiàn)自增長(zhǎng)ID已存在。
- 1032錯(cuò)誤:從庫(kù)出現(xiàn)少數(shù)據(jù),update、delete時(shí),找不到相應(yīng)的記錄。
- 其他:DDL操作時(shí)報(bào)錯(cuò)
對(duì)這些情況的處理:
- 遇到該問(wèn)題,要想到要怎樣滿足復(fù)制,而不是跳過(guò)該事務(wù);不建議跳過(guò)錯(cuò)誤,遇到錯(cuò)誤應(yīng)該修正過(guò)來(lái),再連接主庫(kù)復(fù)制,否則從庫(kù)的數(shù)據(jù)會(huì)越來(lái)越不一致!
- 手工修復(fù)操作有些慢,可以針對(duì)1062和1032錯(cuò)誤,寫一個(gè)自動(dòng)化監(jiān)控改正腳本。
- 注意:若經(jīng)常數(shù)據(jù)不一致,選擇業(yè)務(wù)低峰期,檢驗(yàn)一次數(shù)據(jù)(pt-table-checksum),查看是否數(shù)據(jù)一致,若檢查出太多的數(shù)據(jù)不一致,該從庫(kù)就不可再用了,再創(chuàng)建一個(gè)從庫(kù)!
常見的復(fù)制錯(cuò)誤
【錯(cuò)誤碼-1062】
處理操作:
- 處理這種情況,需要和業(yè)務(wù)協(xié)商,或在公司內(nèi)形成一個(gè)規(guī)定,遇到這種情況要怎樣做(在從庫(kù)將這條重復(fù)數(shù)據(jù)刪除還是補(bǔ)充到主庫(kù))。
- 通常,在從庫(kù)刪除該條數(shù)據(jù),讓復(fù)制繼續(xù)進(jìn)行。
- 使用pt-slave-restart來(lái)修復(fù)問(wèn)題,它會(huì)會(huì)跳過(guò)錯(cuò)誤,建議先處理錯(cuò)誤,才可以保證數(shù)據(jù)的一致性
具體操作:
- 定位到該事物
- 傳統(tǒng)復(fù)制:Exec_Master_Log_Pos 與 last_error中的end_log_pos 中間的事務(wù)
- GTID復(fù)制:executed_gtid_set : xxxxx:1-5 ,即第6個(gè)事務(wù)報(bào)錯(cuò)了。
- master:mysqlbinlog -vv --base64-output=decode-rows --start-position ……
- 在slave上刪除該條數(shù)據(jù),然后連接復(fù)制
- > set sql_log_bin=0; # 先禁止當(dāng)前會(huì)話的操作記錄寫到binlog
- > delete from xn_db.t_order_produce where id=35197;
- > set sql_log_bin=1; # 恢復(fù)正常
- > start slave sql_thread; # 啟動(dòng)SQL線程
【錯(cuò)誤碼-1032】
1032錯(cuò)誤 分為: update錯(cuò)誤 和 delete錯(cuò)誤。
update 處理操作:
- 在主庫(kù)上獲取出來(lái)主鍵的值(不需要具體恢復(fù)出來(lái)),只要滿足SQL執(zhí)行成功即可。
update 具體操作:
- 定位到該事物
- 傳統(tǒng)復(fù)制:Exec_Master_Log_Pos 與 last_error中的end_log_pos 中間的事務(wù)
- GTID復(fù)制:executed_gtid_set : xxxxx:1-5 ,即第6個(gè)事務(wù)報(bào)錯(cuò)了。
- master:mysqlbinlog -vv --base64-output=decode-rows --start-position ……
- 將沒有的數(shù)據(jù)創(chuàng)建出來(lái),只符合錯(cuò)誤事務(wù)執(zhí)行成功即可
- > set sql_log_bin=0;
- > insert into xn_db.t_mes(id) values(35592);
- > set sql_log_bin=1;
- > start slave sql_thread;
delete 處理操作:
- 由于從庫(kù)沒有該數(shù)據(jù),致使刪除失敗,可以跳過(guò)該錯(cuò)誤,因?yàn)樘^(guò)該刪除事務(wù)相當(dāng)于不執(zhí)行該delete語(yǔ)句,和在從庫(kù)上沒執(zhí)行之前是一樣的,那些數(shù)據(jù)都不會(huì)存在于從庫(kù)中。
delete 具體操作:
- 傳統(tǒng)復(fù)制:
- > stop slave;
- > set global sql_slave_skip_counter=1; # 跳過(guò)一個(gè)事務(wù)
- > start slave;
- GTID復(fù)制:
- > stop slave;
- > set gtid_net='xxxxx:6' # 跳過(guò)報(bào)錯(cuò)事務(wù)6
- > begin;commit; # 執(zhí)行一個(gè)空事務(wù),即GTID為6的事務(wù)
- > set gtid_next='AUTOMATIC';
- > start salve;