意想不到的MySQL復(fù)制延遲原因
導(dǎo)讀
線上有個MySQL實例,存在嚴重的復(fù)制延遲問題,原因出乎意料。
線上有個MySQL 5.7版本的實例,從服務(wù)器延遲了3萬多秒,而且延遲看起來好像還在加劇。
MySQL版本
- Server version: 5.7.18-log MySQL Community Server (GPL)
看下延遲狀況
- yejr@imysql.com:mysql3306.sock : (none) > show slave status\G
- Master_Log_File: mysql-bin.013225
- Read_Master_Log_Pos: 1059111551
- Relay_Master_Log_File: mysql-bin.013161
- Exec_Master_Log_Pos: 773131396
- Master_UUID: e7c35a95-ffb1-11e6-9620-90e2babb5b90
我們看到,binlog文件落后了64個,相當(dāng)?shù)目鋸垺?/p>
MySQL 5.7不是已經(jīng)實現(xiàn)并行復(fù)制了嗎,怎么還會延遲這么厲害?
先檢查系統(tǒng)負載。
看到mysqld進程其實負載還好,不算太高,也不存在嚴重的SWAP等問題。
再看I/O子系統(tǒng)負載,沒看到這方面存在瓶頸(await\svctm\%util都不高)。
再看mysqld進程的CPU消耗。
雖然mysqld進程的CPU消耗總是超過100%,不過也不算太高。
再檢查MySQL復(fù)制現(xiàn)場,確認了幾個頻繁更新的表都有主鍵,以及必要的索引。相應(yīng)的DML操作也幾乎都是基于主鍵或唯一索引條件執(zhí)行的,排除無主鍵、無合理索引方面的因素。
***只能祭出perf top神器了。
perf top -p `pidof mysqld`
看到perf top***的報告是這樣的
- Samples: 107K of event 'cycles', Event count (approx.): 29813195000
- Overhead Shared Object Symbol
- 56.19% mysqld [.] bitmap_get_next_set
- 16.18% mysqld [.] build_template_field
- 4.61% mysqld [.] ha_innopart::try_semi_consistent_read
- 4.44% mysqld [.] dict_index_copy_types
- 4.16% libc-2.12.so [.] __memset_sse2
- 2.92% mysqld [.] ha_innobase::build_template
我們看到, bitmap_get_next_set 這個函數(shù)調(diào)用占到了 56.19%,非常高,其次是 build_template_field 函數(shù),占了 16.18%。
經(jīng)過檢查MySQL源碼并請教MySQL內(nèi)核開發(fā)專家,***確認這兩個函數(shù)跟啟用表分區(qū)有關(guān)系。
查詢下當(dāng)前實例有多少個表分區(qū):
- yejr@imysql.com:mysql3306.sock : (none) > select count(*) from partitions where partition_name is not null;
- +----------+
- | count(*) |
- +----------+
- | 32128 |
- +----------+
- 1 row in set (11.92 sec)
額滴神啊,竟然有3萬多個表分區(qū),難怪上面那兩個函數(shù)調(diào)用那么高。
這個業(yè)務(wù)數(shù)據(jù)庫幾個大表采用每天一個分區(qū)方案,而且把直到當(dāng)年年底所有分區(qū)也都給提前創(chuàng)建好了,所以才會有這么多。
不過,雖然有這么多表分區(qū),在master服務(wù)器上卻不存在這個瓶頸,看起來是在主從復(fù)制以及大量表分區(qū)的綜合因素下才有這個瓶頸,最終導(dǎo)致主從復(fù)制延遲越來越嚴重。
知道問題所在,解決起來就簡單了。把到下個月底前用不到的表分區(qū)全部刪除,之后約只剩下1.6萬個分區(qū)。重啟slave線程,問題解決,主從復(fù)制延遲很快就消失了。