Dba+開源工具:補(bǔ)齊MySQL 8.0遷移短板,Binlog解析ETL抽取數(shù)據(jù)工具
工具簡介
由于MariaDB已經(jīng)遠(yuǎn)離MySQL,從MySQL 8.0遷移到MariaDB 10.5時,binlog同步復(fù)制已經(jīng)不兼容(參考手冊:https://mariadb.com/kb/en/mariadb-vs-mysql-compatibility/)。
圖片
1、若MariaDB是主庫,MySQL是從庫,在GTID模式下,從MariaDB同步復(fù)制數(shù)據(jù)時,GTID與MySQL不兼容,同步將報(bào)錯。
2、若MySQL是主庫,MariaDB是從庫,MariaDB無法從MySQL 8.0主庫上復(fù)制,因?yàn)镸ySQL 8.0具有不兼容的二進(jìn)制日志格式。
因此,借助binlog_parse_sql工具,可將binlog解析并生成SQL語句,反向插入MariaDB數(shù)據(jù)庫里。
使用場景
1、從MySQL 8.0實(shí)時解析binlog并復(fù)制到MariaDB,適用于將MySQL 8.0遷移至MariaDB(ETL抽數(shù)據(jù)工具)--- binlog_parse_queue.py
2、數(shù)據(jù)恢復(fù)(研發(fā)手抖誤刪除一張表,通過歷史全量恢復(fù)+binlog增量恢復(fù))
3、從MySQL 8.0實(shí)時解析binlog并復(fù)制到ClickHouse,適用于將MySQL 8.0遷移至ClickHouse(ETL抽數(shù)據(jù)工具)--- binlog_parse_clickhouse.py
原理
將解析binlog和執(zhí)行SQL語句的兩個過程分別由兩個線程來執(zhí)行。其中,解析binlog的線程每次解析完一個事件后通過隊(duì)列將SQL語句傳給SQL執(zhí)行線程,SQL執(zhí)行線程從隊(duì)列中取出SQL語句并按順序依次執(zhí)行,這樣就保證了SQL語句的串行執(zhí)行。
MariaDB使用
1、安裝:
shell> pip3 install pymysql mysql-replication -i "http://mirrors.aliyun.com/pypi/simple" --trusted-host "mirrors.aliyun.com"
2、前臺運(yùn)行:
shell> python3 binlog_parse_queue.py
圖片
3、后臺運(yùn)行:
shell> nohup python3 binlog_parse_queue.py > from_mysql_to_mariadb.log 2>&1 &
4、工具運(yùn)行后,會生成binlog_info.txt文件,即實(shí)時保存已經(jīng)解析過的binlog文件名和position位置點(diǎn),以方便程序掛掉后的斷點(diǎn)續(xù)傳。
注:運(yùn)行后如報(bào)錯LookupError: unknown encoding: utf8mb3
解決方案:
編輯/usr/local/python3/lib/python3.10/site-packages/pymysql/charset.py文件,尾部增加如下兩行:
_charsets.add(Charset(256, "utf8mb3", "utf8mb3_general_ci", "Yes"))
_charsets.add(Charset(257, "utf8mb3", "utf8mb3_bin", ""))
參考如下鏈接:https://github.com/julien-duponchelle/python-mysql-replication/issues/386
ClickHouse使用
1、安裝:
shell> pip3 install clickhouse-driver -i "http://mirrors.aliyun.com/pypi/simple" --trusted-host "mirrors.aliyun.com"
注:clickhouse_driver庫需要調(diào)用ssl,由于python 3.10之后版本不在支持libressl使用ssl,需要用openssl 1.1.1版本或者更高版本。
參見:python 3.10編譯安裝報(bào)SSL失敗解決方法(https://blog.csdn.net/mdh17322249/article/details/123966953)
2、MySQL表結(jié)構(gòu)轉(zhuǎn)換為ClickHouse表結(jié)構(gòu)
shell> vim mysql_to_clickhose_schema.py(修改腳本里的配置信息)
注:mysql_to_clickhose_schema_test.py(該工具僅為單表測試使用)
運(yùn)行:
shell> python3 mysql_to_clickhose_schema.py
原理:連接MySQL獲取表結(jié)構(gòu)schema,然后在ClickHouse里執(zhí)行建表語句。
3、MySQL全量數(shù)據(jù)遷移至ClickHouse步驟:
第一步:
/usr/bin/mydumper -h 192.168.192.180 -u hechunyang -p wdhcy159753 -P 3306 --no-schemas -t 12 --csv -v 3 --regex '^hcy.user$' -o ./
注:需要mydumper 0.12.3-3版本支持導(dǎo)出CSV格式。
第二步:
clickhouse-client --query="INSERT INTO hcy.user FORMAT CSV" < hcy.user.00000.dat
第三步:或者使用mysql_to_clickhouse_sync.py工具(MySQL全量數(shù)據(jù)導(dǎo)入到ClickHouse里,默認(rèn)并行10張表同時導(dǎo)出數(shù)據(jù),每次輪詢?nèi)?000條數(shù)據(jù))。
使用條件:表必須有自增主鍵,測試環(huán)境MySQL 8.0
如果你說服不了開發(fā)對每張表增加自增主鍵ID,那么你要設(shè)置參數(shù)
sql_generate_invisible_primary_key
開啟這個參數(shù),會在建表時,檢查表中是否有主鍵,如果沒有主鍵,則會自動創(chuàng)建。該參數(shù)非常實(shí)用,減少了DBA對SQL語句表結(jié)構(gòu)的審計(jì)(參考:https://blog.51cto.com/hcymysql/5952924)。
4、binlog_parse_clickhouse.py(ETL抽數(shù)據(jù)工具)將MySQL8.0增量數(shù)據(jù)遷移至ClickHouse
shell> vim binlog_parse_clickhouse.py(修改腳本里的配置信息)
前臺運(yùn)行:
shell> python3 binlog_parse_clickhouse.py
后臺運(yùn)行:
shell> nohup python3 binlog_parse_clickhouse.py > from_mysql_to_clickhouse.log 2>&1 &
下載方式
此工具現(xiàn)通過dbaplus社群免費(fèi)為大家提供下載使用。若使用過程中有任何問題或建議,可隨時與我們聯(lián)系,歡迎大家試用。
登錄以下鏈接即可下載:
https://github.com/hcymysql/binlog_parse_sql