MySQL亂碼問(wèn)題如何排查
MySQL客戶(hù)端和服務(wù)器是怎么通信的?
1.首先請(qǐng)求會(huì)被MySQL客戶(hù)端編碼為字節(jié)序列之后通過(guò)網(wǎng)絡(luò)傳輸?shù)椒?wù)器。
對(duì)于MySQL自帶的客戶(hù)端來(lái)說(shuō),這個(gè)編碼過(guò)程使用的字符集和我們使用的操作系統(tǒng)的默認(rèn)字符集是一樣的,類(lèi)Unix系統(tǒng)的默認(rèn)字符集就是utf8,Windows系統(tǒng)的默認(rèn)字符集就是gbk。
啟動(dòng)MySQL客戶(hù)端時(shí),MySQL客戶(hù)端就會(huì)檢測(cè)到這個(gè)操作系統(tǒng)使用的是utf8字符集,并將客戶(hù)端默認(rèn)字符集設(shè)置為utf8。如果MySQL不支持自動(dòng)檢測(cè)到的操作系統(tǒng)當(dāng)前正在使用的字符集,或者在某些情況下不允許自動(dòng)檢測(cè)的話(huà),MySQL會(huì)使用它自己的內(nèi)建的默認(rèn)字符集作為客戶(hù)端默認(rèn)字符集。這個(gè)內(nèi)建的默認(rèn)字符集在MySQL 5.7以及之前的版本中是latin1,在MySQL 8.0中修改為了utf8mb4。
如果我們?cè)趩?dòng)MySQL客戶(hù)端是使用了default-character-set啟動(dòng)參數(shù),那么客戶(hù)端的默認(rèn)字符集將不再檢測(cè)操作系統(tǒng)當(dāng)前正在使用的字符集,而是直接使用啟動(dòng)參數(shù)default-character-set所指定的值。比方說(shuō)我們使用如下命令來(lái)啟動(dòng)客戶(hù)端:
mysql --default-character-set=utf8
那么不論我們使用什么操作系統(tǒng),操作系統(tǒng)目前使用的字符集是什么,我們都將會(huì)以u(píng)tf8作為MySQL客戶(hù)端的默認(rèn)字符集。
2.服務(wù)器收到字節(jié)序列請(qǐng)求之后,會(huì)認(rèn)為該字節(jié)串是按照character_set_client系統(tǒng)變量編碼的,之后將其從character_set_client轉(zhuǎn)換到character_set_connection,再進(jìn)行更深入的處理。
3.最后將響應(yīng)發(fā)送至客戶(hù)端時(shí),又會(huì)按照character_set_results進(jìn)行編碼。
4.客戶(hù)端收到響應(yīng)字節(jié)串之后,按照本客戶(hù)端規(guī)定的字符集進(jìn)行解碼。
對(duì)于MySQL自帶的客戶(hù)端來(lái)說(shuō),這個(gè)解碼過(guò)程使用的字符集和我們使用的操作系統(tǒng)的默認(rèn)字符集是一樣的,類(lèi)Unix系統(tǒng)的默認(rèn)字符集就是utf8,Windows系統(tǒng)的默認(rèn)字符集就是gbk。
系統(tǒng)變量 | 描述 |
MySQL客戶(hù)端字符集 | MySQL客戶(hù)端字符集 |
character_set_client | 服務(wù)器解碼請(qǐng)求時(shí)使用的字符集 (服務(wù)器認(rèn)為請(qǐng)求是按照該系統(tǒng)變量指定的字符集進(jìn)行編碼的) |
character_set_connection | 服務(wù)器處理請(qǐng)求時(shí)會(huì)把請(qǐng)求字符串從character_set_client轉(zhuǎn)為character_set_connection |
character_set_results | 服務(wù)器向客戶(hù)端返回?cái)?shù)據(jù)時(shí)使用的字符集 (服務(wù)器采用該系統(tǒng)變量指定的字符集對(duì)返回給客戶(hù)端的字符串進(jìn)行編碼) |
從通信轉(zhuǎn)碼流程來(lái)看,要保證沒(méi)有亂碼出現(xiàn):
character_set_client、character_set_connection和character_set_result這三個(gè)系統(tǒng)變量應(yīng)該和客戶(hù)端的默認(rèn)字符集相同即可。
SET names命令可以一次性修改這三個(gè)系統(tǒng)變量。
實(shí)驗(yàn)驗(yàn)證
數(shù)據(jù)庫(kù)字符集:
1.客戶(hù)端發(fā)送請(qǐng)求時(shí)會(huì)將字符'我'按照utf8進(jìn)行編碼,也就是:0xE68891。
2.服務(wù)器收到請(qǐng)求后發(fā)現(xiàn)有前綴_gbk,則不會(huì)將其后邊的字節(jié)0xE68891進(jìn)行從character_set_client到character_set_connection的轉(zhuǎn)換,而是直接把0xE68891認(rèn)為是某個(gè)字符串由gbk編碼后得到的字節(jié)序列。
3.再把上述0xE68891從gbk轉(zhuǎn)換為character_set_results,也就是utf8。0xE688在gbk中代表漢字'鎴',而0x91無(wú)法解碼(我們可以看到上述查詢(xún)結(jié)果中有1個(gè)warning)。
結(jié)論
解決亂碼問(wèn)題,要從客戶(hù)端到服務(wù)器通信流程中的字符集編碼、轉(zhuǎn)碼、解碼來(lái)分析是哪一步的問(wèn)題。
一般情況下,保證:
- character_set_client
- character_set_results
- character_set_connection
- 客戶(hù)端的字符集編碼
當(dāng)其一致時(shí)就可解決亂碼問(wèn)題。