自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

為什么不建議在MySQL中使用 UTF8 ？

作者： Guide哥 2021-10-13 14:06:46

數(shù)據(jù)庫(kù) MySQL

字符是各種文字和符號(hào)的統(tǒng)稱，包括各個(gè)國(guó)家文字、標(biāo)點(diǎn)符號(hào)、表情、數(shù)字等等。字符集就是一系列字符的集合。字符集的種類較多，每個(gè)字符集可以表示的字符范圍通常不同，就比如說(shuō)有些字符集是無(wú)法表示漢字的。

本文轉(zhuǎn)載自微信公眾號(hào)「JavaGuide」，作者Guide哥。轉(zhuǎn)載本文請(qǐng)聯(lián)系JavaGuide公眾號(hào)。

MySQL 字符編碼集中有兩套 UTF-8 編碼實(shí)現(xiàn)：utf8 和 utf8mb4。

如果使用 utf8 的話，存儲(chǔ) emoji 符號(hào)和一些比較復(fù)雜的漢字、繁體字就會(huì)出錯(cuò)。

為什么會(huì)這樣呢?這篇文章可以從源頭給你解答。

何為字符集?

字符是各種文字和符號(hào)的統(tǒng)稱，包括各個(gè)國(guó)家文字、標(biāo)點(diǎn)符號(hào)、表情、數(shù)字等等。字符集就是一系列字符的集合。字符集的種類較多，每個(gè)字符集可以表示的字符范圍通常不同，就比如說(shuō)有些字符集是無(wú)法表示漢字的。

計(jì)算機(jī)只能存儲(chǔ)二進(jìn)制的數(shù)據(jù)，那英文、漢字、表情等字符應(yīng)該如何存儲(chǔ)呢?

我們要將這些字符和二級(jí)制的數(shù)據(jù)一一對(duì)應(yīng)起來(lái)，比如說(shuō)字符“a”對(duì)應(yīng)“01100001”，反之，“01100001”對(duì)應(yīng) “a”。我們將字符對(duì)應(yīng)二進(jìn)制數(shù)據(jù)的過(guò)程稱為"字符編碼"，反之，二進(jìn)制數(shù)據(jù)解析成字符的過(guò)程稱為“字符解碼”。

有哪些常見(jiàn)的字符集?

常見(jiàn)的字符集有 ASCII、GB2312、GBK、UTF-8......。

不同的字符集的主要區(qū)別在于：

可以表示的字符范圍
編碼方式

ASCII

ASCII (American Standard Code for Information Interchange，美國(guó)信息交換標(biāo)準(zhǔn)代碼) 是一套主要用于現(xiàn)代美國(guó)英語(yǔ)的字符集(這也是 ASCII 字符集的局限性所在)。

為什么 ASCII 字符集沒(méi)有考慮到中文等其他字符呢? 因?yàn)橛?jì)算機(jī)是美國(guó)人發(fā)明的，當(dāng)時(shí)，計(jì)算機(jī)的發(fā)展還處于比較雛形的時(shí)代，還未在其他國(guó)家大規(guī)模使用。因此，美國(guó)發(fā)布 ASCII 字符集的時(shí)候沒(méi)有考慮兼容其他國(guó)家的語(yǔ)言。

ASCII 字符集至今為止共定義了 128 個(gè)字符，其中有 33 個(gè)控制字符(比如回車(chē)、刪除)無(wú)法顯示。

一個(gè) ASCII 碼長(zhǎng)度是一個(gè)字節(jié)也就是 8 個(gè) bit，比如“a”對(duì)應(yīng)的 ASCII 碼是“01100001”。不過(guò)，最高位是 0 僅僅作為校驗(yàn)位，其余 7 位使用 0 和 1 進(jìn)行組合，所以，ASCII 字符集可以定義 128(2^7)個(gè)字符。

由于，ASCII 碼可以表示的字符實(shí)在是太少了。后來(lái)，人們對(duì)其進(jìn)行了擴(kuò)展得到了 ASCII 擴(kuò)展字符集。ASCII 擴(kuò)展字符集使用 8 位(bits)表示一個(gè)字符，所以，ASCII 擴(kuò)展字符集可以定義 256(2^8)個(gè)字符。

ASCII字符編碼

GB2312

我們上面說(shuō)了，ASCII 字符集是一種現(xiàn)代美國(guó)英語(yǔ)適用的字符集。因此，很多國(guó)家都搗鼓了一個(gè)適合自己國(guó)家語(yǔ)言的字符集。

GB2312 字符集是一種對(duì)漢字比較友好的字符集，共收錄 6700 多個(gè)漢字，基本涵蓋了絕大部分常用漢字。不過(guò)，GB2312 字符集不支持絕大部分的生僻字和繁體字。

對(duì)于英語(yǔ)字符，GB2312 編碼和 ASCII 碼是相同的，1 字節(jié)編碼即可。對(duì)于非英字符，需要 2 字節(jié)編碼。

GBK

GBK 字符集可以看作是 GB2312 字符集的擴(kuò)展，兼容 GB2312 字符集，共收錄了 20000 多個(gè)漢字。

GBK 中 K 是漢語(yǔ)拼音 Kuo Zhan(擴(kuò)展)中的“Kuo”的首字母。

GB18030

GB18030 完全兼容 GB2312 和 GBK 字符集，納入中國(guó)國(guó)內(nèi)少數(shù)民族的文字，且收錄了日韓漢字，是目前為止最全面的漢字字符集，共收錄漢字 70000 多個(gè)。

BIG5

BIG5 主要針對(duì)的是繁體中文，收錄了 13000 多個(gè)漢字。

Unicode & UTF-8 編碼

為了更加適合本國(guó)語(yǔ)言，誕生了很多種字符集。

我們上面也說(shuō)了不同的字符集可以表示的字符范圍以及編碼規(guī)則存在差異。這就導(dǎo)致了一個(gè)非常嚴(yán)重的問(wèn)題：使用錯(cuò)誤的編碼方式查看一個(gè)包含字符的文件就會(huì)產(chǎn)生亂碼現(xiàn)象。

就比如說(shuō)你使用 UTF-8 編碼方式打開(kāi) GB2312 編碼格式的文件就會(huì)出現(xiàn)亂碼。示例：“牛”這個(gè)漢字 GB2312 編碼后的十六進(jìn)制數(shù)值為 “C5A3”，而 “C5A3” 用 UTF-8 解碼之后得到的卻是 “?”。

你可以通過(guò)這個(gè)網(wǎng)站在線進(jìn)行編碼和解碼：https://www.haomeili.net/HanZi/ZiFuBianMaZhuanHuan

這樣我們就搞懂了亂碼的本質(zhì)：編碼和解碼時(shí)用了不同或者不兼容的字符集。

為了解決這個(gè)問(wèn)題，人們就想：“如果我們能夠有一種字符集將世界上所有的字符都納入其中就好了!”。

然后，Unicode 帶著這個(gè)使命誕生了。

Unicode 字符集中包含了世界上幾乎所有已知的字符。不過(guò)，Unicode 字符集并沒(méi)有規(guī)定如何存儲(chǔ)這些字符(也就是如何使用二級(jí)制數(shù)據(jù)表示這些字符)。

然后，就有了 UTF-8(8-bit Unicode Transformation Format)。類似的還有 UTF-16、 UTF-32。

UTF-8 使用 1 到 4 個(gè)字節(jié)為每個(gè)字符編碼， UTF-16 使用 2 或 4 個(gè)字節(jié)為每個(gè)字符編碼，UTF-32 固定位 4 個(gè)字節(jié)為每個(gè)字符編碼。

UTF-8 可以根據(jù)不同的符號(hào)自動(dòng)選擇編碼的長(zhǎng)短，像英文字符只需要 1 個(gè)字節(jié)就夠了，這一點(diǎn) ASCII 字符集一樣。因此，對(duì)于英語(yǔ)字符，UTF-8 編碼和 ASCII 碼是相同的。

UTF-32 的規(guī)則最簡(jiǎn)單，不過(guò)缺陷也比較明顯，對(duì)于英文字母這類字符消耗的空間是 UTF-8 的 4 倍之多。

UTF-8 是目前使用最廣的一種字符編碼。

MySQL 字符集

MySQL 支持很多種字符編碼的方式，比如 UTF-8、GB2312、GBK、BIG5。

你可以通過(guò) SHOW CHARSET 命令來(lái)查看。

通常情況下，我們建議使用 UTF-8 作為默認(rèn)的字符編碼方式。

不過(guò)，這里有一個(gè)小坑。

MySQL 字符編碼集中有兩套 UTF-8 編碼實(shí)現(xiàn)：

utf8 ：utf8編碼只支持1-3個(gè)字節(jié) 。在 utf8 編碼中，中文是占 3 個(gè)字節(jié)，其他數(shù)字、英文、符號(hào)占一個(gè)字節(jié)。但 emoji 符號(hào)占 4 個(gè)字節(jié)，一些較復(fù)雜的文字、繁體字也是 4 個(gè)字節(jié)。
utf8mb4 ：UTF-8 的完整實(shí)現(xiàn)，正版!最多支持使用 4 個(gè)字節(jié)表示字符，因此，可以用來(lái)存儲(chǔ) emoji 符號(hào)。

為什么有兩套 UTF-8 編碼實(shí)現(xiàn)呢? 原因如下：

因此，如果你需要存儲(chǔ)emoji類型的數(shù)據(jù)或者一些比較復(fù)雜的文字、繁體字到 MySQL 數(shù)據(jù)庫(kù)的話，數(shù)據(jù)庫(kù)的編碼一定要指定為utf8mb4 而不是utf8 ，要不然存儲(chǔ)的時(shí)候就會(huì)報(bào)錯(cuò)了。

演示一下吧!(環(huán)境：MySQL 5.7+)

建表語(yǔ)句如下，我們指定數(shù)據(jù)庫(kù) CHARSET 為 utf8 。

CREATE TABLE `user` ( 
  `id` varchar(66) CHARACTER SET utf8mb4 NOT NULL, 
  `name` varchar(33) CHARACTER SET utf8mb4 NOT NULL, 
  `phone` varchar(33) CHARACTER SET utf8mb4 DEFAULT NULL, 
  `password` varchar(100) CHARACTER SET utf8mb4 DEFAULT NULL 
) ENGINE=InnoDB DEFAULT CHARSET=utf8;

當(dāng)我們執(zhí)行下面的 insert 語(yǔ)句插入數(shù)據(jù)到數(shù)據(jù)庫(kù)時(shí)，果然報(bào)錯(cuò)!

INSERT INTO `user` (`id`, `name`, `phone`, `password`) 
VALUES 
 ('A00003', 'guide哥😘😘😘', '181631312312', '123456');

報(bào)錯(cuò)信息如下：

Incorrect string value: '\xF0\x9F\x98\x98\xF0\x9F...' for column 'name' at row 1

參考

字符集和字符編碼(Charset & Encoding)：https://www.cnblogs.com/skynet/archive/2011/05/03/2035105.html

十分鐘搞清字符集和字符編碼：http://cenalulu.github.io/linux/character-encoding/
Unicode-維基百科：https://zh.wikipedia.org/wiki/Unicode
GB2312-維基百科：https://zh.wikipedia.org/wiki/GB_2312
UTF-8-維基百科：https://zh.wikipedia.org/wiki/UTF-8
GB18030-維基百科: https://zh.wikipedia.org/wiki/GB_18030

責(zé)任編輯：武曉燕來(lái)源： JavaGuide

MySQL Utf8 符號(hào)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<cite id="t1ods"></cite>