自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

你 UTF-8 亂碼，關(guān)我 Unicode 什么事

作者：風(fēng)箏 2023-12-08 08:18:41

開發(fā) 前端

相信很多同學(xué)也有類似的經(jīng)歷，并且在查找解決辦法的過程中會碰到 UTF-8、Unicode、GBK、GB2312 等等一堆的代號。之后呢，通過復(fù)制粘貼順利的解決問題。

平時開發(fā)的時候，相信很多人都碰到過亂碼的問題，尤其是中文亂碼。多年以前，我學(xué) Python 的時候碰到的第一個難題就是亂碼問題，差點(diǎn)《從入門到放棄了》。

當(dāng)時就是寫一段 Python 的 Hello World 程序，只不過是把 Hello World 換成了中文輸出，結(jié)果你猜怎么著？亂碼了。

后來發(fā)現(xiàn)是因為 ASCII 編碼和 UTF-8 的問題，Python 默認(rèn)使用了 ASCII ，而我寫的中文并不包含在 ASCII 碼范圍內(nèi)，要改成 UTF-8。就是在 Python 文件的開頭加入下面這一行。

# -*- coding:utf-8 -*-

由于當(dāng)時這個亂碼問題印象深刻，以至于多年之后，雖然很長時間不怎么寫 Python了，但這一行代碼我仍然能夠快速的敲出來，并且一個空格都不差。

相信很多同學(xué)也有類似的經(jīng)歷，并且在查找解決辦法的過程中會碰到 UTF-8、Unicode、GBK、GB2312 等等一堆的代號。之后呢，通過復(fù)制粘貼順利的解決問題。

今天，我們就來理一理 Unicode 和 UTF-8 ，以及其他各種各樣的代號之間的關(guān)系。

Unicode - 統(tǒng)一碼

始皇嬴政“車同軌，書同文，統(tǒng)一度量衡”的目的是什么，就是為了統(tǒng)一標(biāo)準(zhǔn)，就是現(xiàn)在的ISO國際標(biāo)準(zhǔn)啊。

Unicode 真正做到了“書同文”的計算機(jī)語言標(biāo)準(zhǔn)，所以 Unicode 也叫統(tǒng)一碼、萬國碼。Unicode 也是在不斷更新的，過一段時間就要把新形成的文字加進(jìn)去，比如 emoj 字符（[愛心][慶祝]）。就算有一天外星人來了，也得把外星人的文字加進(jìn)去。到時候可能就得改名字叫太陽系碼、宇宙碼了。

Unicode 是一種計算機(jī)字符集標(biāo)準(zhǔn)，它就像是一部世界通用的字典，里面包含了幾乎所有的文字集合，包括中文、英文、拉丁文、希臘文等等，以及每一種語言中的符號。

阿拉伯?dāng)?shù)字「0」的 Unicode 碼就是 U+0030，漢字「中」的 Unicode 碼就是 U+4E2D，這是固定不變的，符號U+是為了表示這是 Unicode 字符。

你翻開這個字典，找到第0030頁，里面就寫這阿拉伯?dāng)?shù)字「0」，翻開第4E2D頁，上面就寫著漢字「中」。Unicode 碼是用十六進(jìn)制表示的，0030是十六進(jìn)制的0x0030，4E2D是十六進(jìn)制的 0x4E2D。

下面這幅圖，假設(shè)右上角有一盞燈，照著上層深顏色的 Unicode 碼，透過Unicode碼，投影出來的就是對應(yīng)的具體字符。（比如做一個旁白，沒有美術(shù)功底，效果做的不太行）。

圖片

Unicode 字符映射

Unicode 其實就是用十六進(jìn)制的 0x0000到0x10FFFF 這個范圍內(nèi)的數(shù)字表示的。實際上，是根本用不到這么多的?？聪旅孢@個表格，Unicode 被分為17個 Plane（平面），每個平面都有自己的功能，并且大多數(shù)平面都是不使用或者很少使用的。

圖片

通常我們用到的字符都是在第0號平面的，也叫基本多文種平面，也就是0x0000到0xFFFF這個區(qū)間內(nèi)的。這個區(qū)間能表示2的16次方個字符，也就是65536個。拉丁文、常用的東亞文字都在這個區(qū)間內(nèi)。

為什么是65536個呢。一位16進(jìn)制表示4位2進(jìn)制，所以4位16進(jìn)制，正好是二進(jìn)制的16位，剛好可以表示2的16次方個數(shù)字，也就是65536個。

圖片

16個平面怎么來的呢，就是在4位16進(jìn)制前面又加了兩位，但是只用到了 0x00到0x10這個區(qū)間表示平面，16進(jìn)制的10，剛好是16，從0到16，一共17個平面。

最常用的就是0號平面，但是1、2、3號平面也用到了一些，比如第2號平面就是放的一些罕見的漢字或地區(qū)方言用字，比如粵語的字喃。

至于那些未使用的平面，等將來有了類似于emoj這種字符種類越來越多，或者外星人來的時候用吧。

有了 Unicode 為什么還要 UTF-8

UTF-8 應(yīng)該是開發(fā)過程中接觸最多的代號了，讀寫文件、數(shù)據(jù)庫等等都會提到它。

UTF-8 全稱是 8-bit Unicode Transformation Format，這就清楚了吧，是用來轉(zhuǎn)編Unicode碼的。除了UTF-8外，還有UTF-16、UTF-32 ，以及中國的 GB 18030 等。

圖片

既然 Unicode 已經(jīng)包含了所有字符，為什么還要用 UTF-8進(jìn)行轉(zhuǎn)編呢，直接用 Unicode 碼不就好了嗎？原因就是如果用 Unicode 會浪費(fèi)過多的空間，比如 ASCII 碼用256位就能全部覆蓋了，但是如果用 Unicode 呢，會多出好多空間來。不便于存儲以及傳輸。

所以，Unicode 只制定標(biāo)準(zhǔn)，不做具體實現(xiàn)，具體的實現(xiàn)方式就要依靠 UTF-8、GB18030 這些了。

拿 UTF-8 來說，它是一種可變長字符編碼，用ASCII碼能表示的就直接用ASCII碼，不行的再想辦法，主打一個能省則省。

可以用文本編輯器測試一下，寫一個英文字母，用 UTF-8 編碼保存，大小是1個字節(jié)。而如果寫一個漢字呢，就是3個字節(jié)。

同樣的，UTF-16、UTF-32都有自己的一套編碼方式，宗旨就是為了減小體積，提高效率。

為什么就亂碼了呢

你可以在記事本中寫入一個漢字，然后將編碼格式保存為 ANSI 。

圖片

然后用其他的工具打開（不要用windows的記事本或?qū)懽职?，它倆會自動識別），我用 Sublime Text 打開，顯示的就是亂碼。

圖片

這是因為將中文用 ASCII 編碼了，而ASCII字符集中根本不存在中文字符，存的什么東西也不知道。當(dāng)其他工具用 UTF-8 編碼準(zhǔn)備展示的時候，發(fā)現(xiàn)這存的什么東西，它根本不認(rèn)識啊。最終顯示出來的只能是亂碼。

如下圖所示，分別用 GB18030 和 UTF-8 對Unicode進(jìn)行編碼，無論你最后是在瀏覽器還是其他的應(yīng)用程序內(nèi)，只要支持對應(yīng)的編碼，都可以正確的解析出對應(yīng)的字符。

圖片

而如果你將 UTF-8 編碼的字符，用其他的編碼方式進(jìn)行解碼，那大概就沒那么順利了，出來的很可能是亂碼。例如下面這個，將UTF-8編碼后的E4B8AD 用 TMD-8(瞎說的)進(jìn)行解碼，那出來就是????。

圖片

GB2312、GB18030

此外，我們肯定還聽說過 GB2312、GB18030，那它們又是什么呢？

GB18030是GB2312的擴(kuò)展版本（升級版），現(xiàn)在的標(biāo)準(zhǔn)就是GB18030，GB2312 可以不再使用了。

GB2312和GB18030即是字符集，又同時是編碼方式。

以前GB2312是專門為了中文以及少數(shù)民族字符設(shè)計的，隨著不斷的擴(kuò)充，GB18030已經(jīng)支持 Unicode 字符集了。

總結(jié)

Unicode 是字符集，不是編碼方式，只是一個標(biāo)準(zhǔn)。
而 UTF-8、UTF-16 是專門針對于 Unicode 的編碼方式，用于存儲和傳輸。
對于純中文的場景，也可以用GB18030。
如果沒有特殊要求，最好還是用 UTF-8 編碼，放之四海而皆準(zhǔn)，沒壞處。

責(zé)任編輯：武曉燕來源：古時的風(fēng)箏

代號 Unicode UTF-8

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<em id="ibv4u"></em>

<style id="ibv4u"><source id="ibv4u"><dfn id="ibv4u"></dfn></source></style>