自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<kbd id="2dzzm"><optgroup id="2dzzm"></optgroup></kbd>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

兩位巨佬吃了一頓晚飯，整個互聯(lián)網(wǎng)徹底被改變了！

作者：劉欣 2024-07-17 09:16:58

開發(fā) 前端

多字節(jié)編碼的每個字節(jié)的最高位永遠是 1，而 ASCII 字符編碼的最高位是 0，所以從根本上杜絕了編碼沖突。

1992年9月，一個周三的下午，貝爾實驗室。

Rob Pike (Go語言發(fā)明人之一) 正在操作系統(tǒng)Plan 9 上忙碌，這是繼Unix之后的一個大工程，馬上就要完工了，這個時候他突然接到了一個電話。

（年輕帥氣的Rob Pike）

電話是IBM的人打來的，他們正在奧斯汀參加X/Open 委員會會議，想請Rob Pike 和 Ken Thomson （Unix發(fā)明人）對他們設計的一個Unicode編碼進行評審。

Rob Pike知道X/Open委員會主要負責制定Unix上的標準規(guī)范，以便提高應用程序的在不同Unix變體上的移植性。

很明顯，這一次會議的主題是：編碼！

Rob Pike想到了自己正在忙活的操作系統(tǒng)Plan 9 ，為了支持全世界的語言如英文、中文、韓文、日文、阿拉伯文...... Plan 9 當然要用Unicode 。

(這貨怎么和Go的吉祥物長得如此之像？）

大家都知道Unicode只是規(guī)定了每個字符用什么編碼，但是沒有規(guī)定如何去存儲，當時Plan 9 采用了一個叫做ISO 10646 UTF編碼，但是這個編碼實在不怎么樣，按照Rob Pike的話說：我們恨這個編碼。

Rob 和 Ken 立刻意識到：機會來了！

Rob ：我們有豐富的經(jīng)驗，為什么不設計一個真正好用的Unicode存儲標準呢？

Ken ：同意，我們設計出來，把標準推廣的事情交給X/Open委員會。

倆人向IBM的人表達了這個想法，得到了支持，條件是：一定要快，快速設計、快速實現(xiàn)。

因為下周一就要投票表決了！

對于天才程序員來說，快速、高質(zhì)量把活兒搞定就是小菜一碟。

Ken ：還記得《老婆離家三周，我開發(fā)了一個操作系統(tǒng)嗎？》

他們倆慢悠悠地去餐廳吃飯，在吃飯期間，Ken 和 Rob就把基本的方案給設計出來了，這就是大名鼎鼎的UTF-8。

回到貝爾實驗室，他們就把想法寫成了提綱，發(fā)給了X/Open 委員會的人，委員會的回復是：

這比我們設計的版本好多了，你們什么時候能實現(xiàn)它？

Rob 和Ken 拍著胸脯說：放心吧，下周一肯定能有一個完整的、可以運行的實現(xiàn)。

當天晚上（周三），他們倆就卷起袖子干活， Ken 把packing和unpacking的代碼搞定， Rob則去折騰C和圖形庫相關的東西。

周四，所有的代碼都已完成，開始將Plan 9操作系統(tǒng)上的文本文件轉(zhuǎn)成UTF-8

周五，Plan 9 操作系統(tǒng)就已經(jīng)運行在UTF-8上面了。

實際花費不到三天！

這三天的工作成果最終統(tǒng)治了整個互聯(lián)網(wǎng)的編碼標準，統(tǒng)計顯示，現(xiàn)在96.8%的Web網(wǎng)站在使用UTF-8。

圖片

故事講完了，我們來看看為什么UTF-8能流行起來。

前面說過Unicode只是一個字符集，它規(guī)定了每個字符的二進制代碼，例如“碼” ，對應的Unicode 是7801 ，二進制是

111 1000 0000 0001

需要兩個字節(jié)來保存，如果表示其他更大范圍的字符，可能需要3個字節(jié)或者4個字節(jié)，甚至更多。

當計算機面對這兩個字節(jié)的字節(jié)流的時候，就會出現(xiàn)嚴重的問題：計算機怎么知道這兩個字節(jié)表示的是一個字符？還是兩個字符？

大家知道英文字母用一個字節(jié)保存就夠了，如果Unicode規(guī)定每個英文字符也用兩個字節(jié)或三個字節(jié)來保存，那每個英文字母前面勢必要補上0，文本文件要大兩到三倍。

這是巨大的浪費，肯定不行。

Rob和Ken的設計的UTF-8就比較聰明，看看這個表：

圖片

把Unicode 轉(zhuǎn)換成UTF-8，非常簡單，比如漢字“碼” ， Unicode 是7801 ，二進制是 111 1000 0000 0001

7801對應上圖的第三行，只要把二進制從右向左填到對應的“模板”中就行，不夠的補零

圖片

更多的細節(jié)就不展開了，關鍵要看看UTF-8有什么好處。

1. 兼容ASCII，表格中的第一行就是為ASCII所設。

多字節(jié)編碼的每個字節(jié)的最高位永遠是 1，而 ASCII 字符編碼的最高位是 0，所以從根本上杜絕了編碼沖突。

2. 第一個字節(jié)就指明了后續(xù)的長度

當程序面對一個字節(jié)流的時候，只需要讀出第一個字節(jié)最前面有幾個1 ，就知道這個字符的長度，解碼很方便。

圖片

3. 前綴碼

大家仔細觀察下， UTF-8中沒有任何合法字符是其他字符的前綴，這樣就帶來了一個好處：支持程序快速地跳過有問題的字節(jié)，然后正常解碼。

假設有兩個中文 “碼” 和 “農(nóng)”，對應的UTF-8編碼為E7A081(碼) and E5869C(農(nóng))。

但是網(wǎng)絡傳輸丟失了一些數(shù)據(jù)，變成了 E781 E5869C （即“碼”的A0丟失了）

現(xiàn)在程序先讀到了E7, 二進制是 1110 0111，它就知道這個字符應該是3字節(jié)的，并且后面的兩個字節(jié)都應該以10 開頭。

于是它就要再讀兩個字節(jié)，因為A0這個字節(jié)丟失了，程序讀到了81 和 E5。

程序就發(fā)現(xiàn)：

81 （二進制10000001）是符合規(guī)范的

E5(二進制11100101)的開始兩個bit不是10啊，這應該是另外一個字符的開始。

所以程序就判斷出有字符丟失了，可以丟棄剛讀到的E7 81 , 然后從E5開始讀取， E5 86 9C ，最終顯示“農(nóng)”字。

是不是很巧妙？

責任編輯：武曉燕來源：碼農(nóng)翻身

互聯(lián)網(wǎng)編碼多字節(jié)

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<big id="q6h1u"><code id="q6h1u"><option id="q6h1u"></option></code></big>

<center id="q6h1u"></center>