自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<nobr id="bgye0"></nobr>

<blockquote id="bgye0"></blockquote>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

漫談.NET開發(fā)中的字符串編碼

作者：金旭亮 2010-11-25 15:59:33

開發(fā) 后端

本文將向讀者介紹將字符串對象的序列化，編碼方面的問題希望能引起大家的重視，以更方便把它們保存到文件流（FileStream）中。

說明：

在《.NET 4.0面向?qū)ο缶幊搪劇坊A(chǔ)篇《13.2.1 序列化與流》中，向大家介紹了如何向流中序列化一個對象。

本篇擴充閱讀將向讀者介紹將字符串對象的序列化，這里面的關(guān)鍵是字符串應(yīng)該如何編碼和解碼為二進制數(shù)值，從而可以把它們保存到文件流（FileStream）中，或者通過網(wǎng)絡(luò)流（NetworkStream）將它們遠(yuǎn)程發(fā)送到另一臺計算機上。

1 引子

在實際開發(fā)中，經(jīng)常需要將一些字符串寫入到文本文件中，或者從文本文件中讀入字符串，在.NET應(yīng)用程序中，通常使用StreamReader或StreamWriter兩個類完成這一工作，比如以下代碼將fileContent字串寫入到FileName文件中：

static void WriteFileUseStreamWriter(String fileContent, String FileName)  
{  
　　using (StreamWriter writer = new StreamWriter(FileName))  
　　{  
　　　　writer.Write(fileContent);  
　　}  
}

如果你使用.NET基類庫中相關(guān)類（比如StreamReader或下面用到的File類）去讀取這個文件，你會發(fā)現(xiàn)一切如你所愿地正常運轉(zhuǎn)：

WriteFileUseStreamWriter("中國ab", "test.txt");  
Console.WriteLine(File.ReadAllText("test.txt"));  //輸出：“中國ab”

由于多數(shù)情況下我們都工作在中文Windows下，而且往往都是某個.NET程序?qū)懀硪粋€.NET程序讀，所以，不少.NET程序員可能都沒注意到這其中其實存在著一個字符編碼的問題，在特定的場合下，這一問題會給我們帶來麻煩。

請看圖1：

圖 1 記事本支持的編碼方式

默認(rèn)情況下，Windows記事本以ANSI編碼方式保存文件。如圖1所示，如果文本內(nèi)容為“中國ab”，記事本將其以ASNI方式保存為“test.txt”，則以下代碼將“罷工”了（參看圖2）：

Console.WriteLine(File.ReadAllText("test.txt"));

圖 2 漢字將顯示為亂碼

如圖 2所示，F(xiàn)ile.ReadAllText方法打開“test.txt”文件時，會發(fā)現(xiàn)英文字符可以正常顯示，但中文將顯示為亂碼。

2 了解字符的編碼

我們可以做個試驗，使用記事本將“中國ab”這個中英混雜的字符串以不同編碼方式保存為多個“.txt”文件，然后直接查看其二進制內(nèi)容

圖 3 比對字符編碼

圖 3展示了“中國ab”按四種編碼方式（ANSI、UTF8、Unicode、Unicode Big Endian）得到的不同二進制數(shù)據(jù)。

以英文字符“a”為例，ANSI和UTF8得到的數(shù)值都是“61”，但Unicode將它擴充為2個字節(jié)16位的二進制（“61 00”和“00 61”），所以我們又將這種編碼方式稱為UTF-16。

UTF-16又可以細(xì)分為2種編碼方式：Big Endian方式與Little_Edian方式，這兩者的唯一區(qū)別在于字節(jié)排列順序剛好相反， Little_Edian方式將“a”編碼為“61 00”，而Big Endian方式則編碼為“00 61”。

現(xiàn)在看看中文字符，“中國”兩個漢字，ANSI編碼為“D6 D0 B9 FA”，4個字節(jié)，一個漢字占兩個字節(jié)，而UTF8則編碼為“E4 B8 AD E5 9B BD”，6個字節(jié)，一個漢字占3個字節(jié)！這說明UTF8是一種“變長”的編碼，可能使用1~4個字節(jié)來表示某個字符。

另外，我們看到UTF8和Unicode編碼（不管是Big Endian還是Little Endian）前面都有幾個標(biāo)記字符，這些字符放在文本文件的開頭，稱為“BOM（Byte Order Mark，字節(jié)順序標(biāo)記）”指明了文本的編碼方式，以下是.NET程序中常見的字符編碼方式的BOM值：

編碼	BOM值
UTF-8	EF BB BF
UTF-16 big endian	FE FF
UTF-16 little endian	FF FE
UTF-32 big endian	00 00 FE FF
UTF-32 little endian	FF FE 00 00

了解了上述基礎(chǔ)知識，我們就可以依據(jù)BOM值自動檢測字符串的編碼方式，從而正確從二進制數(shù)據(jù)流中解碼，以下代碼檢測文本二進制數(shù)據(jù)是否采用UTF8編碼：

//打開文件讀取二進制數(shù)據(jù)  
byte[] FileContents = File.ReadAllBytes(FilePath);  
int filelength = FileContents.Length;  
//檢測BOM  
if (FileContents[0] == 0xef && FileContents[1] == 0xbb && FileContents[2] == 0xbf)  
{    
   //按UTF8解碼字符串，注意要排除掉BOM占用的3個字節(jié)。  
   String content= Encoding.UTF8.GetString( FileContents, 3, filelength - 3);  
   Console.WriteLine(content);  
}

其他的編碼方式都可以“依樣畫葫蘆”。

3 詳解.NET基類庫中與字符編碼相關(guān)的類

前述代碼中的Encoding類是.NET實現(xiàn)字符編碼解碼的核心類型。圖4展示了它的屬性：

圖 4 Encoding類型

如圖4所示，Encoding類型提供了UTF8、Unicode等編碼和解碼器，調(diào)用它的Get系列方法完成編碼和解碼工作，以下為示例代碼：

//編碼  
byte[] bytes = Encoding.UTF8.GetBytes("中國ab");  
foreach (byte value in bytes)  
   Console.Write(" {0}", value.ToString("x")); //轉(zhuǎn)化為16進制  
Console.WriteLine();  
//解碼  
char[] chars = Encoding.UTF8.GetChars(bytes);  
foreach (char ch in chars)  
    Console.Write(" {0}", ch);

運行結(jié)果如下：

圖5 編碼和解碼

需要注意的是上述二進制值不包括BOM。

事實上，.NET中的StreamWriter默認(rèn)采用UTF8編碼格式編碼字符串，但并不將UTF8所對應(yīng)的BOM值（“EF BB BF”）寫入到二進制流中。以下是StreamWriter的一個構(gòu)造函數(shù)聲明：

public StreamWriter(string path) : this(path, false, UTF8NoBOM, 0x400)  
{    }

類似地，F(xiàn)ile.ReadAllText()方法在內(nèi)部使用UTF8來讀取指定文件中的字符串：

public static string ReadAllText(string path)  
{  
    //……  
    return InternalReadAllText(path, Encoding.UTF8);  
}

由于默認(rèn)編碼方式一致，所以配套使用StreamWriter和File.ReadAllText()方法可以正確地從流中存取字符串。

出于提升代碼可維護性考慮，正確的用法應(yīng)該是明確地指明編碼方式：

static void WriteFileUseStreamWriterUseUTF8(String fileContent, String FileName)  
{  
    using (StreamWriter writer = new StreamWriter(FileName, false, Encoding.UTF8))  
    {  
                   writer.Write(fileContent);  
    }  
}

這時，StreamWriter會在文件開頭寫入UTF8的BOM標(biāo)記，從而讓其他的應(yīng)用程序可以很明確地知道本文件中字符串的編碼方式。

4 談?wù)動腥さ腅ncoding.Default屬性

Encoding類中有一個有趣的Default屬性，它的類型很奇怪，叫作“DBCSCodePageEncoding”，這個類型在MSDN中是查不到的。

“DBCS”代表“double-byte character set（雙字節(jié)字符集）”，它是與“SBCS（single-byte character set，單字節(jié)字符集）”相對應(yīng)的，SBCS中，所有字符都只占一個字節(jié)，所以能表示的字符數(shù)有限，但在DBCS中，英文字母占一個字節(jié)，漢字等特殊字符占有兩個字節(jié)，從而擴充了Windows能顯示的字符數(shù)量。

DBCSCodePageEncoding中的“Code Page”被稱為“代碼頁”，每個代碼頁定義了特定的編碼將如何對應(yīng)于特定的字符（比如簡體和繁體中文就分別定義在不同的代碼頁中），因此，同樣的二進制數(shù)值，在不同的代碼頁中，會代表不同的字符。中文Windows通過使用基于代碼頁的DBCS編碼方式，可以方便地以多種編碼方式顯示和處理字符串。

我們在MSDN中可以查到所有代碼頁的編號，下面列出了可能比較常用的代碼頁標(biāo)識：

代碼頁標(biāo)識值	.NET中的名字
936	gb2312
950	big5
1200	utf-16
52936	hz-gb-2312
54936	GB18030
65000	utf-7
65001	utf-8

.NET應(yīng)用程序可以通過以下方式獲取指定代碼頁的編碼對象：

Encoding encode=Encoding.GetEncoding(CodePage);

以下代碼將按照指定代碼頁編碼字符串，并將其寫入到文件中：

static void WriteFileUseStreamWriterUseCodePage(String fileContent,String FileName,int CodePage)  
{  
   using (StreamWriter writer = new StreamWriter(FileName, false, Encoding.GetEncoding(CodePage)))  
   {  
        writer.Write(fileContent);  
   }  
}

現(xiàn)在，使用以下代碼將按照UTF8編碼字符串：

WriteFileUseStreamWriterUseCodePage("中國ab", "test.txt", 65001);

5 結(jié)束語

除了本文所介紹的將字符串保存到文本文件的這種場景，字符串的編碼方式在基于套接字的TCP/UDP網(wǎng)絡(luò)編程也非常重要，比如.NET提供了一個NetworkStream封裝Socket實現(xiàn)網(wǎng)絡(luò)通訊，如果希望將一個命令字符串從客戶端送到服務(wù)端，服務(wù)端通過讀取這個字符串完成特定的工作，則編碼方式就很重要了，客戶端與服務(wù)端必須采用一致的編碼方式傳送命令，否則，網(wǎng)絡(luò)服務(wù)就有可能因為無法解析客戶端發(fā)送過來的數(shù)據(jù)而Down掉。有關(guān)網(wǎng)絡(luò)編程的內(nèi)容很有趣，我的下一篇文章會介紹.NET套接字編程。

好了，這篇介紹字符串編碼的短文寫完了，希望本文能對讀者有所幫助，如有錯誤，敬請指正。

原文鏈接：http://www.cnblogs.com/bitfan/archive/2010/11/25/1887590.html

【編輯推薦】

.NET Framework字符串相關(guān)操作細(xì)節(jié)介紹
詳解.NET字符串解析的具體過程
改進C#連接字符串的性能
.NET Lambda表達式的語義：字符串列表范例
C#字符串的幾種常用方法

責(zé)任編輯：彭凡來源：博客園

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營