自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

圖解霍夫曼編碼,教不會(huì)我吃一包辣條

開發(fā) 前端
今天來(lái)給大家普及一下霍夫曼編碼(Huffman Coding),一種用于無(wú)損數(shù)據(jù)壓縮的熵編碼算法,由美國(guó)計(jì)算機(jī)科學(xué)家大衛(wèi)·霍夫曼在 1952 年提出——這么專業(yè)的解釋,不用問,來(lái)自維基百科了。

[[383731]]

今天來(lái)給大家普及一下霍夫曼編碼(Huffman Coding),一種用于無(wú)損數(shù)據(jù)壓縮的熵編碼算法,由美國(guó)計(jì)算機(jī)科學(xué)家大衛(wèi)·霍夫曼在 1952 年提出——這么專業(yè)的解釋,不用問,來(lái)自維基百科了。

說(shuō)實(shí)話,很早之前我就聽說(shuō)過(guò)霍夫曼編碼,除了知道它通常用于 GZIP、BZIP2、PKZIP 這些常規(guī)的壓縮格式中,我還知道它通常用于壓縮重復(fù)率比較高的字符數(shù)據(jù)。

大家想啊,英文就 26 個(gè)字母進(jìn)行的無(wú)限組合,重復(fù)率高得一逼啊!常用的漢字也不多,2500 個(gè)左右,別問我怎么知道的,我有問過(guò)搜索引擎的。

字符重復(fù)的頻率越高,霍夫曼編碼的工作效率就越高!

是時(shí)候,和大家一起來(lái)了解一下霍夫曼編碼的工作原理啦,畢竟一名優(yōu)秀的程序員要能做到知其然知其所以然——請(qǐng)?jiān)试S我又用了一次這句快用臭了話。

假設(shè)下面的字符串要通過(guò)網(wǎng)絡(luò)發(fā)送。

大家應(yīng)該知道,每個(gè)字符占 8 個(gè)比特,上面這串字符總共有 15 個(gè)字符,所以一共要占用 15*8=120 個(gè)比特。沒有疑問吧?有疑問的同學(xué)請(qǐng)不好意思下。

如果我們使用霍夫曼編碼的話,就可以將這串字符壓縮到一個(gè)更小的尺寸。怎么做到的呢?

霍夫曼編碼首先會(huì)使用字符的頻率創(chuàng)建一棵樹,然后通過(guò)這個(gè)樹的結(jié)構(gòu)為每個(gè)字符生成一個(gè)特定的編碼,出現(xiàn)頻率高的字符使用較短的編碼,出現(xiàn)頻率低的則使用較長(zhǎng)的編碼,這樣就會(huì)使編碼之后的字符串平均長(zhǎng)度降低,從而達(dá)到數(shù)據(jù)無(wú)損壓縮的目的。

拿上面這串初始字符來(lái)一步步的說(shuō)明下霍夫曼編碼的工作步驟。

第一步,計(jì)算字符串中每個(gè)字符的頻率。

B 出現(xiàn) 1 次,C 出現(xiàn) 6 次,A 出現(xiàn) 5 次,D 出現(xiàn) 3 次。

第二步,按照字符出現(xiàn)的頻率進(jìn)行排序,組成一個(gè)隊(duì)列 Q。

出現(xiàn)頻率最低的在前面,出現(xiàn)頻率高的在后面。

第三步,把這些字符作為葉子節(jié)點(diǎn)開始構(gòu)建一顆樹。首先創(chuàng)建一個(gè)空節(jié)點(diǎn) z,將最小頻率的字符分配給 z 的左側(cè),并將頻率排在第二位的分配給 z 的右側(cè),然后將 z 賦值為兩個(gè)字符頻率的和。

B 的頻率最小,所以在左側(cè),然后是頻率為 3 的 D,在右側(cè);然后把它們的父節(jié)點(diǎn)的值設(shè)為 4,子節(jié)點(diǎn)的頻率之和。

然后從隊(duì)列 Q 中刪除 B 和 D,并將它們的和添加到隊(duì)列中,上圖中 * 表示的位置。緊接著,重新創(chuàng)建一個(gè)空的節(jié)點(diǎn) z,并將 4 作為左側(cè)的節(jié)點(diǎn),頻率為 5 的 A 作為右側(cè)的節(jié)點(diǎn),4 與 5 的和作為父節(jié)點(diǎn)。

繼續(xù)按照之前的思路構(gòu)建樹,直到所有的字符都出現(xiàn)在樹的節(jié)點(diǎn)中。

第四步,對(duì)于每個(gè)非葉子節(jié)點(diǎn),將 0 分配給連接線的左側(cè),1 分配給連接線的右側(cè)。此時(shí),霍夫曼樹就構(gòu)建完成了。霍夫曼樹又稱為最優(yōu)二叉樹,是一種帶權(quán)路徑長(zhǎng)度最短的二叉樹。

當(dāng)樹構(gòu)建完畢后,我們來(lái)統(tǒng)計(jì)一下要發(fā)送的比特?cái)?shù)。

1)來(lái)看字符這一列。四個(gè)字符 A、B、C、D 共計(jì) 4*8=32 比特。每個(gè)英文字母均占用一個(gè)字節(jié),即 8 個(gè)比特。

2)來(lái)看頻率這一列。A 5 次,B 1 次,C 6 次,D 3 次,一共 15 比特。

3)來(lái)看編碼這一列。A 的編碼為 11,對(duì)應(yīng)霍夫曼樹上的 15→9→5,也就是說(shuō),從根節(jié)點(diǎn)走到葉子節(jié)點(diǎn) A,需要經(jīng)過(guò) 11 這條路徑;對(duì)應(yīng)的 B 需要走過(guò) 100 這條路徑;對(duì)應(yīng)的 D 需要走過(guò) 101 這條路徑;對(duì)應(yīng)的 C 需要走過(guò) 0 這條路徑。

4)來(lái)看長(zhǎng)度這一列。A 的編碼為 11,出現(xiàn)了 5 次,因此占用 10 個(gè)比特,即 1111111111;B 的編碼為 100,出現(xiàn)了 1 次,因此占用 3 個(gè)比特,即 100;C 的編碼為 0,出現(xiàn)了 6 次,因此占用 6 個(gè)比特,即 000000;D 的編碼為 101,出現(xiàn)了 3 次,因此占用 9 個(gè)比特,即 101101101。

哈夫曼編碼從本質(zhì)上講,是將最寶貴的資源(最短的編碼)給出現(xiàn)概率最多的數(shù)據(jù)。在上面的例子中,C 出現(xiàn)的頻率最高,它的編碼為 0,就省下了不少空間。

結(jié)合生活中的一些情況想一下,也是這樣,我們把最常用的放在手邊,這樣就能提高效率,節(jié)約時(shí)間。所以,我有一個(gè)大膽的猜想,霍夫曼就是這樣發(fā)現(xiàn)編碼的最優(yōu)解的。

在沒有經(jīng)過(guò)霍夫曼編碼之前,字符串“BCAADDDCCACACAC”的二進(jìn)制為:

  1. 10000100100001101000001010000010100010001000100010001000100001101000011010000010100001101000001010000110100000101000011 

也就是占了 120 比特。

編碼之后為:

  1. 0000001001011011011111111111 

占了 28 比特。

但考慮到解碼,需要把霍夫曼樹的結(jié)構(gòu)也傳遞過(guò)去,于是字符占用的 32 比特和頻率占用的 15 比特也需要傳遞過(guò)去??傮w上,編碼后比特?cái)?shù)為 32 + 15 + 28 = 75,比 120 比特少了 45 個(gè),效率還是非常高的。

關(guān)于霍夫曼編碼的 Java 示例,我在這里也貼出來(lái)一下,供大家參考。

  1. class HuffmanNode { 
  2.     int item; 
  3.     char c; 
  4.     HuffmanNode left
  5.     HuffmanNode right
  6.  
  7. class ImplementComparator implements Comparator<HuffmanNode> { 
  8.     public int compare(HuffmanNode x, HuffmanNode y) { 
  9.         return x.item - y.item; 
  10.     } 
  11.  
  12. public class Huffman { 
  13.     public static void printCode(HuffmanNode root, String s) { 
  14.         if (root.left == null && root.right == null && Character.isLetter(root.c)) { 
  15.  
  16.             System.out.println(root.c + "   |  " + s); 
  17.  
  18.             return
  19.         } 
  20.         printCode(root.left, s + "0"); 
  21.         printCode(root.right, s + "1"); 
  22.     } 
  23.  
  24.     public static void main(String[] args) { 
  25.         int n = 4; 
  26.         char[] charArray = { 'A''B''C''D' }; 
  27.         int[] charfreq = { 5, 1, 6, 3 }; 
  28.  
  29.         PriorityQueue<HuffmanNode> q = new PriorityQueue<HuffmanNode>(n, new ImplementComparator()); 
  30.  
  31.         for (int i = 0; i < n; i++) { 
  32.             HuffmanNode hn = new HuffmanNode(); 
  33.  
  34.             hn.c = charArray[i]; 
  35.             hn.item = charfreq[i]; 
  36.  
  37.             hn.left = null
  38.             hn.right = null
  39.  
  40.             q.add(hn); 
  41.         } 
  42.  
  43.         HuffmanNode root = null
  44.  
  45.         while (q.size() > 1) { 
  46.  
  47.             HuffmanNode x = q.peek(); 
  48.             q.poll(); 
  49.  
  50.             HuffmanNode y = q.peek(); 
  51.             q.poll(); 
  52.  
  53.             HuffmanNode f = new HuffmanNode(); 
  54.  
  55.             f.item = x.item + y.item; 
  56.             f.c = '-'
  57.             f.left = x; 
  58.             f.right = y; 
  59.             root = f; 
  60.  
  61.             q.add(f); 
  62.         } 
  63.         System.out.println(" 字符 | 霍夫曼編碼 "); 
  64.         System.out.println("--------------------"); 
  65.         printCode(root, ""); 
  66.     } 

本例的輸出結(jié)果如下所示:

  1. 字符 | 霍夫曼編碼  
  2. -------------------- 
  3. C   |  0 
  4. B   |  100 
  5. D   |  101 
  6. A   |  11 

給大家留個(gè)作業(yè)題吧,考慮一下霍夫曼編碼的時(shí)間復(fù)雜度,知道的同學(xué)可以在留言區(qū)給出答案哈。

搞定,我敢肯定辣條不用吃了——因?yàn)榇蠹铱隙ǘ紝W(xué)會(huì)了。我是愛學(xué)習(xí)愛美貌的沉默王二,我們下期見,see you~

本文轉(zhuǎn)載自微信公眾號(hào)「沉默王二」,可以通過(guò)以下二維碼關(guān)注。轉(zhuǎn)載本文請(qǐng)聯(lián)系沉默王二公眾號(hào)。

 

責(zé)任編輯:武曉燕 來(lái)源: 沉默王二
相關(guān)推薦

2021-07-07 06:54:37

網(wǎng)頁(yè)Selenium瀏覽器

2024-07-29 09:49:00

SQLMySQL執(zhí)行

2022-01-03 18:24:50

密碼單詞摩爾斯

2018-05-14 08:33:06

比賽數(shù)據(jù)攻略

2010-10-15 13:57:55

MySQL源碼安裝

2017-01-10 14:02:08

程序員黑歷史

2015-07-06 10:29:04

NTT電信AWSOpenStack

2020-10-23 12:58:21

開發(fā)編碼代碼

2020-07-01 09:07:52

SQL索引語(yǔ)句

2009-08-04 14:14:11

C#編碼標(biāo)準(zhǔn)

2016-04-28 09:36:44

人才教育/華三

2025-04-08 11:30:00

DIM數(shù)據(jù)倉(cāng)庫(kù)架構(gòu)

2022-08-01 07:07:41

TCP協(xié)議后端

2020-02-22 21:45:00

TypeScriptJavaScript瀏覽器

2019-01-23 11:17:22

電腦程序員工作

2013-01-10 10:05:29

編程面向?qū)ο缶幊?/a>

2009-09-01 17:04:47

C#編碼標(biāo)準(zhǔn)

2009-02-18 11:24:24

優(yōu)化加速PHP

2010-09-29 13:44:19

DHCP工程抓包

2011-08-17 17:11:15

Windows7主題包
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)