自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

圖解霍夫曼編碼，教不會(huì)我吃一包辣條

作者：沉默王二 2021-02-26 05:25:49

開發(fā) 前端

今天來(lái)給大家普及一下霍夫曼編碼（Huffman Coding），一種用于無(wú)損數(shù)據(jù)壓縮的熵編碼算法，由美國(guó)計(jì)算機(jī)科學(xué)家大衛(wèi)·霍夫曼在 1952 年提出——這么專業(yè)的解釋，不用問，來(lái)自維基百科了。

今天來(lái)給大家普及一下霍夫曼編碼(Huffman Coding)，一種用于無(wú)損數(shù)據(jù)壓縮的熵編碼算法，由美國(guó)計(jì)算機(jī)科學(xué)家大衛(wèi)·霍夫曼在 1952 年提出——這么專業(yè)的解釋，不用問，來(lái)自維基百科了。

說(shuō)實(shí)話，很早之前我就聽說(shuō)過(guò)霍夫曼編碼，除了知道它通常用于 GZIP、BZIP2、PKZIP 這些常規(guī)的壓縮格式中，我還知道它通常用于壓縮重復(fù)率比較高的字符數(shù)據(jù)。

大家想啊，英文就 26 個(gè)字母進(jìn)行的無(wú)限組合，重復(fù)率高得一逼啊!常用的漢字也不多，2500 個(gè)左右，別問我怎么知道的，我有問過(guò)搜索引擎的。

字符重復(fù)的頻率越高，霍夫曼編碼的工作效率就越高!

是時(shí)候，和大家一起來(lái)了解一下霍夫曼編碼的工作原理啦，畢竟一名優(yōu)秀的程序員要能做到知其然知其所以然——請(qǐng)?jiān)试S我又用了一次這句快用臭了話。

假設(shè)下面的字符串要通過(guò)網(wǎng)絡(luò)發(fā)送。

大家應(yīng)該知道，每個(gè)字符占 8 個(gè)比特，上面這串字符總共有 15 個(gè)字符，所以一共要占用 15*8=120 個(gè)比特。沒有疑問吧?有疑問的同學(xué)請(qǐng)不好意思下。

如果我們使用霍夫曼編碼的話，就可以將這串字符壓縮到一個(gè)更小的尺寸。怎么做到的呢?

霍夫曼編碼首先會(huì)使用字符的頻率創(chuàng)建一棵樹，然后通過(guò)這個(gè)樹的結(jié)構(gòu)為每個(gè)字符生成一個(gè)特定的編碼，出現(xiàn)頻率高的字符使用較短的編碼，出現(xiàn)頻率低的則使用較長(zhǎng)的編碼，這樣就會(huì)使編碼之后的字符串平均長(zhǎng)度降低，從而達(dá)到數(shù)據(jù)無(wú)損壓縮的目的。

拿上面這串初始字符來(lái)一步步的說(shuō)明下霍夫曼編碼的工作步驟。

第一步，計(jì)算字符串中每個(gè)字符的頻率。

B 出現(xiàn) 1 次，C 出現(xiàn) 6 次，A 出現(xiàn) 5 次，D 出現(xiàn) 3 次。

第二步，按照字符出現(xiàn)的頻率進(jìn)行排序，組成一個(gè)隊(duì)列 Q。

出現(xiàn)頻率最低的在前面，出現(xiàn)頻率高的在后面。

第三步，把這些字符作為葉子節(jié)點(diǎn)開始構(gòu)建一顆樹。首先創(chuàng)建一個(gè)空節(jié)點(diǎn) z，將最小頻率的字符分配給 z 的左側(cè)，并將頻率排在第二位的分配給 z 的右側(cè)，然后將 z 賦值為兩個(gè)字符頻率的和。

B 的頻率最小，所以在左側(cè)，然后是頻率為 3 的 D，在右側(cè);然后把它們的父節(jié)點(diǎn)的值設(shè)為 4，子節(jié)點(diǎn)的頻率之和。

然后從隊(duì)列 Q 中刪除 B 和 D，并將它們的和添加到隊(duì)列中，上圖中 * 表示的位置。緊接著，重新創(chuàng)建一個(gè)空的節(jié)點(diǎn) z，并將 4 作為左側(cè)的節(jié)點(diǎn)，頻率為 5 的 A 作為右側(cè)的節(jié)點(diǎn)，4 與 5 的和作為父節(jié)點(diǎn)。

繼續(xù)按照之前的思路構(gòu)建樹，直到所有的字符都出現(xiàn)在樹的節(jié)點(diǎn)中。

第四步，對(duì)于每個(gè)非葉子節(jié)點(diǎn)，將 0 分配給連接線的左側(cè)，1 分配給連接線的右側(cè)。此時(shí)，霍夫曼樹就構(gòu)建完成了。霍夫曼樹又稱為最優(yōu)二叉樹，是一種帶權(quán)路徑長(zhǎng)度最短的二叉樹。

當(dāng)樹構(gòu)建完畢后，我們來(lái)統(tǒng)計(jì)一下要發(fā)送的比特?cái)?shù)。

1)來(lái)看字符這一列。四個(gè)字符 A、B、C、D 共計(jì) 4*8=32 比特。每個(gè)英文字母均占用一個(gè)字節(jié)，即 8 個(gè)比特。

2)來(lái)看頻率這一列。A 5 次，B 1 次，C 6 次，D 3 次，一共 15 比特。

3)來(lái)看編碼這一列。A 的編碼為 11，對(duì)應(yīng)霍夫曼樹上的 15→9→5，也就是說(shuō)，從根節(jié)點(diǎn)走到葉子節(jié)點(diǎn) A，需要經(jīng)過(guò) 11 這條路徑;對(duì)應(yīng)的 B 需要走過(guò) 100 這條路徑;對(duì)應(yīng)的 D 需要走過(guò) 101 這條路徑;對(duì)應(yīng)的 C 需要走過(guò) 0 這條路徑。

4)來(lái)看長(zhǎng)度這一列。A 的編碼為 11，出現(xiàn)了 5 次，因此占用 10 個(gè)比特，即 1111111111;B 的編碼為 100，出現(xiàn)了 1 次，因此占用 3 個(gè)比特，即 100;C 的編碼為 0，出現(xiàn)了 6 次，因此占用 6 個(gè)比特，即 000000;D 的編碼為 101，出現(xiàn)了 3 次，因此占用 9 個(gè)比特，即 101101101。

哈夫曼編碼從本質(zhì)上講，是將最寶貴的資源(最短的編碼)給出現(xiàn)概率最多的數(shù)據(jù)。在上面的例子中，C 出現(xiàn)的頻率最高，它的編碼為 0，就省下了不少空間。

結(jié)合生活中的一些情況想一下，也是這樣，我們把最常用的放在手邊，這樣就能提高效率，節(jié)約時(shí)間。所以，我有一個(gè)大膽的猜想，霍夫曼就是這樣發(fā)現(xiàn)編碼的最優(yōu)解的。

在沒有經(jīng)過(guò)霍夫曼編碼之前，字符串“BCAADDDCCACACAC”的二進(jìn)制為：

10000100100001101000001010000010100010001000100010001000100001101000011010000010100001101000001010000110100000101000011

也就是占了 120 比特。

編碼之后為：

0000001001011011011111111111

占了 28 比特。

但考慮到解碼，需要把霍夫曼樹的結(jié)構(gòu)也傳遞過(guò)去，于是字符占用的 32 比特和頻率占用的 15 比特也需要傳遞過(guò)去?？傮w上，編碼后比特?cái)?shù)為 32 + 15 + 28 = 75，比 120 比特少了 45 個(gè)，效率還是非常高的。

關(guān)于霍夫曼編碼的 Java 示例，我在這里也貼出來(lái)一下，供大家參考。

class HuffmanNode { 
    int item; 
    char c; 
    HuffmanNode left; 
    HuffmanNode right; 
} 
 
class ImplementComparator implements Comparator<HuffmanNode> { 
    public int compare(HuffmanNode x, HuffmanNode y) { 
        return x.item - y.item; 
    } 
} 
 
public class Huffman { 
    public static void printCode(HuffmanNode root, String s) { 
        if (root.left == null && root.right == null && Character.isLetter(root.c)) { 
 
            System.out.println(root.c + "   |  " + s); 
 
            return; 
        } 
        printCode(root.left, s + "0"); 
        printCode(root.right, s + "1"); 
    } 
 
    public static void main(String[] args) { 
        int n = 4; 
        char[] charArray = { 'A', 'B', 'C', 'D' }; 
        int[] charfreq = { 5, 1, 6, 3 }; 
 
        PriorityQueue<HuffmanNode> q = new PriorityQueue<HuffmanNode>(n, new ImplementComparator()); 
 
        for (int i = 0; i < n; i++) { 
            HuffmanNode hn = new HuffmanNode(); 
 
            hn.c = charArray[i]; 
            hn.item = charfreq[i]; 
 
            hn.left = null; 
            hn.right = null; 
 
            q.add(hn); 
        } 
 
        HuffmanNode root = null; 
 
        while (q.size() > 1) { 
 
            HuffmanNode x = q.peek(); 
            q.poll(); 
 
            HuffmanNode y = q.peek(); 
            q.poll(); 
 
            HuffmanNode f = new HuffmanNode(); 
 
            f.item = x.item + y.item; 
            f.c = '-'; 
            f.left = x; 
            f.right = y; 
            root = f; 
 
            q.add(f); 
        } 
        System.out.println(" 字符 | 霍夫曼編碼 "); 
        System.out.println("--------------------"); 
        printCode(root, ""); 
    } 
}

本例的輸出結(jié)果如下所示：

字符 | 霍夫曼編碼  
-------------------- 
C   |  0 
B   |  100 
D   |  101 
A   |  11

給大家留個(gè)作業(yè)題吧，考慮一下霍夫曼編碼的時(shí)間復(fù)雜度，知道的同學(xué)可以在留言區(qū)給出答案哈。

搞定，我敢肯定辣條不用吃了——因?yàn)榇蠹铱隙ǘ紝W(xué)會(huì)了。我是愛學(xué)習(xí)愛美貌的沉默王二，我們下期見，see you~

本文轉(zhuǎn)載自微信公眾號(hào)「沉默王二」，可以通過(guò)以下二維碼關(guān)注。轉(zhuǎn)載本文請(qǐng)聯(lián)系沉默王二公眾號(hào)。

責(zé)任編輯：武曉燕來(lái)源：沉默王二

編碼算法霍夫曼

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<abbr id="jqb3t"><rp id="jqb3t"></rp></abbr>

<abbr id="jqb3t"></abbr>

<style id="jqb3t"></style>

<style id="jqb3t"></style>