当前位置: 开发笔记 > 编程语言 > 正文

Huffman树在数据结构中的应用与解析

作者：黄秋蝉_961 | 来源：互联网 | 2024-10-26 18:27

本文探讨了Huffman树在数据结构中的应用及其原理。Huffman树，即哈夫曼树，是一种高效的数据压缩技术，通过构建最优二叉树实现编码，广泛应用于文件压缩和网络传输中，有效减少数据存储和传输的空间需求。

注：本文原创，转载请注明出处，本人保留对未注明出处行为的责任追究。

1.Huffman树是什么

Huffman树也称为哈夫曼编码，是一种编码方式，常用于协议的制定，以节省传输空间。

A - F字母，出现的频率分别为:

A:5,B: 24, C:7,D:17,E:34,F:5,G:13

对比:

1)使用常规协议

如果我们将这些字母无论大小进行编码，一共是7个字母，因此协议规定用三位二进制数表示，传输完这105个字符，共需要105*3 = 315位。

2）使用Huffman树

如果我们按照Huffman树的规则（如上图），共需要 5*4 + 24 * 2 + 7*4 + 17*2 + 34*1+5*5+13*3 = 228位，共节省87位，大约节省27%的带宽占用。

2.Huffman树的原理

Huffman树是依据字符的出现频次，对字符进行二进制的编码，出现频次高的节点编码字符少，出现频次低的字节编码字符多。

感谢: https://www.cnblogs.com/journal-of-xjx/p/6670464.html 博主:Jiaxin Tse

如图是huffman树的构建过程，字符的权重为出现频次。

构建过程:

　　STEP1:将权重最小的两个字符节点构建一个父节点，权重为两者权重之和

　　STEP1 进行 size - 1次，即可完成huffman树的构建。

编码过程: 给定字符串，以及"单词-频次Map" ，构建huffman树，将给定字符串转成二进制字符串

　　以字符d为例子，从根节点开始，右枝为1，左枝为0，因此d的编码就是111

　　给定 abdc => 0101111100

　　因为每一个被编码的字符节点是叶子节点，因此每一串二进制编码都有唯一对应的译码

解码过程: 给定二进制编码，以及"单词-频次Map",构建huffman树，将给定的二进制字符串转成字符串

　　0101111100 => abdc

3.Huffman树的三大操作

Huffman树常见的三大操作有构建、编码、解码。上面给出了一些基本原理和使用，接下来是代码设计的思路。

Node 以及Tree :

/**
 * 哈夫曼树
 */
public class HuffmanTree {
    static class Node{
        Character ch; // 保存被编码的字符
        long frequency ; // 被编码的字符出现频次
        Node left; // 左子节点
        Node right; // 右子节点
        Node parent; // 父节点
    }

static class Tree{
    Node root;
    List leafNodes;
}

1）构建huffman树

STEP1: 将每个字符抽象成一个节点，使用PriprotiesQueue这种排序的结构，按照Node的权值，也就是单词的出现频次为优先级排序

STEP2: 取出其中权值最小的两个节点，进行构建父节点，父节点权值为子节点权值之和。

　　 假设初始的节点数(初始的队列大小)为size,那么需要size - 1次STEP2才能完成整颗huffman树的构建。

　　　 记得存储叶子节点的列表，以便编码的时候能从叶子节点向根节点进行拼接字符串。

/**
 * 构建huffman树
 * @return
 */
public static Tree buildHuffmanTree(
        Map  charAndCounts){

    Tree huffmanTree = new Tree();
    huffmanTree.leafNodes = new ArrayList();
    // 依据Node有序的队列
    PriorityQueue priorityQueue = new PriorityQueue();

    // 对每个字符进行遍历
    for(Character ch : charAndCounts.keySet()){
        long frequency = charAndCounts.get(ch);
        Node node = new Node(ch,frequency);
        // 存入叶子节点列表，以便于遍历
        huffmanTree.leafNodes.add(node);
        // 入堆
        priorityQueue.add(node);
    }

    // 进行建树操作，进行size-1次操作，每次取出两个最小的权值的节点，构建父节点并合并权值。
    for(int i = 0 ; i         Node node1 = priorityQueue.poll(); // 第一小 ，默认放右边
        Node node2 = priorityQueue.poll(); // 第二小，默认放左边
        Node top = new Node();
        top.right = node1;
        top.left = node2;
        top.frequency = node1.frequency + node2.frequency;

        node1.parent = top;
        node2.parent = top;

        priorityQueue.add(top);
    }

    // 经过size-1次合并操作后，队列中只剩下一个节点
    huffmanTree.root = priorityQueue.poll();
    return huffmanTree;
}

2）编码 : 给定字符串，以及"单词-频次Map" ，构建huffman树，将给定字符串转成二进制字符串

首先使用 "单词-频次"Map 构建huffman树。

依次遍历每个huffman树的叶子节点，每个节点由叶子节点向根节点遍历，并进行 0 、1的拼接。

这样就生成了 Map<字符，二进制编码>表。

然后依次遍历给定字符串的每个字符，分别转成二进制编码拼接即可。

   /**
     * 进行编码
     * @param str
     * @param charAndCounts
     * @return
     */
    public static String encode(
            String str,
            Map charAndCounts){ Map chAndEncoding = new HashMap(); // 1. 构建huffman树 Tree tree = buildHuffmanTree(charAndCounts); // 2.依次遍历每个huffman树的叶子节点，每个节点由叶子节点向根节点遍历，并进行 0 、1的拼接。 List leafNodes = tree.leafNodes; for(Node leafNode : leafNodes){ Node current = leafNode; String binaryCode = ""; while(current != tree.root && current != null){ if(current.parent != null && current == current.parent.left){ binaryCode = "0" + binaryCode; }else if(current.parent != null && current == current.parent.right){ binaryCode = "1" + binaryCode; } current = current.parent; } chAndEncoding.put(leafNode.ch,binaryCode); } System.out.println(chAndEncoding); // 3.遍历每个字符进行编码 StringBuffer strEncoded = new StringBuffer(); for(char ch : str.toCharArray()){ strEncoded.append(chAndEncoding.get(ch)); } return strEncoded.toString(); }

测试:

    public static void main(String[] args) {
        Map map = new HashMap(); map.put('a',5l); map.put('b',24l); map.put('c',7l); map.put('d',17l); map.put('e',34l); map.put('f',5l); map.put('g',13l); System.out.println(encode("abcd",map)); }

结果:

{a=01001, b=10, c=0101, d=11, e=00, f=01000, g=011}
0100110010111

3）解码:给定二进制字符串，以及"单词-频次Map“，构建huffman树，将给定二进制字符串转成原未经编码的字符串。

首先使用"单词-频次"Map 构建huffman树。

然后按照给定的二进制字符串，挨个进行从根的查找，找到叶子节点后就转成原字符，从下一个字符串索引开始继续解码。

    /**
     * 解码过程
     * @param binStr
     * @param charsAndCounts
     * @return
     */
    public static String decode(
            String binStr,
            Map charsAndCounts){
        // 1.获得Huffman树
        Tree tree = buildHuffmanTree(charsAndCounts);

        // 2.按照给定的二进制字符串，挨个进行从根的查找，找到叶子节点后就转成原字符，从下一个字符串索引开始继续解码。
        StringBuffer originalStr = new StringBuffer();
        int i = 0;

        while(i < binStr.length()){
            char ch = '\0';
            Node current = tree.root;
            while(current.ch ==null && i < binStr.length()){
                ch = binStr.charAt(i);
                if(ch == '1'){
                    current = current.right;
                }else if(ch == '0'){
                    current = current.left;
                }
                i++;
            }
            originalStr.append(current.ch);
        }
        return originalStr.toString();
    }

测试:

    public static void main(String[] args) {
        Map map = new HashMap();
        map.put('a',5l);
        map.put('b',24l);
        map.put('c',7l);
        map.put('d',17l);
        map.put('e',34l);
        map.put('f',5l);
        map.put('g',13l);
        System.out.println(encode("abcd",map));
        System.out.println(decode("0100110010111",map));
    }

结果:

{a=01001, b=10, c=0101, d=11, e=00, f=01000, g=011}
0100110010111
abcd
abcd

推荐阅读

list
2023年京东Android面试真题解析与经验分享

本文由一位拥有6年Android开发经验的工程师撰写，详细解析了京东面试中常见的技术问题。涵盖引用传递、Handler机制、ListView优化、多线程控制及ANR处理等核心知识点。 ... [详细]

蜡笔小新 2024-12-26 17:45:48
list
新浪笔试题

1:有如下一段程序：packagea.b.c;publicclassTest{privatestaticinti0;publicintgetNext(){return ... [详细]

蜡笔小新 2024-12-27 19:32:17
js
深入理解org.neo4j.helpers.collection.Iterators.single()方法及其应用

本文详细介绍了Java中org.neo4j.helpers.collection.Iterators.single()方法的功能、使用场景及代码示例，帮助开发者更好地理解和应用该方法。 ... [详细]

蜡笔小新 2024-12-28 10:51:55
list
优化ListView性能

本文深入探讨了如何通过多种技术手段优化ListView的性能，包括视图复用、ViewHolder模式、分批加载数据、图片优化及内存管理等。这些方法能够显著提升应用的响应速度和用户体验。 ... [详细]

蜡笔小新 2024-12-28 10:36:30
list
Handling Null Object Encoding in OAuth 1.0a API Implementation

Explore a common issue encountered when implementing an OAuth 1.0a API, specifically the inability to encode null objects and how to resolve it. ... [详细]

蜡笔小新 2024-12-28 08:54:34
java
Java 中 Writer flush()方法，示例

Java 中 Writer flush()方法，示例 ... [详细]

蜡笔小新 2024-12-28 06:41:52
java
Spring Boot DevTools 实现项目自动重启功能

本文介绍了如何使用 Spring Boot DevTools 实现应用程序在开发过程中自动重启。这一特性显著提高了开发效率，特别是在集成开发环境（IDE）中工作时，能够提供快速的反馈循环。默认情况下，DevTools 会监控类路径上的文件变化，并根据需要触发应用重启。 ... [详细]

蜡笔小新 2024-12-28 04:42:15
java
Java 中的 BigDecimal pow()方法，示例

Java 中的 BigDecimal pow()方法，示例 ... [详细]

蜡笔小新 2024-12-27 20:54:03
list
Java并发编程：LinkedBlockingQueue的实际应用

本文介绍了Java并发库中的阻塞队列（BlockingQueue）及其典型应用场景。通过具体实例，展示了如何利用LinkedBlockingQueue实现线程间高效、安全的数据传递，并结合线程池和原子类优化性能。 ... [详细]

蜡笔小新 2024-12-27 18:51:49
list
java编写的简易计算器

主要用了2个类来实现的，话不多说，直接看运行结果，然后在奉上源代码1.Index.javaimportjava.awt.Color;im ... [详细]

蜡笔小新 2024-12-27 18:18:10
java
Java面试题解析

本文详细介绍了Java编程语言中的核心概念和常见面试问题，包括集合类、数据结构、线程处理、Java虚拟机（JVM）、HTTP协议以及Git操作等方面的内容。通过深入分析每个主题，帮助读者更好地理解Java的关键特性和最佳实践。 ... [详细]

蜡笔小新 2024-12-27 13:55:14
java
MQTT技术周报：硬件连接与协议解析

本周开发笔记重点介绍了在新项目中使用MQTT协议进行硬件连接的技术细节，涵盖其特性、原理及实现步骤。 ... [详细]

蜡笔小新 2024-12-27 11:30:44
java
Splay Tree 区间操作优化

本文详细介绍了使用Splay Tree进行区间操作的实现方法，包括插入、删除、修改、翻转和求和等操作。通过这些操作，可以高效地处理动态序列问题，并且代码实现具有一定的挑战性，有助于编程能力的提升。 ... [详细]

蜡笔小新 2024-12-26 18:47:12
js
解析Java中Text.splitText()方法及其应用场景

本文详细介绍了Java中org.w3c.dom.Text类的splitText()方法，通过多个代码示例展示了其实际应用。该方法用于将文本节点在指定位置拆分为两个节点，并保持在文档树中。 ... [详细]

蜡笔小新 2024-12-26 18:31:42
js
技术分享：从动态网站提取站点密钥的解决方案

本文探讨了如何从动态网站中提取站点密钥，特别是针对验证码（reCAPTCHA）的处理方法。通过结合Selenium和requests库，提供了详细的代码示例和优化建议。 ... [详细]

蜡笔小新 2024-12-28 04:11:47

黄秋蝉_961

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章