热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

Huffman树在数据结构中的应用与解析

本文探讨了Huffman树在数据结构中的应用及其原理。Huffman树,即哈夫曼树,是一种高效的数据压缩技术,通过构建最优二叉树实现编码,广泛应用于文件压缩和网络传输中,有效减少数据存储和传输的空间需求。

注:本文原创,转载请注明出处,本人保留对未注明出处行为的责任追究。

1.Huffman树是什么

Huffman树也称为哈夫曼编码,是一种编码方式,常用于协议的制定,以节省传输空间。

 

A - F字母,出现的频率分别为:

A:5,B: 24, C:7,D:17,E:34,F:5,G:13

对比:

1)使用常规协议

如果我们将这些字母无论大小进行编码,一共是7个字母,因此协议规定用三位二进制数表示,传输完这105个字符,共需要105*3 = 315位。

2)使用Huffman树

如果我们按照Huffman树的规则(如上图),共需要 5*4 + 24 * 2 + 7*4 + 17*2 + 34*1+5*5+13*3 = 228位,共节省87位,大约节省27%的带宽占用。

2.Huffman树的原理

Huffman树是依据字符的出现频次,对字符进行二进制的编码,出现频次高的节点编码字符少,出现频次低的字节编码字符多。

感谢: https://www.cnblogs.com/journal-of-xjx/p/6670464.html 博主:Jiaxin Tse

如图是huffman树的构建过程,字符的权重为出现频次。

构建过程:

  STEP1:将权重最小的两个字符节点构建一个父节点,权重为两者权重之和

  STEP1 进行 size - 1次 ,即可完成huffman树的构建。

编码过程: 给定字符串,以及"单词-频次Map" ,构建huffman树,将给定字符串转成二进制字符串

  以字符d为例子,从根节点开始,右枝为1,左枝为0,因此d的编码就是111

  给定 abdc  => 0101111100

  因为每一个被编码的字符节点是叶子节点,因此每一串二进制编码都有唯一对应的译码

解码过程: 给定二进制编码,以及"单词-频次Map",构建huffman树,将给定的二进制字符串转成字符串

  0101111100 => abdc

  

3.Huffman树的三大操作

Huffman树常见的三大操作有 构建、编码、解码。上面给出了一些基本原理和使用,接下来是代码设计的思路。

Node 以及Tree :

/**
 * 哈夫曼树
 */
public class HuffmanTree {
    static class Node{
        Character ch; // 保存被编码的字符
        long frequency ; // 被编码的字符出现频次
        Node left; // 左子节点
        Node right; // 右子节点
        Node parent; // 父节点
    }

static class Tree{
    Node root;
    List leafNodes;
}

 

1)构建huffman树

STEP1: 将每个字符抽象成一个节点,使用PriprotiesQueue这种排序的结构,按照Node的权值,也就是单词的出现频次为优先级排序

STEP2: 取出其中权值最小的两个节点,进行构建父节点,父节点权值为子节点权值之和

        假设初始的节点数(初始的队列大小)为size,那么需要size - 1次STEP2才能完成整颗huffman树的构建。

     记得存储叶子节点的列表,以便编码的时候能从叶子节点向根节点进行拼接字符串。

 

/**
* 构建huffman树
* @return
*/
public static Tree buildHuffmanTree(
Map charAndCounts){

Tree huffmanTree = new Tree();
huffmanTree.leafNodes = new ArrayList();
// 依据Node有序的队列
PriorityQueue priorityQueue = new PriorityQueue();

// 对每个字符进行遍历
for(Character ch : charAndCounts.keySet()){
long frequency = charAndCounts.get(ch);
Node node = new Node(ch,frequency);
// 存入叶子节点列表,以便于遍历
huffmanTree.leafNodes.add(node);
// 入堆
priorityQueue.add(node);
}

// 进行建树操作,进行size-1次操作,每次取出两个最小的权值的节点,构建父节点并合并权值。
for(int i = 0 ; i Node node1 = priorityQueue.poll(); // 第一小 ,默认放右边
Node node2 = priorityQueue.poll(); // 第二小,默认放左边
Node top = new Node();
top.right = node1;
top.left = node2;
top.frequency = node1.frequency + node2.frequency;

node1.parent = top;
node2.parent = top;

priorityQueue.add(top);
}

// 经过size-1次合并操作后,队列中只剩下一个节点
huffmanTree.root = priorityQueue.poll();
return huffmanTree;
}

 

 

2)编码 : 给定字符串,以及"单词-频次Map" ,构建huffman树,将给定字符串转成二进制字符串

首先使用 "单词-频次"Map 构建huffman树。

依次遍历每个huffman树的叶子节点,每个节点由叶子节点向根节点遍历,并进行 0 、1的拼接。

这样就生成了 Map<字符,二进制编码>表。

然后依次遍历给定字符串的每个字符,分别转成二进制编码拼接即可。

 

   /**
     * 进行编码
     * @param str
     * @param charAndCounts
     * @return
     */
    public static String encode(
            String str,
            Map charAndCounts){ Map chAndEncoding = new HashMap(); // 1. 构建huffman树 Tree tree = buildHuffmanTree(charAndCounts); // 2.依次遍历每个huffman树的叶子节点,每个节点由叶子节点向根节点遍历,并进行 0 、1的拼接。 List leafNodes = tree.leafNodes; for(Node leafNode : leafNodes){ Node current = leafNode; String binaryCode = ""; while(current != tree.root && current != null){ if(current.parent != null && current == current.parent.left){ binaryCode = "0" + binaryCode; }else if(current.parent != null && current == current.parent.right){ binaryCode = "1" + binaryCode; } current = current.parent; } chAndEncoding.put(leafNode.ch,binaryCode); } System.out.println(chAndEncoding); // 3.遍历每个字符进行编码 StringBuffer strEncoded = new StringBuffer(); for(char ch : str.toCharArray()){ strEncoded.append(chAndEncoding.get(ch)); } return strEncoded.toString(); }

 

测试:

    public static void main(String[] args) {
        Map map = new HashMap(); map.put('a',5l); map.put('b',24l); map.put('c',7l); map.put('d',17l); map.put('e',34l); map.put('f',5l); map.put('g',13l); System.out.println(encode("abcd",map)); }

结果:

{a=01001, b=10, c=0101, d=11, e=00, f=01000, g=011}
0100110010111

3)解码:给定二进制字符串,以及"单词-频次Map“,构建huffman树,将给定二进制字符串转成原未经编码的字符串。

首先使用"单词-频次"Map 构建huffman树。

然后按照给定的二进制字符串,挨个进行从根的查找,找到叶子节点后就转成原字符,从下一个字符串索引开始继续解码。

 

    /**
     * 解码过程
     * @param binStr
     * @param charsAndCounts
     * @return
     */
    public static String decode(
            String binStr,
            Map charsAndCounts){
        // 1.获得Huffman树
        Tree tree = buildHuffmanTree(charsAndCounts);

        // 2.按照给定的二进制字符串,挨个进行从根的查找,找到叶子节点后就转成原字符,从下一个字符串索引开始继续解码。
        StringBuffer originalStr = new StringBuffer();
        int i = 0;

        while(i < binStr.length()){
            char ch = '\0';
            Node current = tree.root;
            while(current.ch ==null && i < binStr.length()){
                ch = binStr.charAt(i);
                if(ch == '1'){
                    current = current.right;
                }else if(ch == '0'){
                    current = current.left;
                }
                i++;
            }
            originalStr.append(current.ch);
        }
        return originalStr.toString();
    }

测试:

    public static void main(String[] args) {
        Map map = new HashMap();
        map.put('a',5l);
        map.put('b',24l);
        map.put('c',7l);
        map.put('d',17l);
        map.put('e',34l);
        map.put('f',5l);
        map.put('g',13l);
        System.out.println(encode("abcd",map));
        System.out.println(decode("0100110010111",map));
    }

结果:

{a=01001, b=10, c=0101, d=11, e=00, f=01000, g=011}
0100110010111
abcd
abcd

 


推荐阅读
  • 在上篇文章的基础上,本文将继续探讨 Linux 设备驱动中的设备模型与 `devicedriverbus` 机制。在将设备注册到总线之前,需要先创建 `device` 对象。可以通过静态定义 `device` 结构体变量,并调用 `device_register` 函数来完成这一过程。此外,文章还将详细解析设备模型的内部工作机制,以及 `devicedriverbus` 机制如何实现设备与驱动的自动匹配和管理。 ... [详细]
  • 深入解析Java中的轮询与加权轮询负载均衡算法实现
    网上找了不少负载均衡算法的资源,都不够全面,后来自己结合了网上的一些算法实现,下面这篇文章主要给大家介绍了关于Java负载均衡算法实现之轮询和加权轮询的相关资料,文中通过示例代码介 ... [详细]
  • 内网渗透技术详解:PTH、PTT与PTK在域控环境中的应用及猫盘内网穿透配置
    本文深入探讨了内网渗透技术,特别是PTH、PTT与PTK在域控环境中的应用,并详细介绍了猫盘内网穿透的配置方法。通过这些技术,安全研究人员可以更有效地进行内网渗透测试,解决常见的渗透测试难题。此外,文章还提供了实用的配置示例和操作步骤,帮助读者更好地理解和应用这些技术。 ... [详细]
  • 本文介绍了一个基于C++标准库实现的INI文件读写操作类。该类在现有网络资源的基础上进行了扩展和优化,增加了获取当前可执行文件路径和宽字节与多字节字符串转换的功能。通过这些增强功能,该类能够更好地适应各种应用场景,提高代码的可移植性和健壮性。具体实现细节请参见 `IniFileSTL.h` 文件。 ... [详细]
  • c#学Java–Java基本语法1.类比JAVA .NETJVM CLRJDK  FCL2.java命名约定类名称应以大写字母开头,并成为容易理解的名词或组合。如 ... [详细]
  • Redis客户端使用指南与学习笔记
    本书基于Redis 3.0版本编写,虽然与后续版本存在一些差异,但仍详细介绍了Redis服务器的一对多客户端连接机制。书中不仅涵盖了基本的安装配置和命令操作,还深入探讨了数据结构、持久化策略及性能优化等高级主题,适合初学者和进阶用户参考学习。 ... [详细]
  • 在整理旧文件时,发现了几篇关于2011年MiniGUI技术的博客,虽然内容已显陈旧,但仍然具有一定的参考价值。这些文章详细探讨了MiniGUI的帧缓冲技术、图形渲染引擎以及输入处理机制,为理解早期嵌入式系统的图形界面开发提供了宝贵资料。 ... [详细]
  • 算术表达式分析与解析技术初探
    本文初步探讨了算术表达式的分析与解析技术,针对作者在职业转型过程中发现自身算法基础薄弱的问题,决定在接下来的三个月内,系统地学习和掌握常用数据结构与算法,以提升个人技术能力。研究内容不仅涵盖了基本的算术表达式解析方法,还深入讨论了其在实际应用中的优化策略,为相关领域的进一步研究奠定了基础。 ... [详细]
  • Java NIO Buffer详解及其优势与局限性分析 ... [详细]
  • Oracle培训(三十七)——深入解析Hibernate第三章:实体关联关系映射详解
    在本节Oracle培训中,我们将深入探讨Hibernate第三章的内容,重点讲解实体关联关系映射的详细知识点。首先,回顾了Hibernate的基本概念和映射基础,随后详细分析了不同类型的实体关联关系,包括一对一、一对多和多对多关系的映射方法及其应用场景。通过具体的示例和代码片段,帮助读者更好地理解和掌握这些复杂的映射技术。此外,还讨论了如何优化关联关系的性能,以及常见的问题和解决方案。 ... [详细]
  • MySQL 5.6 引入了全局事务标识符(GTID)和多线程复制机制,显著提升了数据库的可靠性和性能。GTID 作为一种新的事务标识方式,确保了事务在主从节点间的一致性,避免了传统基于日志位置的复制可能出现的问题。多线程复制则通过并行处理多个复制任务,大幅提高了复制效率,特别是在大型数据库环境中表现更为突出。这些新特性不仅增强了 MySQL 的高可用性和扩展性,还为数据库管理带来了更多灵活性和便利性。 ... [详细]
  • OpenCV 2.4.9 源码解析:级联分类器的错误率与尺寸分析 ... [详细]
  • 如何使用 `com.amazonaws.services.sqs.model.DeleteMessageRequest` 的 `getQueueUrl()` 方法及其代码示例解析 ... [详细]
  • 线程池的作用:线程池作用就是限制系统中执行线程的数量。根据系统的环境情况,可以自动或手动设置线程数量,达到运行的最佳效果;少了浪费了系统资 ... [详细]
  • Dubbo的集群容错策略正常情况下,当我们进行系统设计时候,不仅要考虑正常逻辑下代码该如何走,还要考虑异常情况下代码逻辑应该怎么走。当服务 ... [详细]
author-avatar
黄秋蝉_961
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有