当前位置: 开发笔记 > 编程语言 > 正文

开发笔记:哈希的应用

作者：元辉5678_915 | 来源：互联网 | 2024-12-12 16:13

篇首语：本文由编程笔记#小编为大家整理，主要介绍了哈希的应用相关的知识，希望对你有一定的参考价值。文章目录

篇首语：本文由编程笔记#小编为大家整理，主要介绍了哈希的应用相关的知识，希望对你有一定的参考价值。

文章目录

1.前言
2.位图
- 2.1什么是位图
- 2.2实例分析
- 2.3位图的应用
- 2.4位图的实现
3.布隆过滤器
- 3.1布隆过滤器的提出
- 3.2布隆过滤器的概念
- 3.3布隆过滤器的应用
- 3.4布隆过滤器的设计
- 3.5布隆过滤器的优点
- 3.6布隆过滤器的缺陷
- 3.7代码实现
4.海量数据常见处理方式

1.前言

哈希是一种映射的思想&＃xff0c;哈希表是基于这种思想的最常用的数据结构&＃xff0c;除此之外&＃xff0c;还有一些经常用到哈希思想的地方&＃xff0c;下面进行介绍

2.位图

2.1什么是位图

所谓位图就是用每一位来存放某种状态&＃xff0c;适用于海量的数据&＃xff0c;数据无重复的场景。通常用来判断某个数据在或者不在的情况

2.2实例分析

给40亿个不重复的无符号整数&＃xff0c;没有拍过序。给一个无符号整数&＃xff0c;如何快速判断这一个整数是否在这40个亿之中&＃xff1f;

这题给人直观的感觉就是&＃xff0c;直接遍历全部数据&＃xff0c;进行查找&＃xff0c;对应的数字是否在这个集合之中。

但是40亿个数据&＃xff0c;即40*4亿字节 &＃61; 16G&＃xff0c;在一般的电脑上面&＃xff0c;是行不通的&＃xff0c;因此我们可以用到位图的思想

位图解决&＃xff1a;

用40亿个比特位来标记所有的数字&＃xff0c;1表示存在&＃xff0c;0表示不存在。

40亿个比特位 &＃61; 2^32位 &＃61; 4G/8&＃61; 500M &＃xff0c;相比之下大大的节省了空间的消耗

2.3位图的应用

1.快速查找一个数据是否在一个集合之中

2.排序

3.求两个集合的交集、并集等等

4.操作系统中磁盘块的标记

优点&＃xff1a;速度快&＃xff0c;并且节省空间

缺点&＃xff1a;只可以映射整形(如果有负数则开两个图&＃xff0c;取反&＃xff0c;映射到另外一个图)

2.4位图的实现

#pragma once #include <iostream> using namespace std; #include #include namespace YCH_BITSET { template//非类型模板参数 class BitSet { public: BitSet() { _bit.resize((N >> 3)&＃43;1, 0);//一个字节&＃xff0c;8个比特位,多开一个&＃xff0c;有余数 } //将比特位置为1 void set(size_t pos) { assert(pos <&＃61; N); size_t index &＃61; pos >> 3; size_t num &＃61; pos % 8; _bit[index] |&＃61; (1 < } //将比特位置为0 void reset(size_t pos) { assert(pos <&＃61; N); size_t index &＃61; pos >> 3; size_t num &＃61; pos % 8; _bit[index] &&＃61; ~(1 < } //查找在不在 bool test(size_t pos) { assert(pos <&＃61; N); size_t index &＃61; pos >> 3; size_t num &＃61; pos % 8; return _bit[index] & (1 < } private: vector_bit; }; };

#include "bitset.h" void test() { YCH_BITSET::BitSet<100> bt; bt.set(1); bt.set(2); bt.set(3); bt.set(99); bt.set(100); cout < cout < bt.reset(99); cout < cout <} int main() { test(); system("pause"); return 0; }

3.布隆过滤器

3.1布隆过滤器的提出

比如我们在看新闻的时候&＃xff0c;服务器会自动筛选剔除出已经被用户看过的新闻&＃xff0c;服务器是如何快速查找&＃xff0c;过滤掉已经存在的记录呢&＃xff1f;

1.用哈希表存储用户记录(浪费空间)

2.用位图存储用户记录(只可映射整形&＃xff0c;就算将类型转换成整形&＃xff0c;也无法处理哈希冲突)

3.将哈希与位图结合就是布隆过滤器

3.2布隆过滤器的概念

布隆过滤器是由布隆在1970年提出来的&＃xff0c;它的特点是比较高效的告诉你&＃xff0c;某样东西一定不存在或者可能存在&＃xff0c;它采用的方法是&＃xff0c;用多个哈希函数&＃xff0c;将一个数据映射到位图之中&＃xff0c;这种方式不仅可以提高查询效率&＃xff0c;还可以节省大量的空间

在这里插入图片描述

3.3布隆过滤器的应用

布隆过滤器通常应用在允许误判的场景之中

1.垃圾邮件的过滤&＃xff1a;

邮箱内经常有垃圾邮件&＃xff0c;这时可以运用布隆过滤器将其进行几率&＃xff0c;下次再收到邮件进行O(1)的查找即可&＃xff0c;即是误判了&＃xff0c;影响也不是很大

2.身份验证&＃xff1a;

大门口的身份验证&＃xff0c;如果不是小区里面的人&＃xff0c;直接就拒绝进入(不在是确定的)&＃xff0c;如果通过了布隆过滤器的判断&＃xff0c;再去数据库中对比一次&＃xff0c;这样通过一层布隆过滤器可以提高这个查找系统的效率

3.4布隆过滤器的设计

1.选择合适的位图大小
在这里插入图片描述
2.插入
将每个哈希函数映射的位置都置为1

3.查找
所有的哈希函数映射的位置之中&＃xff0c;只要有一个映射的位置为0&＃xff0c;即当前值不存在&＃xff0c;因为在插入的时候&＃xff0c;所有的位置都设置为了1(所以不存在是准确的)&＃xff0c;否则表示存在(不准确&＃xff0c;可能发生哈希冲突&＃xff0c;是其它值映射的)

4.删除
**布隆过滤器不支持删除工作&＃xff0c;**因为不确定当前位置&＃xff0c;是自己的&＃xff0c;还是发生了哈希冲突其它的值映射过来的

一种"略微"支持删除的方法:
给定一个计数器(多给比特位&＃xff0c;即多给几张图)&＃xff0c;插入元素的时候&＃xff0c;计数器&＃43;1&＃xff0c;删除元素计数器-1&＃xff1b;

但是这种方法也不好&＃xff0c;因为计数器的大小不易确定&＃xff0c;如果给小了&＃xff0c;发生冲突会导致溢出(计数回绕&＃xff0c;最大值-> 最小值)
如果给大了&＃xff0c;浪费空间&＃xff0c;脱离了布隆过滤器的本质思想。所以一般的布隆过滤器是不支持删除操作的

3.5布隆过滤器的优点

1.增加和查询元素的时间复杂度为O(K),(K为哈希元素的个数&＃xff0c;一般比较小)&＃xff0c;与数据量无关

2.哈希哈函数相互之间没有关系&＃xff0c;方便硬件进行计算

3.布隆过滤器不需要存储元素本身&＃xff0c;在某些对保密要求比较严格的场合有较大优势

4.在能够承受一定误判的情况之下&＃xff0c;布隆过滤器比其他的数据结构有着很大的空间优势

5.在数据量很大时&＃xff0c;布隆过滤器可以表示全集&＃xff0c;其他数据结构不行(位图只能表示整形)

6.使用同一组散列函数的布隆过滤器可以进行交、并、差运算

3.6布隆过滤器的缺陷

1.有误判&＃xff0c;不能准确的判断元素是否在集合之中(补救方法&＃xff1a;再建立一个白名单&＃xff0c;存储可能会出现误判的数据)

2.不能获取元素本身

3.一般情况之下&＃xff0c;不能从布隆过滤器删除元素

4.如果采用计数方式删除&＃xff0c;可能会出现计数回绕问题

3.7代码实现

#pragma once #include using namespace std; #include #include namespace YCH_BITSET { class BitSet { public: BitSet(size_t N) { _bit.resize((N >> 3)&＃43;1, 0);//一个字节&＃xff0c;8个比特位,多开一个&＃xff0c;有余数 } //将比特位置为1 void set(size_t pos) { //得到在那个位值 size_t index &＃61; pos >> 3; size_t num &＃61; pos % 8; _bit[index] |&＃61; (1 << num); } //将比特位置为0 void reset(size_t pos) { size_t index &＃61; pos >> 3; size_t num &＃61; pos % 8; _bit[index] &&＃61; ~(1 << num); } //查找在不在 bool test(size_t pos) { size_t index &＃61; pos >> 3; size_t num &＃61; pos % 8; return _bit[index] & (1 << num); } private: vector<char>_bit; }; template<class T, class hash1,class hash2,class hash3 >//给定三个哈希函数 class BloomFilter { public: BloomFilter(size_t range) //m(开的比特位数量) &＃61; k(哈希函数个数)*n(数据量)/ln2&＃xff08;0.7&＃xff09; :_count(5*range) ,_bitset(_count) {} void set(const T&t) { hash1 hs1; hash2 hs2; hash3 hs3; //获得哈希地址 size_t pos1 &＃61; hs1(t); size_t pos2 &＃61; hs2(t); size_t pos3 &＃61; hs3(t); //将三个位置都设置为1 _bitset.set(pos1%_count); _bitset.set(pos2%_count); _bitset.set(pos3%_count); } bool test(const T&t) { //有一个为0&＃xff0c;就是不存在的 hash1 hs1; size_t pos1 &＃61; hs1(t); if (!_bitset.test(pos1%_count)) return false; hash1 hs2; size_t pos2 &＃61; hs2(t); if (!_bitset.test(pos2%_count)) return false; hash1 hs3; size_t pos3 &＃61; hs3(t); if (!_bitset.test(pos3%_count)) return false; //都为1&＃xff0c;则true&＃xff0c;不一定正确 return true; } private: size_t _count; BitSet _bitset; }; };

测试&＃xff1a;

#include "bitset.h" struct hash1 { size_t operator()(const string &s) { size_t num &＃61; 0; for (auto&e:s) { num &＃61; num*131 &＃43; e; } return num; } }; struct hash2 { size_t operator()(const string &s) { size_t num &＃61; 0; for (auto&e : s) { num &＃61; num * 65699 &＃43; e; } return num; } }; struct hash3 { size_t operator()(const string &s) { size_t num &＃61; 0; for (auto&e : s) { num &＃61; num * 7642 &＃43; e; } return num; } }; void test() { YCH_BITSET::BloomFilter<string, hash1, hash2, hash3> bf(100); bf.set("https://editor.csdn.net/md?not_checkout&＃61;1&articleId&＃61;117885817"); bf.set("https://editor.csdn.net/md?not_checkout&＃61;1&articleId&＃61;117885818"); bf.set("https://editor.csdn.net/md?not_checkout&＃61;1&articleId&＃61;117885819"); cout << bf.test("https://editor.csdn.net/md?not_checkout&＃61;1&articleId&＃61;117885817") << endl; cout << bf.test("https://editor.csdn.net/md?not_checkout&＃61;1&articleId&＃61;117885818") << endl; cout << bf.test("https://editor.csdn.net/md?not_checkout&＃61;1&articleId&＃61;117885819") << endl; cout << bf.test("https://editor.csdn.net/md?not_checkout&＃61;1&articleId&＃61;117885820") << endl; cout << bf.test("https://editor.csdn.net/md?not_checkout&＃61;1&articleId&＃61;117885821") << endl; } int main() { test(); system("pause"); return 0; }

在这里插入图片描述

4.海量数据常见处理方式

1.给一个超过100G大小的log file, log中存着IP地址, 设计算法找到出现次数最多的IP地址&＃xff1f; 与上题条件相同&＃xff0c;如何找到top K的IP&＃xff1f;

可以采用哈希切割的办法&＃xff0c;将这个大文件&＃xff0c;分成多个小文件。通过哈希函数&＃xff0c;映射成一个个的整数&＃xff0c;整数%小文件的总数 &＃61; 小文件的编号
切割好后&＃xff0c;直接对小文件进行操作即可。由于相同的IP地址&＃xff0c;映射出来的值都是一样的&＃xff0c;因此最终都会在同一个小文件之中
在这里插入图片描述
2. 给定100亿个整数&＃xff0c;设计算法找到只出现一次的整数&＃xff1f;

只出现一次&＃xff0c;通过位图表示即可&＃xff0c;当设置位图的时候&＃xff0c;如果为0&＃xff0c;就是只出现一次&＃xff0c;如果为1&＃xff0c;就代表出现了多次

3.给两个文件&＃xff0c;分别有100亿个整数&＃xff0c;我们只有1G内存&＃xff0c;如何找到两个文件交集&＃xff1f;

用两个位图分别存储两个文件之中的整形&＃xff0c;然后取它们的交集

4.位图应用变形&＃xff1a;1个文件有100亿个int&＃xff0c;1G内存&＃xff0c;设计算法找到出现次数不超过2次的所有整数

用两个位图进行存储&＃xff0c;(0,0)表示出现0次&＃xff0c;(1,0)表示出现1次&＃xff0c;(0,1)表示出现两次&＃xff0c;(1,1)表示出现多次

5.给两个文件&＃xff0c;分别有100亿个query&＃xff0c;我们只有1G内存&＃xff0c;如何找到两个文件交集&＃xff1f;分别给出精确算法和近似算法

近似算法&＃xff1a;每个请求都保存在布隆过滤器之中&＃xff0c;然后进行交集处理
精确算法&＃xff1a;哈希切割

6.如何扩展BloomFilter使得它支持删除元素的操作

给定一个计数器&＃xff0c;但是会也有缺陷&＃xff0c;比如计数回绕&＃xff0c;空间浪费等等

推荐阅读

text
优化ListView性能

本文深入探讨了如何通过多种技术手段优化ListView的性能，包括视图复用、ViewHolder模式、分批加载数据、图片优化及内存管理等。这些方法能够显著提升应用的响应速度和用户体验。 ... [详细]

蜡笔小新 2024-12-28 10:36:30
main
数据库内核开发入门 | 搭建研发环境的初步指南

本课程将带你从零开始，逐步掌握数据库内核开发的基础知识和实践技能，重点介绍如何搭建OceanBase的开发环境。 ... [详细]

蜡笔小新 2024-12-27 16:38:48
main
寻找满足特定条件的整数N的最大和(a+b)

本文探讨了如何在给定整数N的情况下，找到两个不同的整数a和b，使得它们的和最大，并且满足特定的数学条件。 ... [详细]

蜡笔小新 2024-12-26 19:26:18
case
HTML Attribute Naming Conventions for Fast Components

This document outlines the recommended naming conventions for HTML attributes in Fast Components, focusing on readability and consistency with existing standards. ... [详细]

蜡笔小新 2024-12-26 19:13:45
main
Splay Tree 区间操作优化

本文详细介绍了使用Splay Tree进行区间操作的实现方法，包括插入、删除、修改、翻转和求和等操作。通过这些操作，可以高效地处理动态序列问题，并且代码实现具有一定的挑战性，有助于编程能力的提升。 ... [详细]

蜡笔小新 2024-12-26 18:47:12
buffer
2023年京东Android面试真题解析与经验分享

本文由一位拥有6年Android开发经验的工程师撰写，详细解析了京东面试中常见的技术问题。涵盖引用传递、Handler机制、ListView优化、多线程控制及ANR处理等核心知识点。 ... [详细]

蜡笔小新 2024-12-26 17:45:48
main
火星商店问题：线段树分治与持久化Trie树的应用

本题涉及编号为1至n的火星商店，每个商店有一个永久商品价值v。操作包括每天在指定商店增加一个新商品，以及查询某段时间内某些商店中所有商品（含永久商品）与给定密码值的最大异或结果。通过线段树分治和持久化Trie树来高效解决此问题。 ... [详细]

蜡笔小新 2024-12-27 21:23:11
main
C++实现经典排序算法

本文详细介绍了七种经典的排序算法及其性能分析。每种算法的平均、最坏和最好情况的时间复杂度、辅助空间需求以及稳定性都被列出，帮助读者全面了解这些排序方法的特点。 ... [详细]

蜡笔小新 2024-12-27 19:25:14
main
深入理解 SQL 视图、存储过程与事务

本文详细介绍了SQL中的视图、存储过程和事务的概念及应用。视图为用户提供了一种灵活的数据查询方式，存储过程则封装了复杂的SQL逻辑，而事务确保了数据库操作的完整性和一致性。 ... [详细]

蜡笔小新 2024-12-27 17:40:42
email
MyBatis 动态 SQL 详解与应用

本文深入探讨 MyBatis 中动态 SQL 的使用方法，包括 if/where、trim 自定义字符串截取规则、choose 分支选择、封装查询和修改条件的 where/set 标签、批量处理的 foreach 标签以及内置参数和 bind 的用法。 ... [详细]

蜡笔小新 2024-12-27 16:20:10
case
UNP 第9章：主机名与地址转换

本章探讨了用于在主机名和数值地址之间进行转换的函数，如gethostbyname和gethostbyaddr。此外，还介绍了getservbyname和getservbyport函数，用于在服务器名和端口号之间进行转换。 ... [详细]

蜡笔小新 2024-12-27 11:26:39
main
组合数学问题：棋盘上的组合数计算

本文探讨了如何在模运算下高效计算组合数C(n, m)，并详细介绍了乘法逆元的应用。通过扩展欧几里得算法求解乘法逆元，从而实现除法取余的计算。 ... [详细]

蜡笔小新 2024-12-26 21:41:44
main
C++ 中的数组与动态数组初始化

本文探讨了 C++ 中普通数组和标准库类型 vector 的初始化方法。普通数组具有固定长度，而 vector 是一种可扩展的容器，允许动态调整大小。文章详细介绍了不同初始化方式及其应用场景，并提供了代码示例以加深理解。 ... [详细]

蜡笔小新 2024-12-26 15:38:03
main
长春大学软件工程：二叉排序树实验报告

本实验主要探讨了二叉排序树（BST）的基本操作，包括创建、查找和删除节点。通过具体实例和代码实现，详细介绍了如何使用递归和非递归方法进行关键字查找，并展示了删除特定节点后的树结构变化。 ... [详细]

蜡笔小新 2024-12-26 15:32:56
main
文件描述符、文件句柄与打开文件之间的关联解析

本文详细探讨了文件描述符、文件句柄和打开文件之间的关系，通过具体示例解释了它们在操作系统中的作用及其相互影响。 ... [详细]

蜡笔小新 2024-12-26 14:00:46

元辉5678_915

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章