当前位置: 开发笔记 > 编程语言 > 正文

牛逼哄哄的布隆过滤器，到底有什么用？

作者：香柏林茶业 | 来源：互联网 | 2023-10-12 10:42

作者：CodeBear的园子www.cnblogs.comCodeBearp10911177.html本文是站在小白的角度去讨论布隆过滤器，如果你是科班出身，或者比较聪明，又或者真

牛逼哄哄的布隆过滤器，到底有什么用？

作者：CodeBear的园子 www.cnblogs.com/CodeBear/p/10911177.html

本文是站在小白的角度去讨论布隆过滤器，如果你是科班出身，或者比较聪明，又或者真正想完全搞懂布隆过滤器的可以移步。

不知道从什么时候开始，本来默默无闻的布隆过滤器一下子名声大燥，仿佛身在互联网，做着开发的，无人不知，无人不晓，哪怕对技术不是很关心的小伙伴也听过它的名号。

我也花了不少时间去研究布隆过滤器，看了不少博客，无奈不是科班出身，又没有那么聪明的头脑，又比较懒...经过“放弃，拿起，放弃，拿起”的无限轮回，应该算是了解了布隆过滤器的核心思想，所以想给大家分享下。

布隆过滤器的应用

我们先来看下布隆过滤器的应用场景，让大家知道神奇的布隆过滤器到底能做什么。

缓存穿透

我们经常会把一部分数据放在Redis等缓存，比如产品详情。这样有查询请求进来，我们可以根据产品Id直接去缓存中取数据，而不用读取数据库，这是提升性能最简单，最普遍，也是最有效的做法。面试常问，缓存三大问题及解决方案！

一般的查询请求流程是这样的：先查缓存，有缓存的话直接返回，如果缓存中没有，再去数据库查询，然后再把数据库取出来的数据放入缓存，一切看起来很美好。

但是如果现在有大量请求进来，而且都在请求一个不存在的产品Id，会发生什么？既然产品Id都不存在，那么肯定没有缓存，没有缓存，那么大量的请求都怼到数据库，数据库的压力一下子就上来了，还有可能把数据库打死。

虽然有很多办法都可以解决这问题，但是我们的主角是“布隆过滤器”，没错，“布隆过滤器”就可以解决（缓解）缓存穿透问题。至于为什么说是“缓解”，看下去你就明白了。

大量数据，判断给定的是否在其中

现在有大量的数据，而这些数据的大小已经远远超出了服务器的内存，现在再给你一个数据，如何判断给你的数据在不在其中。

如果服务器的内存足够大，那么用HashMap是一个不错的解决方案，理论上的时间复杂度可以达到O(1)，但是现在数据的大小已经远远超出了服务器的内存，所以无法使用HashMap，这个时候就可以使用“布隆过滤器”来解决这个问题。但是还是同样的，会有一定的“误判率”。

什么是布隆过滤器

布隆过滤器是一个叫“布隆”的人提出的，它本身是一个很长的二进制向量，既然是二进制的向量，那么显而易见的，存放的不是0，就是1。

现在我们新建一个长度为16的布隆过滤器，默认值都是0，就像下面这样：

现在需要添加一个数据：

我们通过某种计算方式，比如Hash1，计算出了Hash1(数据)=5，我们就把下标为5的格子改成1，就像下面这样：

我们又通过某种计算方式，比如Hash2，计算出了Hash2(数据)=9，我们就把下标为9的格子改成1，就像下面这样：

还是通过某种计算方式，比如Hash3，计算出了Hash3(数据)=2，我们就把下标为2的格子改成1，就像下面这样：

这样，刚才添加的数据就占据了布隆过滤器“5”，“9”，“2”三个格子。

可以看出，仅仅从布隆过滤器本身而言，根本没有存放完整的数据，只是运用一系列随机映射函数计算出位置，然后填充二进制向量。

这有什么用呢？比如现在再给你一个数据，你要判断这个数据是否重复，你怎么做？

你只需利用上面的三种固定的计算方式，计算出这个数据占据哪些格子，然后看看这些格子里面放置的是否都是1，如果有一个格子不为1，那么就代表这个数字不在其中。

这很好理解吧，比如现在又给你了刚才你添加进去的数据，你通过三种固定的计算方式，算出的结果肯定和上面的是一模一样的，也是占据了布隆过滤器“5”，“9”，“2”三个格子。

但是有一个问题需要注意，如果这些格子里面放置的都是1，不一定代表给定的数据一定重复，也许其他数据经过三种固定的计算方式算出来的结果也是相同的。这也很好理解吧，比如我们需要判断对象是否相等，是不可以仅仅判断他们的哈希值是否相等的。

也就是说布隆过滤器只能判断数据是否一定不存在，而无法判断数据是否一定存在。

按理来说，介绍完了新增、查询的流程，就要介绍删除的流程了，但是很遗憾的是布隆过滤器是很难做到删除数据的，为什么？你想想，比如你要删除刚才给你的数据，你把“5”，“9”，“2”三个格子都改成了0，但是可能其他的数据也映射到了“5”，“9”，“2”三个格子啊，这不就乱套了吗？

相信经过我这么一介绍，大家对布隆过滤器应该有一个浅显的认识了，至少你应该清楚布隆过滤器的优缺点了：

优点：由于存放的不是完整的数据，所以占用的内存很少，而且新增，查询速度够快；
缺点：随着数据的增加，误判率随之增加；无法做到删除数据；只能判断数据是否一定不存在，而无法判断数据是否一定存在。

可以看到，布隆过滤器的优点和缺点一样明显。

在上文中，我举的例子二进制向量长度为16，由三个随机映射函数计算位置，在实际开发中，如果你要添加大量的数据，仅仅16位是远远不够的，为了让误判率降低，我们还可以用更多的随机映射函数、更长的二进制向量去计算位置。

guava实现布隆过滤器

现在相信你对布隆过滤器应该有一个比较感性的认识了，布隆过滤器核心思想其实并不难，难的在于如何设计随机映射函数，到底映射几次，二进制向量的长度设置为多少比较好，这可能就不是一般的开发可以驾驭的了。

好在Google大佬给我们提供了开箱即用的组件，来帮助我们实现布隆过滤器，现在就让我们看看怎么Google大佬送给我们的“礼物”吧。

首先在pom引入“礼物”：

  
  com.google.guava  
  guava  
  19.0

然后就可以测试啦：

private static int size = 1000000;//预计要插入多少数据  
  
private static double fpp = 0.01;//期望的误判率  
  
private static BloomFilter bloomFilter = BloomFilter.create(Funnels.integerFunnel(), size, fpp);  
  
public static void main(String[] args) {  
  //插入数据  
  for (int i = 0; i <1000000; i++) {  
    bloomFilter.put(i);  
  }  
  int count = 0;  
  for (int i = 1000000; i <2000000; i++) {  
    if (bloomFilter.mightContain(i)) {  
      count++;  
      System.out.println(i + "误判了");  
    }  
  }  
  System.out.println("总共的误判数:" + count);  
}

代码简单分析：

我们定义了一个布隆过滤器，有两个重要的参数，分别是我们预计要插入多少数据，我们所期望的误判率，误判率不能为0。

我向布隆过滤器插入了0-1000000，然后用1000000-2000000来测试误判率。

运行结果：

1999501误判了  
1999567误判了  
1999640误判了  
1999697误判了  
1999827误判了  
1999942误判了  
总共的误判数:10314

现在总共有100万数据是不存在的，误判了10314次，我们计算下误判率：

和我们定义的期望误判率0.01相差无几。

redis实现布隆过滤器

上面使用guava实现布隆过滤器是把数据放在本地内存中，无法实现布隆过滤器的共享，我们还可以把数据放在redis中，用 redis来实现布隆过滤器，我们要使用的数据结构是bitmap，你可能会有疑问，redis支持五种数据结构：String，List，Hash，Set，ZSet，没有bitmap呀。没错，实际上bitmap的本质还是String。

可能有小伙伴会说，纳尼，布隆过滤器还没介绍完，怎么又出来一个bitmap，没事，你可以把bitmap就理解为一个二进制向量。

要用redis来实现布隆过滤器，我们需要自己设计映射函数，自己度量二进制向量的长度，这对我来说，无疑是一个不可能完成的任务，只能借助搜索引擎，下面直接放出代码把。

public class RedisMain {  
    static final int expectedInsertiOns= 100;//要插入多少数据  
    static final double fpp = 0.01;//期望的误判率  
  
    //bit数组长度  
    private static long numBits;  
  
    //hash函数数量  
    private static int numHashFunctions;  
  
    static {  
        numBits = optimalNumOfBits(expectedInsertions, fpp);  
        numHashFunctiOns= optimalNumOfHashFunctions(expectedInsertions, numBits);  
    }  
  
    public static void main(String[] args) {  
        Jedis jedis = new Jedis("192.168.0.109", 6379);  
        for (int i = 0; i <100; i++) {  
            long[] indexs = getIndexs(String.valueOf(i));  
            for (long index : indexs) {  
                jedis.setbit("codebear:bloom", index, true);  
            }  
        }  
        for (int i = 0; i <100; i++) {  
            long[] indexs = getIndexs(String.valueOf(i));  
            for (long index : indexs) {  
                Boolean isCOntain= jedis.getbit("codebear:bloom", index);  
                if (!isContain) {  
                    System.out.println(i + "肯定没有重复");  
                }  
            }  
            System.out.println(i + "可能重复");  
        }  
    }  
  
    /**  
     * 根据key获取bitmap下标  
     */  
    private static long[] getIndexs(String key) {  
        long hash1 = hash(key);  
        long hash2 = hash1 >>> 16;  
        long[] result = new long[numHashFunctions];  
        for (int i = 0; i


运行结果：
88可能重复  
89可能重复  
90可能重复  
91可能重复  
92可能重复  
93可能重复  
94可能重复  
95可能重复  
96可能重复  
97可能重复  
98可能重复  
99可能重复

本篇博客到这里就结束了，谢谢大家。写作不易，坚持更难，如大家喜欢就帮忙推送给其他人！
关注公众号Java技术栈回复"面试"获取我整理的2020最全面试题及答案。
推荐去我的博客阅读更多：
1.Java JVM、集合、多线程、新特性系列教程
2.Spring MVC、Spring Boot、Spring Cloud 系列教程
3.Maven、Git、Eclipse、Intellij IDEA 系列工具教程
4.Java、后端、架构、阿里巴巴等大厂最新面试题
觉得不错，别忘了点赞+转发哦！




    
        
                        html
                        缓存
                        redis
                        数据库
                        服务器
                        hash
                        go
                        version
                        static
                    
    



    
        写下你的评论吧 !
        
            
                吐个槽吧,看都看了
            
            
                
                                        会员登录 | 用户注册
                                    
                
            
        

        
    

    
        推荐阅读
        
            
                                
                    
                        int
                        二维码的实现与应用
                    

                    
                                                
                            
                        
                                                
                        本文介绍了二维码的基本概念、分类及其优缺点，并详细描述了如何使用Java编程语言结合第三方库（如ZXing和qrcode.jar）来实现二维码的生成与解析。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2024-11-21 17:10:15
                    

                

                
                                
                    
                        datetime
                        D17：C#设计模式之十六观察者模式（Observer Pattern）【行为型】
                    

                    
                                                
                            
                        
                                                
                        一、引言今天是2017年11月份的最后一天，也就是2017年11月30日，利用今天再写一个模式，争取下个月（也就是12月份& ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2024-11-22 19:45:55
                    

                

                                
                    
                    
                
                
                                
                    
                        int
                        UVALive 8201 - BBP 公式计算圆周率
                    

                    
                                                
                        在1995年，Simon Plouffe 发现了一种特殊的求和方法来表示某些常数。两年后，Bailey 和 Borwein 在他们的论文中发表了这一发现，这种方法被命名为 Bailey-Borwein-Plouffe (BBP) 公式。该问题要求计算圆周率 π 的第 n 个十六进制数字。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2024-11-21 18:32:57
                    

                

                
                                
                    
                        int
                        如何使用 org.apache.tinkerpop.gremlin.structure.VertexProperty 的 key 方法
                    

                    
                                                
                        本文详细介绍了 `org.apache.tinkerpop.gremlin.structure.VertexProperty` 类中的 `key()` 方法，并提供了多个实际应用的代码示例。通过这些示例，读者可以更好地理解该方法在图数据库操作中的具体用途。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2024-11-21 17:38:10
                    

                

                
                                
                    
                        int
                        Go从入门到精通系列视频之go编程语言密码学哈希算法（二）
                    

                    
                                                
                        Go从入门到精通系列视频之go编程语言密码学哈希算法（二） ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2024-11-21 10:55:36
                    

                

                
                                
                    
                        function
                        计算和为2的幂的偶对数量 | 进阶篇
                    

                    
                                                
                        本文探讨了如何高效地计算数组中和为2的幂的偶对数量，提供了从基础到优化的方法。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2024-11-19 15:51:23
                    

                

                
                                
                    
                        int
                        Java Socket编程指南：构建多客户端支持的服务端
                    

                    
                                                
                        本文基于Java官方文档进行了适当修改，旨在介绍如何实现一个能够同时处理多个客户端请求的服务端程序。在前文中，我们探讨了单客户端访问的服务端实现，而本篇将深入讲解多客户端环境下的服务端设计与实现。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2024-11-22 23:16:34
                    

                

                
                                
                    
                        function
                        深入解析HashMap中的hash()方法
                    

                    
                                                
                        本文详细探讨了Java中HashMap类的hash()方法的工作原理及其重要性，特别是在JDK 7版本中的实现。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2024-11-22 21:33:48
                    

                

                
                                
                    
                        int
                        Redis 数据类型及其应用场景
                    

                    
                                                
                        本文详细介绍了 Redis 中的主要数据类型，包括 String、Hash、List、Set、ZSet、Geo 和 HyperLogLog，并提供了每种类型的基本操作命令和应用场景。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2024-11-22 15:36:30
                    

                

                
                                
                    
                        int
                        阶段一：Hankson的趣味数学挑战——不使用辗转相除法求解特定条件下的正整数
                    

                    
                                                
                        Hanks博士是一位著名的生物技术专家，他的儿子Hankson对数学有着浓厚的兴趣。最近，Hankson遇到了一个有趣的数学问题，涉及求解特定条件下的正整数x，而不使用传统的辗转相除法。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2024-11-22 14:26:49
                    

                

                
                                
                    
                        function
                        为何 TypeScript 如此流行而 Python 类型注解却鲜少使用？
                    

                    
                                                
                        本文探讨了Python类型注解使用率低下的原因，主要归结于历史背景和投资回报率（ROI）的考量。文章不仅分析了类型注解的实际效用，还回顾了Python类型注解的发展历程。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2024-11-22 14:02:28
                    

                

                
                                
                    
                        int
                        解决iOS应用推送通知错误：未找到有效aps-environment权限
                    

                    
                                                
                        在尝试加载支持推送通知的iOS应用程序的Ad Hoc构建时，遇到了‘no valid aps-environment entitlement found for application’的错误提示。本文将探讨此错误的原因及多种可能的解决方案。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2024-11-21 19:26:31
                    

                

                
                                
                    
                        function
                        深入解析 Bootstrap Table 的使用技巧
                    

                    
                                                
                        本文详细介绍了如何利用 Bootstrap Table 实现数据展示与操作，包括数据加载、表格配置及前后端交互等关键步骤。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2024-11-20 17:21:26
                    

                

                
                                
                    
                        int
                        linux网络子系统分析（二）—— 协议栈分层框架的建立
                    

                    
                                                
                            
                        
                                                
                        目录一、综述二、INET的初始化2.1INET接口注册2.2抽象实体的建立2.3代码细节分析2.3.1socket参数三、其他协议3.1PF_PACKET3.2P ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2024-11-20 15:21:14
                    

                

                
                                
                    
                        int
                        深入理解RxJava操作符
                    

                    
                                                
                        根据官方定义，RxJava是一种用于异步编程和可观察数据流的API。其核心特性在于流式处理能力和丰富的操作符支持。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2024-11-19 17:37:35

















    

    
        
            
            
                
                
            

            
                香柏林茶业            

            
                这个家伙很懒，什么也没留下！            


        
    

    
    

    
    

    
        Tags | 热门标签
        
            
                                
                    text
                
                                
                    hook
                
                                
                    window
                
                                
                    vba
                
                                
                    solr
                
                                
                    stream
                
                                
                    email
                
                                
                    search
                
                                
                    regex
                
                                
                    object
                
                                
                    triggers
                
                                
                    bash
                
                                
                    python3
                
                                
                    cPlusPlus
                
                                
                    ascii
                
                                
                    node.js
                
                                
                    sum
                
                                
                    future
                
                                
                    timezone
                
                                
                    cSharp
                
                                
                    install
                
                                
                    int
                
                                
                    web
                
                                
                    command
                
                                
                    export
                
                                
                    datetime
                
                                
                    netty
                
                                
                    httpclient
                
                                
                    function
                
                                
                    tags
                
                                
            
        
    

    
    
        
            
            
        
        RankList | 热门文章
        
            
                                
                    1Linux服务器tomact 8.0启动慢的完美解决方法
                
                                
                    2详解springboot-修改内置tomcat版本
                
                                
                    3详解Windows下调整Tomcat启动参数的实现方法
                
                                
                    4Linux ftp 命令行中下载文件get与上传文件put的命令应用详解
                
                                
                    5Apache Shiro 框架简介
                
                                
                    6Spark自定义累加器的使用实例详解
                
                                
                    7VMware14.0.0版本虚拟机安装Ubuntu16.04 LTS版本Linux系统图文教程
                
                                
                    8Linux内核参数调整方法
                
                                
                    9docker run起来之后执行多条命令
                
                                
                    10详解Linux进程调度策略
                
                                
                    11Linux中hexdump命令用法
                
                                
                    12Linux环境下快速搭建ftp服务器方法介绍
                
                                
                    13CentOS6.9中搭建FTP服务器的方法
                
                                
                    14vmware克隆Centos6.4虚拟机网卡无法启动问题的解决方法
                
                                
                    15Centos7上网及添加静态IP方法介绍