热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

倒排列表压缩算法汇总——分区EliasFano编码貌似是最牛叉的啊!

来看看倒排索引压缩。压缩是拿CPU换IO的最重要手段之一,不论索引是放在硬盘还是内存中。索引压缩的算法有几十种,跟文本压缩不同,索引压缩算法不仅仅需要考虑压缩率,更要考虑压缩和解压

来看看倒排索引压缩。压缩是拿CPU换IO的最重要手段之一,不论索引是放在硬盘还是内存中。索引压缩的算法有几十种,跟文本压缩不同,索引压缩算法不仅仅需要考虑压缩率,更要考虑压缩和解压性能,否则会解压太慢而起不到CPU换IO的作用。早期的索引设计里,在尝试了几十种编码之后,基本都确定性采用差分编码+可变长字节编码。差分的目的在于让索引的文档ID尽可能小,因为压缩小的整数总是比大整数更有效。在索引构建算法中,有一类工作叫做“文档重排”,目的就是通过对文档索引顺序的重新排列,使得索引posting list中的文档ID之差最小,这样就可以让压缩算法更有效的工作,从而使得索引总体积最小。当然这样的工作在实际中价值有限,因为索引的构建速度以及增量构建同样非常重要,耗费大量时间在文档重排上,对于静态数据集合才更加有效。可变长字节编码大概是最早的索引压缩编码,思路简单到无以复加的地步——每个字节的第一位为flag,表示是否继续使用下一个byte,剩下7位为有效位,所有的有效位组成数字的2进制表示。但是它却非常有效,因为解压速度非常快。采用差分和可变长组合手段,假定文档ID采用32位整数,那么索引体积基本上可以压缩到之前的1/2到1/4之间。这种压缩手段占据了主流,几乎所有的开源搜索(Lucene,Sphinx),商业搜索都采用这种方式进行,Google则引入了Group可变长字节编码,以4个整数为一组进行压缩,这样压缩率更高。我们可以找到阿里实现的Group可变长字节编码的实现,因此很可能淘宝商品搜索也采用了这种方式。

大约2007年开始,一种名为PForDelta的索引压缩算法开始引起更多人的重视,这是一种压缩率更高并且解压速度更快的算法。有研究表明,索引压缩的过程中相邻文档ID差值为1的情况大约占10%,而PForDelta算法对小差值的情况,特别有优势。假定一个索引块为8个值(已经做过差分),80%的情况下值小于32,小于32的值均可以用一个b = 5bit的数来表示。建立这样一个结构:8*b-bit的常规部分,看作是一个位数组,每个元素占b-bit定长空间,余下的为异常部分,看作是一个整形数组,每个元素占4字节定长空间。假定有这样一个序列:23, 41, 8, 12, 30, 68, 18, 45,通过PForDelta方法的构造得到如下压缩结构:

技术分享

椭圆框所示的部分为常规部分,常规部分的第一个值1,表示从该地址开始,跳过1个地址,就可以找到下一个异常值的位置,同理第三个值3表示,跳过3个地址,就是下一个异常值的位置。常规值从前到后存储,异常值从后向前存储。PForDelta压缩是基于块来进行,目前常用的选择是128。把处理异常值的方式做改进,采用可变长字节或者其他算法(目前最先进的是S9或者S16)压缩,就是改进型的NewPFor和OptPFor压缩算法。

PForDelta及其系列改进从07年发明以来已经逐渐成熟,后边的工程实践中引入了SSE指令加速,使得解压速度可以更快。一些主流商业搜索引擎已经广泛采用,也包含上面提到的淘宝商品搜索。然而,技术革新的步伐并没有停止。PForDelta这一族算法,压缩是按照区块来进行的,这意味着如果希望仅仅访问其中某一个元素,那么需要把整个区块进行解压。有时候我们并不希望总是全部解压,从而可以做到对压缩数字的随机读取。在2012年的时候,出现了Quasi-succinct索引。它可以提供元素的随机访问而不需要全部解压。注意这里又出现了succinct字样,是因为该索引对于压缩接近信息熵的下界,这符合succinct的定义。Quasi-succinct索引的性能跟最好的区块压缩算法压缩解压性能基本一致,采用的是Elias-Fano编码,但是压缩率缺却并不高,因此会导致索引体积膨胀——尽管如此,索引所占的体积仍然少于常规的可变长字节编码。Elias-Fano编码针对随机元素的解压非常快速,但是如果需要解压全部元素,它的速度还是不能最先进的批量解压算法例如NewPFor和OptPFor快。

Elias-Fano编码过程如下:把一组整数的最低l位连接在一起,同时把高位以严格单调增的排序划分为桶。用0表示桶的存在,用1表示桶里的元素,有多少元素就有多少个1。

技术分享

图中的序列为2,3,5,7,11,13,24,如果期望定位大于6的位置,那么根据6/2^2就可以定位到大于6的桶,然后在桶内线性扫描即可。可以看到,低l位的存在,就是起到了桶定位的用途,从而避免全部解压,这可以类比于常规索引中的跳跃表,跳跃间隔为2^l。

Quasi-succinct索引在MG4J的开源搜索引擎中得到了应用,MG4J是个人认为的Java版本的开源搜索引擎中最具备研究和学习价值的,不仅仅在于高于Lucene的代码质量,更在于对于数据结构与算法孜孜不倦的创新。当然,由于不善宣传,出自学校而并没有吸引更多的开发人员加入社区,
知晓并愿意改进MG4J的人寥寥无几,这跟Lucene形成了鲜明的对比。因此,即便在技术领域,先进性也往往让步于宣传。

Partitioned(分区块) Elias-Fano编码,这篇文章获得了2014年SIGIR会议最佳论文,它是针对Elias-Fano编码进行的改进。仍然由Quasi-succinct的作者提出,主要解决Quasi-succinct索引的压缩率问题——回归区块压缩手段,把数字序列划分区块,每个区块内单独用Elias-Fano编码,同时,为了确保仍然具备随机访问的特性,把区块的边界数字再次单独拿Elias-Fano编码压缩,因此形成了一个二级结构。根据作者的试验,分区Elias-Fano编码比最快的PForDelta编码OptPFor速度和压缩率上均有超越,但压缩率大大超过后者(2倍以上)。因此,在随机访问,压缩率,解压性能上达到了很强的综合性能,荣膺最佳论文实至名归。

创新依然在继续,自从SSE加速指令引入到PForDelta的实现之后,针对SIMD指令如何设计良好的压缩算法也成为工程和学术的研究重点。亚马逊旗下搜索引擎A9.com就曾经提出了针对SIMD加速的可变长字节编码实现,而在2013年底,加拿大LICEF研究中心的Lemire提出了基于SIMD bitpacking的压缩编码SIMD-BP128,其解压速度是迄今为止最快的,超过OptPFor的2倍(一秒钟可以解压10亿整数),当然在压缩率上并没有达到高指标。

压缩可以说是索引设计中的第一考虑要素,盘点上面的列表,NewPFor,OptPFor,Quasi-succinct(Elias-Fano),Partitioned Elias-Fano,SIMD-BP128,都是业界最先进的选择,设计时需要根据自己的要求做出取舍。

转自:http://chuansong.me/n/2035211

倒排列表压缩算法汇总——分区Elias-Fano编码貌似是最牛叉的啊!


推荐阅读
  • QUIC协议:快速UDP互联网连接
    QUIC(Quick UDP Internet Connections)是谷歌开发的一种旨在提高网络性能和安全性的传输层协议。它基于UDP,并结合了TLS级别的安全性,提供了更高效、更可靠的互联网通信方式。 ... [详细]
  • 深入理解OAuth认证机制
    本文介绍了OAuth认证协议的核心概念及其工作原理。OAuth是一种开放标准,旨在为第三方应用提供安全的用户资源访问授权,同时确保用户的账户信息(如用户名和密码)不会暴露给第三方。 ... [详细]
  • CSS 布局:液态三栏混合宽度布局
    本文介绍了如何使用 CSS 实现液态的三栏布局,其中各栏具有不同的宽度设置。通过调整容器和内容区域的属性,可以实现灵活且响应式的网页设计。 ... [详细]
  • 本文介绍了一款用于自动化部署 Linux 服务的 Bash 脚本。该脚本不仅涵盖了基本的文件复制和目录创建,还处理了系统服务的配置和启动,确保在多种 Linux 发行版上都能顺利运行。 ... [详细]
  • 在Linux系统中配置并启动ActiveMQ
    本文详细介绍了如何在Linux环境中安装和配置ActiveMQ,包括端口开放及防火墙设置。通过本文,您可以掌握完整的ActiveMQ部署流程,确保其在网络环境中正常运行。 ... [详细]
  • 理解存储器的层次结构有助于程序员优化程序性能,通过合理安排数据在不同层级的存储位置,提升CPU的数据访问速度。本文详细探讨了静态随机访问存储器(SRAM)和动态随机访问存储器(DRAM)的工作原理及其应用场景,并介绍了存储器模块中的数据存取过程及局部性原理。 ... [详细]
  • 本文介绍如何通过Windows批处理脚本定期检查并重启Java应用程序,确保其持续稳定运行。脚本每30分钟检查一次,并在需要时重启Java程序。同时,它会将任务结果发送到Redis。 ... [详细]
  • MySQL中枚举类型的所有可能值获取方法
    本文介绍了一种在MySQL数据库中查询枚举(ENUM)类型字段所有可能取值的方法,帮助开发者更好地理解和利用这一数据类型。 ... [详细]
  • 2023 ARM嵌入式系统全国技术巡讲旨在分享ARM公司在半导体知识产权(IP)领域的最新进展。作为全球领先的IP提供商,ARM在嵌入式处理器市场占据主导地位,其产品广泛应用于90%以上的嵌入式设备中。此次巡讲将邀请来自ARM、飞思卡尔以及华清远见教育集团的行业专家,共同探讨当前嵌入式系统的前沿技术和应用。 ... [详细]
  • 国内BI工具迎战国际巨头Tableau,稳步崛起
    尽管商业智能(BI)工具在中国的普及程度尚不及国际市场,但近年来,随着本土企业的持续创新和市场推广,国内主流BI工具正逐渐崭露头角。面对国际品牌如Tableau的强大竞争,国内BI工具通过不断优化产品和技术,赢得了越来越多用户的认可。 ... [详细]
  • 优化ListView性能
    本文深入探讨了如何通过多种技术手段优化ListView的性能,包括视图复用、ViewHolder模式、分批加载数据、图片优化及内存管理等。这些方法能够显著提升应用的响应速度和用户体验。 ... [详细]
  • 1:有如下一段程序:packagea.b.c;publicclassTest{privatestaticinti0;publicintgetNext(){return ... [详细]
  • PHP 5.2.5 安装与配置指南
    本文详细介绍了 PHP 5.2.5 的安装和配置步骤,帮助开发者解决常见的环境配置问题,特别是上传图片时遇到的错误。通过本教程,您可以顺利搭建并优化 PHP 运行环境。 ... [详细]
  • 本章将深入探讨移动 UI 设计的核心原则,帮助开发者构建简洁、高效且用户友好的界面。通过学习设计规则和用户体验优化技巧,您将能够创建出既美观又实用的移动应用。 ... [详细]
  • 本文介绍如何在应用程序中使用文本输入框创建密码输入框,并通过设置掩码来隐藏用户输入的内容。我们将详细解释代码实现,并提供专业的补充说明。 ... [详细]
author-avatar
mobiledu2502895137
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有