当前位置: 开发笔记 > 数据库 > 正文

DB210新特性:自适应压缩

作者：mobiledu2502875697 | 来源：互联网 | 2017-05-12 14:55

在刚刚发布的DB2LUW10.1中，引入了一种新的压缩技术——自适应压缩。这种压缩方案，是表压缩和页压缩的混合体，即用户的数据表在被表级字典压缩之后，还会被数据页一级的字典压缩。

在刚刚发布的 DB2 LUW 10.1 中，引入了一种新的压缩技术——自适应压缩。这种压缩方案，是表压缩和页压缩的混合体，即用户的数据表在被表级字典压缩之后，还会被数据页一级的字典压缩。

该方案继承了原有表压缩高压缩率的优点，同时利用动态的页级字典，在提高压缩率的同时，有效缓解了原有表压缩静态字典导致压缩率随数据变化衰减的问题

DB2 中的表压缩

在数据大爆炸的时代背景下，数据压缩的作用显得越发重要。压缩一方面可以节省数据存储成本，另一方面可以提高数据的访问效率。通常来说，压缩是基于数据字典的。字典中记录了数据中重复出现的、较长的模式和用来表示这些模式的、较短的符号。压缩的过程就是将原始数据中的模式替换成符号，而解压就是将压缩后数据中的符号替换成原先的模式，从而还原出原始数据。

从 V9.1 开始，DB2 Linux Windows Unix 提供了对用户表数据的行压缩（Row Compression）支持，这一压缩技术也称为深度压缩（Deep Compression）。行压缩是针对先前已有的值压缩技术提出的。值压缩是将表不同行、同一列的重复数据只保存一份，其他地方仅是此处的引用而已。行压缩则是以行为数据压缩的基本单位，在压缩过程中，行不会被拆为列来进行处理。通过该技术，用户能够为数据表建立一个表级别的数据字典，并使用该字典来压缩整个表中的全部数据。在对一个表启用了压缩之后，需要用户执行表重组在已有数据上建立字典，并压缩已有数据。在向一个已经启用了压缩、并且创建了字典的表中插入数据时，新数据会被压缩；修改该表中的数据时，数据会被解压，修改后再存入表中；查询表中的数据时，数据会被解压之后返回给用户。如果表中的数据在建立字典之后发生剧烈变化，原先的字典就有可能不能很好的压缩变化之后的数据，这时候可以使用带有重置字典选项的表重组命令来重新创建表压缩字典（REORG TABLE … RESETDICTIONARY）并用新字典压缩已有数据。

在 DB2 V9.1 中，表重组是创建字典的唯一方式，但是表重组的开销较大，使用较为不便。通常的做法是，将一小部分数据导入表中，在此之上进行表重组建立字典，然后再进入表中的数据就会被压缩了。在 V9.5 中自动化了这一过程，增加了自动字典建立（ADC，Automatic Dictionary Creation）特性。在启用了行压缩之后，压缩字典会在表中的数据增加到一定数量之后（默认是 2M）自动创建，随后进入表中的数据就会被该字典压缩。自动字典建立简化了行压缩的使用，使得用户不再需要手工运行表重组来创建字典并压缩数据，字典会在数据进入表示自动建立，在有了字典之后的数据也会自动被压缩，这一过程无需用户干预。

但是，与表重组建立的字典和压缩的数据相比，ADC 创建的字典仅基于很少的一部分数据，因而相对使用离线表重组建立压缩字典而言，ADC 的压缩率较低。如果用户想要得到较高的压缩率，带有重置字典选项的表重组操作还是必要的。

值得注意的是，一个用户表的每个分区下的每个数据分区都有自己的表压缩字典。分区，指的是数据库分区（Database Partition Feature，DPF）环境下的数据库分区；数据分区，指的是范围分区表（Range Partition Table）的数据分区。这两种特性下表中的数据都是物理独立存放的，因此它们都会有自己独立的表压缩字典。本文所提及的表级字典，如果没有特殊说明，均指的是单一数据库分区、非数据分区表中的表级字典。

以上简单介绍了 DB2 V9.7 中已有的表压缩特性，以及如何使用该特性建立字典并压缩表中的数据。以表重组建立字典并压缩数据为例，字典基于创建字典时表中数据而建立，所以该字典能够代表此时表中的数据特征。然而，随着表中的数据发生变化，比如新数据的插入，原有数据的更新，原数据的冗余特征就可能发生变化，而表压缩的字典并不能自动根据这些变化动态发生变化，因此，在数据发生变化时，有时表压缩的压缩率会随着数据变化而衰减。为了缓解这一问题，在最新的 DB2 LUW V10.1 中，引入了压缩新特性——自适应压缩（Adaptive Compression）。

自适应压缩

刚才已经提到，表压缩的字典是静态的，即字典在创建之后不会随着数据的变化而发生变化，唯一能够使字典发生变化的操作就是字典的重建——运行带有重置字典选项的离线表重组操作；同时，表压缩的字典对于整个表来说是全局的（暂不考虑数据库分区特性 Database Partition Feature DPF 下的表，以及范围分区表 Range Partition Table），即字典中的模式是从整个表中采样出来的，从而能够代表整个表的数据特征，因此在字典创建时，能够把全表的数据都压缩得较好。

同时，由于表压缩的字典是静态的，表中的数据在字典创建后发生变化时，字典并不会发生变化，从而使得表压缩的压缩率可能会随着数据的变化而降低；由于表压缩的字典是全局的，代表整个表的数据特征，有可能不能代表该表的某些局部特征，比如，一张表的某几处相邻若干条数据相似度非常高，由于这些冗余仅仅是局部的，并不能代表整张表的数据特征，因此表压缩的字典并不能很好的反映这些冗余，这些数据可能就未能达到最佳的压缩效果。

针对这两个问题，自适应压缩应运而生了。自适应压缩在原有的表压缩基础上，叠加了数据页级别的压缩。自适应压缩的解决方案，是传统表压缩和新的页压缩的组合。页压缩是动态的，在页中的数据达到一定程度时，页字典会自动被建立，并且已有数据会被自动压缩，在页中的数据发生变化后，压缩率衰减到一定程度时，页字典会自动被重建；页压缩的是局部的，它只针对其所在页的数据，因此对于聚簇数据（Clustered Data）压缩效果更好。

页压缩技术也是行压缩的一种，即行是压缩的基本单位，压缩过程中不会将行拆分为列来进行处理。为了区别 V9.1 引入的的表级行压缩技术，本文将其称为表压缩，而将 V10.1 中自适应压缩中的页级行压缩称为页压缩。自适应压缩是二者的组合。

跟操作系统中页的概念类似，DB2 中的数据页是 I/O 的最小单位。用户的数据以及一些系统控制信息都以记录（Record）的形式存放在数据页中。DB2 中数据页的大小是可以定义的，默认是 4KB，除此之外，还有 8KB、16KB 和 32KB。页压缩针对的是同一数据页中的数据，页压缩的字典则是以系统内部记录的形式存放在数据页中的。不同数据页中由于数据不同，因而页压缩字典也不同。

在 DB2 LUW V10.1 中，针对自适应压缩在表定义的 SQL 语句中引入了一个新关键字—— ADAPTIVE，语法如清单 1 所示：

清单 1. 新关键字 ADAPTIVE 的语法

				
      .-COMPRESS NO---------------. 
 >-----+---------------------------+-- 
      |              .-ADAPTIVE-. | 
      '-COMPRESS YES-+----------+-'
                     '-STATIC---'

ADAPTIVE 代表对表启用新的自适应压缩方案，而 STATIC 关键字则代表原有的表压缩方案。在没有指定 ADAPTIVE 关键字时，默认启用自适应压缩，即表压缩加页压缩的组合压缩方案，也就是说，指定压缩选项时不指定压缩类型是 ADAPTIVE 还是 STATIC，此时会隐式采用自适应压缩。如果要只使用原先的表压缩，需要显示指定 STATIC 关键字。

推荐阅读

sql
Python第三方库安装的多种途径及注意事项

本文详细介绍了Python第三方库的几种常见安装方法，包括使用pip命令、集成开发环境（如Anaconda）以及手动文件安装，并提供了每种方法的具体操作步骤和适用场景。 ... [详细]

蜡笔小新 2024-12-23 13:47:08
sql
磁盘健康检查与维护

在计算机系统运行过程中，硬件或电源故障可能会导致文件系统出现异常。为确保数据完整性和系统稳定性，定期进行磁盘健康检查至关重要。本文将详细介绍如何使用fsck和badblocks工具来检测和修复文件系统及硬盘扇区的潜在问题。 ... [详细]

蜡笔小新 2024-12-23 13:17:57
数据库
C#中SQL Server与Access批量数据插入性能对比

本文探讨了使用C#在SQL Server和Access数据库中批量插入多条数据的性能差异。通过具体代码示例，详细分析了两种数据库的执行效率，并提供了优化建议。 ... [详细]

蜡笔小新 2024-12-23 13:03:32
odbc
阿里云ecs怎么配置php环境,阿里云ecs配置选择

阿里云ecs怎么配置php环境,阿里云ecs配置选择 ... [详细]

蜡笔小新 2024-12-23 11:12:07
odbc
深入理解Linux中的软链接与硬链接

本文详细介绍了Linux系统中软链接和硬链接的概念、创建方法及其应用场景。通过实例解释了两者的区别，包括如何防止误删文件及软链接在跨文件系统时的优势。 ... [详细]

蜡笔小新 2024-12-22 20:28:15
odbc
在Ubuntu系统中安装Windows 7的详细步骤

本文详细介绍了如何在预装Ubuntu系统的笔记本电脑上安装Windows 7。针对没有光驱的情况，提供了通过USB安装的具体方法，并解决了分区、驱动器无法识别等问题。 ... [详细]

蜡笔小新 2024-12-22 18:26:55
数据库
嵌入式开发环境搭建与文件传输指南

本文详细介绍了如何为嵌入式应用开发搭建必要的软硬件环境，并提供了通过串口和网线两种方式将文件传输到开发板的具体步骤。适合Linux开发初学者参考。 ... [详细]

蜡笔小新 2024-12-22 13:38:48
数据库
Linux中的yum安装软件

yum俗称大黄狗作用：解决安装软件包的依赖关系当安装依赖关系的软件包时，会将依赖的软件包一起安装。本地yum：需要yum源，光驱挂载。yum源：（刚开始查看yum源中的内容就是上图 ... [详细]

蜡笔小新 2024-12-22 07:41:00
database
解决Windows和SSMS中未注册'microsoft.ACE.oledb.12.0'提供程序的问题

本文介绍了解决在Windows操作系统或SQL Server Management Studio (SSMS) 中遇到的“microsoft.ACE.oledb.12.0”提供程序未注册问题的方法，特别针对Access Database Engine组件的安装。 ... [详细]

蜡笔小新 2024-12-21 15:21:22
数据库
【48】在flask中使用ＳＱＬＡＬｃｈｅｍｙ连接ｓｑｌｉｔｅ数据库

方法：１　配置数据库basediros.path.abspath(os.path.dirname(__file__))　　＃获取当前文件的绝对路径appFlask(__name__ ... [详细]

蜡笔小新 2024-12-23 12:51:39
sqlserver
SQL Server: 提取字符串中的数值（包含0-9和‘.’）的自定义函数

本文介绍了一个SQL Server自定义函数，用于从字符串中提取仅包含数字和小数点的子串。该函数通过循环删除非数字字符来实现，并附带创建测试表、存储过程以演示其应用。 ... [详细]

蜡笔小新 2024-12-23 10:16:49
sqlserver
如何在Windows 10中设置自定义桌面背景图片

为了使您的电脑更加个性化，许多用户希望为Windows 10桌面设置自己喜欢的多张图片。本文将详细介绍如何轻松实现这一目标，并提供一些专业建议，确保您能够充分利用系统功能。 ... [详细]

蜡笔小新 2024-12-22 15:39:09
数据库
利用Selenium与ChromeDriver实现豆瓣网页全屏截图

本文介绍了一种使用Selenium和ChromeDriver结合Python代码，轻松实现对豆瓣网站进行完整页面截图的方法。该方法不仅简单易行，而且解决了新版Selenium不再支持PhantomJS的问题。 ... [详细]

蜡笔小新 2024-12-22 15:17:55
数据库
如何在电脑上同时登录多个微信账号？实用技巧全解析

本文详细介绍了如何在电脑上同时登录多个微信账号的方法，并分享了一些微信的隐藏小技巧，帮助用户更高效地使用微信。 ... [详细]

蜡笔小新 2024-12-22 15:12:14
数据库
实用正则表达式有哪些

小编给大家分享一下实用正则表达式有哪些，相信大部分人都还不怎么了解，因此分享这篇文章给大家参考一下，希望大家阅读完这篇文章后大有收获，下 ... [详细]

蜡笔小新 2024-12-22 13:59:04

mobiledu2502875697

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章