当前位置: 开发笔记 > 数据库 > 正文

Oracle优化统计数据之直方图(histograms)

作者：寂寞-无解 | 来源：互联网 | 2017-05-12 15:27

直方图是一种按数据出现的频率来进行分类存储的方法.在oracle中直方图是用来描述表中列数据的分布情况.每一个sql在被执行前都要经

直方图是一种按数据出现的频率来进行分类存储的方法.在Oracle中直方图是用来描述表中列数据的分布情况.每一个sql在被执行前都要经过优化这一步骤那么在优化器给出一个最优执行计划之优化器应该要知道sql语句中所引用的底层对象的详细信息.

直方图描述的对象包括列中不同值的数量和它们出现的频率.现在存储每一个不同值和它出现的频率是不可行的,特别是对于大表来说列中有上万个不同值,oracle使用直方图来存储关于列中数据分布的有用信息而且oracle的CBO使用直方图信息来计算出一个最优的执行计划.

CBO与直方图histograms
从一个行源中评估返回行数所占的比例这就是选择率,选择率在CBO的查询优化中起着重要作用.选择率的取值范围是0到1之间.粗略的讲,如果满足谓词条件的只有少量的行记录那么CBO将更喜欢使用索引扫描,如果谓词条件要从表中获取大量数据那么CBO将更喜欢使用全表扫描.比如下面的查询获取deptno等于10的所有雇员信息如果返回少量的记录查询将会更倾向于使用索引扫描:
select * from emp where deptno=10;

为了评估选择率(或者换句话说计算出最优执行计划),CBO会使用各种形式的统计信息,配置参数等.以表中列的角度来说,CBO会收集以下统计信息:
列中不同值的数量也就是NDV
列中的最小值/最大值
列中null值的数量
数据分布或直方图信息

在没有直方图时优化器使用基表中记录的列中不同值的数量,列中最小值/最大值和列中null值的数量来计算统计信息.使用这些信息优化器假设数据在列中的最小值和最大值之间是均匀分布的或者说列中每一个不同值的出现次数是相同的.
下面举列说明.创建一个测试表t1它有10000行记录,有两个列,列all_distinct包含不同值的范围从1到10000.列skew对于前10行记录的值从1到10,余下的9990行记录都是10000.
[oracle@jingyong ~]$ sqlplus / as sysdba

SQL*Plus: Release 11.2.0.1.0 Production on Sat Jan 4 06:05:14 2014

Connected to:
Oracle Database 11g Enterprise Edition Release 11.2.0.1.0 - Production
With the Partitioning, OLAP, Data Mining and Real Application Testing options

SQL> create table t1 as select rownum all_distinct,10000 skew from dual connect by level <=10000; Table created. SQL> update t1 set skew=all_distinct where rownum<=10; 10 rows updated. SQL> commit;

Commit complete.

SQL> select skew,count(*) from t1 group by skew order by skew;

SKEW COUNT(*)
---------- ----------
1 1
2 1
3 1
4 1
5 1
6 1
7 1
8 1
9 1
10 1
10000 9990

11 rows selected.

使用dbms_stata.gather_table_stats来收集统计信息是生成直方图是由参数method_opt来控制的method_opt参数的语法是由多个部分组成的.前两个部分是强制性的:
FOR ALL [INDEXED | HIDDEN] COLUMNS [size_clause]
FOR COLUMNS [size clause] column [size_clause] [,column...]

method_opt语法中的主要部分控制哪此列将收集列的统计信息(min,max,ndv,nulls).缺省是for all columns,它将会对表中所有的列(包括隐藏列)收集基本的列统计信息.

for all indexed columns将只对哪些包含索引的列进收集列统计信息.

for all hidden columns将只会对哪些虚拟列收集列统计信息.这意味着在对表收集统计时真实列是不会生成列统计信息的.这个值不能用于通常的统计信息收集.它只能用在当基表列的统计信息精确收集后在表中创建新的虚拟列.然后对新的虚拟列收集列统计信息时才使用它.

注意如果列不在统计信息收集列表中那么只会收集列的平均长度.

size用来指定直方图的桶数SIZE {integer | REPEAT | AUTO | SKEWONLY}
auto:基于列的使用信息(sys.col_usage$)和是否存在数据倾斜来收集直方图
integer:人为的指定创建直方图的桶数范围是1到254,如果size 1意味着不创建直方图
repeat:只会对已经存在直方图的列重新生成直方图.如果是一个分区表,repeat会确保对在全局级别存在直方图的列重新生成直方图.这是不被推荐的设置的.当前直方图的桶数将会作为重新生成直方图所使用的桶数的最大值.比如,当前直方图的桶数是5,那么生成的直方图最大桶数就是5,说的直白点就是刷新现有直方图的列上的统计信息.
skewonly:对任何数据分布出现倾斜列的自动创建直方图

现在来对表t1收集统计信息但不创建直方图
SQL> exec dbms_stats.gather_table_stats(user,'t1',method_opt=>'for all columns size 1');

PL/SQL procedure successfully completed.

SQL> select column_name,num_distinct,density from user_tab_col_statistics where
2 table_name='T1';

COLUMN_NAME NUM_DISTINCT DENSITY
------------------------------ ------------ ----------
ALL_DISTINCT 10000 .0001
SKEW 11 .090909091

如果没有直方图,列的density统计信息代表了它的选择率它是通过去时1/num_distinct=1/11=0.09090901来计算出来的.在有直方图的情况下,density的计算依赖于直方图的类型和oracle的版本.density值的范围是0到1之间.当查询使用这个列作谓词条件时优化器将会使用这个列的density统计信息来评估将要返回的行数.所以 cardinality(基数)=selectivity(选择率)* number of rows(表的行数)

下面来检查一下在谓词条件中列的数据分布存在倾斜而没有直方图的情况下其基数评估的情况:
SQL> explain plan for select * from t1 where skew=1;

Explained.

SQL> select * from table(dbms_xplan.display);

PLAN_TABLE_OUTPUT
--------------------------------------------------------------------------------
Plan hash value: 3617692013

推荐阅读

redis
MySQL架构在大规模应用中的进化路径

本文探讨了随着并发需求的增长，MySQL数据库架构如何从简单的单一实例发展到复杂的分布式系统，以及每一步演进背后的原理和技术解决方案。 ... [详细]

蜡笔小新 2024-12-16 09:00:35
mysql
深入理解Java MySQL数据库连接池实现

尽管利用Apache Commons DBCP等工具可以轻松构建数据库连接池，但本文详细解析了数据库连接池的工作机制，提供了详尽的注释，帮助开发者深入理解其内部运作。这不仅有助于提高数据库操作的效率，还能增强应用程序的稳定性和性能。 ... [详细]

蜡笔小新 2024-12-15 22:02:58
mysql
PHP编程中常见的10大错误及防范措施

尽管PHP是一种强大且灵活的Web开发语言，但开发者在使用过程中常会陷入一些典型的陷阱。本文旨在列出PHP开发中最为常见的10种错误，并提供相应的预防建议。 ... [详细]

蜡笔小新 2024-12-15 11:03:44
mysql
基于Java的学生宿舍管理系统设计

本论文探讨了如何利用Java技术设计和实现一个高效的学生宿舍管理系统。该系统旨在提高宿舍管理的效率，减少人为错误，同时增强用户体验。通过集成用户认证、数据管理和查询功能，系统能够满足学校宿舍管理的多样化需求。 ... [详细]

蜡笔小新 2024-12-15 10:56:16
mysql
MySQL数据库安全管理与优化流程

本文介绍了MySQL数据库的安全权限管理思想及其制度流程，涵盖从项目开发、数据库更新到日常运维等多个方面的详细流程控制，旨在通过严格的流程管理和权限控制，有效预防数据安全隐患。 ... [详细]

蜡笔小新 2024-12-15 10:09:10
sql
MyBatis 开发技巧：延迟加载与查询缓存详解

本文详细探讨了 MyBatis 中的延迟加载和查询缓存机制，旨在帮助开发者更好地理解和利用这些特性来优化数据库访问性能。 ... [详细]

蜡笔小新 2024-12-15 09:04:26
sql
Java实现高效处理大规模考勤数据的方法与系统

本项目展示了如何利用Java技术构建一个高效的考勤数据管理系统，特别适用于处理大量数据的情况，如企业员工考勤记录等。项目包括完整的源代码和详细的文档说明，适合用于毕业设计或实际工作场景。 ... [详细]

蜡笔小新 2024-12-15 08:30:43
mysql
SUCTF 2019: EasySQL 解析

本文详细解析了 SUCTF 2019 中的 EasySQL 题目，重点探讨了堆叠注入与 UNION 注入的区别及其应用条件。 ... [详细]

蜡笔小新 2024-12-15 03:04:35
redis
Xshell6许可证过期问题及解决方案

本文详细探讨了Xshell6评估版到期后无法使用的常见问题，并提供了有效的解决方案，包括如何合法购买授权以继续使用。 ... [详细]

蜡笔小新 2024-12-14 21:09:04
sql
理解 Hibernate 中的 fetch 和 lazy 属性配置

本文探讨了在 Hibernate 中如何利用 fetch 和 lazy 属性来优化数据查询效率。通过调整这两个参数，可以有效管理数据库查询的性能，减少不必要的资源消耗。 ... [详细]

蜡笔小新 2024-12-14 19:15:52
sql
深入理解聚簇索引与非聚簇索引及其优化策略

本文探讨了数据库性能优化中的关键因素——索引，特别是聚簇索引与非聚簇索引的区别及应用场景。通过实例分析，提供了如何有效利用这两种索引来提升数据库查询性能的方法。 ... [详细]

蜡笔小新 2024-12-14 19:01:53
sql
Django中的异常日志记录与配置指南

日志记录对于软件开发至关重要，特别是在调试和维护阶段。通过日志，开发者能够追踪错误源头并了解系统的运行状态。本文将探讨如何在Django框架中有效配置和使用日志记录功能。 ... [详细]

蜡笔小新 2024-12-14 18:37:51
sql
存储过程 number 类型 java 传 number 空值_20091208传智播客数据库——Oracle触发器/存储过程/视图等充满生活的味道！BlogJava...

一、Merge语句根据条件在表中执行修改或插入数据的功能，如果插入的数据行在目的表中存在就执行UPDATE，如果是不存在则执行INSERT:-避免了单独 ... [详细]

蜡笔小新 2024-12-14 18:30:49
sql
解决Layui表格中固定列与普通列行高不匹配的问题

探讨了在使用Layui框架时，如何处理表格中固定列与其他列行高不一致的情况，提供了有效的解决方案。 ... [详细]

蜡笔小新 2024-12-14 18:00:52
json
使用AJAX动态加载列表数据并展示

AJAX技术允许网页在不重新加载整个页面的情况下进行异步更新，通过向服务器发送请求并接收JSON格式的数据，实现局部内容的动态刷新。 ... [详细]

蜡笔小新 2024-12-14 17:11:55

寂寞-无解

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章