热门标签 | HotTags
当前位置:  开发笔记 > 数据库 > 正文

数据库表连接的大小估算

在日常开发工作中,我们经常使用表连接,因为表连接具有较好的查询效率,我们知道全连接后的表和笛卡尔积有关系。但是对于笛卡尔积的特点理解甚少,这篇文章对笛卡尔积的特性做一下分析。假设集合A{a

  在日常开发工作中,我们经常使用表连接,因为表连接具有较好的查询效率,我们知道全连接后的表和笛卡尔积有关系。但是对于笛卡尔积的特点理解甚少,这篇文章对笛卡尔积的特性做一下分析。

 

  假设集合A={a,b},集合B={0,1,2},则两个集合的笛卡尔积为{(a,0),(a,1),(a,2),(b,0),(b,1), (b,2)}。

 

  在这个简单的实例中,集合A和集合B并没有相同字段。明显和数据库表的全连接有差异。

 

  在数据库中tableA连接tableB如下:

  

  tableA:

  1  1

  2  2

  3  2

  4  3

  

  tableB:

  2  1

  2  2

  3  3

  3  4

  

  tableA连接tableB,使用A的第二行,B的第一行全连接:

  1  1  null

  2  2  1

  2  2  2

  3  2  1

  3  2  2

  4  3  3

  4  3  4

 

  我们忽略掉含有null的行(定义为无效连接),会发现剩下的行等于:(tableA含有2,3字段的行数) ×  (tableB含有2,3的均值) =  3 × 2  = 6;

 

  做以下粗略分析:假设a=b=1,其中a表示tableA的第二行,b表示tableB的第一行。

  则不含null总行数可以采取如下计算获得:

  2在A表第二行出现的次数 × 2在B表第一行出现的次数 + 3在A表第二行出现的次数 × 3在B表第一行出现的次数 = (2  × a× b× 2 )+ (1  × a× b× 2)  = 6 = (2a + 1a)      ×    ((2b + 2b)/(1+1))

 

  易观察到 (2a + 1a) 的含义是(tableA含有2,3字段的行数)。 ((2b + 2b)/(1+1))的含义是(tableB含有2,3的总行数/非重复值的个数),即(tableB含有2,3的均值)。多个字段连接时也具有这个特点。

 

  正式表述为:AB全表连接有效连接的个数等于连接值在A表的出现次数乘以在在B表中出现次数的均值。严格证明从略。

  之所以这样表述,是因为,在工作中,我们很容易知道连接值在A表的出现次数和B表中出现次数的均值(比如山东有几个地级市,每个地级市大约有多少人),这样就可以估算全连接后表的大小了。


推荐阅读
  • 国内BI工具迎战国际巨头Tableau,稳步崛起
    尽管商业智能(BI)工具在中国的普及程度尚不及国际市场,但近年来,随着本土企业的持续创新和市场推广,国内主流BI工具正逐渐崭露头角。面对国际品牌如Tableau的强大竞争,国内BI工具通过不断优化产品和技术,赢得了越来越多用户的认可。 ... [详细]
  • 本文详细分析了JSP(JavaServer Pages)技术的主要优点和缺点,帮助开发者更好地理解其适用场景及潜在挑战。JSP作为一种服务器端技术,广泛应用于Web开发中。 ... [详细]
  • 本文详细介绍如何使用Python进行配置文件的读写操作,涵盖常见的配置文件格式(如INI、JSON、TOML和YAML),并提供具体的代码示例。 ... [详细]
  • 在计算机技术的学习道路上,51CTO学院以其专业性和专注度给我留下了深刻印象。从2012年接触计算机到2014年开始系统学习网络技术和安全领域,51CTO学院始终是我信赖的学习平台。 ... [详细]
  • CSS 布局:液态三栏混合宽度布局
    本文介绍了如何使用 CSS 实现液态的三栏布局,其中各栏具有不同的宽度设置。通过调整容器和内容区域的属性,可以实现灵活且响应式的网页设计。 ... [详细]
  • IT项目管理过程中的方法、工具、技术
    工欲善其事,必先利其器。而对于一个软件开发项目,最重要的器就是方法,工具和技术。而这三要素中重要的又是方法论,方法是基础&# ... [详细]
  • Linux 系统启动故障排除指南:MBR 和 GRUB 问题
    本文详细介绍了 Linux 系统启动过程中常见的 MBR 扇区和 GRUB 引导程序故障及其解决方案,涵盖从备份、模拟故障到恢复的具体步骤。 ... [详细]
  • 本文介绍了如何使用jQuery根据元素的类型(如复选框)和标签名(如段落)来获取DOM对象。这有助于更高效地操作网页中的特定元素。 ... [详细]
  • 1:有如下一段程序:packagea.b.c;publicclassTest{privatestaticinti0;publicintgetNext(){return ... [详细]
  • PHP 5.2.5 安装与配置指南
    本文详细介绍了 PHP 5.2.5 的安装和配置步骤,帮助开发者解决常见的环境配置问题,特别是上传图片时遇到的错误。通过本教程,您可以顺利搭建并优化 PHP 运行环境。 ... [详细]
  • 数据管理权威指南:《DAMA-DMBOK2 数据管理知识体系》
    本书提供了全面的数据管理职能、术语和最佳实践方法的标准行业解释,构建了数据管理的总体框架,为数据管理的发展奠定了坚实的理论基础。适合各类数据管理专业人士和相关领域的从业人员。 ... [详细]
  • 深入理解Cookie与Session会话管理
    本文详细介绍了如何通过HTTP响应和请求处理浏览器的Cookie信息,以及如何创建、设置和管理Cookie。同时探讨了会话跟踪技术中的Session机制,解释其原理及应用场景。 ... [详细]
  • 本文介绍如何在 Xcode 中使用快捷键和菜单命令对多行代码进行缩进,包括右缩进和左缩进的具体操作方法。 ... [详细]
  • 深入理解 SQL 视图、存储过程与事务
    本文详细介绍了SQL中的视图、存储过程和事务的概念及应用。视图为用户提供了一种灵活的数据查询方式,存储过程则封装了复杂的SQL逻辑,而事务确保了数据库操作的完整性和一致性。 ... [详细]
  • 构建基于BERT的中文NL2SQL模型:一个简明的基准
    本文探讨了将自然语言转换为SQL语句(NL2SQL)的任务,这是人工智能领域中一项非常实用的研究方向。文章介绍了笔者在公司举办的首届中文NL2SQL挑战赛中的实践,该比赛提供了金融和通用领域的表格数据,并标注了对应的自然语言与SQL语句对,旨在训练准确的NL2SQL模型。 ... [详细]
author-avatar
念中怡名哲盈_452
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有