热门标签 | HotTags
当前位置:  开发笔记 > 后端 > 正文

kettle按照时间增量和全量抽_数仓中的全量表,增量表,拉链表,流水表,快照表...

数仓中的全量表,增量表,拉链表,流水表,快照表预热:我们先从几个物理概念入手理解什么是流量,存量


数仓中的全量表,增量表,拉链表,流水表,快照表


预热:


我们先从几个物理概念入手理解什么是流量,存量,增量


(1)存量:系统在某一时点时的所保有的数量;


(2)流量:是指在某一段时间内流入/出系统的数量


(3)增量:则是指在某一段时间内系统中保有数量的变化


(4)增量=流入量--流出量


(5)本期期末存量=上期期末存量+本期内增量


正题


全量表:每天的所有的最新状态的数据。


(1)全量表,有无变化,都要报
(2)每次上报的数据都是所有的数据(变化的 + 没有变化的)


增量表:新增数据,增量数据是上次导出之后的新数据。
(1)记录每次增加的量,而不是总量;
(2)流量是指在一定时间内的增量;
(3)流量一般设计成增量表(日报-常用、月报);
(4)流量和存量的区别:流量是增量;存量是总量;
(5)增量表,只报变化量,无变化不用报




9c06defc762ee7920e8d68b3e41e0f91.png

拉链表:


(1)记录一个事物从开始,一直到当前状态的所有变化的信息;


(2)拉链表每次上报的都是历史记录的最终状态,是记录在当前时刻的历史总量;


(3)当前记录存的是当前时间之前的所有历史记录的最后变化量(总量);


(4)存量是在某一时刻的总量;


(5)存量一般设计成拉链表(月报-常用、日报);


(6)流量和存量的区别:流量是增量;存量是总量;


(7)封链时间可以是2999,3000,9999等等比较大的年份;拉链表到期数据要报0;


(8)拉链表和增量表的共同点:表结构基本一样。


在有些情况下,为了保持历史的一些状态,需要用拉链表来做,这样做目的在可以保留所有状态的情况下可以节省空间。


拉链表适用于以下几种情况吧 数据量有点大,表中某些字段有变化,但是呢变化的频率也不是很高,业务需求呢又需要统计这种变化状态,每天全量一份呢,有点不太现实, 不仅浪费了存储空间,有时可能业务统计也有点麻烦,


这时,拉链表的作用就提现出来了,既节省空间,又满足了需求。


关于拉链表设计的案例:可以看看下面的博客


http://www.cnblogs.com/wujin/p/6121754.html


https://blog.csdn.net/mtj66/article/details/78019370


http://www.jianshu.com/p/799252156379


http://lxw1234.com/archives/2015/04/20.htm


流水表:对于表的每一个修改都会记录,可以用于反映实际记录的变更


 区别于拉链表: 


  1. 拉链表通常是对账户信息的历史变动进行处理保留的结果,流水表是每天的交易形成的历史;
  2. 流水表用于统计业务相关情况,拉链表用于统计账户及客户的情况

快照表:




fe4f8502b62ce0bc7585fca6466fc24f.png

按照每天存放的数据以及是否按天分区可以分为增量表,全量表和快照表




8d9770fe54248ca92e4a3f5f89bd923e.png



推荐阅读
  • WCF类型共享的最佳实践
    在使用WCF服务时,经常会遇到同一个实体类型在不同服务中被生成为不同版本的问题。本文将介绍几种有效的类型共享方法,以解决这一常见问题。 ... [详细]
  • 短暂的人生中,IT和技术只是其中的一部分。无论换工作还是换行业,最终的目标是成功、荣誉和收获。本文探讨了技术人员如何跳出纯技术的局限,实现更大的职业发展。 ... [详细]
  • HTTP(HyperTextTransferProtocol)是超文本传输协议的缩写,它用于传送www方式的数据。HTTP协议采用了请求响应模型。客服端向服务器发送一 ... [详细]
  • 使用ArcGIS for Java和Flex浏览自定义ArcGIS Server 9.3地图
    本文介绍了如何在Flex应用程序中实现浏览自定义ArcGIS Server 9.3发布的地图。这是一个基本的入门示例,适用于初学者。 ... [详细]
  • 字符串学习时间:1.5W(“W”周,下同)知识点checkliststrlen()函数的返回值是什么类型的?字 ... [详细]
  • 本文详细探讨了使用Python3编写爬虫时如何应对网站的反爬虫机制,通过实例讲解了如何模拟浏览器访问,帮助读者更好地理解和应用相关技术。 ... [详细]
  • 本文介绍 DB2 中的基本概念,重点解释事务单元(UOW)和事务的概念。事务单元是指作为单个原子操作执行的一个或多个 SQL 查询。 ... [详细]
  • 优化虎牙直播体验的插件
    近期在观看虎牙直播时,发现广告和一些低质量直播间频繁出现,严重影响了观看体验。为此,我开发了一款插件,帮助用户屏蔽这些不想要的内容。以下是插件的介绍和使用方法。 ... [详细]
  • 一个初秋的雨夜,我独自漫步在校园的小道上,心中突然涌起对理想爱情的憧憬。这篇文章将分享我对理想伴侣的期望,以及与他共度美好时光的愿景。 ... [详细]
  • 本文详细介绍了 HTML 中 a 标签的 href 属性的多种用法,包括实现超链接、锚点以及调用 JavaScript 方法。通过具体的示例和解释,帮助开发者更好地理解和应用这些技术。 ... [详细]
  • 为什么多数程序员难以成为架构师?
    探讨80%的程序员为何难以晋升为架构师,涉及技术深度、经验积累和综合能力等方面。本文将详细解析Tomcat的配置和服务组件,帮助读者理解其内部机制。 ... [详细]
  • Spring 切面配置中的切点表达式详解
    本文介绍了如何在Spring框架中使用AspectJ风格的切面配置,详细解释了切点表达式的语法和常见示例,帮助开发者更好地理解和应用Spring AOP。 ... [详细]
  • 本文介绍了一种使用 JavaScript 计算两个日期之间时间差的方法。该方法支持多种时间格式,并能返回秒、分钟、小时和天数等不同精度的时间差。 ... [详细]
  • 结城浩(1963年7月出生),日本资深程序员和技术作家,居住在东京武藏野市。他开发了著名的YukiWiki软件,并在杂志上发表了大量程序入门文章和技术翻译作品。结城浩著有30多本关于编程和数学的书籍,其中许多被翻译成英文和韩文。 ... [详细]
  • 探索Web 2.0新概念:Widget
    尽管你可能尚未注意到Widget,但正如几年前对RSS的陌生一样,这一概念正逐渐走入大众视野。据美国某权威杂志预测,2007年将是Widget年。本文将详细介绍Widget的定义、功能及其未来发展趋势。 ... [详细]
author-avatar
乌龟考拉互受
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有