postgresql抽样的简单介绍

作者：沫沫 | 来源：互联网 | 2023-06-29 13:46

影响数据检索效率的几个因素影响数据检索效率的几个因素数据检索有两种主要形态。第一种是纯数据库型的。典型的结构是一个关系型数据，比如mysql。用户通过SQL表达出所需要的数据，my

影响数据检索效率的几个因素

数据检索有两种主要形态。第一种是纯数据库型的。典型的结构是一个关系型数据，比如 mysql。用户通过 SQL 表达出所需要的数据，mysql 把 SQL 翻译成物理的数据检索动作返回结果。第二种形态是现在越来越流行的大数据玩家的玩法。典型的结构是有一个分区的数据存储，最初这种存储就是原始的 HDFS，后来开逐步有人在 HDFS 上加上索引的支持，或者干脆用 Elasticsearc 这样的数据存储。然后在存储之上有一个分布式的实时计算层，比如 Hive 或者 Spark SQL。用户用 Hive SQL 提交给计算层，计算层从存储里拉取出数据，进行计算之后返回给用户。这种大数据的玩法起初是因为 SQL 有很多 ad-hoc 查询是满足不了的，干脆让用户自己写 map/reduce 想怎么算都可以了。但是后来玩大了之后，越来越多的人觉得这些 Hive 之类的方案查询效率怎么那么低下啊。于是一个又一个项目开始去优化这些大数据计算框架的查询性能。这些优化手段和经典的数据库优化到今天的手段是没有什么两样的，很多公司打着搞计算引擎的旗号干着重新发明数据库的活。所以，回归本质，影响数据检索效率的就那么几个因素。我们不妨来看一看。

数据检索干的是什么事情

定位 = 加载 = 变换

找到所需要的数据，把数据从远程或者磁盘加载到内存中。按照规则进行变换，比如按某个字段group by，取另外一个字段的sum之类的计算。

影响效率的四个因素

读取更少的数据

数据本地化，充分遵循底层硬件的限制设计架构

更多的机器

更高效率的计算和计算的物理实现

原则上的四点描述是非常抽象的。我们具体来看这些点映射到实际的数据库中都是一些什么样的优化措施。

读取更少的数据

数据越少，检索需要的时间当然越少了。在考虑所有技术手段之前，最有效果的恐怕是从业务的角度审视一下我们是否需要从那么多的数据中检索出结果来。有没有可能用更少的数据达到同样的效果。减少的数据量的两个手段，聚合和抽样。如果在入库之前把数据就做了聚合或者抽样，是不是可以极大地减少查询所需要的时间，同时效果上并无多少差异呢？极端情况下，如果需要的是一天的总访问量，比如有1个亿。查询的时候去数1亿行肯定快不了。但是如果统计好了一天的总访问量，查询的时候只需要取得一条记录就可以知道今天有1个亿的人访问了。

索引是一种非常常见的减少数据读取量的策略了。一般的按行存储的关系型数据库都会有一个主键。用这个主键可以非常快速的查找到对应的行。KV存储也是这样，按照Key可以快速地找到对应的Value。可以理解为一个Hashmap。但是一旦查询的时候不是用主键，而是另外一个字段。那么最糟糕的情况就是进行一次全表的扫描了，也就是把所有的数据都读取出来，然后看要的数据到底在哪里，这就不可能快了。减少数据读取量的最佳方案就是，建立一个类似字典一样的查找表，当我们找 username=wentao 的时候，可以列举出所有有 wentao 作为用户名的行的主键。然后拿这些主键去行存储（就是那个hashmap）里捞数据，就一捞一个准了。

谈到索引就不得不谈一下一个查询使用了两个字段，如何使用两个索引的问题。mysql的行为可以代表大部分主流数据库的处理方式：

基本上来说，经验表明有多个单字段的索引，最后数据库会选一最优的来使用。其余字段的过滤仍然是通过数据读取到内存之后，用predicate去判断的。也就是无法减少数据的读取量。

在这个方面基于inverted index的数据就非常有特点。一个是Elasticsearch为代表的lucene系的数据库。另外一个是新锐的druid数据库。

效果就是，这些数据库可以把单字段的filter结果缓存起来。多个字段的查询可以把之前缓存的结果直接拿过来做 AND 或者 OR 操作。

索引存在的必要是因为主存储没有提供直接的快速定位的能力。如果访问的就是数据库的主键，那么需要读取的数据也就非常少了。另外一个变种就是支持遍历的主键，比如hbase的rowkey。如果查询的是一个基于rowkey的范围，那么像hbase这样的数据库就可以支持只读取到这个范围内的数据，而不用读取不再这个范围内的额外数据，从而提高速度。这种加速的方式就是利用了主存储自身的物理分布的特性。另外一个更常见的场景就是 partition。比如 mysql 或者 postgresql 都支持分区表的概念。当我们建立了分区表之后，查找的条件如果可以过滤出分区，那么可以大幅减少需要读取的数据量。比 partition 更细粒度一些的是 clustered index。它其实不是一个索引（二级索引），它是改变了数据在主存储内的排列方式，让相同clustered key的数据彼此紧挨着放在一起，从而在查询的时候避免扫描到无关的数据。比 partition 更粗一些的是分库分表分文件。比如我们可以一天建立一张表，查询的时候先定位到表，再执行 SQL。比如 graphite 给每个 metric 创建一个文件存放采集来的 data point，查询的时候给定metric 就可以定位到一个文件，然后只读取这个文件的数据。

另外还有一点就是按行存储和按列存储的区别。按列存储的时候，每个列是一个独立的文件。查询用到了哪几个列就打开哪几个列的文件，没有用到的列的数据碰都不会碰到。反观按行存储，一张中的所有字段是彼此紧挨在磁盘上的。一个表如果有100个字段，哪怕只选取其中的一个字段，在扫描磁盘的时候其余99个字段的数据仍然会被扫描到的。

考虑一个具体的案例，时间序列数据。如何使用读取更少的数据的策略来提高检索的效率呢？首先，我们可以保证入库的时间粒度，维度粒度是正好是查询所需要的。如果查询需要的是5分钟数据，但是入库的是1分钟的，那么就可以先聚合成5分钟的再存入数据库。对于主存储的物理布局选择，如果查询总是针对一个时间范围的。那么把 timestamp 做为 hbase 的 rowkey，或者 mysql 的 clustered index 是合适。这样我们按时间过滤的时候，选择到的是一堆连续的数据，不用读取之后再过滤掉不符合条件的数据。但是如果在一个时间范围内有很多中数据，比如1万个IP，那么即便是查1个IP的数据也需要把1万个IP的数据都读取出来。所以可以把 IP 维度也编码到 rowkey 或者 clustered index 中。但是假如另外还有一个维度是 OS，那么查询的时候 IP 维度的 rowkey 是没有帮助的，仍然是要把所有的数据都查出来。这就是仅依靠主存储是无法满足各种查询条件下都能够读取更少的数据的原因。所以，二级索引是必要的。我们可以把时间序列中的所有维度都拿出来建立索引，然后查询的时候如果指定了维度，就可以用二级索引把真正需要读取的数据过滤出来。但是实践中，很多数据库并不因为使用了索引使得查询变快了，有的时候反而变得更慢了。对于 mysql 来说，存储时间序列的最佳方式是按时间做 partition，不对维度建立任何索引。查询的时候只过滤出对应的 partition，然后进行全 partition 扫描，这样会快过于使用二级索引定位到行之后再去读取主存储的查询方式。究其原因，就是数据本地化的问题了。

[page]

数据本地化

数据本地化的实质是软件工程师们要充分尊重和理解底层硬件的限制，并且用各种手段规避问题最大化利用手里的硬件资源。本地化有很多种形态

最常见的最好理解的本地化问题是网络问题。我们都知道网络带宽不是无限的，比本地磁盘慢多了。如果可能尽量不要通过网络去访问数据。即便要访问，也应该一次抓取多一些数据，而不是一次搞一点，然后搞很多次。因为网络连接和来回的开销是非常高的。这就是 data locality 的问题。我们要把计算尽可能的靠近数据，减少网络上传输的数据量。

这种带宽引起的本地化问题，还有很多。网络比硬盘慢，硬盘比内存慢，内存比L2缓存慢。做到极致的数据库可以让计算完全发生在 L2 缓存内，尽可能地避免频繁地在内存和L2之间倒腾数据。

另外一种形态的问题化问题是磁盘的顺序读和随机读的问题。当数据彼此靠近地物理存放在磁盘上的时候，顺序读取一批是非常快的。如果需要随机读取多个不连续的硬盘位置，磁头就要来回移动从而使得读取速度快速下降。即便是 SSD 硬盘，顺序读也是要比随机读快的。

基于尽可能让数据读取本地化的原则，检索应该尽可能地使用顺序读而不是随机读。如果可以的话，把主存储的row key或者clustered index设计为和查询提交一样的。时间序列如果都是按时间查，那么按时间做的row key可以非常高效地以顺序读的方式把数据拉取出来。类似地，按列存储的数据如果要把一个列的数据都取出来加和的话，可以非常快地用顺序读的方式加载出来。

二级索引的访问方式典型的随机读。当查询条件经过了二级索引查找之后得到一堆的主存储的 key，那么就需要对每个 key 进行一次随机读。即便彼此仅靠的key可以用顺序读做一些优化，总体上来说仍然是随机读的模式。这也就是为什么时间序列数据在 mysql 里建立了索引反而比没有建索引还要慢的原因。

为了尽可能的利用顺序读，人们就开始想各种办法了。前面提到了 mysql 里的一行数据的多个列是彼此紧靠地物理存放的。那么如果我们把所需要的数据建成多个列，那么一次查询就可以批量获得更多的数据，减少随机读取的次数。也就是把之前的一些行变为列的方式来存放，减少行的数量。这种做法的经典案例就是时间序列数据，比如可以一分钟存一行数据，每一秒的值变成一个列。那么行的数量可以变成之前的1/60。

但是这种行变列的做法在按列存储的数据库里就不能直接照搬了，有些列式数据库有column family的概念，不同的设置在物理上存放可能是在一起的也可能是分开的。对于 Elasticsearch 来说，要想减少行的数量，让一行多pack一些数据进去，一种做法就是利用 nested document。内部 Elasticsearch 可以保证一个 document 下的所有的 nested document是物理上靠在一起放在同一个 lucene 的 segment 内。

网络的data locality就比较为人熟知了。map reduce的大数据计算模式就是利用map在数据节点的本地把数据先做一次计算，往往计算的结果可以比原数据小很多。然后再通过网络传输汇总后做 reduce 计算。这样就节省了大量网络传输数据的时间浪费和资源消耗。现在 Elasticsearch 就支持在每个 data node 上部署 spark。由 spark 在每个 data node 上做计算。而不用把数据都查询出来，用网络传输到 spark 集群里再去计算。这种数据库和计算集群的混合部署是高性能的关键。类似的还有 storm 和 kafka 之间的关系。

网络的data locality还有一个老大难问题就是分布式大数据下的多表join问题。如果只是查询一个分布式表，那么把计算用 map reduce 表达就没有多大问题了。但是如果需要同时查询两个表，就意味着两个表可能不是在物理上同样均匀分布的。一种最简单的策略就是找出两张表中最小的那张，然后把表的内容广播到每个节点上，再做join。复杂一些的是对两个单表做 map reduce，然后按照相同的 key 把部分计算的结果汇集在一起。第三种策略是保证数据分布的方式，让两张表查询的时候需要用到的数据总在一起。没有完美的方案，也不大可能有完美的方案。除非有一天网络带宽可以大到忽略不计的地步。

更多的机器

这个就没有什么好说的了。多一倍的机器就多一倍的 CPU，可以同时计算更多的数据。多一倍的机器就多一倍的磁头，可以同时扫描更多的字节数。很多大数据框架的故事就是讲如何如何通过 scale out解决无限大的问题。但是值得注意的是，集群可以无限大，数据可以无限多，但是口袋里的银子不会无限多的。堆机器解决问题比升级大型机是要便宜，但是机器堆多了也是非常昂贵的。特别是 Hive 这些从一开始就是分布式多机的检索方案，刚开始的时候效率并不高。堆机器是一个乘数，当数据库本来单机性能不高的时候，乘数大并不能起到决定性的作用。

更高效的计算和计算实现

检索的过程不仅仅是磁盘扫描，它还包括一个可简单可复杂的变换过程。使用 hyperloglog，count min-sketch等有损算法可以极大地提高统计计算的性能。数据库的join也是一个经常有算法创新的地方。

计算实现就是算法是用C++实现的还是用java，还是python实现的。用java是用大Integer实现的，还是小int实现的。不同的语言的实现方式会有一些固定的开销。不是说快就一定要C++，但是 python 写 for 循环是显然没有指望的。任何数据检索的环节只要包含 python/ruby 这些语言的逐条 for 循环就一定快不起来了。

结论

希望这四点可以被记住，成为一种指导性的优化数据检索效率的思维框架。无论你是设计一个mysql表结构，还是优化一个spark sql的应用。从这四个角度想想，都有哪些环节是在拖后腿的，手上的工具有什么样的参数可以调整，让随机读变成顺序读，表结构怎么样设计可以最小化数据读取的量。要做到这一点，你必须非常非常了解工具的底层实现。而不是盲目的相信，xx数据库是最好的数据库，所以它一定很快之类的。如果你不了解你手上的数据库或者计算引擎，当它快的时候你不知道为何快，当它慢的时候你就更加无从优化了。

OpenTelemetry、Spring Cloud Sleuth、Kafka、Jager实现分布式跟踪

分布式跟踪可让您深入了解特定服务在分布式软件系统中作为整体的一部分是如何执行的。它跟踪和记录从起点到目的地的请求以及它们经过的系统。

在本文中，我们将使用 OpenTelemetry、Spring Cloud Sleuth、Kafka 和 Jaeger 在三个 Spring Boot 微服务中实现分布式跟踪。

我们先来看看分布式追踪中的一些基本术语。

跨度：表示系统内的单个工作单元。跨度可以相互嵌套以模拟工作的分解。例如，一个跨度可能正在调用一个 REST 端点，然后另一个子跨度可能是该端点调用另一个，等等在不同的服务中。

Trace：所有共享相同根跨度的跨度集合，或者更简单地说，将所有跨度创建为原始请求的直接结果。跨度的层次结构（每个跨度在根跨度旁边都有自己的父跨度）可用于形成有向无环图，显示请求在通过各种组件时的路径。

OpenTelemetry ，也简称为 OTel，是一个供应商中立的开源 Observability 框架，用于检测、生成、收集和导出遥测数据，例如跟踪、指标和日志。作为云原生计算基金会 (CNCF) 的孵化项目，OTel 旨在提供与供应商无关的统一库和 API 集——主要用于收集数据并将其传输到某处。OTel 正在成为生成和管理遥测数据的世界标准，并被广泛采用。

Sleuth 是一个由 Spring Cloud 团队管理和维护的项目，旨在将分布式跟踪功能集成到 Spring Boot 应用程序中。它作为一个典型Spring Starter的 . 以下是一些开箱即用的 Sleuth 工具：

Sleuth 添加了一个拦截器，以确保在请求中传递所有跟踪信息。每次调用时，都会创建一个新的 Span。它在收到响应后关闭。

Sleuth 能够跟踪您的请求和消息，以便您可以将该通信与相应的日志条目相关联。您还可以将跟踪信息导出到外部系统以可视化延迟。

Jaeger 最初由 Uber 的团队构建，然后于 2015 年开源。它于 2017 年被接受为云原生孵化项目，并于 2019 年毕业。作为 CNCF 的一部分，Jaeger 是云原生架构中公认的项目。它的源代码主要是用 Go 编写的。Jaeger 的架构包括：

与 Jaeger 类似，Zipkin 在其架构中也提供了相同的组件集。尽管 Zipkin 是一个较老的项目，但 Jaeger 具有更现代和可扩展的设计。对于此示例，我们选择 Jaeger 作为后端。

让我们设计三个 Spring Boot 微服务：

这三个微服务旨在：

这是为了观察 OpenTelemetry 如何结合 Spring Cloud Sleuth 处理代码的自动检测以及生成和传输跟踪数据。上面的虚线捕获了微服务导出的跟踪数据的路径，通过OTLP（OpenTelemetry Protocol）传输到OpenTelemetry Collector，收集器依次处理并将跟踪数据导出到后端Jaeger进行存储和查询。

使用 monorepo，我们的项目结构如下：

第 1 步：添加 POM 依赖项

这是使用 OTel 和 Spring Cloud Sleuth 实现分布式跟踪的关键。我们的目标是不必手动检测我们的代码，因此我们依靠这些依赖项来完成它们设计的工作——自动检测我们的代码，除了跟踪实现、将遥测数据导出到 OTel 收集器等。

第 2 步：OpenTelemetry 配置

OpenTelemetry 收集器端点

对于每个微服务，我们需要在其中添加以下配置application.yml（请参阅下面部分中的示例片段）。spring.sleuth.otel.exporter.otlp.endpoint主要是配置OTel Collector端点。它告诉导出器，在我们的例子中是 Sleuth，通过 OTLP 将跟踪数据发送到指定的收集器端点。注意otel-collector端点 URL 来自otel-collector图像的 docker-compose 服务。

跟踪数据概率抽样

spring.sleuth.otel.config.trace-id-ratio-based属性定义了跟踪数据的采样概率。它根据提供给采样器的分数对一部分迹线进行采样。概率抽样允许 OpenTelemetry 跟踪用户通过使用随机抽样技术降低跨度收集成本。如果该比率小于 1.0，则某些迹线将不会被导出。对于此示例，我们将采样配置为 1.0、100%。

有关其他 OTel Spring Cloud Sleuth 属性，请参阅常见应用程序属性。

OpenTelemetry 配置文件

我们需要项目根目录下的 OTel 配置文件otel-config.yaml。内容如下。此配置文件定义了 OTel 接收器、处理器和导出器的行为。正如我们所看到的，我们定义了我们的接收器来监听 gRPC 和 HTTP，处理器使用批处理和导出器作为 jaeger 和日志记录。

第 3 步：docker-compose 将所有内容串在一起

让我们看看我们需要启动哪些 docker 容器来运行这三个微服务并观察它们的分布式跟踪，前三个微服务在上面的部分中进行了解释。

运行docker-compose up -d以调出所有九个容器：

第 4 步：追踪数据在行动

快乐之路

现在，让我们启动customer-service-bff流程的入口点，以创建新客户。

启动 Jaeger UI， [url=]按[/url]服务搜索customer-service-bff，单击Find Traces按钮，这是我们看到的创建客户跟踪：它跨越三个服务，总共跨越六个，持续时间 82.35 毫秒。

除了 Trace Timeline 视图（上面的屏幕截图），Jaeger 还提供了一个图形视图（Trace Graph在右上角的下拉菜单中选择）：

三个微服务在 docker 中的日志输出显示相同的跟踪 id，以红色突出显示，并根据其应用程序名称显示不同的跨度 id（应用程序名称及其对应的跨度 id 以匹配的颜色突出显示）。在的情况下customer-service，相同的 span id 从 REST API 请求传递到 Kafka 发布者请求。

customer-service让我们在 docker 中暂停我们的PostgreSQL 数据库，然后重复从customer-service-bff. 500 internal server error正如预期的那样，我们得到了。检查 Jaeger，我们看到以下跟踪，异常堆栈跟踪抱怨SocketTimeoutException，再次如预期的那样。

识别长期运行的跨度

Jaeger UI 允许我们搜索超过指定最大持续时间的跟踪。例如，我们可以搜索所有耗时超过 1000 毫秒的跟踪。然后，我们可以深入研究长期运行的跟踪以调查其根本原因。

在这个故事中，我们从 OpenTelemetry、Spring Cloud Sleuth 和 Jaeger 的角度解压了分布式跟踪，验证了 REST API 调用和 Kafka pub/sub 中分布式跟踪的自动检测。我希望这个故事能让你更好地理解这些跟踪框架和工具，尤其是 OpenTelemetry，以及它如何从根本上改变我们在分布式系统中进行可观察性的方式。

常用的数据分析方法有哪些？

一、掌握基础、更新知识。

基本技术怎么强调都不过分。这里的术更多是（计算机、统计知识），多年做数据分析、数据挖掘的经历来看、以及业界朋友的交流来看，这点大家深有感触的。

数据库查询—SQL

数据分析师在计算机的层面的技能要求较低，主要是会SQL，因为这里解决一个数据提取的问题。有机会可以去逛逛一些专业的数据论坛，学习一些SQL技巧、新的函数，对你工作效率的提高是很有帮助的。

统计知识与数据挖掘

你要掌握基础的、成熟的数据建模方法、数据挖掘方法。例如：多元统计：回归分析、因子分析、离散等，数据挖掘中的：决策树、聚类、关联规则、神经网络等。但是还是应该关注一些博客、论坛中大家对于最新方法的介绍，或者是对老方法的新运用，不断更新自己知识，才能跟上时代，也许你工作中根本不会用到，但是未来呢？

行业知识

如果数据不结合具体的行业、业务知识，数据就是一堆数字，不代表任何东西。是冷冰冰，是不会产生任何价值的，数据驱动营销、提高科学决策一切都是空的。

一名数据分析师，一定要对所在行业知识、业务知识有深入的了解。例如：看到某个数据，你首先必须要知道，这个数据的统计口径是什么？是如何取出来的？这个数据在这个行业，在相应的业务是在哪个环节是产生的？数值的代表业务发生了什么（背景是什么）？对于A部门来说，本月新会员有10万，10万好还是不好呢？先问问上面的这个问题：

对于A部门，

1、新会员的统计口径是什么。第一次在使用A部门的产品的会员？还是在站在公司角度上说，第一次在公司发展业务接触的会员？

2、是如何统计出来的。A：时间；是通过创建时间，还是业务完成时间。B：业务场景。是只要与业务发接触，例如下了单，还是要业务完成后，到成功支付。

3、这个数据是在哪个环节统计出来。在注册环节，在下单环节，在成功支付环节。

4、这个数据代表着什么。10万高吗？与历史相同比较？是否做了营销活动？这个行业处理行业生命同期哪个阶段？

在前面二点，更多要求你能按业务逻辑，来进行数据的提取（更多是写SQL代码从数据库取出数据）。后面二点，更重要是对业务了解，更行业知识了解，你才能进行相应的数据解读，才能让数据产生真正的价值，不是吗？

对于新进入数据行业或者刚进入数据行业的朋友来说：

行业知识都重要，也许你看到很多的数据行业的同仁，在微博或者写文章说，数据分析思想、行业知识、业务知识很重要。我非常同意。因为作为数据分析师，在发表任何观点的时候，都不要忘记你居于的背景是什么？

但大家一定不要忘记了一些基本的技术，不要把基础去忘记了，如果一名数据分析师不会写SQL，那麻烦就大了。哈哈。。你只有把数据先取对了，才能正确的分析，否则一切都是错误了，甚至会导致致命的结论。新同学，还是好好花时间把基础技能学好。因为基础技能你可以在短期内快速提高，但是在行业、业务知识的是一点一滴的积累起来的，有时候是急不来的，这更需要花时间慢慢去沉淀下来。

不要过于追求很高级、高深的统计方法，我提倡有空还是要多去学习基本的统计学知识，从而提高工作效率，达到事半功倍。以我经验来说，我负责任告诉新进的同学，永远不要忘记基本知识、基本技能的学习。

二、要有三心。

1、细心。

2、耐心。

3、静心。

数据分析师其实是一个细活，特别是在前文提到的例子中的前面二点。而且在数据分析过程中，是一个不断循环迭代的过程，所以一定在耐心，不怕麻烦，能静下心来不断去修改自己的分析思路。

三、形成自己结构化的思维。

数据分析师一定要严谨。而严谨一定要很强的结构化思维，如何提高结构化思维，也许只需要工作队中不断的实践。但是我推荐你用mindmanagement，首先把你的整个思路整理出来，然后根据分析不断深入、得到的信息不断增加的情况下去完善你的结构，慢慢你会形成一套自己的思想。当然有空的时候去看看《麦肯锡思维》、结构化逻辑思维训练的书也不错。在我以为多看看你身边更资深同事的报告，多问问他们是怎么去考虑这个问题的，别人的思想是怎么样的？他是怎么构建整个分析体系的。

四、业务、行业、商业知识。

当你掌握好前面的基本知识和一些技巧性东西的时候，你应该在业务、行业、商业知识的学习与积累上了。

这个放在最后，不是不重要，而且非常重要，如果前面三点是决定你能否进入这个行业，那么这则是你进入这个行业后，能否成功的最根本的因素。数据与具体行业知识的关系，比作池塘中鱼与水的关系一点都不过分，数据（鱼）离开了行业、业务背景（水）是死的，是不可能是“活”。而没有“鱼”的水，更像是“死”水，你去根本不知道看什么（方向在哪）。

如何提高业务知识，特别是没有相关背景的同学。很简单，我总结了几点：

1、多向业务部门的同事请教，多沟通。多向他们请教，数据分析师与业务部门没有利益冲突，而更向是共生体，所以如果你态度好，相信业务部门的同事也很愿意把他们知道的告诉你。

2、永远不要忘记了google大神，定制一些行业的关键字，每天都先看看定制的邮件。

3、每天有空去浏览行业相关的网站。看看行业都发生了什么，主要竞争对手或者相关行业都发展什么大事，把这些大事与你公司的业务，数据结合起来。

4、有机会走向一线，多向一线的客户沟通，这才是最根本的。

标题写着告诫，其实谈不上，更多我自己的一些心得的总结。希望对新进的朋友有帮助，数据分析行业绝对是一个朝阳行业，特别是互联网的不断发展，一个不谈数据的公司根本不叫互联网公司，数据分析师已经成为一个互联网公司必备的职位了。

怎么把oracle数据移植到mysql？

OGG全称为Oracle GoldenGate,是由Oracle官方提供的用于解决异构数据环境中数据复制的一个商业工具。相比于其它迁移工具OGG的优势在于可以直接解析源端Oracle的redo log，因此能够实现在不需要对原表结构做太多调整的前提下完成数据增量部分的迁移。本篇文章将重点介绍如何使用OGG实现Oracle到MySQL数据的平滑迁移，以及讲述个人在迁移过程中所碰到问题的解决方案。

（一）OGG逻辑架构

参照上图简单给大家介绍下OGG逻辑架构，让大家对OGG数据同步过程有个简单了解，后面章节会详细演示相关进程的配置方式，在OGG使用过程中主要涉及以下进程及文件：

Manager进程：需要源端跟目标端同时运行，主要作用是监控管理其它进程，报告错误，分配及清理数据存储空间，发布阈值报告等

Extract进程：运行在数据库源端，主要用于捕获数据的变化，负责全量、增量数据的抽取

Trails文件：临时存放在磁盘上的数据文件

Data Pump进程：运行在数据库源端，属于Extract进程的一个辅助进程，如果不配置Data Pump，Extract进程会将抽取的数据直接发送到目标端的Trail文件，如果配置了Data Pump，Extract进程会将数据抽取到本地Trail文件，然后通过Data Pump进程发送到目标端，配置Data Pump进程的主要好处是即使源端到目标端发生网络中断，Extract进程依然不会终止

Collector进程：接收源端传输过来的数据变化，并写入本地Trail文件中

Replicat进程：读取Trail文件中记录的数据变化，创建对应的DML语句并在目标端回放

二、迁移方案

（一）环境信息

OGG版本 OGG 12.2.0.2.2 For Oracle OGG 12.2.0.2.2 For MySQL

数据库版本 Oracle 11.2.0.4 MySQL 5.7.21

OGG_HOME /home/oracle/ogg /opt/ogg

（二）表结构迁移

表结构迁移属于难度不高但内容比较繁琐的一步，我们在迁移表结构时使用了一个叫sqlines的开源工具，对于sqlines工具在MySQL端创建失败及不符合预期的表结构再进行特殊处理，以此来提高表结构转换的效率。

注意：OGG在Oracle迁移MySQL的场景下不支持DDL语句同步，因此表结构迁移完成后到数据库切换前尽量不要再修改表结构。

（三）数据迁移

数据同步的操作均采用OGG工具进行，考虑数据全量和增量的衔接，OGG需要先将增量同步的抽取进程启动，抓取数据库的redo log，待全量抽取结束后开启增量数据回放，应用全量和增量这段期间产生的日志数据，OGG可基于参数配置进行重复数据处理，所以使用OGG时优先将增量进行配置并启用。此外，为了避免本章节篇幅过长，OGG参数将不再解释，有需要的朋友可以查看官方提供的Reference文档查询任何你不理解的参数。

1.源端OGG配置

（1）Oracle数据库配置

针对Oracle数据库，OGG需要数据库开启归档模式及增加辅助补充日志、强制记录日志等来保障OGG可抓取到完整的日志信息

查看当前环境是否满足要求，输出结果如下图所示：

（2）Oracle数据库OGG用户创建

OGG需要有一个用户有权限对数据库的相关对象做操作，以下为涉及的权限，该示例将创建一个用户名和密码均为ogg的Oracle数据库用户并授予以下权限

（3）源端OGG 管理进程(MGR)配置

（4）源端OGG 表级补全日志(trandata)配置

表级补全日志需要在最小补全日志打开的情况下才起作用,之前只在数据库级开启了最小补全日志(alter database add supplemental log data;)，redolog记录的信息还不够全面，必须再使用add trandata开启表级的补全日志以获得必要的信息。

（5）源端OGG 抽取进程(extract)配置

Extract进程运行在数据库源端，负责从源端数据表或日志中捕获数据。Extract进程利用其内在的checkpoint机制，周期性地检查并记录其读写的位置，通常是写入到本地的trail文件。这种机制是为了保证如果Extract进程终止或者操作系统宕机，我们重启Extract进程后，GoldenGate能够恢复到以前的状态，从上一个断点处继续往下运行，而不会有任何数据损失。

（6）源端OGG 传输进程(pump)配置

pump进程运行在数据库源端，其作用非常简单。如果源端的Extract抽取进程使用了本地trail文件，那么pump进程就会把trail文件以数据块的形式通过TCP/IP协议发送到目标端，Pump进程本质上是Extract进程的一种特殊形式，如果不使用trail文件，那么Extract进程在抽取完数据后，直接投递到目标端。

补充：pump进程启动时需要与目标端的mgr进程进行连接，所以需要优先将目标端的mgr提前配置好，否则会报错连接被拒绝，无法传输抽取的日志文件到目标端对应目录下

（7）源端OGG 异构mapping文件(defgen)生成

该文件记录了源库需要复制的表的表结构定义信息，在源库生成该文件后需要拷贝到目标库的dirdef目录，当目标库的replica进程将传输过来的数据apply到目标库时需要读写该文件，同构的数据库不需要进行该操作。

2.目标端OGG配置

（1）目标端MySQL数据库配置

确认MySQL端表结构已经存在

MySQL数据库OGG用户创建

mysql create user 'ogg'@'%' identified by 'ogg';

mysql grant all on *.* to 'ogg'@'%';

#### 提前创建好ogg存放checkpoint表的数据库

mysql create database ogg;

（2）目标端OGG 管理进程(MGR)配置

目标端的MGR进程和源端配置一样，可直接将源端配置方式在目标端重复执行一次即可，该部分不在赘述

（3）目标端OGG 检查点日志表(checkpoint)配置

checkpoint表用来保障一个事务执行完成后，在MySQL数据库从有一张表记录当前的日志回放点，与MySQL复制记录binlog的GTID或position点类似。

#### 切换至ogg软件目录并执行ggsci进入命令行终端

shell cd $OGG_HOME

shell ggsci

ggsci edit param ./GLOBALS

checkpointtable ogg.ggs_checkpoint

ggsci dblogin sourcedb ogg@17X.1X.84.121:3306 userid ogg

ggsci add checkpointtable ogg.ggs_checkpoint

（4）目标端OGG 回放线程(replicat)配置

Replicat进程运行在目标端，是数据投递的最后一站，负责读取目标端Trail文件中的内容，并将解析其解析为DML语句，然后应用到目标数据库中。

#### 切换至ogg软件目录并执行ggsci进入命令行终端

shell cd $OGG_HOME

shell ggsci

#### 添加一个回放线程并与源端pump进程传输过来的trail文件关联，并使用checkpoint表确保数据不丢失

ggsci add replicat r_cms,exttrail /opt/ogg/dirdat/ms,checkpointtable ogg.ggs_checkpoint

#### 增加/编辑回放进程配置文件

ggsci edit params r_cms

replicat r_cms

targetdb cms@17X.1X.84.121:3306,userid ogg,password ogg

sourcedefs /opt/ogg/dirdef/cms.def

discardfile /opt/ogg/dirrpt/r_cms.dsc,append,megabytes 1024

HANDLECOLLISIONS

MAP cms.*,target cms.*;

注意：replicat进程只需配置完成，无需启动，待全量抽取完成后再启动。

至此源端环境配置完成

待全量数据抽取完毕后启动目标端回放进程即可完成数据准实时同步。

3.全量同步配置

全量数据同步为一次性操作，当OGG软件部署完成及增量抽取进程配置并启动后，可配置1个特殊的extract进程从表中抽取数据，将抽取的数据保存到目标端生成文件，目标端同时启动一个单次运行的replicat回放进程将数据解析并回放至目标数据库中。

（1）源端OGG 全量抽取进程(extract)配置

#### 切换至ogg软件目录并执行ggsci进入命令行终端

shell cd $OGG_HOME

shell ggsci

#### 增加/编辑全量抽取进程配置文件

#### 其中RMTFILE指定抽取的数据直接传送到远端对应目录下

#### 注意：RMTFILE参数指定的文件只支持2位字符，如果超过replicat则无法识别

ggsci edit params ei_cms

SOURCEISTABLE

SETENV (NLS_LANG = "AMERICAN_AMERICA.AL32UTF8")

SETENV (ORACLE_SID=cms)

SETENV (ORACLE_HOME=/data/oracle/11.2/db_1)

USERID ogg@appdb,PASSWORD ogg

RMTHOST 17X.1X.84.121,MGRPORT 7809

RMTFILE /opt/ogg/dirdat/ms,maxfiles 100,megabytes 1024,purge

TABLE cms.*;

#### 启动并查看抽取进程正常

shell nohup ./extract paramfile ./dirprm/ei_cms.prm reportfile ./dirrpt/ei_cms.rpt

## 查看日志是否正常进行全量抽取

shell tail -f ./dirrpt/ei_cms.rpt

（2）目标端OGG 全量回放进程(replicat)配置

#### 切换至ogg软件目录并执行ggsci进入命令行终端

shell cd $OGG_HOME

shell ggsci

ggsci edit params ri_cms

SPECIALRUN

END RUNTIME

TARGETDB cms@17X.1X.84.121:3306,USERID ogg,PASSWORD ogg

EXTFILE /opt/ogg/dirdat/ms

DISCARDFILE ./dirrpt/ri_cms.dsc,purge

MAP cms.*,TARGET cms.*;

#### 启动并查看回放进程正常

shell nohup ./replicat paramfile ./dirprm/ri_cms.prm reportfile ./dirrpt/ri_cms.rpt

#### 查看日志是否正常进行全量回放

shell tail -f ./dirrpt/ri_cms.rpt

三、数据校验

数据校验是数据迁移过程中必不可少的环节，本章节提供给几个数据校验的思路共大家参数，校验方式可以由以下几个角度去实现：

1.通过OGG日志查看全量、增量过程中discards记录是否为0来判断是否丢失数据；

2.通过对源端、目标端的表执行count判断数据量是否一致；

3.编写类似于pt-table-checksum校验原理的程序，实现行级别一致性校验，这种方式优缺点特别明显，优点是能够完全准确对数据内容进行校验，缺点是需要遍历每一行数据，校验成本较高；

4.相对折中的数据校验方式是通过业务角度，提前编写好数十个返回结果较快的SQL，从业务角度抽样校验。

四、迁移问题处理

本章节将讲述迁移过程中碰到的一些问题及相应的解决方式。

（一）MySQL限制

在Oracle到MySQL的表结构迁移过程中主要碰到以下两个限制：

1. Oracle端的表结构因为最初设计不严谨，存在大量的列使用varchar(4000)数据类型，导致迁移到MySQL后超出行限制，表结构无法创建。由于MySQL本身数据结构的限制，一个16K的数据页最少要存储两行数据，因此单行数据不能超过65,535 bytes，因此针对这种情况有两种解决方式：

根据实际存储数据的长度，对超长的varchar列进行收缩；

对于无法收缩的列转换数据类型为text，但这在使用过程中可能导致一些性能问题；

2. 与第一点类似，在Innodb存储引擎中，索引前缀长度限制是767 bytes，若使用DYNAMIC、COMPRESSED行格式且开启innodblargeprefix的场景下，这个限制是3072 bytes，即使用utf8mb4字符集时，最多只能对varchar(768)的列创建索引；

3. 使用ogg全量初始化同步时，若存在外键约束，批量导入时由于各表的插入顺序不唯一，可能子表先插入数据而主表还未插入，导致报错子表依赖的记录不存在，因此建议数据迁移阶段禁用主外键约束，待迁移结束后再打开。

mysqlset global foreign_key_checks=off;

（二）全量与增量衔接

HANDLECOLLISIONS参数是实现OGG全量数据与增量数据衔接的关键，其实现原理是在全量抽取前先开启增量抽取进程，抓去全量应用期间产生的redo log，当全量应用完成后，开启增量回放进程，应用全量期间的增量数据。使用该参数后增量回放DML语句时主要有以下场景及处理逻辑：

目标端不存在delete语句的记录，忽略该问题并不记录到discardfile

目标端丢失update记录

- 更新的是主键值，update转换成insert

- 更新的键值是非主键，忽略该问题并不记录到discardfile

目标端重复insert已存在的主键值，这将被replicat进程转换为UPDATE现有主键值的行

（三）OGG版本选择

在OGG版本选择上我们也根据用户的场景多次更换了OGG版本，最初因为客户的Oracle 数据库版本为11.2.0.4，因此我们在选择OGG版本时优先选择使用了11版本，但是使用过程中发现，每次数据抽取生成的trail文件达到2G左右时，OGG报错连接中断，查看RMTFILE参数详细说明了解到trail文件默认限制为2G，后来我们替换OGG版本为12.3，使用MAXFILES参数控制生成多个指定大小的trail文件，回放时Replicat进程也能自动轮转读取Trail文件，最终解决该问题。但是如果不幸Oracle环境使用了Linux 5版本的系统，那么你的OGG需要再降一个小版本，最高只能使用OGG 12.2。

（四）无主键表处理

在迁移过程中还碰到一个比较难搞的问题就是当前Oracle端存在大量表没有主键。在MySQL中的表没有主键这几乎是不被允许的，因为很容易导致性能问题和主从延迟。同时在OGG迁移过程中表没有主键也会产生一些隐患，比如对于没有主键的表，OGG默认是将这个一行数据中所有的列拼凑起来作为唯一键，但实际还是可能存在重复数据导致数据同步异常，Oracle官方对此也提供了一个解决方案，通过对无主键表添加GUID列来作为行唯一标示，具体操作方式可以搜索MOS文档ID 1271578.1进行查看。

（五）OGG安全规则

报错信息

2019-03-08 06:15:22 ERROR OGG-01201 Error reported by MGR : Access denied.

错误信息含义源端报错表示为该抽取进程需要和目标端的mgr进程通讯，但是被拒绝，具体操作为：源端的extract进程需要与目标端mgr进行沟通，远程将目标的replicat进行启动，由于安全性现在而被拒绝连接。

报错原因

在Oracle OGG 11版本后，增加了新特性安全性要求，如果需要远程启动目标端的replicat进程，需要在mgr节点增加访问控制参数允许远程调用

解决办法

在源端和目标端的mgr节点上分别增加访问控制规则并重启

## 表示该mgr节点允许(ALLOW)10.186网段(IPADDR)的所有类型程序(PROG *)进行连接访问ACCESSRULE, PROG *, IPADDR 10.186.*.*, ALLOW

（六）数据抽取方式

报错信息

2019-03-15 14:49:04 ERROR OGG-01192 Trying to use RMTTASK on data types which may be written as LOB chunks (Table: 'UNIONPAYCMS.CMS_OT_CONTENT_RTF').