作者:mobiledu2502887381 | 来源:互联网 | 2023-07-31 15:34
这是来自 Databricks 和 Anomalo 的合作帖子。我们感谢 Anomalo 业务发展副总裁 Amy Reams 的贡献。
随着数据复杂性的增加、代码中引入的依赖关系以及第三方数据源的添加,组织的数据质量会随着时间的推移而自然下降。Databricks 客户现在可以使用完整的数据质量平台Anomalo来了解和监控其表的数据质量健康状况。
与传统的基于规则的数据质量方法不同,Anomalo 使用机器学习提供数据质量的自动检查,随着时间的推移自动适应以随着数据和业务的发展保持弹性。当系统检测到问题时,它会提供一组丰富的可视化来对问题进行背景化和解释,以及即时的根本原因分析,指出问题的可能根源。这意味着您的团队将花费更多时间来制定数据驱动的决策,而花费更少的时间调查和解决数据问题。
此外,Anomalo 旨在让所有利益相关者都能看到和访问数据健康状况:从数据科学家和工程师到 BI 分析师,再到高管。任何人都可以轻松添加无代码规则并跟踪他们关心的数据集的关键指标。Anomalo 可让您调查单个行和列,或获取整个湖屋健康状况的高级摘要。
监控 Lakehouse 表中的数据质量
Databricks Lakehouse Platform结合了数据湖和数据仓库的最佳元素,以提供数据仓库的可靠性、强大的数据治理和性能以及数据湖的开放性、灵活性和机器学习支持。
通过连接到 Databricks,Anomalo 带来了一个统一层,可确保您在数据被各种商业智能和分析工具或建模和机器学习框架使用之前可以信任数据的质量。Anomalo 专注于为您的 Lakehouse 中的各个表提供透明的监控和洞察。
1. 将 Anomalo 连接到 Databricks
只需单击几下,将 Anomalo 连接到您的 Databricks Lakehouse 平台就像在 Anomalo 中添加新数据源一样简单。
2. 识别缺失和异常数据
Anomalo 连接到 Databricks 后,您可以配置任何表来监控数据质量问题。然后 Anomalo 将自动监控表的四个关键特征:
- 数据新鲜度,
- 数据量,
- 缺失数据,以及
- 表异常。
新鲜度和容量检查会查找延迟交付的数据,或者接收的数据量是否比平时少。如果删除了数据段或列中出现空数据,则可能会出现丢失数据。表异常或异常检测包括重复数据、表架构的更改以及原始数据内部的其他重大更改,例如连续分布、分类值、持续时间甚至列之间的关系的更改。
3. 设置无代码验证规则和关键指标
除了 Anomalo 内置的自动检查外,任何人都可以添加自己的检查而无需代码(或使用 SQL)。这让领域专家可以引入某些数据应该遵守的约束,即使他们不是工程师。您还可以添加对您的公司很重要的关键指标,或显示数据是否朝着正确方向发展的指标。
通过 UI,任何内部用户都可以快速指定数据需求和 KPI。也可以使用 SQL 定义任意复杂的检查。
4. 警报和根本原因分析
如果您的数据未能通过任何自动监控或超出您指定的规则和指标的范围,Anomalo 会立即发出警报。团队可以通过电子邮件、Slack、Microsoft Teams 或 PagerDuty 订阅这些实时警报。还提供功能齐全的 API。
要对数据问题进行分类,了解影响并快速确定来源非常重要。用户可以进入 Anomalo 查看受影响行的百分比,以及更深入的根本原因分析,包括表中故障的位置以及好行和坏行的样本。
5. 了解 Lakehouse 的数据健康状况
Anomalo 的Pulse 仪表板还为用户提供了对其数据质量的高级概述,以提供对数据覆盖率、到达时间、趋势和重复违规者的洞察。当您可以了解组织湖库中数据的总体健康状况时,您可以确定问题领域和改进策略。
原文标题:Detecting Stale, Missing, Corrupted, and Anomalous Data in Your Lakehouse With Databricks and Anomalo
原文作者:Amy Reams and Fei Lang
原文地址:https://www.databricks.com/blog/2022/05/24/detecting-stale-missing-corrupted-and-anomalous-data-in-your-lakehouse-with-databricks-and-anomalo.html