当前位置: 开发笔记 > 后端 > 正文

KyligenceCloud集成AmazonGlue实现数据目录统一管理

作者：有你真好-LOVE | 来源：互联网 | 2023-05-25 18:33

数字经济的时代，数据成为企业的核心资产。企业期望通过对数据的洞察来驱动业务决策，然而获取数据洞察还需要经过数据采集、存储、处理、分析等众多环节。什么是数

数字经济的时代，数据成为企业的核心资产。企业期望通过对数据的洞察来驱动业务决策，然而获取数据洞察还需要经过数据采集、存储、处理、分析等众多环节。

什么是数据目录？

如果将数据处理的过程简单抽象一下，就是先使用一个 ETL（提取、转换和加载）工具来进行数据分析前的数据准备工作，然后将处理好的元数据信息存储到数据目录中，最后终端用户通过数据目录来查找和消费数据。

其中，数据目录串联起了整个数据链路，它是企业所有数据资产的详细清单，帮助终端用户针对任何分析或业务目的快速找到所需数据。数据目录使用元数据来管理数据资产，通过不断收集和整理元数据为数据发现和治理提供支持。

云原生的统一数据目录

对于企业来说，数据从业务系统源头到数据最终的消费端，需要经过多次流转，想从数据海洋中找到正确的数据更加困难。数据目录的出现解决了这一难题。但是在企业实际的落地过程，由于牵扯到多种数据产品的集成，往往存在需要同时维护多个数据目录的情况出现，无形之中造成了资源的冗余和数据流转不畅，数据团队不得不花费大量精力在数据查找和更新中。

如果有一个统一的数据目录，能让下游的各种大数据分析应用直接进行消费，而无需额外管理新的数据目录，将能极大地提高数据分析的速度和质量。对于云上用户来说，如果能直接利用云平台提供的原生数据目录服务作为统一的数据目录将极大地提升云上分析效率和使用体验。

Kyligence Cloud 数据目录

出于上述原因，Kyligence Cloud 在最新的版本中支持了与 Amazon Glue 云原生数据目录的集成，实现了数据目录的统一管理。

Kyligence Cloud 元数据管理

Kyligence Cloud 是由 Kyligence 推出的云原生智能多维数据库平台，提供海量数据之上的高性能高并发查询能力，为企业简化数据湖上的多维数据分析（OLAP）。

此前，Kyligence Cloud 通过内置数据目录来实现产品内部的元数据信息管理。用户在消费数据前，需要在 Kyligence Cloud 中创建表，提供表结构、数据类型和数据所在位置等信息。如果客户的数据目录是在 Amazon Glue 托管的，则需要在 Kyligence Cloud 额外维护一份相同的元数据信息，当元数据发生变更时，需要手动去同步这些变化。并且若数据分散在不同的云账户下时，需要先把数据汇集到同一个账号下某个区域的存储桶中供 Kyligence Cloud 读取，然后再进行 OLAP 分析，这在一定程度上增加了客户的数据流转和数据存储成本。

Kyligence Cloud 集成 Amazon Glue 数据目录

在最新的 Kyligence Cloud 版本中，通过与 Amazon Glue 标准的 Apache Hive 接口集成，用户可以直接使用 Amazon Glue 提供的元数据存储和管理服务，通过支持跨区域和跨账号的 S3 存储桶的数据管理，实现对任何位置、任何账号下数据的统一数据目录管理。

Amazon Glue 数据目录作为数据源接入 Kyligence Cloud

根据亚马逊云科技官方文档介绍，Amazon Glue 数据目录完全兼容 Apache Hive Metastore，并且 Amazon Glue 提供了与 Amazon EMR 的开箱即用集成方案，使用户能够将 Amazon Glue 数据目录用作外部 Hive Metastore。这个方案除了 Amazon EMR，也可以移植到其他 Hive Metastore 的兼容平台上。

Kyligence Cloud 通过此特性，可按需动态读取 Amazon Glue 数据目录中的数据库/表等信息，服务于后续数据的建模和查询。Kyligence Cloud 只需要拥有客户 Amazon Glue 相关库表的读取权限即可，不需要对客户 Glue 数据目录中的任何信息进行修改，充分确保了用户的信息安全。

统一数据目录之后的 Kyligence Cloud 可以让用户便捷地发现组织中的数据，并借助 AI 增强引擎实现数据查询的优化，最终让终端业务人员在 BI 分析工具中获得快速查询体验。

总结

Amazon Glue 为用户提供了一种简单易用的数据目录管理方式，帮助用户轻松找到并访问数据。

Kyligence Cloud 则通过集成 Amazon Glue 数据目录，帮助用户实现统一的元数据管理，不仅降低了数据流转带来的成本，还提升了数据分析的效率。

推荐阅读

mq
秒建一个后台管理系统？用这5个开源免费的Java项目就够了

秒建一个后台管理系统？用这5个开源免费的Java项目就够了 ... [详细]

蜡笔小新 2024-11-12 03:21:33
mq
七大策略降低云上MySQL成本

在全球经济放缓和通胀压力下，降低云环境中MySQL数据库的运行成本成为企业关注的重点。本文提供了一系列实用技巧，旨在帮助企业有效控制成本，同时保持高效运作。 ... [详细]

蜡笔小新 2024-11-22 10:13:40
mq
如何以云计算的视角进行思考？

在拉斯维加斯举行的Interop 2011大会上，Bitcurrent的Alistair Croll发表了一场主题为“如何以云计算的视角进行思考”的演讲。该演讲深入探讨了传统IT思维与云计算思维之间的差异，并提出了在云计算环境下应具备的新思维方式。Croll强调了灵活性、可扩展性和成本效益等关键要素，以及如何通过这些要素来优化企业IT架构和运营。 ... [详细]

蜡笔小新 2024-11-06 12:40:33
wordpress
搭建个人博客：WordPress安装详解

计划建立个人博客来分享生活与工作的见解和经验，选择WordPress是因为它专为博客设计，功能强大且易于使用。 ... [详细]

蜡笔小新 2024-11-22 11:13:36
上传
对象存储与块存储、文件存储等对比

看到一篇文档，讲对象存储，好奇，搜索文章，摘抄,学习记录！背景：传统存储在面对海量非结构化数据时，在存储、分享与容灾上面临很大的挑战，主要表现在以下几个方面：传统存储并非为非结 ... [详细]

蜡笔小新 2024-11-17 18:21:23
上传
英特尔推出第三代至强可扩展处理器及傲腾持久内存，AI性能显著提升

英特尔在数据创新峰会上发布了第三代至强可扩展处理器和第二代傲腾持久内存，全面增强AI能力和系统性能。 ... [详细]

蜡笔小新 2024-11-17 13:07:14
java
大数据领域的职业路径与角色解析

本文将深入探讨大数据领域的各种职业和工作角色，帮助读者全面了解大数据行业的需求、市场趋势，以及从入门到高级专业人士的职业发展路径。文章还将详细介绍不同公司对大数据人才的需求，并解析各岗位的具体职责、所需技能和经验。 ... [详细]

蜡笔小新 2024-11-16 08:54:03
上传
EST：西湖大学鞠峰组污水厂病原菌与土著反硝化细菌是多重抗生素耐药基因的活跃表达者...

点击蓝字关注我们编译：祝新宇校稿：鞠峰、袁凌论文ID原名：PathogenicandIndigenousDenitrifyingBacte ... [详细]

蜡笔小新 2024-11-13 21:09:41
java
Python 数据可视化实战指南

本文详细介绍如何使用 Python 进行数据可视化，涵盖从环境搭建到具体实例的全过程。 ... [详细]

蜡笔小新 2024-11-13 06:03:30
php
从0到1搭建大数据平台

从0到1搭建大数据平台 ... [详细]

蜡笔小新 2024-11-12 15:26:03
php
InfluxDB、collectd与Grafana的详细安装与配置指南

本文详细介绍了 InfluxDB、collectd 和 Grafana 的安装与配置流程。首先，按照启动顺序依次安装并配置 InfluxDB、collectd 和 Grafana。InfluxDB 作为时序数据库，用于存储时间序列数据；collectd 负责数据的采集与传输；Grafana 则用于数据的可视化展示。文中提供了 collectd 的官方文档链接，便于用户参考和进一步了解其配置选项。通过本指南，读者可以轻松搭建一个高效的数据监控系统。 ... [详细]

蜡笔小新 2024-11-11 19:54:24
java
2021年Java开发实战：当前时间戳转换方法详解与实用网址推荐

在当前的就业市场中，金九银十过后，金三银四也即将到来。本文将分享一些实用的面试技巧和题目，特别是针对正在寻找新工作机会的Java开发者。作者在准备字节跳动的面试过程中积累了丰富的经验，并成功获得了Offer。文中详细介绍了如何将当前时间戳进行转换的方法，并推荐了一些实用的在线资源，帮助读者更好地应对技术面试。 ... [详细]

蜡笔小新 2024-11-08 22:43:32
php
全新发布的自我修复与自我更新的Linux版本，专为云计算环境设计！

全新发布的自我修复与自我更新的Linux版本，专为云计算环境设计！ ... [详细]

蜡笔小新 2024-10-30 10:53:23
php
支付宝免费提现攻略详解

在日常生活中，支付宝已成为不可或缺的支付工具之一。本文将详细介绍如何通过支付宝实现免费提现，帮助用户更好地管理个人财务，避免不必要的手续费支出。 ... [详细]

蜡笔小新 2024-11-21 16:47:52
php
腾讯云移动推送TPNS服务解析

腾讯云移动推送TPNS（Tencent Push Notification Service）为APP开发者和运营人员提供了一站式、高效、稳定的推送解决方案，帮助提升用户活跃度和运营效率。 ... [详细]

蜡笔小新 2024-11-18 12:51:42

有你真好-LOVE

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章