Atlas元数据管理学习

作者：手机用户2502897401 | 来源：互联网 | 2023-05-19 17:31

目录概述ApacheAtlas架构ApacheAtlas核心组件安装API二次开发RestfulAPI概述ApacheAtlas是Hadoop社区为解决Hadoop生态系统的元数据

概述
Apache Atlas 架构
Apache Atlas 核心组件
安装
API 二次开发
Restful API

概述

Apache Atlas 是 Hadoop 社区为解决 Hadoop 生态系统的元数据治理问题而产生的开源项目，它为

Hadoop 集群提供了包括数据分类、集中策略引擎、数据血缘、安全和生命周期管理在内的元数据治

理核心能力。

1、Atlas 支持各种 Hadoop 和非 Hadoop 元数据类型

2、提供了丰富的 REST API 进行集成（非常容易扩展，自己开发WEB）

3、对数据血缘的追溯达到了字段级别，这种技术还没有其实类似框架可以实现（最牛B亮点）

4、对权限也有很好的控制

Apache Atlas 架构

Apache Atlas 核心组件

Type System：Atlas 允许用户为他们想要管理的元数据对象定义一个模型。该模型由称为 "类型"

的定义组成。"类型" 的实例被称为 "实体" 表示被管理的实际元数据对象。类型系统是一个组件，允许用户定义和管理类型和实体。由 Atlas 管理的所有元数据对象（例如 Hive 表）都使用类型进

行建模，并表示为实体。要在 Atlas 中存储新类型的元数据，需要了解类型系统组件的概念。

Ingest/Export：Ingest 组件允许将元数据添加到 Atlas。类似地，Export 组件暴露由 Atlas 检测到

的元数据更改，以作为事件引发，消费者可以使用这些更改事件来实时响应元数据更改。

Graph Engine：在内部，Atlas 通过使用图形模型管理元数据对象。以实现元数据对象之间的巨大

灵活性和丰富的关系。图形引擎是负责在类型系统的类型和实体之间进行转换的组件，以及基础图

形模型。除了管理图形对象之外，图形引擎还为元数据对象创建适当的索引，以便有效地搜索它

们。

Titan：目前，Atlas 使用 Titan 图数据库来存储元数据对象。 Titan 使用两个存储：默认情况下元

数据存储配置为 HBase ，索引存储配置为 Solr（为了实现快速检索）。也可以通过构建相应的配置文件使用BerkeleyDB

存储元数据存储和使用ElasticSearch存储 Index。元数据存储用于存储元数据对象本身，索引存

储用于存储元数据属性的索引，其允许高效搜索。

Integration

两种方法管理 Atlas 中的元数据

API：Atlas 的所有功能都可以通过 REST API 提供给最终用户，允许创建，更新和删除类型和实

体。它也是查询和发现通过 Atlas 管理的类型和实体的主要方法。

Messaging：除了 API 之外，用户还可以选择使用基于 Kafka 的消息接口与 Atlas 集成。这对于将

元数据对象传输到 Atlas 以及从 Atlas 使用可以构建应用程序的元数据更改事件都非常有用。如果

希望使用与 Atlas 更松散耦合的集成，这可以允许更好的可扩展性，可靠性等，消息传递接口是特

别有用的。Atlas 使用 Apache Kafka 作为通知服务器用于钩子和元数据通知事件的下游消费者之

间的通信。

事件由钩子(hook) 和 Atlas 写到不同的 Kafka 主题：

ATLAS_HOOK：来自各个组件的 Hook 的元数据通知事件通过写入到名为 ATLAS_HOOK 的 Kafka

topic 发送到 Atlas（消息入口：采集外部元数据）

ATLAS_ENTITIES：从 Atlas 到其他集成组件（如 Ranger）的事件写入到名为 ATLAS_ENTITIES 的

Kafka topic（消息出口：暴露元数据变更事件给外部组件）

Metadata source：

Atlas 支持与许多元数据源的集成，将来还会添加更多集成。

Hive：通过 hive bridge， atlas 可以接入 Hive 的元数据，包括 hive_db / hive_table /

hive_column / hive_process / hive_db_ddl / hive_table_ddl 等

Sqoop：通过 sqoop bridge，atlas 可以接入关系型数据库的元数据，包括

sqoop_operation_type / sqoop_dbstore_usage / sqoop_process / sqoop_dbdatastore

Falcon：通过 falcon bridge，atlas 可以接入 Falcon 的元数据，包括 falcon_cluster /

falcon_feed / falcon_feed_creation / falcon_feed_replication / falcon_process

Storm：通过 storm bridge，atlas 可以接入流式处理的元数据，包括 storm_topology /

storm_spout / storm_bolt / storm_node

Atlas 集成大数据组件的元数据源需要实现以下两点：

首先，需要基于 atlas 的类型系统定义能够表达大数据组件元数据对象的元数据模型（例如 Hive

的元数据模型实现在org.apache.atlas.hive.model.HiveDataModelGenerator）；

然后，需要提供 hook 组件去从大数据组件的元数据源中提取元数据对象，实时侦听元数据的变更

并反馈给 atlas；

Apache Atlas 核心特性：

1、数据分类

2、集中审计

3、搜索与血缘

4、安全与策略引擎

安装

下载

https://www.apache.org/dyn/closer.cgi/atlas/2.1.0/apache-atlas-2.1.0-sources.tar.gz

解压缩

tar -zxvf apache-atlas-2.1.0-sources.tar.gz -C apps/

修改编译配置

vim pom.xml

主要修改的是 hbase 和 solr：

2.8.3 2.2.5 7.7.3 3.1.0 2.0.0 1.2.0 3.4.14 2.11 1.16.0 0.8 1.4.6.2.3.99.0-195 4.0.1 5.6.4

修改 distro 项目的 pom信息：

http://mirrors.tuna.tsinghua.edu.cn/apache/hbase/${hbase.version}/hba se-${hbase.version}-bin.tar.gz http://mirrors.tuna.tsinghua.edu.cn/apache/lucene/solr/${solr.version} /solr-${solr.version}.tgz

编译

调高 maven 使用内存

export MAVEN_OPTS="-Xms2g -Xmx2g"

先去下载所有的 jar： mvn dependency:tree

mvn clean package -DskipTests -Pdist -Denforcer.skip=true -Dmaven.test.skip=true

获取安装包

编译完成之后，会产生打包结果（apache-atlas-2.1.0-bin.tar.gz），所在位置是：源码目录中的新出现的 distro/target 目录

编译的时候遇到找不到相应的包，需要 pom.xml增加相应的依赖。

安装巨复杂需要各种配置，不建议。

推荐方式直接在 Ambari 中启动安装引导程序

API 二次开发

Type：Atlas 中的 “类型” 是一个定义, 说明如何存储并访问特定类型的元数据对象,。类型表示一个特征

或一个特性集合, 这些属性定义了元数据对象。具有开发背景的用户将识别类型的相似性, 以面向对象编

程语言的 “Class” 定义或关系的 “table schema”数据库。

Entity：Atlas 中的一个 “实体” 是类 “type” 的特定值或实例, 因此表示特定的现实世界中的元数据对

象。回指我们的面向对象的类比编程语言, “instance” 是某个 “Class” 的 “Object”。

Attribute：属性定义在复合 metatypes 中, 如 Class 和 Struct。可以简单将属性称为具有名称和

metatype 值。然而 Atlas 中的属性有更多的属性来定义与 type system 相关的更多概念。

Restful API

获取所有的types：http://bigdata23:21000/api/atlas/types

所有所有的types：http://bigdata23:21000/api/atlas/types?type=STRUCT 或者 http://bigdata23:210

00/api/atlas/types?type=CLASS 或者 http://bigdata23:21000/api/atlas/types?type=TRAIT

获取某一个type：http://bigdata23:21000/api/atlas/types/hive_column

创建新type：http://bigdata23:21000/api/atlas/type

创建新entity：http://bigdata23:21000/api/atlas/entities （entities：是一个数组）

获取一个entity：http://bigdata23:21000/api/atlas/entities/guid （guid是entity的id）

获取一个包含某个attribute(属性)的entity：http://bigdata23:21000/api/atlas/entities?type=type_na

me&property=unique_attribute_name&value=unique_attribute_value

更新entity的一个attribute属性：http://bigdata23:21000/api/atlas/entities/GUID

推荐阅读

export
NoSQL 数据查询与检索技术解析

NoSQL数据库，即非关系型数据库，有时也被称作Not Only SQL，是一种区别于传统关系型数据库的管理系统。这类数据库设计用于处理大规模、高并发的数据存储与查询需求，特别适用于需要快速读写大量非结构化或半结构化数据的应用场景。NoSQL数据库通过牺牲部分一致性来换取更高的可扩展性和性能，支持分布式部署，能够有效应对互联网时代的海量数据挑战。 ... [详细]

蜡笔小新 2024-10-28 18:13:15
copy
HBase在金融大数据迁移中的应用与挑战

随着最后一台设备的下线，标志着超过10PB的HBase数据迁移项目顺利完成。目前，新的集群已在新机房稳定运行超过两个月，监控数据显示，新集群的查询响应时间显著降低，系统稳定性大幅提升。此外，数据消费的波动也变得更加平滑，整体性能得到了显著优化。 ... [详细]

蜡笔小新 2024-10-31 14:06:06
string
Storm集成Kakfa

一、整合说明Storm官方对Kafka的整合分为两个版本，官方说明文档分别如下：StormKafkaIntegratio ... [详细]

蜡笔小新 2024-10-16 20:20:41
jar
日志处理流程：Flume+MapReduce+Hive+Sqoop+MySQL

本文介绍了如何使用Flume从Linux文件系统收集日志并存储到HDFS，然后通过MapReduce清洗数据，使用Hive进行数据分析，并最终通过Sqoop将结果导出到MySQL数据库。 ... [详细]

蜡笔小新 2024-11-13 18:47:34
stream
HDFS API

Hadoop的文件操作位于包org.apache.hadoop.fs里面，能够进行新建、删除、修改等操作。比较重要的几个类：(1)Configurati ... [详细]

蜡笔小新 2024-11-13 17:31:50
stream
从0到1搭建大数据平台

从0到1搭建大数据平台 ... [详细]

蜡笔小新 2024-11-12 15:26:03
include
Presto：高效即席查询引擎的深度解析与应用

本文深入解析了Presto这一高效的即席查询引擎，详细探讨了其架构设计及其优缺点。Presto通过内存到内存的数据处理方式，显著提升了查询性能，相比传统的MapReduce查询，不仅减少了数据传输的延迟，还提高了查询的准确性和效率。然而，Presto在大规模数据处理和容错机制方面仍存在一定的局限性。本文还介绍了Presto在实际应用中的多种场景，展示了其在大数据分析领域的强大潜力。 ... [详细]

蜡笔小新 2024-11-07 19:17:47
stream
第二章：Kafka基础入门与核心概念解析

本章节主要介绍了Kafka的基本概念及其核心特性。Kafka是一种分布式消息发布和订阅系统，以其卓越的性能和高吞吐量而著称。最初，Kafka被设计用于LinkedIn的活动流和运营数据处理，旨在高效地管理和传输大规模的数据流。这些数据主要包括用户活动记录、系统日志和其他实时信息。通过深入解析Kafka的设计原理和应用场景，读者将能够更好地理解其在现代大数据架构中的重要地位。 ... [详细]

蜡笔小新 2024-11-06 11:10:03
bit
HBase Java API 进阶：过滤器详解与应用实例

本文详细探讨了HBase 1.2.6版本中Java API的高级应用，重点介绍了过滤器的使用方法和实际案例。首先，文章对几种常见的HBase过滤器进行了概述，包括列前缀过滤器（ColumnPrefixFilter）和时间戳过滤器（TimestampsFilter）。此外，还详细讲解了分页过滤器（PageFilter）的实现原理及其在大数据查询中的应用场景。通过具体的代码示例，读者可以更好地理解和掌握这些过滤器的使用技巧，从而提高数据处理的效率和灵活性。 ... [详细]

蜡笔小新 2024-11-05 15:08:18
stream
Zookeeper在Hadoop生态系统中的关键作用与应用分析

Zookeeper作为Apache Hadoop生态系统中的一个重要组件，主要致力于解决分布式应用中的常见数据管理难题。它提供了统一的命名服务、状态同步服务以及集群管理功能，有效提升了分布式系统的可靠性和可维护性。此外，Zookeeper还支持配置管理和临时节点管理，进一步增强了其在复杂分布式环境中的应用价值。 ... [详细]

蜡笔小新 2024-11-04 15:48:51
stream
Hadoop集群搭建常见问题与解决方案（一）：避免配置过程中的常见陷阱

在搭建Hadoop集群以处理大规模数据存储和频繁读取需求的过程中，经常会遇到各种配置难题。本文总结了作者在实际部署中遇到的典型问题，并提供了详细的解决方案，帮助读者避免常见的配置陷阱。通过这些经验分享，希望读者能够更加顺利地完成Hadoop集群的搭建和配置。 ... [详细]

蜡笔小新 2024-11-03 19:59:23
stream
如何在Hive中合理配置Map和Reduce任务数量以优化不同场景下的性能表现

在Hive中合理配置Map和Reduce任务的数量对于优化不同场景下的性能至关重要。本文探讨了如何控制Hive任务中的Map数量，分析了当输入数据超过128MB时是否会自动拆分，以及Map数量是否越多越好的问题。通过实际案例和实验数据，本文提供了具体的配置建议，帮助用户在不同场景下实现最佳性能。 ... [详细]

蜡笔小新 2024-10-31 14:33:41
foreach
技术日志：深入探讨Spark Streaming与Spark SQL的融合应用

技术日志：深入探讨Spark Streaming与Spark SQL的融合应用 ... [详细]

蜡笔小新 2024-10-30 14:20:53
foreach
HDFS基础知识与数据读写机制详解

本文详细介绍了HDFS的基础知识及其数据读写机制。首先，文章阐述了HDFS的架构，包括其核心组件及其角色和功能。特别地，对NameNode进行了深入解析，指出其主要负责在内存中存储元数据、目录结构以及文件块的映射关系，并通过持久化方案确保数据的可靠性和高可用性。此外，还探讨了DataNode的角色及其在数据存储和读取过程中的关键作用。 ... [详细]

蜡笔小新 2024-10-30 11:58:25
python
Phoenix 使用体验分享与深度解析

闲来无事看了下hbase方面的东西，发现还好理解不过不大习惯于是找到个phoenix感觉不错性能指标如下好像还不错了准备工作：启动hadoop集群启动zookkeeper启动hba ... [详细]

蜡笔小新 2024-10-22 14:57:42

手机用户2502897401

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章