热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

元数据权限授权管理框架:ApacheSentry(一)

**简介:**ApacheSentry是Hadoop的基于角色的精细授权模块。Sentry为Hadoop集群上的经过身份验证的用户和应用程序提供了控制和实施数据特权级别的功能

**


简介:

**
Apache Sentry是Hadoop的基于角色的精细授权模块。Sentry为Hadoop集群上的经过身份验证的用户和应用程序提供了控制和实施数据特权级别的功能。Sentry当前可以与Apache Hive,Hive Metastore / HCatalog,Apache Solr,Impala和HDFS(仅限于Hive表数据)配合使用。 Sentry被设计为Hadoop组件的可插入授权引擎。它允许您定义授权规则,以验证用户或应用程序对Hadoop资源的访问请求。Sentry是高度模块化的,可以支持对Hadoop中各种数据模型的授权。


架构概述

在这里插入图片描述
授权过程涉及以下组件:

Sentry服务器:Sentry RPC服务器管理授权元数据。它支持安全地检索和操作元数据的界面;
数据引擎:这是一个数据处理应用程序,例如Hive或Impala,需要授权访问数据或元数据资源。数据引擎加载Sentry插件,所有客户端访问资源的请求均被拦截并路由到Sentry插件进行验证;
Sentry插件:Sentry插件在数据引擎中运行。它提供了操作存储在Sentry服务器中的授权元数据的接口,并包括授权策略引擎,该引擎使用从服务器获取的授权元数据评估访问请求。
关键概念:
身份验证 -验证凭据以可靠地标识用户
授权 -限制用户对给定资源的访问
用户 -由基础身份验证系统标识的个人
组 -由验​​证系统维护的一组用户
特权 -允许访问对象的指令或规则
角色 -一组特权;组合多个访问规则的模板
授权 模型 -定义要遵循授权规则和允许的操作粒度的对象。例如,在SQL模型中,对象可以是数据库或表,而操作可以是 选择,插入,创建 等等。对于搜索模型,对象是索引,集合和文档。访问方式为查询,更新等。
**


Sentry与Hadoop生态系统的集成

**
在这里插入图片描述如上所述,Apache Sentry与多个Hadoop组件一起使用。在中心,您可以使用Sentry Server,该服务器存储授权元数据并提供用于工具的API,以安全地检索和修改此元数据。

请注意,Sentry服务器仅辅助使用元数据。实际的授权决策由运行在数据处理应用程序(例如Hive或Impala)中的策略引擎做出。每个组件都加载Sentry插件,该插件包括用于处理Sentry服务的服务客户端和用于验证授权请求的策略引擎。


Sentry与hive集成在这里插入图片描述## Sentry与Impala集成

在这里插入图片描述Impala中的授权处理与Hive中的授权处理相似。主要区别在于特权的缓存。Impala的目录服务器管理缓存架构元数据,并将其传播到所有Impala服务器节点。此目录服务器也缓存Sentry元数据。结果,Impala中的授权验证在本地进行并且速度更快。


Sentry-HDFS同步

Sentry-HDFS授权专注于Hive仓库数据-即,Hive或Impala中表的一部分的任何数据。集成的真正目的是将相同的授权检查扩展到从其他任何组件(例如Pig,MapReduce或Spark)访问的Hive仓库数据。在这一点上,此功能不能代替HDFS ACL。与Sentry无关的表将保留其旧的ACL。
在这里插入图片描述Sentry特权到HDFS ACL权限的映射如下:
SELECT特权->对文件的读取访问权限。
INSERT特权->对文件的写访问权。
ALL特权->对文件的读写访问权限。
NameNode加载一个Sentry插件,该插件缓存Sentry特权以及Hive元数据。这有助于HDFS保持文件权限和Hive表权限同步。Sentry插件会定期轮询Sentry和Metastore,以使元数据更改保持同步。


推荐阅读
  • 什么是大数据lambda架构
    一、什么是Lambda架构Lambda架构由Storm的作者[NathanMarz]提出,根据维基百科的定义,Lambda架构的设计是为了在处理大规模数 ... [详细]
  • Hadoop源码解析1Hadoop工程包架构解析
    1 Hadoop中各工程包依赖简述   Google的核心竞争技术是它的计算平台。Google的大牛们用了下面5篇文章,介绍了它们的计算设施。   GoogleCluster:ht ... [详细]
  • 《Spark核心技术与高级应用》——1.2节Spark的重要扩展
    本节书摘来自华章社区《Spark核心技术与高级应用》一书中的第1章,第1.2节Spark的重要扩展,作者于俊向海代其锋马海平,更多章节内容可以访问云栖社区“华章社区”公众号查看1. ... [详细]
  • 马蜂窝数据总监分享:从数仓到数据中台,大数据演进技术选型最优解
    大家好,今天分享的议题主要包括几大内容:带大家回顾一下大数据在国内的发展,从传统数仓到当前数据中台的演进过程;我个人认为数 ... [详细]
  • Lucene 全文检索技术入门
    一、搜索引擎的历史萌芽:Archie、Gopher起步:Robot(网络机器人)的出现与spider(网络爬虫)发展:excite、galax ... [详细]
  • 本文介绍了在Win10上安装WinPythonHadoop的详细步骤,包括安装Python环境、安装JDK8、安装pyspark、安装Hadoop和Spark、设置环境变量、下载winutils.exe等。同时提醒注意Hadoop版本与pyspark版本的一致性,并建议重启电脑以确保安装成功。 ... [详细]
  • 本文介绍了使用Spark实现低配版高斯朴素贝叶斯模型的原因和原理。随着数据量的增大,单机上运行高斯朴素贝叶斯模型会变得很慢,因此考虑使用Spark来加速运行。然而,Spark的MLlib并没有实现高斯朴素贝叶斯模型,因此需要自己动手实现。文章还介绍了朴素贝叶斯的原理和公式,并对具有多个特征和类别的模型进行了讨论。最后,作者总结了实现低配版高斯朴素贝叶斯模型的步骤。 ... [详细]
  • Kylin 单节点安装
    软件环境Hadoop:2.7,3.1(sincev2.5)Hive:0.13-1.2.1HBase:1.1,2.0(sincev2.5)Spark(optional)2.3.0K ... [详细]
  • 我们在之前的文章中已经初步介绍了Cloudera。hadoop基础----hadoop实战(零)-----hadoop的平台版本选择从版本选择这篇文章中我们了解到除了hadoop官方版本外很多 ... [详细]
  • SparkOnYarn在YARN上启动Spark应用有两种模式。在cluster模式下,Spark驱动器(driver)在YARNApp ... [详细]
  • Yarn已过时!Kubeflow实现机器学习调度平台才是未来
    来源:AI前线本文约6700字,建议阅读10分钟。本文分析了建设分布式训练平台的过程中的痛点所在,为你介绍Kubeflow与其核心组件及其 ... [详细]
  • 探索MLlib机器学习
    公众号后台回复关键词:pyspark,获取本项目github地址。MLlib是Spark的机器学习库,包括以下主要功能。实用工具ÿ ... [详细]
  • SparkRDD宽窄依赖及Stage划分
    1.术语解释:Master(Standalone):资源管理的主节点(进程)ClusterManager:在集群上获取资源的外部服务(例如standalone,Mesos,Yarn ... [详细]
  • Spark面试题汇总大全
    1RDD简介RDD是Spark最基本也是最根本的数据抽象,它具备像MapReduce等数据流模型的容错性,并且允许开发人员在大型集群上执行基于内存的计 ... [详细]
  • 一:什么是solrSolr是apache下的一个开源项目,使用Java基于lucene开发的全文搜索服务器;Lucene是一个开放源代 ... [详细]
author-avatar
渐我素小黑陈琼敏
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有