热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

Ranger、LLAP管理SparkSQL权限配置

概述之前一直使用ranger管理hive的用户权限,现在系统要集成SparkSQL(thriftserver),但是在ranger下并没有SparkSQL的相关的插件,通过搜集HO
  1. 概述

之前一直使用ranger管理hive的用户权限,现在系统要集成SparkSQL(thriftserver),但是在ranger下并没有SparkSQL的相关的插件,通过搜集HORTONWORKS相关资料,可以给SparkSQL配置LLAP(关于LLAP的更多细节,查看https://cwiki.apache.org/confluence/display/Hive/LLAP),然后通过ranger的hive policy间接支持SparkSQL的用户权限管理。

2. 原理

《Ranger、LLAP管理SparkSQL权限配置》
《Ranger、LLAP管理SparkSQL权限配置》 图-1

如图-1所示:

1)、SparkSQL接收到sql语句后,将该语句提交给HiveServer2

2)、Ranger 通过hive插件检查access policy,并告诉SparkSQL访问哪些表(列)不能访问哪些表(列)

3)、SparkSQL开始尝试通过LLAP从hdfs读取数据

4)、LLAP收到请求,检测到请求中包含没有权限访问的列,就停止处理该请求,同时返回一个权限异常给Spark

3. 配置

  • 环境

1)、HDP-2.6.3.0-235 with Spark2,non-kerberized 集群

2)、SPARK-LLAP:集群内部集成

  • 配置Hiveserver2 Interactive 服务

在Ambari中,定位到hive服务配置页,并且点击Enable Interactive Query:

《Ranger、LLAP管理SparkSQL权限配置》
《Ranger、LLAP管理SparkSQL权限配置》

随后会跳出相关配置,这些配置和LLAP服务资源分配有关,可以保持默认,因为目前只是为了满足测试需要。

《Ranger、LLAP管理SparkSQL权限配置》

保存配置,确认,继续。

重启影响的服务。

定位到service summary tab页面,确保Hiveserver2 Interactive服务启动成功:

《Ranger、LLAP管理SparkSQL权限配置》
《Ranger、LLAP管理SparkSQL权限配置》

  • 配置Spark2

在Ambari中,定位到spark2配置页

《Ranger、LLAP管理SparkSQL权限配置》
《Ranger、LLAP管理SparkSQL权限配置》 spark2配置页

找到 Custom spark2-defaults,

点击 add property 并添加如下属性:

spark.sql.hive.hiveserver2.jdbc.url= jdbc:hive2://{hiveserver-interactive-hostname}:10500/

spark.hadoop.hive.llap.daemon.service.hosts=@llap0

spark.hadoop.hive.zookeeper.quorum={some-or-all-zookeeper-hostnames}:2181

找到 Custom spark2-thrift-sparkconf,

点击 add property 并添加和 Custom spark2-defaults相同的属性

找到 Advanced spark2-env,

给属性spark_thrift_cmd_opts设置值:–jars /usr/hdp/2.6.3.0-235/spark_llap/spark-llap-assembly-1.0.0.2.6.3.0-235.jar –conf spark.sql.hive.llap=true

《Ranger、LLAP管理SparkSQL权限配置》
《Ranger、LLAP管理SparkSQL权限配置》

注:在HDP-2.6.3已经内部集成了spark-llap,对于没有集成spark-llap的HDP版本,spark_thrift_cmd_opts值应该这样设置值:–packages com.hortonworks.spark:spark-llap-assembly_2.11:1.1.3-2.1 –repositories http://repo.hortonworks.com/content/groups/public/ –conf spark.sql.hive.llap=true

保存属性修改,然后重启影响的服务,完成。

  • 测试

1)、给默认database设置ranger权限(推荐)

《Ranger、LLAP管理SparkSQL权限配置》
《Ranger、LLAP管理SparkSQL权限配置》

之所以推荐这样设置是,因为连接ThriftServer的时候一般是jdbc:hive2://{thriftserver-host}:{thriftserver-port},如果没有登录default的权限,连接时将直接拒绝,更谈不上执行更多的任务。

2)、测试

我的hive中现有3个库:

《Ranger、LLAP管理SparkSQL权限配置》
《Ranger、LLAP管理SparkSQL权限配置》

而用户**15698只对***_data_service有权限:

《Ranger、LLAP管理SparkSQL权限配置》
《Ranger、LLAP管理SparkSQL权限配置》

现在用用户**15698连接ThriftServer,只显示***_data_service库:

《Ranger、LLAP管理SparkSQL权限配置》
《Ranger、LLAP管理SparkSQL权限配置》

执行explain select,已经开始走LLAP权限验证:

《Ranger、LLAP管理SparkSQL权限配置》
《Ranger、LLAP管理SparkSQL权限配置》

测试完成。

4. 参考资料

hortonworks-spark/spark-llapgithub.com《Ranger、LLAP管理SparkSQL权限配置》
Error:”Unable to instantiate SparkSession with LLAP support because LLAP or Hive classes are not found” after upgrading from HDP 2.6.2 to 2.6.3 when starting Spark2 Thirft Server – Hortonworkscommunity.hortonworks.com
SparkSQL, Ranger, and LLAP via Spark Thrift Server for BI scenarios to provide row, column level security, and masking – Hortonworkszh.hortonworks.com《Ranger、LLAP管理SparkSQL权限配置》


推荐阅读
  • 本文探讨了 Kafka 集群的高效部署与优化策略。首先介绍了 Kafka 的下载与安装步骤,包括从官方网站获取最新版本的压缩包并进行解压。随后详细讨论了集群配置的最佳实践,涵盖节点选择、网络优化和性能调优等方面,旨在提升系统的稳定性和处理能力。此外,还提供了常见的故障排查方法和监控方案,帮助运维人员更好地管理和维护 Kafka 集群。 ... [详细]
  • HBase在金融大数据迁移中的应用与挑战
    随着最后一台设备的下线,标志着超过10PB的HBase数据迁移项目顺利完成。目前,新的集群已在新机房稳定运行超过两个月,监控数据显示,新集群的查询响应时间显著降低,系统稳定性大幅提升。此外,数据消费的波动也变得更加平滑,整体性能得到了显著优化。 ... [详细]
  • 技术日志:深入探讨Spark Streaming与Spark SQL的融合应用
    技术日志:深入探讨Spark Streaming与Spark SQL的融合应用 ... [详细]
  • Hadoop的文件操作位于包org.apache.hadoop.fs里面,能够进行新建、删除、修改等操作。比较重要的几个类:(1)Configurati ... [详细]
  • 本文详细介绍了如何在Linux系统(以CentOS为例)上彻底卸载Zimbra邮件系统,包括停止服务、删除文件和用户等步骤。 ... [详细]
  • com.sun.javadoc.PackageDoc.exceptions()方法的使用及代码示例 ... [详细]
  • Spark与HBase结合处理大规模流量数据结构设计
    本文将详细介绍如何利用Spark和HBase进行大规模流量数据的分析与处理,包括数据结构的设计和优化方法。 ... [详细]
  • 本文介绍如何使用 Python 的 DOM 和 SAX 方法解析 XML 文件,并通过示例展示了如何动态创建数据库表和处理大量数据的实时插入。 ... [详细]
  • 第二章:Kafka基础入门与核心概念解析
    本章节主要介绍了Kafka的基本概念及其核心特性。Kafka是一种分布式消息发布和订阅系统,以其卓越的性能和高吞吐量而著称。最初,Kafka被设计用于LinkedIn的活动流和运营数据处理,旨在高效地管理和传输大规模的数据流。这些数据主要包括用户活动记录、系统日志和其他实时信息。通过深入解析Kafka的设计原理和应用场景,读者将能够更好地理解其在现代大数据架构中的重要地位。 ... [详细]
  • Hadoop 2.6 主要由 HDFS 和 YARN 两大部分组成,其中 YARN 包含了运行在 ResourceManager 的 JVM 中的组件以及在 NodeManager 中运行的部分。本文深入探讨了 Hadoop 2.6 日志文件的解析方法,并详细介绍了 MapReduce 日志管理的最佳实践,旨在帮助用户更好地理解和优化日志处理流程,提高系统运维效率。 ... [详细]
  • 构建高可用性Spark分布式集群:大数据环境下的最佳实践
    在构建高可用性的Spark分布式集群过程中,确保所有节点之间的无密码登录是至关重要的一步。通过在每个节点上生成SSH密钥对(使用 `ssh-keygen -t rsa` 命令并保持默认设置),可以实现这一目标。此外,还需将生成的公钥分发到所有节点的 `~/.ssh/authorized_keys` 文件中,以确保节点间的无缝通信。为了进一步提升集群的稳定性和性能,建议采用负载均衡和故障恢复机制,并定期进行系统监控和维护。 ... [详细]
  • HBase客户端Table类中getRpcTimeout方法的应用与编程实例解析 ... [详细]
  • 在Hive中合理配置Map和Reduce任务的数量对于优化不同场景下的性能至关重要。本文探讨了如何控制Hive任务中的Map数量,分析了当输入数据超过128MB时是否会自动拆分,以及Map数量是否越多越好的问题。通过实际案例和实验数据,本文提供了具体的配置建议,帮助用户在不同场景下实现最佳性能。 ... [详细]
  • 背景 本文基于spark3.1.2之前在做bug调试的时候遇到了expand的问题,在此记录一下 分析 运行该sql: createtabletest_ ... [详细]
  • 数据读取hadoopFileParameters:path–pathtoHadoopfileinputFormatClass–fullyqualifiedclassnameo ... [详细]
author-avatar
Dr_H-鄧
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有