热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

Ranger、LLAP管理SparkSQL权限配置

概述之前一直使用ranger管理hive的用户权限,现在系统要集成SparkSQL(thriftserver),但是在ranger下并没有SparkSQL的相关的插件,通过搜集HO
  1. 概述

之前一直使用ranger管理hive的用户权限,现在系统要集成SparkSQL(thriftserver),但是在ranger下并没有SparkSQL的相关的插件,通过搜集HORTONWORKS相关资料,可以给SparkSQL配置LLAP(关于LLAP的更多细节,查看https://cwiki.apache.org/confluence/display/Hive/LLAP),然后通过ranger的hive policy间接支持SparkSQL的用户权限管理。

2. 原理

《Ranger、LLAP管理SparkSQL权限配置》
《Ranger、LLAP管理SparkSQL权限配置》 图-1

如图-1所示:

1)、SparkSQL接收到sql语句后,将该语句提交给HiveServer2

2)、Ranger 通过hive插件检查access policy,并告诉SparkSQL访问哪些表(列)不能访问哪些表(列)

3)、SparkSQL开始尝试通过LLAP从hdfs读取数据

4)、LLAP收到请求,检测到请求中包含没有权限访问的列,就停止处理该请求,同时返回一个权限异常给Spark

3. 配置

  • 环境

1)、HDP-2.6.3.0-235 with Spark2,non-kerberized 集群

2)、SPARK-LLAP:集群内部集成

  • 配置Hiveserver2 Interactive 服务

在Ambari中,定位到hive服务配置页,并且点击Enable Interactive Query:

《Ranger、LLAP管理SparkSQL权限配置》
《Ranger、LLAP管理SparkSQL权限配置》

随后会跳出相关配置,这些配置和LLAP服务资源分配有关,可以保持默认,因为目前只是为了满足测试需要。

《Ranger、LLAP管理SparkSQL权限配置》

保存配置,确认,继续。

重启影响的服务。

定位到service summary tab页面,确保Hiveserver2 Interactive服务启动成功:

《Ranger、LLAP管理SparkSQL权限配置》
《Ranger、LLAP管理SparkSQL权限配置》

  • 配置Spark2

在Ambari中,定位到spark2配置页

《Ranger、LLAP管理SparkSQL权限配置》
《Ranger、LLAP管理SparkSQL权限配置》 spark2配置页

找到 Custom spark2-defaults,

点击 add property 并添加如下属性:

spark.sql.hive.hiveserver2.jdbc.url= jdbc:hive2://{hiveserver-interactive-hostname}:10500/

spark.hadoop.hive.llap.daemon.service.hosts=@llap0

spark.hadoop.hive.zookeeper.quorum={some-or-all-zookeeper-hostnames}:2181

找到 Custom spark2-thrift-sparkconf,

点击 add property 并添加和 Custom spark2-defaults相同的属性

找到 Advanced spark2-env,

给属性spark_thrift_cmd_opts设置值:–jars /usr/hdp/2.6.3.0-235/spark_llap/spark-llap-assembly-1.0.0.2.6.3.0-235.jar –conf spark.sql.hive.llap=true

《Ranger、LLAP管理SparkSQL权限配置》
《Ranger、LLAP管理SparkSQL权限配置》

注:在HDP-2.6.3已经内部集成了spark-llap,对于没有集成spark-llap的HDP版本,spark_thrift_cmd_opts值应该这样设置值:–packages com.hortonworks.spark:spark-llap-assembly_2.11:1.1.3-2.1 –repositories http://repo.hortonworks.com/content/groups/public/ –conf spark.sql.hive.llap=true

保存属性修改,然后重启影响的服务,完成。

  • 测试

1)、给默认database设置ranger权限(推荐)

《Ranger、LLAP管理SparkSQL权限配置》
《Ranger、LLAP管理SparkSQL权限配置》

之所以推荐这样设置是,因为连接ThriftServer的时候一般是jdbc:hive2://{thriftserver-host}:{thriftserver-port},如果没有登录default的权限,连接时将直接拒绝,更谈不上执行更多的任务。

2)、测试

我的hive中现有3个库:

《Ranger、LLAP管理SparkSQL权限配置》
《Ranger、LLAP管理SparkSQL权限配置》

而用户**15698只对***_data_service有权限:

《Ranger、LLAP管理SparkSQL权限配置》
《Ranger、LLAP管理SparkSQL权限配置》

现在用用户**15698连接ThriftServer,只显示***_data_service库:

《Ranger、LLAP管理SparkSQL权限配置》
《Ranger、LLAP管理SparkSQL权限配置》

执行explain select,已经开始走LLAP权限验证:

《Ranger、LLAP管理SparkSQL权限配置》
《Ranger、LLAP管理SparkSQL权限配置》

测试完成。

4. 参考资料

hortonworks-spark/spark-llapgithub.com《Ranger、LLAP管理SparkSQL权限配置》
Error:”Unable to instantiate SparkSession with LLAP support because LLAP or Hive classes are not found” after upgrading from HDP 2.6.2 to 2.6.3 when starting Spark2 Thirft Server – Hortonworkscommunity.hortonworks.com
SparkSQL, Ranger, and LLAP via Spark Thrift Server for BI scenarios to provide row, column level security, and masking – Hortonworkszh.hortonworks.com《Ranger、LLAP管理SparkSQL权限配置》


推荐阅读
  • 本文详细探讨了在Web开发中常见的UTF-8编码问题及其解决方案,包括HTML页面、PHP脚本、MySQL数据库以及JavaScript和Flash应用中的乱码问题。 ... [详细]
  • 本文介绍了一种使用SQL Server存储过程来实现基于单一条件的高效分页查询的方法。通过示例代码,详细说明了如何构建和执行这种分页查询。 ... [详细]
  • JUnit下的测试和suite
    nsitionalENhttp:www.w3.orgTRxhtml1DTDxhtml1-transitional.dtd ... [详细]
  • 本文探讨了在SQL Server中处理几何类型列时遇到的INTERSECT操作限制,并提供了解决方案,包括通过转换数据类型和使用额外表结构的方法。 ... [详细]
  • 本文探讨了如何通过Service Locator模式来简化和优化在B/S架构中的服务命名访问,特别是对于需要频繁访问的服务,如JNDI和XMLNS。该模式通过缓存机制减少了重复查找的成本,并提供了对多种服务的统一访问接口。 ... [详细]
  • 流处理中的计数挑战与解决方案
    本文探讨了在流处理中进行计数的各种技术和挑战,并基于作者在2016年圣何塞举行的Hadoop World大会上的演讲进行了深入分析。文章不仅介绍了传统批处理和Lambda架构的局限性,还详细探讨了流处理架构的优势及其在现代大数据应用中的重要作用。 ... [详细]
  • C# 中创建和执行存储过程的方法
    本文详细介绍了如何使用 C# 创建和调用 SQL Server 存储过程,包括连接数据库、定义命令类型、设置参数等步骤。 ... [详细]
  • 根据官方定义,RxJava是一种用于异步编程和可观察数据流的API。其核心特性在于流式处理能力和丰富的操作符支持。 ... [详细]
  • SQL Server 存储过程实践任务(第二部分)
    本文档详细介绍了三个SQL Server存储过程的创建与使用方法,包括统计特定类型客房的入住人数、根据房间号查询客房详情以及删除特定类型的客房记录。 ... [详细]
  • 本文介绍了实时流协议(RTSP)的基本概念、组成部分及其与RTCP的交互过程,详细解析了客户端请求格式、服务器响应格式、常用方法分类及协议流程,并提供了SDP格式的深入解析。 ... [详细]
  • 本文介绍如何通过整合SparkSQL与Hive来构建高效的用户画像环境,提高数据处理速度和查询效率。 ... [详细]
  • 分层学习率衰减在NLP预训练模型中的应用
    本文探讨了如何通过分层学习率衰减技术来优化NLP预训练模型的微调过程,特别是针对BERT模型。通过调整不同层的学习率,可以有效提高模型性能。 ... [详细]
  • 原文地址:https:blog.csdn.netqq_35361471articledetails84715491原文地址:https:blog.cs ... [详细]
  • 本文探讨了在SQL Server 2008环境下,当尝试删除拥有数据库架构的用户时遇到的问题及解决方案,包括如何查询和更改架构所有权。 ... [详细]
  • 探讨密码安全的重要性
    近期,多家知名网站如CSDN、人人网、多玩、开心网等的数据库相继被泄露,其中大量用户的账户密码因明文存储而暴露无遗。本文将探讨黑客获取密码的常见手段,网站如何安全存储用户信息,以及用户应如何保护自己的密码。 ... [详细]
author-avatar
Dr_H-鄧
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有