使用spark-submitYARN群集模式时缺少hive-site

作者：李太有才_905 | 来源：互联网 | 2023-01-26 20:42

如何解决《使用spark-submitYARN群集模式时缺少hive-site》经验，为你挑选了1个好方法。

使用HDP 2.5.3,我一直在尝试调试一些YARN容器类路径问题.

由于HDP包括Spark 1.6和2.0.0,因此存在一些冲突的版本

我支持的用户能够成功地在YARN client模式下使用带有Hive查询的Spark2 ,但是不能从cluster模式中获取有关未找到的表的错误,或类似的东西,因为未建立Metastore连接.

我猜测设置--driver-class-path /etc/spark2/conf:/etc/hive/conf或者传递--files /etc/spark2/conf/hive-site.xml后spark-submit都可以工作,但为什么没有hive-site.xml从conf文件夹中加载？

根据Hortonworks文档的说法,hive-site应该放入$SPARK_HOME/conf,并且......

我看到hdfs-site.xml和core-site.xml,以及其他文件,HADOOP_CONF_DIR例如,这是来自YARN UI容器信息.

2232355    4 drwx------   2 yarn     hadoop       4096 Aug  2 21:59 ./__spark_conf__
2232379    4 -r-x------   1 yarn     hadoop       2358 Aug  2 21:59 ./__spark_conf__/topology_script.py
2232381    8 -r-x------   1 yarn     hadoop       4676 Aug  2 21:59 ./__spark_conf__/yarn-env.sh
2232392    4 -r-x------   1 yarn     hadoop        569 Aug  2 21:59 ./__spark_conf__/topology_mappings.data
2232398    4 -r-x------   1 yarn     hadoop        945 Aug  2 21:59 ./__spark_conf__/taskcontroller.cfg
2232356    4 -r-x------   1 yarn     hadoop        620 Aug  2 21:59 ./__spark_conf__/log4j.properties
2232382   12 -r-x------   1 yarn     hadoop       8960 Aug  2 21:59 ./__spark_conf__/hdfs-site.xml
2232371    4 -r-x------   1 yarn     hadoop       2090 Aug  2 21:59 ./__spark_conf__/hadoop-metrics2.properties
2232387    4 -r-x------   1 yarn     hadoop        662 Aug  2 21:59 ./__spark_conf__/mapred-env.sh
2232390    4 -r-x------   1 yarn     hadoop       1308 Aug  2 21:59 ./__spark_conf__/hadoop-policy.xml
2232399    4 -r-x------   1 yarn     hadoop       1480 Aug  2 21:59 ./__spark_conf__/__spark_conf__.properties
2232389    4 -r-x------   1 yarn     hadoop       1602 Aug  2 21:59 ./__spark_conf__/health_check
2232385    4 -r-x------   1 yarn     hadoop        913 Aug  2 21:59 ./__spark_conf__/rack_topology.data
2232377    4 -r-x------   1 yarn     hadoop       1484 Aug  2 21:59 ./__spark_conf__/ranger-hdfs-audit.xml
2232383    4 -r-x------   1 yarn     hadoop       1020 Aug  2 21:59 ./__spark_conf__/commons-logging.properties
2232357    8 -r-x------   1 yarn     hadoop       5721 Aug  2 21:59 ./__spark_conf__/hadoop-env.sh
2232391    4 -r-x------   1 yarn     hadoop        281 Aug  2 21:59 ./__spark_conf__/slaves
2232373    8 -r-x------   1 yarn     hadoop       6407 Aug  2 21:59 ./__spark_conf__/core-site.xml
2232393    4 -r-x------   1 yarn     hadoop        812 Aug  2 21:59 ./__spark_conf__/rack-topology.sh
2232394    4 -r-x------   1 yarn     hadoop       1044 Aug  2 21:59 ./__spark_conf__/ranger-hdfs-security.xml
2232395    8 -r-x------   1 yarn     hadoop       4956 Aug  2 21:59 ./__spark_conf__/metrics.properties
2232386    8 -r-x------   1 yarn     hadoop       4221 Aug  2 21:59 ./__spark_conf__/task-log4j.properties
2232380    4 -r-x------   1 yarn     hadoop         64 Aug  2 21:59 ./__spark_conf__/ranger-security.xml
2232372   20 -r-x------   1 yarn     hadoop      19975 Aug  2 21:59 ./__spark_conf__/yarn-site.xml
2232397    4 -r-x------   1 yarn     hadoop       1006 Aug  2 21:59 ./__spark_conf__/ranger-policymgr-ssl.xml
2232374    4 -r-x------   1 yarn     hadoop         29 Aug  2 21:59 ./__spark_conf__/yarn.exclude
2232384    4 -r-x------   1 yarn     hadoop       1606 Aug  2 21:59 ./__spark_conf__/container-executor.cfg
2232396    4 -r-x------   1 yarn     hadoop       1000 Aug  2 21:59 ./__spark_conf__/ssl-server.xml
2232375    4 -r-x------   1 yarn     hadoop          1 Aug  2 21:59 ./__spark_conf__/dfs.exclude
2232359    8 -r-x------   1 yarn     hadoop       7660 Aug  2 21:59 ./__spark_conf__/mapred-site.xml
2232378   16 -r-x------   1 yarn     hadoop      14474 Aug  2 21:59 ./__spark_conf__/capacity-scheduler.xml
2232376    4 -r-x------   1 yarn     hadoop        884 Aug  2 21:59 ./__spark_conf__/ssl-client.xml

正如你可能看到的,hive-site不存在,即使我肯定有conf/hive-site.xml火花提交

[spark@asthad006 conf]$ pwd && ls -l
/usr/hdp/2.5.3.0-37/spark2/conf
total 32
-rw-r--r-- 1 spark spark   742 Mar  6 15:20 hive-site.xml
-rw-r--r-- 1 spark spark   620 Mar  6 15:20 log4j.properties
-rw-r--r-- 1 spark spark  4956 Mar  6 15:20 metrics.properties
-rw-r--r-- 1 spark spark   824 Aug  2 22:24 spark-defaults.conf
-rw-r--r-- 1 spark spark  1820 Aug  2 22:24 spark-env.sh
-rwxr-xr-x 1 spark spark   244 Mar  6 15:20 spark-thrift-fairscheduler.xml
-rw-r--r-- 1 hive  hadoop  918 Aug  2 22:24 spark-thrift-sparkconf.conf

所以,我不认为我应该把蜂房网站HADOOP_CONF_DIR为HIVE_CONF_DIR是分开的,但我的问题是,我们怎么Spark2拿起hive-site.xml无需手动将它传递在运行时的参数？

编辑自然,因为我在使用HDP我正在使用Ambari.以前的集群管理员已在所有计算机上安装了Spark2客户端,因此可能是潜在Spark驱动程序的所有YARN NodeManager都应具有相同的配置文件

1> Samson Schar..：

我了解它的方式，在local或yarn-client模式下...

启动器检查Hive / Hadoop客户端库是否在CLASSPATH中搜索了HDFS，YARN，Hive，HBase
> 是否需要Kerberos令牌（包括因为驱动程序在启动器中运行并且此时已构建合并的CLASSPATH）hive-site.xmldriver.extraClassPath

驱动程序将检查哪一种metastore的用于内部目的：独立metastore背靠挥发性Derby实例或常规蜂巢metastore
>说的$SPARK_CONF_DIR/hive-site.xml

使用Hive界面时，将使用Metastore连接来读取/写入驱动程序中的Hive元数据
> hive-site.xml Hive / Hadoop客户端库在CLASSPATH中搜索（并且使用Kerberos令牌（如果有））

因此，您可以hive-site.xml说一说Spark应该使用嵌入式的内存中Derby实例用作沙箱（内存中表示“停止将所有这些临时文件留在您的身后”），而另一个则hive-site.xml给出实际的Hive Metastore URI。一切都很好。

现在，在yarn-cluster模式下，所有这些机制几乎都在令人讨厌的，未记录的混乱中爆炸。

Launcher需要自己的CLASSPATH设置来创建Kerberos令牌，否则它会静默失败。最好转到源代码，找出您应该使用哪个未公开的Env变量。
它可能还需要在某些属性中进行覆盖，因为硬编码默认值突然不再是默认值（静默）。

驱动程序无法点击原始文件$SPARK_CONF_DIR，它必须依靠启动程序可用于上传的内容。包括副本$SPARK_CONF_DIR/hive-site.xml吗？看起来并非如此。
因此，您可能正在使用Derby东西作为存根。

驱动程序与YARN在容器CLASSPATH上施加的顺序无关。
此外，driver.extraClassPath默认情况下，添加项不优先。为此，您必须强制执行spark.yarn.user.classpath.first=true （将其转换为我现在不记得其确切名称的标准Hadoop属性，尤其是因为有多个名称相似的道具可能已弃用和/或在Hadoop 2.x中不起作用）

觉得不好吗？尝试以yarn-cluster模式连接到Kerberized HBase 。连接是在执行程序中完成的，这是另一层麻烦。但是我偏离了。

底线：再次开始诊断。

答：您是否真的确定神秘的“ Metastore连接错误”是由缺少属性（尤其是Metastore URI）引起的？

B.顺便说一句，您的用户是否明确使用HiveContext???？

C.在打开Metastore连接时，YARN呈现给驱动程序JVM的确切是什么CLASSPATH，驱动程序呈现给Hadoop库的CLASSPATH的确切是什么？

D.如果YARN构建的CLASSPATH由于某种原因而混乱，那么最小的解决办法是什么-优先规则的更改？加成？都？

推荐阅读

hadoop
Hadoop 2.6 日志文件解析与MapReduce日志管理深入探讨

Hadoop 2.6 主要由 HDFS 和 YARN 两大部分组成，其中 YARN 包含了运行在 ResourceManager 的 JVM 中的组件以及在 NodeManager 中运行的部分。本文深入探讨了 Hadoop 2.6 日志文件的解析方法，并详细介绍了 MapReduce 日志管理的最佳实践，旨在帮助用户更好地理解和优化日志处理流程，提高系统运维效率。 ... [详细]

蜡笔小新 2024-11-03 16:23:38
text
Presto：高效即席查询引擎的深度解析与应用

本文深入解析了Presto这一高效的即席查询引擎，详细探讨了其架构设计及其优缺点。Presto通过内存到内存的数据处理方式，显著提升了查询性能，相比传统的MapReduce查询，不仅减少了数据传输的延迟，还提高了查询的准确性和效率。然而，Presto在大规模数据处理和容错机制方面仍存在一定的局限性。本文还介绍了Presto在实际应用中的多种场景，展示了其在大数据分析领域的强大潜力。 ... [详细]

蜡笔小新 2024-11-07 19:17:47
text
构建用户画像环境：Hive与SparkSQL的高效整合

本文介绍如何通过整合SparkSQL与Hive来构建高效的用户画像环境，提高数据处理速度和查询效率。 ... [详细]

蜡笔小新 2024-11-19 09:44:24
text
构建高可用性Spark分布式集群：大数据环境下的最佳实践

在构建高可用性的Spark分布式集群过程中，确保所有节点之间的无密码登录是至关重要的一步。通过在每个节点上生成SSH密钥对（使用 `ssh-keygen -t rsa` 命令并保持默认设置），可以实现这一目标。此外，还需将生成的公钥分发到所有节点的 `~/.ssh/authorized_keys` 文件中，以确保节点间的无缝通信。为了进一步提升集群的稳定性和性能，建议采用负载均衡和故障恢复机制，并定期进行系统监控和维护。 ... [详细]

蜡笔小新 2024-11-02 14:18:50
post
Python 实现监控与运维自动化方案

本文探讨了使用Python实现监控信息收集的方法，涵盖从基础的日志记录到复杂的系统运维解决方案，旨在帮助开发者和运维人员提升工作效率。 ... [详细]

蜡笔小新 2024-11-23 11:25:14
text
SIP基础概览

本文介绍了SIP（Session Initiation Protocol，会话发起协议）的基本概念、功能、消息格式及其实现机制。SIP是一种在IP网络上用于建立、管理和终止多媒体通信会话的应用层协议。 ... [详细]

蜡笔小新 2024-11-21 17:42:08
text
Web动态服务器Python基本实现

Web动态服务器Python基本实现 ... [详细]

蜡笔小新 2024-11-21 08:01:30
text
解析与应用：org.apache.hadoop.hdfs.server.namenode.FSNamesystem.shouldUseDelegationTokens() 方法

本文详细介绍了 `org.apache.hadoop.hdfs.server.namenode.FSNamesystem.shouldUseDelegationTokens()` 方法的用途和实际应用场景，并提供了多个代码示例以帮助开发者更好地理解和使用该方法。 ... [详细]

蜡笔小新 2024-11-18 17:59:10
text
Hadoop Datanode DataXceiver 错误处理问题

Ambari 每分钟会向 Datanode 发送一次“ping”请求以确保其正常运行。然而，Datanode 在处理空内容时没有相应的逻辑，导致出现错误。 ... [详细]

蜡笔小新 2024-11-16 21:12:43
text
大数据领域的职业路径与角色解析

本文将深入探讨大数据领域的各种职业和工作角色，帮助读者全面了解大数据行业的需求、市场趋势，以及从入门到高级专业人士的职业发展路径。文章还将详细介绍不同公司对大数据人才的需求，并解析各岗位的具体职责、所需技能和经验。 ... [详细]

蜡笔小新 2024-11-16 08:54:03
text
Hadoop平台警告解决：无法加载本机Hadoop库的全面应对方案

本文探讨了在Hadoop平台上遇到“无法加载本机Hadoop库”警告的多种解决方案。首先，通过修改日志配置文件来忽略该警告，这一方法被证明是有效的。其次，尝试指定本地库的路径，但未能解决问题。接着，尝试不使用Hadoop本地库，同样没有效果。然后，通过替换现有的Hadoop本地库，成功解决了问题。最后，根据Hadoop的源代码自行编译本地库，也达到了预期的效果。以上方法适用于macOS系统。 ... [详细]

蜡笔小新 2024-11-09 19:46:30
text
Hadoop集群搭建常见问题与解决方案（一）：避免配置过程中的常见陷阱

在搭建Hadoop集群以处理大规模数据存储和频繁读取需求的过程中，经常会遇到各种配置难题。本文总结了作者在实际部署中遇到的典型问题，并提供了详细的解决方案，帮助读者避免常见的配置陷阱。通过这些经验分享，希望读者能够更加顺利地完成Hadoop集群的搭建和配置。 ... [详细]

蜡笔小新 2024-11-03 19:59:23
header
HBase在金融大数据迁移中的应用与挑战

随着最后一台设备的下线，标志着超过10PB的HBase数据迁移项目顺利完成。目前，新的集群已在新机房稳定运行超过两个月，监控数据显示，新集群的查询响应时间显著降低，系统稳定性大幅提升。此外，数据消费的波动也变得更加平滑，整体性能得到了显著优化。 ... [详细]

蜡笔小新 2024-10-31 14:06:06
text
技术日志：深入探讨Spark Streaming与Spark SQL的融合应用

技术日志：深入探讨Spark Streaming与Spark SQL的融合应用 ... [详细]

蜡笔小新 2024-10-30 14:20:53
text
HDFS基础知识与数据读写机制详解

本文详细介绍了HDFS的基础知识及其数据读写机制。首先，文章阐述了HDFS的架构，包括其核心组件及其角色和功能。特别地，对NameNode进行了深入解析，指出其主要负责在内存中存储元数据、目录结构以及文件块的映射关系，并通过持久化方案确保数据的可靠性和高可用性。此外，还探讨了DataNode的角色及其在数据存储和读取过程中的关键作用。 ... [详细]

蜡笔小新 2024-10-30 11:58:25

李太有才_905

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章