当前位置: 开发笔记 > 编程语言 > 正文

Spark之HiveSupport连接（sparkshell和IDEA）

作者：手机用户2502907451 | 来源：互联网 | 2023-09-09 20:37

本文介绍了使用Spark连接Hive的两种方式，spark-shell和IDEA远程连接。1.spark-shell1.1.拷贝配置文件拷贝hiveconfhdfs-site.xm

本文介绍了使用Spark连接Hive的两种方式，spark-shell和IDEA远程连接。

1.spark-shell

1.1.拷贝配置文件

拷贝hive/conf/hdfs-site.xml 到 spark/conf/ 下
拷贝hive/lib/mysql 到 spark/jars/下
这里可以通过如下参数来实现指定jar-path

--driver-class-path path/mysql-connector-java-5.1.13-bin.jar

1.2.启动spark-shell

spark.sql("show databases").show() spark.sql("use test") spark.sql("select * from student").show()

执行结果：

[hadoop@hadoop1 spark-2.3.0-bin-hadoop2.7]$ ./bin/spark-shell 2018-09-04 11:43:10 WARN NativeCodeLoader:62 - Unable to load native-hadoop library for your platform... using builtin-java classes where applicable Setting default log level to "WARN". To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel). Spark context Web UI available at http://hadoop1:4040 Spark context available as 'sc' (master = local[*], app id = local-1536032600945). Spark session available as 'spark'. Welcome to ____ __ / __/__ ___ _____/ /__ _\ \/ _ \/ _ `/ __/ '_/ /___/ .__/\_,_/_/ /_/\_\ version 2.3.0 /_/ Using Scala version 2.11.8 (Java HotSpot(TM) 64-Bit Server VM, Java 1.8.0_91) Type in expressions to have them evaluated. Type :help for more information. scala> spark.sql("show databases").show() 2018-09-04 11:43:54 WARN ObjectStore:568 - Failed to get database global_temp, returning NoSuchObjectException +------------+ |databaseName| +------------+ | default| | test| +------------+ scala> spark.sql("use test") res1: org.apache.spark.sql.DataFrame = [] scala> spark.sql("select * from student").show() +----+-----+---+----+-----+ | sno|sname|sex|sage|sdept| +----+-----+---+----+-----+ |1001| 张三| 男| 22| 高一| |1002| 李四| 女| 25| 高二| +----+-----+---+----+-----+

2.IDEA连接Hive

这里是连接远程的Hive，如果还没有部署Hive，请参考Hive之环境安装，前提是必须先启动hdfs。

2.1.引入依赖

org.apache.spark spark-core_2.11 2.3.0 org.apache.spark spark-sql_2.11 2.3.0 org.apache.spark spark-hive_2.11 2.3.0 mysql mysql-connector-java 5.1.40

2.2.拷贝配置文件

拷贝hive-site.xml到项目的resources目录下即可

《Spark之HiveSupport连接（spark-shell和IDEA）》 hive-site.xml

javax.jdo.option.ConnectionURL jdbc:mysql://hadoop1:3306/hive?createDatabaseIfNotExist=true JDBC connect string for a JDBC metastore javax.jdo.option.ConnectionDriverName com.mysql.jdbc.Driver Driver class name for a JDBC metastore javax.jdo.option.ConnectionUserName root username to use against metastore database javax.jdo.option.ConnectionPassword root password to use against metastore database

2.3.编写代码

object HiveSupport { def main(args: Array[String]): Unit = { //val warehouseLocation = "D:\\workspaces\\idea\\hadoop" val spark = SparkSession.builder() .appName("HiveSupport") .master("local[2]") //拷贝hdfs-site.xml不用设置，如果使用本地hive，可通过该参数设置metastore_db的位置 //.config("spark.sql.warehouse.dir", warehouseLocation) .enableHiveSupport() //开启支持hive .getOrCreate() //spark.sparkContext.setLogLevel("WARN") //设置日志输出级别 import spark.implicits._ import spark.sql sql("show databases") sql("use test") sql("select * from student").show() Thread.sleep(150 * 1000) spark.stop() } }

执行结果：

+----+-----+---+----+-----+ | sno|sname|sex|sage|sdept| +----+-----+---+----+-----+ |1001| 张三| 男| 22| 高一| |1002| 李四| 女| 25| 高二| +----+-----+---+----+-----+

参考：

Spark的spark.sql.warehouse.dir相关
Spark 2.2.1 + Hive
spark连接hive（spark-shell和eclipse两种方式）
官方文档

推荐阅读

shell
构建高可用性Spark分布式集群：大数据环境下的最佳实践

在构建高可用性的Spark分布式集群过程中，确保所有节点之间的无密码登录是至关重要的一步。通过在每个节点上生成SSH密钥对（使用 `ssh-keygen -t rsa` 命令并保持默认设置），可以实现这一目标。此外，还需将生成的公钥分发到所有节点的 `~/.ssh/authorized_keys` 文件中，以确保节点间的无缝通信。为了进一步提升集群的稳定性和性能，建议采用负载均衡和故障恢复机制，并定期进行系统监控和维护。 ... [详细]

蜡笔小新 2024-11-02 14:18:50
shell
Hadoop平台警告解决：无法加载本机Hadoop库的全面应对方案

本文探讨了在Hadoop平台上遇到“无法加载本机Hadoop库”警告的多种解决方案。首先，通过修改日志配置文件来忽略该警告，这一方法被证明是有效的。其次，尝试指定本地库的路径，但未能解决问题。接着，尝试不使用Hadoop本地库，同样没有效果。然后，通过替换现有的Hadoop本地库，成功解决了问题。最后，根据Hadoop的源代码自行编译本地库，也达到了预期的效果。以上方法适用于macOS系统。 ... [详细]

蜡笔小新 2024-11-09 19:46:30
io
HBase在金融大数据迁移中的应用与挑战

随着最后一台设备的下线，标志着超过10PB的HBase数据迁移项目顺利完成。目前，新的集群已在新机房稳定运行超过两个月，监控数据显示，新集群的查询响应时间显著降低，系统稳定性大幅提升。此外，数据消费的波动也变得更加平滑，整体性能得到了显著优化。 ... [详细]

蜡笔小新 2024-10-31 14:06:06
io
Hadoop + Spark安装(三) —— 调hadoop

***************************测试hadoop及问题跟进***************************执行以下语句报错datahadoop-2.9. ... [详细]

蜡笔小新 2024-10-17 11:56:27
get
解决 Ubuntu 环境下 Hadoop 集群 SSH 密钥认证问题

本文详细介绍了在 Ubuntu 系统上搭建 Hadoop 集群时遇到的 SSH 密钥认证问题及其解决方案。通过本文，读者可以了解如何在多台虚拟机之间实现无密码 SSH 登录，从而顺利启动 Hadoop 集群。 ... [详细]

蜡笔小新 2024-11-13 09:14:02
utf-8
Python 使用 DOM 和 SAX 解析 XML 的应用实例

本文介绍如何使用 Python 的 DOM 和 SAX 方法解析 XML 文件，并通过示例展示了如何动态创建数据库表和处理大量数据的实时插入。 ... [详细]

蜡笔小新 2024-11-12 16:10:39
get
开机自启动的几种方式

0x01快速自启动目录快速启动目录自启动方式源于Windows中的一个目录，这个目录一般叫启动或者Startup。位于该目录下的PE文件会在开机后进行自启动 ... [详细]

蜡笔小新 2024-11-12 11:16:30
cmd
服务器部署中的安全策略实践与优化

服务器部署中的安全策略实践与优化 ... [详细]

蜡笔小新 2024-11-10 13:04:30
get
Scala学习指南：从零开始掌握基础

本指南从零开始介绍Scala编程语言的基础知识，重点讲解了Scala解释器REPL（读取-求值-打印-循环）的使用方法。REPL是Scala开发中的重要工具，能够帮助初学者快速理解和实践Scala的基本语法和特性。通过详细的示例和练习，读者将能够熟练掌握Scala的基础概念和编程技巧。 ... [详细]

蜡笔小新 2024-11-07 18:07:59
function
Hadoop 2.6 日志文件解析与MapReduce日志管理深入探讨

Hadoop 2.6 主要由 HDFS 和 YARN 两大部分组成，其中 YARN 包含了运行在 ResourceManager 的 JVM 中的组件以及在 NodeManager 中运行的部分。本文深入探讨了 Hadoop 2.6 日志文件的解析方法，并详细介绍了 MapReduce 日志管理的最佳实践，旨在帮助用户更好地理解和优化日志处理流程，提高系统运维效率。 ... [详细]

蜡笔小新 2024-11-03 16:23:38
shell
字节跳动深圳研发中心安全业务团队正在火热招募人才！

字节跳动深圳研发中心安全业务团队正在火热招募人才！ ... [详细]

蜡笔小新 2024-11-02 18:55:30
get
技术日志：深入探讨Spark Streaming与Spark SQL的融合应用

技术日志：深入探讨Spark Streaming与Spark SQL的融合应用 ... [详细]

蜡笔小新 2024-10-30 14:20:53
string
深入理解Spark框架：RDD核心概念与操作详解

RDD是Spark框架的核心计算模型，全称为弹性分布式数据集（Resilient Distributed Dataset）。本文详细解析了RDD的基本概念、特性及其在Spark中的关键操作，包括创建、转换和行动操作等，帮助读者深入理解Spark的工作原理和优化策略。通过具体示例和代码片段，进一步阐述了如何高效利用RDD进行大数据处理。 ... [详细]

蜡笔小新 2024-10-29 20:10:01
io
pyspark RDD数据的读取与保存

数据读取hadoopFileParameters:path–pathtoHadoopfileinputFormatClass–fullyqualifiedclassnameo ... [详细]

蜡笔小新 2024-10-17 18:31:13
controller
05Hadoop的HA搭建

前期Linux环境准备1.修改Linux主机名2.修改IP3.修改主机名和IP的映射关系4.关闭防火墙5.ssh免登陆6.安装JDK，配置环境变量等集群规划主机 IP安装软件运行进 ... [详细]

蜡笔小新 2024-10-16 18:20:36

手机用户2502907451

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章