热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

Sparksql与hive进行整合(代码中操作hive)

文章目录一环境准备pom依赖二代码编写三在此基础上基于二对表userinfo中的数据进行指标计算三总结一环境准备在代码中访问hive需要导入hive的依赖和jdbc依赖需要hiv


文章目录

  • 一环境准备
    • pom依赖
  • 二 代码编写
  • 三 在此基础上基于二对表userinfo中的数据进行指标计算
  • 三 总结


一环境准备


  • 在代码中访问hive需要导入hive的依赖和jdbc依赖
  • 需要hive的配置文件,否则默认访问的是自带的hive
  • spark-shell 中默认是开启支持hive的,在本地代码中没有开启,需手动开启

pom依赖

<dependencies><dependency><groupId>org.apache.sparkgroupId><artifactId>spark-hive_2.11artifactId><version>2.1.1version>dependency>
<dependency><groupId>org.apache.sparkgroupId><artifactId>spark-core_2.11artifactId><version>2.1.1version>dependency><dependency><groupId>mysqlgroupId><artifactId>mysql-connector-javaartifactId><version>5.1.27version>dependency><dependency><groupId>org.apache.sparkgroupId><artifactId>spark-sql_2.11artifactId><version>2.1.1version>dependency>
dependencies>

二 代码编写

object SparkSql2Hive {def main(args: Array[String]): Unit &#61; {// 创建sparkSession 对象val spark: SparkSession &#61; SparkSession.builder().appName("SparkSql2Hive").master("local[2]").enableHiveSupport() //开启支持hive.getOrCreate()spark.sql("show tables").show()spark.close()}
}

程序运行结果图


三 在此基础上基于二对表userinfo中的数据进行指标计算

spark.sql("use default")// 都是懒执行的只有在调用行动算子后才会执行spark.sql("select * from userinfo").show()

数据如下&#xff1a;

&#43;---&#43;---------&#43;----&#43;
|u01|2017/1/21| 5|
|u02|2017/1/23| 6|
|u03|2017/1/22| 8|
|u04|2017/1/20| 3|
|u01|2017/1/23| 6|
|u01|2017/2/21| 8|
|U02|2017/1/23| 6|
|U01|2017/2/22| 4|
| | null|null|
&#43;---&#43;---------&#43;----&#43;

需求&#xff1a;
① 过滤掉空的数据
② 计算出每个用户累计到当前月的充值金额
思路&#xff1a;开窗累加&#xff0c;按照用户id进行分区&#xff0c;按照时间排序&#xff0c;指定窗口大小为上无边界&#xff0c;到当前行
③ 实现&#xff1a;

spark.sql("""|select|lower(uid) as uid,|regexp_replace(dt,&#39;(\\/&#43;)&#39;,"-") as dayTime,|num|from userinfo|where regexp_replace(dt,&#39;(\\/&#43;)&#39;,"-") is not null""".stripMargin).createOrReplaceTempView("t1")spark.sql("""|select|uid,|dayTime,|num,|sum(num)over(partition by uid order by dayTime asc rows between unbounded preceding and current row)|from t1""".stripMargin).show()

指标分析结果&#xff1a;

&#43;---&#43;---------&#43;---&#43;------------------------------------------------------------------------------------------------------------------&#43;
|uid| dayTime|num|sum(num) OVER (PARTITION BY uid ORDER BY dayTime ASC NULLS FIRST ROWS BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW)|
&#43;---&#43;---------&#43;---&#43;------------------------------------------------------------------------------------------------------------------&#43;
|u01|2017-1-21| 5| 5|
|u01|2017-1-23| 6| 11|
|u01|2017-2-21| 8| 19|
|u01|2017-2-22| 4| 23|
|u02|2017-1-23| 6| 6|
|u02|2017-1-23| 6| 12|
|u04|2017-1-20| 3| 3|
|u03|2017-1-22| 8| 8|
&#43;---&#43;---------&#43;---&#43;------------------------------------------------------------------------------------------------------------------&#43;

三 总结

在创建Spark-Session对象的时候使用 .enableHiveSupport() //开启支持hive
注意&#xff1a;
在使用此种方式创建hive的数据库的时候会出现问题&#xff0c;需要增加配置
.config(“spark.sql.warehouse.dir”, “hdfs://hadoop102:9000/user/hive/warehouse”)
创建SparkSession对象的语句如下&#xff1a;

val spark: SparkSession &#61; SparkSession.builder().appName("SparkSql2Hive").master("local[2]").enableHiveSupport() //开启支持hive.config("spark.sql.warehouse.dir", "hdfs://hadoop102:9000/user/hive/warehouse").getOrCreate()

推荐阅读
  • 在说Hibernate映射前,我们先来了解下对象关系映射ORM。ORM的实现思想就是将关系数据库中表的数据映射成对象,以对象的形式展现。这样开发人员就可以把对数据库的操作转化为对 ... [详细]
  • 本文详细介绍了GetModuleFileName函数的用法,该函数可以用于获取当前模块所在的路径,方便进行文件操作和读取配置信息。文章通过示例代码和详细的解释,帮助读者理解和使用该函数。同时,还提供了相关的API函数声明和说明。 ... [详细]
  • Iamtryingtomakeaclassthatwillreadatextfileofnamesintoanarray,thenreturnthatarra ... [详细]
  • Spring源码解密之默认标签的解析方式分析
    本文分析了Spring源码解密中默认标签的解析方式。通过对命名空间的判断,区分默认命名空间和自定义命名空间,并采用不同的解析方式。其中,bean标签的解析最为复杂和重要。 ... [详细]
  • 向QTextEdit拖放文件的方法及实现步骤
    本文介绍了在使用QTextEdit时如何实现拖放文件的功能,包括相关的方法和实现步骤。通过重写dragEnterEvent和dropEvent函数,并结合QMimeData和QUrl等类,可以轻松实现向QTextEdit拖放文件的功能。详细的代码实现和说明可以参考本文提供的示例代码。 ... [详细]
  • Spring特性实现接口多类的动态调用详解
    本文详细介绍了如何使用Spring特性实现接口多类的动态调用。通过对Spring IoC容器的基础类BeanFactory和ApplicationContext的介绍,以及getBeansOfType方法的应用,解决了在实际工作中遇到的接口及多个实现类的问题。同时,文章还提到了SPI使用的不便之处,并介绍了借助ApplicationContext实现需求的方法。阅读本文,你将了解到Spring特性的实现原理和实际应用方式。 ... [详细]
  • Java太阳系小游戏分析和源码详解
    本文介绍了一个基于Java的太阳系小游戏的分析和源码详解。通过对面向对象的知识的学习和实践,作者实现了太阳系各行星绕太阳转的效果。文章详细介绍了游戏的设计思路和源码结构,包括工具类、常量、图片加载、面板等。通过这个小游戏的制作,读者可以巩固和应用所学的知识,如类的继承、方法的重载与重写、多态和封装等。 ... [详细]
  • 搭建Windows Server 2012 R2 IIS8.5+PHP(FastCGI)+MySQL环境的详细步骤
    本文详细介绍了搭建Windows Server 2012 R2 IIS8.5+PHP(FastCGI)+MySQL环境的步骤,包括环境说明、相关软件下载的地址以及所需的插件下载地址。 ... [详细]
  • android listview OnItemClickListener失效原因
    最近在做listview时发现OnItemClickListener失效的问题,经过查找发现是因为button的原因。不仅listitem中存在button会影响OnItemClickListener事件的失效,还会导致单击后listview每个item的背景改变,使得item中的所有有关焦点的事件都失效。本文给出了一个范例来说明这种情况,并提供了解决方法。 ... [详细]
  • 本文介绍了如何使用php限制数据库插入的条数并显示每次插入数据库之间的数据数目,以及避免重复提交的方法。同时还介绍了如何限制某一个数据库用户的并发连接数,以及设置数据库的连接数和连接超时时间的方法。最后提供了一些关于浏览器在线用户数和数据库连接数量比例的参考值。 ... [详细]
  • 本文介绍了Redis的基础数据结构string的应用场景,并以面试的形式进行问答讲解,帮助读者更好地理解和应用Redis。同时,描述了一位面试者的心理状态和面试官的行为。 ... [详细]
  • 原文地址:https:www.cnblogs.combaoyipSpringBoot_YML.html1.在springboot中,有两种配置文件,一种 ... [详细]
  • 本文主要解析了Open judge C16H问题中涉及到的Magical Balls的快速幂和逆元算法,并给出了问题的解析和解决方法。详细介绍了问题的背景和规则,并给出了相应的算法解析和实现步骤。通过本文的解析,读者可以更好地理解和解决Open judge C16H问题中的Magical Balls部分。 ... [详细]
  • 本文介绍了一种划分和计数油田地块的方法。根据给定的条件,通过遍历和DFS算法,将符合条件的地块标记为不符合条件的地块,并进行计数。同时,还介绍了如何判断点是否在给定范围内的方法。 ... [详细]
  • 使用Ubuntu中的Python获取浏览器历史记录原文: ... [详细]
author-avatar
布景tamimi_498
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有