热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

【Spark2.0系列】:Catalog和自定义Optimizer

【Spark2.0系列】适合初学

Spark 2.0系列第一篇见【Spark 2.0系列】: Spark Session API和Dataset API,本文将讲解Spark 2.0 的Catalog 和Custom Optimizer。

首先,先了解下RDD 和Dataset 在开发中使用对比。

RDD 和Dataset 使用对比

Dataset API 是RDD 和DataFrame API 的统一,但大部分Dataset API 与RDD API使用方法看起来是相似的(其实实现方法是不同的)。所以RDD代码很容易转换成Dataset API。下面直接上代码:

WordCount
  • RDD

val rdd = sparkContext.textFile("src/main/resources/data.txt")

 

val wordsRDD = rdd.flatMap(value => value.split("\\s+"))

val wordsPair = wordsRDD.map(word => (word,1))

val wordCount = wordsPair.reduceByKey(_+_)

  • Dataset

val ds = sparkSession.read.text("src/main/resources/data.txt")

import sparkSession.implicits._

val wordsDs = ds.flatMap(value => value.split("\\s+"))

val wordsPairDs = wordsDs.groupByKey(value => value)

val wordCountDs = wordsPairDs.count()

其它


RDDDataset
Cachingrdd.cache()ds.cache()
Filter

val filteredRDD = wordsRDD.filter(value => value ==”hello”)

val filteredDS = wordsDs.filter(value => value ==”hello”)
Map Partition

val mapPartitiOnsRDD= rdd.mapPartitions(iterator => List(iterator.count(value => true)).iterator)

val mapPartitiOnsDs= ds.mapPartitions(iterator => List(iterator.count(value => true)).iterator)
reduceByKeyval reduceCountByRDD = wordsPair.reduceByKey(+)val reduceCountByDs = wordsPairDs.mapGroups((key,values) =>(key,values.length))
备注:此处表格横屏观看效果更佳。

Dataset 和RDD 相互转换
  • RDD

val dsToRDD = ds.rdd

  • Dataset

RDD 转换成Dataframe稍麻烦,需要指定schema。

val rddStringToRowRDD = rdd.map(value => Row(value))

val dfschema = StructType(Array(StructField("value",StringType)))

val rddToDF = sparkSession.createDataFrame(rddStringToRowRDD,dfschema)

val rDDToDataSet = rddToDF.as[String]

Catalog API

DataSet 和Dataframe API 支持结构化数据分析,而结构化数据重要的是管理metadata。这里的metadata包括temporary metadata(临时表);registered udfs;permanent metadata(Hive metadata或HCatalog)。

早期Spark版本并未提供标准的API访问metadata,开发者需要使用类似show tables的查询来查询metadata;而Spark 2.0 在Spark SQL中提供标准API 调用catalog来访问metadata。

访问Catalog

建立SparkSession,然后调用Catalog:

val catalog = sparkSession.catalog

查询数据库

catalog.listDatabases().select("name").show()

listDatabases可查询所有数据库。在Hive中,Catalog可以访问Hive metadata中的数据库。listDatabases返回一个dataset,所以你可以使用适用于dataset的所有操作去处理metadata。

用createTempView 注册Dataframe

早期版本Spark用registerTempTable注册dataframe,而Spark 2.0 用createTempView替代。

df.createTempView("sales")

一旦注册视图,即可使用listTables访问所有表。

查询表

catalog.listTables().select("name").show()

检查表缓存

通过Catalog可检查表是否缓存。访问频繁的表缓存起来是非常有用的。

catalog.isCached("sales")

默认表是不缓存的,所以你会得到false。

df.cache()

catalog.isCached("sales")

现在将会打印true。

删除视图

catalog.dropTempView("sales")

查询注册函数

catalog.listFunctions().

select("name","description","className","isTemporary").show(100)

Catalog不仅能查询表,也可以访问UDF。上面代码会显示Spark Session中所有的注册函数(包括内建函数)。

自定义 Optimizer
Catalyst optimizer

Spark SQL使用Catalyst优化所有的查询,优化之后的查询比直接操作RDD速度要快。Catalyst是基于rule的,每个rule都有一个特定optimization,比如,ConstantFolding rule用来移除常数表达式,具体可直接看Spark SQL源代码。

在早期版本Spark中,如果想自定义optimization,需要开发者修改Spark源代码。操作起来麻烦,而且要求开发者能读懂源码。在Spark 2.0中,已提供API自定义optimization。

访问Optimized plan

在开始编写自定义optimization之前,先来看看如何访问optimized plan:

val df = sparkSession.read.option("header","true").csv("src/main/resources/data.csv")

val multipliedDF = df.selectExpr("amountPaid * 1")

println(multipliedDF.queryExecution.optimizedPlan.numberedTreeString)

上面的代码是加载一个csv文件,并对某一行所有值乘以1。queryExecution 可访问查询相关的所有执行信息。 queryExecutionoptimizedPlan对象可以访问dataframe的optimized plan。

Spark中的执行计划以tree表示,所以用numberedTreeString打印optimized plan。打印结果如下:

00 Project [(cast(amountPaid#3 as double) * 1.0) AS (amountPaid * 1)#5]01 +- Relation[transactionId#0,customerId#1,itemId#2,amountPaid#3] csv

所有执行计划是由底向上读取:

  • 01 Relation - 从csv 文件建立一个dataframe

  • 00 Project - 投影操作

编写自定义optimizer rule

从上面的执行计划可以清晰的看到:对一列的每个值乘以1 这里并没有优化。我们知道,乘以1 这个操作应该返回的是值本身,所以可以利用这个特点来增加只能点的optimizer。代码如下:

object MultiplyOptimizationRule extends Rule[LogicalPlan] {

   def apply(plan: LogicalPlan): LogicalPlan = plan transformAllExpressions {

     case Multiply(left,right) if right.isInstanceOf[Literal] &&

       right.asInstanceOf[Literal].value.asInstanceOf[Double] == 1.0 =>

       println("optimization of one applied")

       left

   }

 }

这里MultiplyOptimizationRule扩展自Rule类,采用Scala的模式匹配编写。检测右操作数是否是 1,如果是1 则直接返回左节点。

把MultiplyOptimizationRule加入进optimizer:

sparkSession.experimental.extraOptimizatiOns= Seq(MultiplyOptimizationRule)

你可以使用extraOptimizations将定义好的Rule加入 catalyst。

下面实际使用看看效果:

val multipliedDFWithOptimization = df.selectExpr("amountPaid * 1")

println("after optimization")

println(multipliedDFWithOptimization.queryExecution.

optimizedPlan.numberedTreeString)

我们看到打印结果:

00 Project [cast(amountPaid#3 as double) AS (amountPaid * 1)#7]01 +- Relation[transactionId#0,customerId#1,itemId#2,amountPaid#3] csv

说明自定义Optimizer已生效。


侠天,专注于大数据、机器学习和数学相关的内容,并有个人公众号:bigdata_ny分享相关技术文章。

若发现以上文章有任何不妥,请联系我。





推荐阅读
  • 本文介绍如何通过整合SparkSQL与Hive来构建高效的用户画像环境,提高数据处理速度和查询效率。 ... [详细]
  • 从0到1搭建大数据平台
    从0到1搭建大数据平台 ... [详细]
  • 在C#中开发MP3播放器时,我正在考虑如何高效存储元数据以便快速检索。选择合适的数据结构,如字典或数组,对于优化性能至关重要。字典能够提供快速的键值对查找,而数组则在连续存储和遍历方面表现优异。根据具体需求,合理选择数据结构将显著提升应用的响应速度和用户体验。 ... [详细]
  • 解决JavaScript中法语字符排序问题
    在开发一个使用JavaScript、HTML和CSS的Web应用时,遇到从SQLite数据库中提取的法语词汇排序不正确的问题,特别是带重音符号的字母未按预期排序。 ... [详细]
  • 本文探讨了如何通过Service Locator模式来简化和优化在B/S架构中的服务命名访问,特别是对于需要频繁访问的服务,如JNDI和XMLNS。该模式通过缓存机制减少了重复查找的成本,并提供了对多种服务的统一访问接口。 ... [详细]
  • 本文将从基础概念入手,详细探讨SpringMVC框架中DispatcherServlet如何通过HandlerMapping进行请求分发,以及其背后的源码实现细节。 ... [详细]
  • 本文详细探讨了在Web开发中常见的UTF-8编码问题及其解决方案,包括HTML页面、PHP脚本、MySQL数据库以及JavaScript和Flash应用中的乱码问题。 ... [详细]
  • 本文将深入探讨 Unreal Engine 4 (UE4) 中的距离场技术,包括其原理、实现细节以及在渲染中的应用。距离场技术在现代游戏引擎中用于提高光照和阴影的效果,尤其是在处理复杂几何形状时。文章将结合具体代码示例,帮助读者更好地理解和应用这一技术。 ... [详细]
  • 本文介绍 DB2 中的基本概念,重点解释事务单元(UOW)和事务的概念。事务单元是指作为单个原子操作执行的一个或多个 SQL 查询。 ... [详细]
  • 在深入掌握Spring框架的事务管理之前,了解其背后的数据库事务基础至关重要。Spring的事务管理功能虽然强大且灵活,但其核心依赖于数据库自身的事务处理机制。因此,熟悉数据库事务的基本概念和特性是必不可少的。这包括事务的ACID属性、隔离级别以及常见的事务管理策略等。通过这些基础知识的学习,可以更好地理解和应用Spring中的事务管理配置。 ... [详细]
  • 龙蜥社区开发者访谈:技术生涯的三次蜕变 | 第3期
    龙蜥社区的开发者们通过自己的实践和经验,推动着开源技术的发展。本期「龙蜥开发者说」聚焦于一位资深开发者的三次技术转型,分享他在龙蜥社区的成长故事。 ... [详细]
  • 探讨密码安全的重要性
    近期,多家知名网站如CSDN、人人网、多玩、开心网等的数据库相继被泄露,其中大量用户的账户密码因明文存储而暴露无遗。本文将探讨黑客获取密码的常见手段,网站如何安全存储用户信息,以及用户应如何保护自己的密码。 ... [详细]
  • 本文介绍了如何在Linux系统中获取库源码,并在从源代码编译软件时收集所需的依赖项列表。 ... [详细]
  • 本文介绍了编程语言的基本分类,包括机器语言、汇编语言和高级语言的特点及其优缺点。随后详细讲解了Python解释器的安装与配置方法,并探讨了Python变量的定义、使用及内存管理机制。 ... [详细]
  • 投融资周报 | Circle 达成 4 亿美元融资协议,唯一艺术平台 A 轮融资超千万美元 ... [详细]
author-avatar
xeyuxing369
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有