Spark1.0新特性>SparkSQL

作者：susan0912010311fool | 来源：互联网 | 2023-08-25 13:54

Spark1.0出来了，变化还是挺大的，文档比以前齐全了，RDD支持的操作比以前多了一些，Sparkonyarn功能我居然跑通了。但是最最重要的就是多了一个SparkSQL

Spark1.0出来了，变化还是挺大的，文档比以前齐全了，RDD支持的操作比以前多了一些，Spark on yarn功能我居然跑通了。但是最最重要的就是多了一个Spark SQL的功能，它能对RDD进行Sql操作，目前它只是一个alpha版本，喜欢尝鲜的同志们进来看看吧，下面是它的官网的翻译。

Spark SQL是支持在Spark中使用Sql、HiveSql、Scaca中的关系型查询表达式。它的核心组件是一个新增的RDD类型SchemaRDD，它把行对象用一个Schema来描述行里面的所有列的数据类型，它就像是关系型数据库里面的一张表。它可以从原有的RDD创建，也可以是Parquet文件，最重要的是它可以支持用HiveQL从hive里面读取数据。

下面是一些案例，可以在Spark shell当中运行。

首先我们要创建一个熟悉的Context，熟悉spark的人都知道吧，有了Context我们才可以进行各种操作。

val sc: SparkContext // 已经存在的SparkContext
val sqlCOntext= new org.apache.spark.sql.SQLContext(sc)

import sqlContext._

Running SQL on RDDs

Spark SQL支持的一种表的类型是Scala的case class，case class定义了表的类型，下面是例子：

val sqlCOntext= new org.apache.spark.sql.SQLContext(sc)
import sqlContext._

// case class在Scala 2.10里面最多支持22个列，，为了突破这个现实，最好是定义一个类实现Product接口
case class Person(name: String, age: Int)

// 为Person的对象创建一个RDD，然后注册成一张表
val people = sc.textFile("examples/src/main/resources/people.txt").map(_.split(",")).map(p => Person(p(0), p(1).trim.toInt))
people.registerAsTable("people")

// 直接写sql吧，这个方法是sqlContext提供的
val teenagers = sql("SELECT name FROM people WHERE age >= 13 AND age <= 19")

// teenagers是SchemaRDDs类型，它支持所有普通的RDD操作
teenagers.map(t => "Name: " + t(0)).collect().foreach(println)

从上面这个方法来看，不是很好用，一个表好几十个字段，我就得一个一个的去赋值，它现在支持的操作都是很简单的操作，想要实现复杂的操作可以具体去看HiveContext提供的HiveQL。

Using Parquet

val sqlCOntext= new org.apache.spark.sql.SQLContext(sc)
import sqlContext._

val people: RDD[Person] = ... // 同上面的例子.

// 这个RDD已经隐式转换成一个SchemaRDD, 允许它存储成Parquet格式.
people.saveAsParquetFile("people.parquet")

// 从上面创建的文件里面读取，加载一个Parquet文件的结果也是一种JavaSchemaRDD.
val parquetFile = sqlContext.parquetFile("people.parquet")

//注册成表，然后使用
parquetFile.registerAsTable("parquetFile")
val teenagers = sql("SELECT name FROM parquetFile WHERE age >= 13 AND age <= 19")
teenagers.collect().foreach(println)

Writing Language-Integrated Relational Queries

目前这个功能只是在Scala里面支持，挺鸡肋的一个功能

val sqlCOntext= new org.apache.spark.sql.SQLContext(sc)
import sqlContext._
val people: RDD[Person] = ... // 同前面的例子.

// 和后面这个语句是一样的 ‘SELECT name FROM people WHERE age >= 10 AND age <= 19‘
val teenagers = people.where(‘age >= 10).where(‘age <= 19).select(‘name)

Hive Support

这下面的才是高潮，它可以从hive里面取数据。但是hive的依赖太多了，默认Spark assembly是没带这些依赖的，需要我们运行SPARK_HIVE=true sbt/sbt assembly/assembly重新编译，或者用maven的时候添加-Phive参数，它会重新编译出来一个hive assembly的jar包，然后需要把这个jar包放到所有的节点上。另外还需要把hive-site.xml放到conf目录下。没进行hive部署的话，下面的例子也可以用LocalHiveContext来代替HiveContext。

val sc: SparkContext // 已经存在的SparkContext
val hiveCOntext= new org.apache.spark.sql.hive.HiveContext(sc)

// 引入这个Context，然后就会给所有的sql语句进行隐式转换
import hiveContext._

hql("CREATE TABLE IF NOT EXISTS src (key INT, value STRING)")
hql("LOAD DATA LOCAL INPATH ‘examples/src/main/resources/kv1.txt‘ INTO TABLE src")

// 使用HiveQL查询
hql("FROM src SELECT key, value").collect().foreach(println)

这个功能看起来还挺像样，前面两个看起来就像渣一样，没劲儿，不知道为什么不自带那些依赖，还要我们再编译一下，但是我下的那个版本运行的时候提示我已经编译包括了hive的。尼玛，真恶心。

Spark SQL," href="http://www./infodetail-204096.html" target=_blank>Spark1.0新特性-->Spark SQL,,

Spark SQL,mamicode.com" target="_blank">Spark1.0新特性-->Spark SQL

推荐阅读

post
从0到1搭建大数据平台

从0到1搭建大数据平台 ... [详细]

蜡笔小新 2024-11-12 15:26:03
list
SoundPool

如果应用程序经常播放密集、急促而又短暂的音效（如游戏音效）那么使用MediaPlayer显得有些不太适合了。因为MediaPlayer存在如下缺点：1)延时时间较长，且资源占用率高 ... [详细]

蜡笔小新 2024-11-13 16:47:19
list
网络爬虫的规范与限制

本文探讨了网络爬虫引发的问题及其解决方案，重点介绍了Robots协议的作用和使用方法，旨在为网络爬虫的合理使用提供指导。 ... [详细]

蜡笔小新 2024-11-13 15:45:41
list
解决DNS服务器配置转发无法解析的问题

本文详细介绍了如何解决DNS服务器配置转发无法解析的问题，包括编辑主配置文件和重启域名服务的具体步骤。 ... [详细]

蜡笔小新 2024-11-13 02:41:19
post
网站访问全流程解析

本文详细介绍了从用户在浏览器中输入一个域名（如www.yy.com）到页面完全展示的整个过程，包括DNS解析、TCP连接、请求响应等多个步骤。 ... [详细]

蜡笔小新 2024-11-12 18:13:16
post
微软推出Windows Terminal Preview v0.10

微软近期发布了Windows Terminal Preview v0.10，用户可以在微软商店或GitHub上获取这一更新。该版本在2月份发布的v0.9基础上，新增了鼠标输入和复制Pane等功能。 ... [详细]

蜡笔小新 2024-11-12 16:15:56
less
Framework7：构建跨平台移动应用的高效框架

Framework7 是一个开源免费的框架，适用于开发混合移动应用（原生与HTML混合）或iOS&Android风格的Web应用。此外，它还可以作为原型开发工具，帮助开发者快速创建应用原型。 ... [详细]

蜡笔小新 2024-11-12 14:47:56
cmd
CMD 批处理脚本示例

本文介绍了如何使用 CMD 批处理脚本进行文件操作，包括将指定目录下的 PHP 文件重命名为 HTML 文件，并将这些文件复制到另一个目录。 ... [详细]

蜡笔小新 2024-11-12 14:26:04
cmd
Spark中使用map或flatMap将DataSet[A]转换为DataSet[B]时Schema变为Binary的问题及解决方案

本文探讨了在使用Spark的map或flatMap算子将一个数据集转换为另一个数据集时，遇到的Schema变为Binary的问题，并提供了详细的解决方案。 ... [详细]

蜡笔小新 2024-11-12 08:06:20
list
解决Parallels Desktop错误15265的方法

本文详细介绍了在使用Parallels Desktop时遇到错误15265的多种解决方案，包括检查网络连接、关闭代理服务器和修改主机文件等步骤。 ... [详细]

蜡笔小新 2024-11-12 05:14:12
list
解决 Windows Server 2016 网络连接问题

本文详细介绍了如何解决 Windows Server 2016 在使用无线网络 (WLAN) 和有线网络 (以太网) 时遇到的连接问题。包括添加必要的功能和安装正确的驱动程序。 ... [详细]

蜡笔小新 2024-11-12 00:01:44
list
飞秋软件的OA消息接口服务系统

为了提升单位内部沟通效率，我们开发了一套飞秋软件与OA系统的消息接口服务系统。该系统能够将OA系统中的审批、通知等信息自动同步至飞秋平台，确保员工在使用飞秋进行日常沟通的同时，也能及时获取OA系统的各类重要信息，从而实现无缝对接，提高工作效率。 ... [详细]

蜡笔小新 2024-11-11 13:44:09
schema
PTArchiver工作原理详解与应用分析

PTArchiver工作原理及其应用分析本文详细解析了PTArchiver的工作机制，探讨了其在数据归档和管理中的应用。PTArchiver通过高效的压缩算法和灵活的存储策略，实现了对大规模数据的高效管理和长期保存。文章还介绍了其在企业级数据备份、历史数据迁移等场景中的实际应用案例，为用户提供了实用的操作建议和技术支持。 ... [详细]

蜡笔小新 2024-11-11 13:40:49
schema
在CentOS 6.6 64位系统上部署Tomcat 8服务器环境配置指南

本指南详细介绍了如何在CentOS 6.6 64位系统上以root用户身份部署Tomcat 8服务器。系统环境为CentOS 6.6 64位，采用源码安装方式。所需软件为apache-tomcat-8.0.23.tar.gz，建议将软件下载至/root/opt目录。具体下载地址请参见官方资源。本指南涵盖了从环境准备到服务启动的完整步骤，适用于需要在该系统环境下搭建高性能Web应用服务器的技术人员。 ... [详细]

蜡笔小新 2024-11-08 21:38:15
schema
资源管理器基础与实战演示

资源管理器的基础架构包括三个核心组件：1）资源池，用于将CPU和内存等资源分配给不同的容器；2）负载组，负责承载任务并将其分配到相应的资源池；3）分类函数，用于将不同的会话映射到合适的负载组。该系统提供了两种主要的资源管理策略。 ... [详细]

蜡笔小新 2024-11-07 20:38:24

susan0912010311fool

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章