sparklingwater的介绍与实践（commandline）

作者：涅槃重生武哥 | 来源：互联网 | 2023-09-13 11:50

sparkling-water是将spark和h2o集成与一体的工具，主要思想是利用h2o进行数据挖掘，而利用进行数据处理和一部分计算，具

sparkling-water是将spark和h2o集成与一体的工具&＃xff0c;主要思想是利用h2o进行数据挖掘&＃xff0c;而利用进行数据处理和一部分计算&＃xff0c;具体架构如下&＃xff1a;

我们可以从图中看到&＃xff0c;spark对源数据做了处理&＃xff0c;然后交给h2o进行建模&＃xff0c;在预测阶段也作为了计算引擎&＃xff0c; sparkling-water的牛逼之处在于使用了和spark的一样的数据结构&＃xff0c;这样在数据处理的时候可以十分灵活。

我们在加载数据的时候&＃xff0c;既可以使用spark&＃xff0c;也可以使用h2o&＃xff0c;spark和h2o直接可以共享同样的数据结构&＃xff08;RDD&＃xff09;&＃xff0c;但是我们在进行进行数据挖掘&＃xff08;h2o只能使用后缀为.hex的文件&＃xff09;&＃xff0c;因此需要转换才能够进行计算。

共享rdd数据结构有非常多好处&＃xff0c;比如就可以利用spark进行数据的清洗&＃xff0c;好了&＃xff0c;我们直接来看一下怎么使用。

一、下载与安装

&＃xff08;1&＃xff09;官方提供的下载地址

但是官方提供的地址下载十分慢&＃xff0c;当然有VPN的另谈了&＃xff0c;这里我提供了我的网盘地址

&＃xff08;2&＃xff09;下载后上传到linux上进行解压

unzip sparkling-water-3.26.2-2.4.zip

&＃xff08;3&＃xff09;启动sparkling-water

找到解压路径下的sparkling-water的bin下的shell&＃xff0c;进行启动即可

./sparkling-shell

启动结果如下&＃xff1a;

[root&＃64;node11 bin]# ./sparkling-shell Using Spark defined in the SPARK_HOME&＃61;/opt/software/spark-2.4.3-bin-hadoop2.7 environmental property-----Spark master (MASTER) : local[*]Spark home (SPARK_HOME) : /opt/software/spark-2.4.3-bin-hadoop2.7H2O build version : 3.26.0.2 (yau)Sparkling Water version : 3.26.2-2.4Spark build version : 2.4.3Scala version : 2.11 ----19/08/20 15:59:15 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... us applicable Setting default log level to "WARN". To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel). Spark context Web UI available at http://node11:4040 Spark context available as &＃39;sc&＃39; (master &＃61; local[*], app id &＃61; local-1566316763461). Spark session available as &＃39;spark&＃39;. Welcome to____ __/ __/__ ___ _____/ /___\ \/ _ \/ _ &＃96;/ __/ &＃39;_//___/ .__/\_,_/_/ /_/\_\ version 2.4.3/_/Using Scala version 2.11.12 (Java HotSpot(TM) 64-Bit Server VM, Java 1.8.0_221) Type in expressions to have them evaluated. Type :help for more information.scala> import org.apache.spark.h2o._ import org.apache.spark.h2o._ scala>

至此单机版的sparkling-water就可以使用了

二、实践案例

这里的案例是我根据官方提供的资料&＃xff08;https://github.com/h2oai/sparkling-water/tree/master/examples&＃xff09;进行操练的。

&＃xff08;1&＃xff09;导入spark.h2o的包

import org.apache.spark.h2o._

&＃xff08;2&＃xff09;初始化&＃xff0c;其实就是启动h2o

val hc &＃61; H2OContext.getOrCreate(spark)

命令运行后结果如下&＃xff1a;

19/08/20 16:04:44 WARN internal.InternalH2OBackend: To avoid non-deterministic behavior of Spark broadcast-based joins, we recommend to set &＃96;spark.sql.autoBroadcastJoinThreshold&＃96; property of SparkSession to -1. E.g. spark.conf.set("spark.sql.autoBroadcastJoinThreshold", -1) We also recommend to avoid using broadcast hints in your Spark SQL code. 19/08/20 16:04:44 WARN internal.InternalH2OBackend: Increasing &＃39;spark.locality.wait&＃39; to value 0 (Infinitive) as we need to ensure we run on the nodes with H2O hc: org.apache.spark.h2o.H2OContext &＃61;Sparkling Water Context:* Sparkling Water Version: 3.26.2-2.4* H2O name: sparkling-water-root_local-1566316763461* cluster size: 1* list of used nodes:(executorId, host, port)------------------------(driver,node11,54321)------------------------Open H2O Flow in browser: http://192.168.12.137:54321 (CMD &＃43; click in Mac OSX)

&＃xff08;3&＃xff09;导入hc的包

import hc.implicits._

&＃xff08;4&＃xff09;导入spark的包

import spark.implicits._

&＃xff08;5&＃xff09;定义天气数据的路径

val weatherDataFile &＃61; "/opt/software/sparkling-water-3.26.2-2.4/examples/smalldata/chicago/Chicago_Ohare_International_Airport.csv"

注意的是&＃xff0c;这里最好是输入绝对路径&＃xff0c;官方提供的是相对路径&＃xff0c;自己要进行处理&＃xff0c;我是直接使用的绝对路径&＃xff0c;不然下一步加载数据会报找不到路径

org.apache.spark.sql.AnalysisException: Path does not exist: file:/opt/software/sparkling-water-3.26.2-2.4/bin/examples/smalldata/chicago/Chicago_Ohare_International_Airport.csv;at org.apache.spark.sql.execution.datasources.DataSource$$anonfun$org$apache$spark$sql$execution$datasources$DataSource$$checkAndGlobPathIfNecessary$1.apply(DataSource.scala:558)at org.apache.spark.sql.execution.datasources.DataSource$$anonfun$org$apache$spark$sql$execution$datasources$DataSource$$checkAndGlobPathIfNecessary$1.apply(DataSource.scala:545)at scala.collection.TraversableLike$$anonfun$flatMap$1.apply(TraversableLike.scala:241)at scala.collection.TraversableLike$$anonfun$flatMap$1.apply(TraversableLike.scala:241)at scala.collection.immutable.List.foreach(List.scala:392)at scala.collection.TraversableLike$class.flatMap(TraversableLike.scala:241)at scala.collection.immutable.List.flatMap(List.scala:355)at org.apache.spark.sql.execution.datasources.DataSource.org$apache$spark$sql$execution$datasources$DataSource$$checkAndGlobPathIfNecessary(DataSource.scala:545)at org.apache.spark.sql.execution.datasources.DataSource.resolveRelation(DataSource.scala:359)at org.apache.spark.sql.DataFrameReader.loadV1Source(DataFrameReader.scala:223)at org.apache.spark.sql.DataFrameReader.load(DataFrameReader.scala:211)at org.apache.spark.sql.DataFrameReader.csv(DataFrameReader.scala:615)at org.apache.spark.sql.DataFrameReader.csv(DataFrameReader.scala:467)... 55 elided

&＃xff08;6&＃xff09;利用上面定义的路径进行加载数据

val weatherTable &＃61; spark.read.option("header", "true").option("inferSchema", "true").csv(weatherDataFile).withColumn("Date", to_date(&＃39;Date, "MM/dd/yyyy")).withColumn("Year", year(&＃39;Date)).withColumn("Month", month(&＃39;Date)) .withColumn("DayofMonth", dayofmonth(&＃39;Date))

&＃xff08;7&＃xff09;导入java的包

import java.io.File

&＃xff08;8&＃xff09;定义航空的路径

val dataFile &＃61; "/opt/software/sparkling-water-3.26.2-2.4/examples/smalldata/airlines/allyears2k_headers.zip"

&＃xff08;9&＃xff09;加载航空数据

val airlinesH2OFrame &＃61; new H2OFrame(new File(dataFile))

会给我们这样一个返回&＃xff1a;

airlinesH2OFrame: water.fvec.H2OFrame &＃61; Frame key: allyears2k_headers.hexcols: 31rows: 43978chunks: 1size: 2154864

&＃xff08;10&＃xff09;将.hex文件转换成rdd

val airlinesTable &＃61; hc.asDataFrame(airlinesH2OFrame)

&＃xff08;11&＃xff09;利用spark进行数据的过滤

val flightsToORD &＃61; airlinesTable.filter(&＃39;Dest &＃61;&＃61;&＃61; "ORD")

&＃xff08;12&＃xff09;计算一下看看过滤后还有多少数据

flightsToORD.count

结果&＃xff1a;

9/08/20 16:24:08 WARN util.Utils: Truncated the string representation of a plan since it was too large. This behavior can be adjusted by setting &＃39;spark.debug.maxToStringFields&＃39; in SparkEnv.conf. res0: Long &＃61; 2103

&＃xff08;13&＃xff09;利用spark进行rdd的join操作&＃xff08;合并表&＃xff09;

val joinedDf &＃61; flightsToORD.join(weatherTable, Seq("Year", "Month", "DayofMonth"))

&＃xff08;14&＃xff09;导包

import water.support.H2OFrameSupport._

&＃xff08;15&＃xff09;转换成.hex

val joinedHf &＃61; columnsToCategorical(hc.asH2OFrame(joinedDf), Array("Year", "Month", "DayofMonth"))

&＃xff08;16&＃xff09;导入深度学习的包

import _root_.hex.deeplearning.DeepLearning import _root_.hex.deeplearning.DeepLearningModel.DeepLearningParameters import _root_.hex.deeplearning.DeepLearningModel.DeepLearningParameters.Activation

&＃xff08;17&＃xff09;设置深度学习的参数

val dlParams &＃61; new DeepLearningParameters() dlParams._train &＃61; joinedHf dlParams._response_column &＃61; "ArrDelay" dlParams._epochs &＃61; 5 dlParams._activation &＃61; Activation.RectifierWithDropout dlParams._hidden &＃61; Array[Int](100, 100)

&＃xff08;18&＃xff09;训练模型

val dl &＃61; new DeepLearning(dlParams) val dlModel &＃61; dl.trainModel.get

运行结果&＃xff1a;

dlModel: hex.deeplearning.DeepLearningModel &＃61; Model Metrics Type: RegressionDescription: Metrics reported on full training framemodel id: DeepLearning_model_1566317084383_1frame id: frame_rdd_21_b16087b00dcb5349ed00b2f0a1964249MSE: 246.94397RMSE: 15.714451mean residual deviance: 246.94397mean absolute error: 9.7153425root mean squared log error: NaN Variable Importances:Variable Relative Importance Scaled Importance PercentageDepDelay 1.000000 1.000000 0.020609NASDelay 0.953474 0.953474 0.019650Diverted 0.952912 0.952912 0.019639Cancelled 0.940236 0.940236 0.019378DayofMonth.12 0.929144 ...

&＃xff08;19&＃xff09;模型预测

val predictionsHf &＃61; dlModel.score(joinedHf) val predictionsDf &＃61; hc.asDataFrame(predictionsHf)

&＃xff08;20&＃xff09;查看预测结果

predictionsDf.show

&＃43;-------------------&＃43; | predict| &＃43;-------------------&＃43; | -14.28115203904661| |-17.384369532025993| |-15.648360659746515| |-21.735323004320165| |-0.4630290696992674| | -9.351177667940217| | 112.65659409295617| | 30.161421574369385| | 15.403270012684139| | 170.8349751399989| | 12.498370529294341| | 147.3795710418184| |-6.1483336982319585| | 44.329600499888926| | 17.50615431570487| | 102.51282569095915| | 7.4154391246514955| | 9.09458182717221| |-12.357870505795454| |-14.798434263256837| &＃43;-------------------&＃43; only showing top 20 rows

官方提供的是利用Rstudio进行查看的&＃xff0c;我这样其实不科学&＃xff0c;因为只能查看最多20条数据

推荐阅读

io
CTF竞赛中文件上传技巧与安全绕过方法深入解析

CTF竞赛中文件上传技巧与安全绕过方法深入解析 ... [详细]

蜡笔小新 2024-11-07 15:41:52
bit
如何将TS文件转换为M3U8直播流：HLS与M3U8格式详解

在视频传输领域，MP4虽然常见，但在直播场景中直接使用MP4格式存在诸多问题。例如，MP4文件的头部信息（如ftyp、moov）较大，导致初始加载时间较长，影响用户体验。相比之下，HLS（HTTP Live Streaming）协议及其M3U8格式更具优势。HLS通过将视频切分成多个小片段，并生成一个M3U8播放列表文件，实现低延迟和高稳定性。本文详细介绍了如何将TS文件转换为M3U8直播流，包括技术原理和具体操作步骤，帮助读者更好地理解和应用这一技术。 ... [详细]

蜡笔小新 2024-11-11 12:12:04
java
Hadoop平台警告解决：无法加载本机Hadoop库的全面应对方案

本文探讨了在Hadoop平台上遇到“无法加载本机Hadoop库”警告的多种解决方案。首先，通过修改日志配置文件来忽略该警告，这一方法被证明是有效的。其次，尝试指定本地库的路径，但未能解决问题。接着，尝试不使用Hadoop本地库，同样没有效果。然后，通过替换现有的Hadoop本地库，成功解决了问题。最后，根据Hadoop的源代码自行编译本地库，也达到了预期的效果。以上方法适用于macOS系统。 ... [详细]

蜡笔小新 2024-11-09 19:46:30
java
Bootstrap 学习指南：全面掌握前端框架的核心知识点与实战技巧

### 优化后的摘要本学习指南旨在帮助读者全面掌握 Bootstrap 前端框架的核心知识点与实战技巧。内容涵盖基础入门、核心功能和高级应用。第一章通过一个简单的“Hello World”示例，介绍 Bootstrap 的基本用法和快速上手方法。第二章深入探讨 Bootstrap 与 JSP 集成的细节，揭示两者结合的优势和应用场景。第三章则进一步讲解 Bootstrap 的高级特性，如响应式设计和组件定制，为开发者提供全方位的技术支持。 ... [详细]

蜡笔小新 2024-11-09 16:58:21
java
Presto：高效即席查询引擎的深度解析与应用

本文深入解析了Presto这一高效的即席查询引擎，详细探讨了其架构设计及其优缺点。Presto通过内存到内存的数据处理方式，显著提升了查询性能，相比传统的MapReduce查询，不仅减少了数据传输的延迟，还提高了查询的准确性和效率。然而，Presto在大规模数据处理和容错机制方面仍存在一定的局限性。本文还介绍了Presto在实际应用中的多种场景，展示了其在大数据分析领域的强大潜力。 ... [详细]

蜡笔小新 2024-11-07 19:17:47
java
CSS3 @font-face 字体应用技术解析与实践

在Web前端开发中，HTML教程和CSS3的结合使得网页设计更加多样化。长期以来，Web设计师受限于“web-safe”字体的选择。然而，CSS3中的`@font-face`规则允许从服务器端加载自定义字体，极大地丰富了网页的视觉效果。通过这一技术，设计师可以自由选择和使用各种字体，提升用户体验和页面美观度。本文将深入解析`@font-face`的实现原理，并提供实际应用案例，帮助开发者更好地掌握这一强大工具。 ... [详细]

蜡笔小新 2024-11-07 19:12:26
io
在Ubuntu系统中配置Python环境变量的方法与技巧

在Ubuntu系统中配置Python环境变量是确保项目顺利运行的关键步骤。本文介绍了如何将Windows上的Django项目迁移到Ubuntu，并解决因虚拟环境导致的模块缺失问题。通过详细的操作指南，帮助读者正确配置虚拟环境，确保所有第三方库都能被正确识别和使用。此外，还提供了一些实用的技巧，如如何检查环境变量配置是否正确，以及如何在多个虚拟环境之间切换。 ... [详细]

蜡笔小新 2024-11-05 21:42:25
string
利用PHP SDK高效接入新浪微博热搜榜单功能

利用PHP SDK高效接入新浪微博热搜榜单功能 ... [详细]

蜡笔小新 2024-11-03 17:08:38
java
Spring – Bean Life Cycle

Spring – Bean Life Cycle ... [详细]

蜡笔小新 2024-11-13 13:24:40
io
开机自启动的几种方式

0x01快速自启动目录快速启动目录自启动方式源于Windows中的一个目录，这个目录一般叫启动或者Startup。位于该目录下的PE文件会在开机后进行自启动 ... [详细]

蜡笔小新 2024-11-12 11:16:30
java
JavaWeb文件上传：前端实现与后端处理详解

在JavaWeb开发中，文件上传是一个常见的需求。无论是通过表单还是其他方式上传文件，都必须使用POST请求。前端部分通常采用HTML表单来实现文件选择和提交功能。后端则利用Apache Commons FileUpload库来处理上传的文件，该库提供了强大的文件解析和存储能力，能够高效地处理各种文件类型。此外，为了提高系统的安全性和稳定性，还需要对上传文件的大小、格式等进行严格的校验和限制。 ... [详细]

蜡笔小新 2024-11-11 19:50:46
byte
开发日志：高效图片压缩与上传技术解析

开发日志：高效图片压缩与上传技术解析 ... [详细]

蜡笔小新 2024-11-11 19:33:51
sum
Kafka 集群的高效部署与优化策略

本文探讨了 Kafka 集群的高效部署与优化策略。首先介绍了 Kafka 的下载与安装步骤，包括从官方网站获取最新版本的压缩包并进行解压。随后详细讨论了集群配置的最佳实践，涵盖节点选择、网络优化和性能调优等方面，旨在提升系统的稳定性和处理能力。此外，还提供了常见的故障排查方法和监控方案，帮助运维人员更好地管理和维护 Kafka 集群。 ... [详细]

蜡笔小新 2024-11-06 20:37:50
sum
第二章：Kafka基础入门与核心概念解析

本章节主要介绍了Kafka的基本概念及其核心特性。Kafka是一种分布式消息发布和订阅系统，以其卓越的性能和高吞吐量而著称。最初，Kafka被设计用于LinkedIn的活动流和运营数据处理，旨在高效地管理和传输大规模的数据流。这些数据主要包括用户活动记录、系统日志和其他实时信息。通过深入解析Kafka的设计原理和应用场景，读者将能够更好地理解其在现代大数据架构中的重要地位。 ... [详细]

蜡笔小新 2024-11-06 11:10:03
java
探究HTML5应用中的三种Accordion交互效果

在HTML5应用中，Accordion（手风琴，又称抽屉）效果因其独特的展开和折叠样式而广泛使用。本文探讨了三种不同的Accordion交互效果，通过层次结构优化信息展示和页面布局，提升用户体验。这些效果不仅增强了视觉效果，还提高了内容的可访问性和互动性。 ... [详细]

蜡笔小新 2024-11-04 18:09:29

涅槃重生武哥

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章