Spark运行任务

作者：张火蓉景荣馨季 | 来源：互联网 | 2023-08-10 20:44

1.启动hadoopshstart-dfs.shshstart-yarn.sh2.启动sparkcdapplspark-1.4.0sbinstart-all.sh3.准备数据had

1. 启动hadoop

sh start-dfs.sh

sh start-yarn.sh

2. 启动spark

cd /appl/spark-1.4.0/

sbin/start-all.sh

3. 准备数据

hadoop fs -put /mk/test/kmeans_data.txt /test/

4. 编写程序

包

Java

import org.apache.spark.api.java.*; import org.apache.spark.api.java.function.Function; import org.apache.spark.mllib.clustering.KMeans; import org.apache.spark.mllib.clustering.KMeansModel; import org.apache.spark.mllib.linalg.Vector; import org.apache.spark.mllib.linalg.Vectors; import org.apache.spark.SparkConf;/* Test:* sh start-dfs.sh* sh start-yarn.sh* cd /appl/spark-1.4.0/* sbin/start-all.sh* hadoop fs -put /mk/test/kmeans_data.txt /test/* ./bin/spark-submit /mk/test/KMeansSim.jar*/ public class KMeansSim {public static void main(String[] args) {// environment initializationSparkConf conf &＃61; new SparkConf().setAppName("K-means Example");JavaSparkContext sc &＃61; new JavaSparkContext(conf);// Load and parse data (${SPARK_HOME}/data/mllib/kmeans_data.txt)String path &＃61; "/test/kmeans_data.txt";JavaRDD data &＃61; sc.textFile(path);JavaRDD parsedData &＃61; data.map(new Function() {public Vector call(String s) {return Vectors.dense(toDoubleArray(s));}});parsedData.cache();// Cluster the data into two classes using KMeansint numClusters &＃61; 2;int numIterations &＃61; 20;KMeansModel clusters &＃61; KMeans.train(parsedData.rdd(), numClusters, numIterations);// Evaluate clustering by computing Within Set Sum of Squared Errorsdouble WSSSE &＃61; clusters.computeCost(parsedData.rdd());System.out.println("Within Set Sum of Squared Errors &＃61; " &＃43; WSSSE);// Save and load modelclusters.save(sc.sc(), "myModelPath");KMeansModel sameModel &＃61; KMeansModel.load(sc.sc(), "myModelPath");// predict testSystem.out.println("~~~predict:" &＃43; clusters.predict(Vectors.dense(toDoubleArray("1.0 2.1 3.8"))));// endingsc.stop();}// String to double[]public static double[] toDoubleArray(String s) {String[] sarray &＃61; s.split(" ");double[] values &＃61; new double[sarray.length];for (int i &＃61; 0; i }

5. 运行

./bin/spark-submit /mk/test/KMeansSim.jar

推荐阅读

spring
基于CXF框架的Web服务开发详细示例

在Java Web服务开发中，Apache CXF 和 Axis2 是两个广泛使用的框架。CXF 由于其与 Spring 框架的无缝集成能力，以及更简便的部署方式，成为了许多开发者的首选。本文将详细介绍如何使用 CXF 框架进行 Web 服务的开发，包括环境搭建、服务发布和客户端调用等关键步骤，为开发者提供一个全面的实践指南。 ... [详细]

蜡笔小新 2024-11-08 18:43:17
ip
使用ObjectMapper实现JSON与JavaBean的高效转换

本文介绍了如何利用ObjectMapper实现JSON与JavaBean之间的高效转换。ObjectMapper是Jackson库的核心组件，能够便捷地将Java对象序列化为JSON格式，并支持从JSON、XML以及文件等多种数据源反序列化为Java对象。此外，还探讨了在实际应用中如何优化转换性能，以提升系统整体效率。 ... [详细]

蜡笔小新 2024-11-08 13:21:48
list
开发日志：201521044091 《Java编程基础》第11周学习心得与总结

开发日志：201521044091 《Java编程基础》第11周学习心得与总结 ... [详细]

蜡笔小新 2024-11-08 11:15:11
list
JVM钩子函数的应用场景详解

本文详细介绍了JVM钩子函数的多种应用场景，包括正常关闭、异常关闭和强制关闭。通过具体示例和代码演示，帮助读者更好地理解和应用这一机制。适合对Java编程和JVM有一定基础的开发者阅读。 ... [详细]

蜡笔小新 2024-11-13 18:34:48
list
HDFS API

Hadoop的文件操作位于包org.apache.hadoop.fs里面，能够进行新建、删除、修改等操作。比较重要的几个类：(1)Configurati ... [详细]

蜡笔小新 2024-11-13 17:31:50
spring
Java反射机制详解及应用场景

本文详细介绍了Java反射机制的基本概念、获取Class对象的方法、反射的主要功能及其在实际开发中的应用。通过具体示例，帮助读者更好地理解和使用Java反射。 ... [详细]

蜡笔小新 2024-11-13 16:08:08
spring
Spring – Bean Life Cycle

Spring – Bean Life Cycle ... [详细]

蜡笔小新 2024-11-13 13:24:40
jsp
Java DAO模式详解与代码示例

DAO（Data Access Object）模式是一种用于抽象和封装所有对数据库或其他持久化机制访问的方法，它通过提供一个统一的接口来隐藏底层数据访问的复杂性。 ... [详细]

蜡笔小新 2024-11-13 12:25:33
jsp
Java 并发编程：深入解析 AtomicInteger 和 CAS 无锁算法

在多线程并发环境中，普通变量的操作往往是线程不安全的。本文通过一个简单的例子，展示了如何使用 AtomicInteger 类及其核心的 CAS 无锁算法来保证线程安全。 ... [详细]

蜡笔小新 2024-11-12 16:40:04
ip
Python 使用 DOM 和 SAX 解析 XML 的应用实例

本文介绍如何使用 Python 的 DOM 和 SAX 方法解析 XML 文件，并通过示例展示了如何动态创建数据库表和处理大量数据的实时插入。 ... [详细]

蜡笔小新 2024-11-12 16:10:39
char
字节流(InputStream和OutputStream)，字节流读写文件，字节流的缓冲区，字节缓冲流

字节流抽象类InputStream和OutputStream是字节流的顶级父类所有的字节输入流都继承自InputStream，所有的输出流都继承子OutputStreamInput ... [详细]

蜡笔小新 2024-11-12 14:07:25
ip
检查在所有可能的“？”替换中，给定的二进制字符串中是否出现子字符串“10”带 1 或 0

检查在所有可能的“？”替换中，给定的二进制字符串中是否出现子字符串“10”带 1 或 0 ... [详细]

蜡笔小新 2024-11-12 11:35:01
ip
深入解析 Java 基础中的私有静态内部类（Private Static Inner Class）

在Java基础中，私有静态内部类是一种常见的设计模式，主要用于防止外部类的直接调用或实例化。这种内部类仅服务于其所属的外部类，确保了代码的封装性和安全性。通过分析JDK源码，我们可以发现许多常用类中都包含了私有静态内部类，这些内部类虽然功能强大，但其复杂性往往让人感到困惑。本文将深入探讨私有静态内部类的作用、实现方式及其在实际开发中的应用，帮助读者更好地理解和使用这一重要的编程技巧。 ... [详细]

蜡笔小新 2024-11-09 11:03:51
char
使用Maven JAR插件将单个或多个文件及其依赖项合并为一个可引用的JAR包

本文介绍了如何利用Maven中的maven-assembly-plugin插件将单个或多个Java文件及其依赖项打包成一个可引用的JAR文件。首先，需要创建一个新的Maven项目，并将待打包的Java文件复制到该项目中。通过配置maven-assembly-plugin，可以实现将所有文件及其依赖项合并为一个独立的JAR包，方便在其他项目中引用和使用。此外，该方法还支持自定义装配描述符，以满足不同场景下的需求。 ... [详细]

蜡笔小新 2024-11-09 01:59:29
list
oracle c3p0 dword 60,web_day10 dbcp c3p0 dbutils

createdatabasemydbcharactersetutf8;alertdatabasemydbcharactersetutf8;1.自定义连接池为了不去经常创建连接和释放 ... [详细]

蜡笔小新 2024-11-12 19:26:15

张火蓉景荣馨季

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章