当前位置: 开发笔记 > 编程语言 > 正文

ApacheSpark机器学习教程

作者：cr罗详青 | 来源：互联网 | 2023-09-08 10:59

编者注：不要错过有关如何使用ApacheSpark创建数据管道应用程序的新的免费按需培训课程-在此处了解更多信息。决策树广泛用于分类和回归的机器学习任务。在此博客文章

编者注&＃xff1a;不要错过有关如何使用Apache Spark创建数据管道应用程序的新的免费按需培训课程-在此处了解更多信息。

决策树广泛用于分类和回归的机器学习任务。在此博客文章中&＃xff0c;我将帮助您开始使用Apache Spark的MLlib机器学习决策树进行分类。

机器学习算法概述

通常&＃xff0c;机器学习可以分为两类算法&＃xff1a;有监督算法和无监督算法。

spark-mllib-1

监督算法使用标记的数据&＃xff0c;其中输入和输出都提供给算法。无监督算法没有预先的输出。这些算法留给没有标签的数据有意义。

机器学习的三类技术

机器学习技术的三个常见类别是分类&＃xff0c;聚类和协作过滤。

机器学习类别

分类&＃xff1a; Gmail使用一种称为分类的机器学习技术&＃xff0c;根据电子邮件的数据&＃xff08;发件人&＃xff0c;收件人&＃xff0c;主题和邮件正文&＃xff09;指定电子邮件是否为垃圾邮件。分类采用一组带有已知标签的数据&＃xff0c;并学习如何根据该信息为新记录添加标签。
群集&＃xff1a; Google新闻使用一种称为群集的技术&＃xff0c;根据标题和内容将新闻文章分为不同的类别。聚类算法发现数据集合中出现的分组。
协作过滤&＃xff1a; Amazon使用一种称为协作过滤&＃xff08;通常称为推荐&＃xff09;的机器学习技术&＃xff0c;根据用户的历史记录和与其他用户的相似性来确定用户喜欢哪些产品。

聚类

在聚类中&＃xff0c;一种算法通过分析输入示例之间的相似性将对象分为类别。集群用途包括&＃xff1a;

搜索结果分组
客户分组
异常检测
文字分类

聚类人

聚类使用无监督算法&＃xff0c;该算法没有预先的输出。

spark-machine-tutorial-blog-img5

使用K-means算法的聚类首先将所有坐标初始化为质心。每次使用算法时&＃xff0c;都会根据某种距离度量&＃xff08;通常是欧几里得距离&＃xff09;将每个点分配给它最近的质心。然后将质心更新为该遍中分配给它的所有点的“中心”。重复此过程&＃xff0c;直到中心的变化最小。

协同过滤

协作过滤算法根据来自许多用户的偏好信息&＃xff08;这是协作部分&＃xff09;推荐项目&＃xff08;这是过滤部分&＃xff09;。协作过滤方法基于相似性&＃xff1b; 过去喜欢类似物品的人将来会喜欢类似物品。协作过滤算法的目标是从用户那里获取偏好数据&＃xff0c;并创建可用于推荐或预测的模型。泰德&＃xff08;Ted&＃xff09;喜欢电影A&＃xff0c;B和C。卡罗尔&＃xff08;Carol&＃xff09;喜欢电影B和C。我们获取这些数据&＃xff0c;并通过算法对其进行运行以建立模型。然后&＃xff0c;当我们拥有鲍勃喜欢电影B的新数据时&＃xff0c;我们使用该模型预测C是鲍勃的可能推荐。

协同过滤

决策树

决策树创建一个模型&＃xff0c;该模型根据多个输入要素预测类别或标签。决策树通过评估在每个节点上包含功能的表达式并根据答案选择到下一个节点的分支来工作。下面显示了预测泰坦尼克号生存的决策树。特征问题是节点&＃xff0c;答案“是”或“否”是树中子节点的分支。

Q1&＃xff1a;是男性吗&＃xff1f;
- 是

spark-machine-tutorial-blog-img7

一棵树&＃xff0c;显示了泰坦尼克号上乘客的生存情况&＃xff08;“同胞”是船上的配偶或兄弟姐妹的数量&＃xff09;。叶子下面的数字显示了生存的可能性和叶子中观察的百分比。

参考&＃xff1a;斯蒂芬·米尔伯罗&＃xff08;Stephen Milborrow&＃xff09;的树木泰坦尼克号幸存者

使用Spark机器学习场景分析航班延误

我们的数据来自http://www.transtats.bts.gov/DL_SelectFields.asp?Table_ID&＃61;236&DB_Short_Name&＃61;On-Time 。我们正在使用2014年1月的航班信息。对于每个航班&＃xff0c;我们都有以下信息&＃xff1a;

spark-machine-tutorial-blog-img8

在这种情况下&＃xff0c;我们将基于以下功能构建一棵树来预测延迟或不延迟的标签/分类&＃xff1a;

标签→延迟而不延迟-如果延迟> 40分钟&＃xff0c;则延迟
功能→{day_of_month&＃xff0c;工作日&＃xff0c;crsdeptime&＃xff0c;crsarrtime&＃xff0c;运营商&＃xff0c;crselapsedtime&＃xff0c;来源&＃xff0c;dest&＃xff0c;延迟}

spark-machine-tutorial-blog-img9

软件

本教程将在包含Spark的MapR沙盒上运行。

您可以从此处下载代码和数据以运行这些示例&＃xff1a; https : //github.com/caroljmcdonald/sparkmldecisiontree
使用spark-shell命令启动后&＃xff0c;本文中的示例可以在Spark shell中运行。
您还可以按照独立的应用程序运行代码&＃xff0c;如MapR Sandbox上的Spark入门教程中所述。

如使用Mapr Sandbox上的Spark入门所述 &＃xff0c;使用密码为userid user01的用户登录到MapR Sandbox。使用scp将样本数据文件复制到沙箱主目录/ user / user01。使用以下命令启动Spark Shell&＃xff1a;

$ spark-shell

从csv文件加载和解析数据

首先&＃xff0c;我们将导入机器学习包。 &＃xff08;在代码框中&＃xff0c;注释为绿色&＃xff0c;输出为蓝色&＃xff09;

import org.apache.spark._ import org.apache.spark.rdd.RDD // Import classes for MLLib import org.apache.spark.mllib.regression.LabeledPoint import org.apache.spark.mllib.linalg.Vectors import org.apache.spark.mllib.tree.DecisionTree import org.apache.spark.mllib.tree.model.DecisionTreeModel import org.apache.spark.mllib.util.MLUtils

在我们的示例中&＃xff0c;每个排期都是一个项目&＃xff0c;我们使用Scala案例类来定义与csv数据文件中的一行相对应的排期架构。

// define the Flight Schema case class Flight(dofM: String, dofW: String, carrier: String, tailnum: String, flnum: Int, org_id: String, origin: String, dest_id: String, dest: String, crsdeptime: Double, deptime: Double, depdelaymins: Double, crsarrtime: Double, arrtime: Double, arrdelay: Double, crselapsedtime: Double, dist: Int)

下面的函数将数据文件中的一行解析为Flight类。

// function to parse input into Flight class def parseFlight(str: String): Flight &＃61; {val line &＃61; str.split(",")Flight(line(0), line(1), line(2), line(3), line(4).toInt, line(5), line(6), line(7), line(8), line(9).toDouble, line(10).toDouble, line(11).toDouble, line(12).toDouble, line(13).toDouble, line(14).toDouble, line(15).toDouble, line(16).toInt) }

我们将2014年1月的航班数据用作数据集。下面&＃xff0c;我们将csv文件中的数据加载到弹性分布式数据集&＃xff08;RDD&＃xff09;中。 RDD可以具有转换和动作 &＃xff0c;first&＃xff08;&＃xff09;动作返回RDD中的第一个元素。

// load the data into a RDD val textRDD &＃61; sc.textFile("/user/user01/data/rita2014jan.csv") // MapPartitionsRDD[1] at textFile // parse the RDD of csv lines into an RDD of flight classes val flightsRDD &＃61; textRDD.map(parseFlight).cache() flightsRDD.first()//Array(Flight(1,3,AA,N338AA,1,12478,JFK,12892,LAX,900.0,914.0,14.0,1225.0,1238.0,13.0,385.0,2475),

提取功能

要建立分类器模型&＃xff0c;首先提取对分类最有帮助的特征。我们定义了两个类或标签-是&＃xff08;延迟&＃xff09;和否&＃xff08;不延迟&＃xff09;。如果航班晚点40分钟以上&＃xff0c;则视为航班延误。

每个项目的功能包括以下所示的字段&＃xff1a;

标签→延迟而不延迟-如果延迟> 40分钟&＃xff0c;则延迟
功能→{day_of_month&＃xff0c;工作日&＃xff0c;crsdeptime&＃xff0c;crsarrtime&＃xff0c;运营商&＃xff0c;crselapsedtime&＃xff0c;来源&＃xff0c;dest&＃xff0c;延迟}

下面&＃xff0c;我们将非数字特征转换为数字值。例如&＃xff0c;承运人AA是数字6。始发机场ATL是273。

// create airports RDD with ID and Name var carrierMap: Map[String, Int] &＃61; Map() var index: Int &＃61; 0 flightsRDD.map(flight &＃61;> flight.carrier).distinct.collect.foreach(x &＃61;> { carrierMap &＃43;&＃61; (x -> index); index &＃43;&＃61; 1 }) carrierMap.toString //res2: String &＃61; Map(DL -> 5, F9 -> 10, US -> 9, OO -> 2, B6 -> 0, AA -> 6, EV -> 12, FL -> 1, UA -> 4, MQ -> 8, WN -> 13, AS -> 3, VX -> 7, HA -> 11)// Defining a default vertex called nowhere var originMap: Map[String, Int] &＃61; Map() var index1: Int &＃61; 0 flightsRDD.map(flight &＃61;> flight.origin).distinct.collect.foreach(x &＃61;> { originMap &＃43;&＃61; (x -> index1); index1 &＃43;&＃61; 1 }) originMap.toString //res4: String &＃61; Map(JFK -> 214, LAX -> 294, ATL -> 273,MIA -> 175 ...// Map airport ID to the 3-letter code to use for printlns var destMap: Map[String, Int] &＃61; Map() var index2: Int &＃61; 0 flightsRDD.map(flight &＃61;> flight.dest).distinct.collect.foreach(x &＃61;> { destMap &＃43;&＃61; (x -> index2); index2 &＃43;&＃61; 1 })

定义要素数组

特征数组

将要素转换并放入“要素向量”中&＃xff0c;“要素向量”是代表每个要素的值的数字向量。

接下来&＃xff0c;我们创建一个包含要素数组的RDD&＃xff0c;该要素数组由标签和数字格式的要素组成。下表显示了一个示例&＃xff1a;

spark-machine-tutorial-blog-img11

//- Defining the features array val mlprep &＃61; flightsRDD.map(flight &＃61;> {val monthday &＃61; flight.dofM.toInt - 1 // categoryval weekday &＃61; flight.dofW.toInt - 1 // categoryval crsdeptime1 &＃61; flight.crsdeptime.toIntval crsarrtime1 &＃61; flight.crsarrtime.toIntval carrier1 &＃61; carrierMap(flight.carrier) // categoryval crselapsedtime1 &＃61; flight.crselapsedtime.toDoubleval origin1 &＃61; originMap(flight.origin) // categoryval dest1 &＃61; destMap(flight.dest) // categoryval delayed &＃61; if (flight.depdelaymins.toDouble > 40) 1.0 else 0.0Array(delayed.toDouble, monthday.toDouble, weekday.toDouble, crsdeptime1.toDouble, crsarrtime1.toDouble, carrier1.toDouble, crselapsedtime1.toDouble, origin1.toDouble, dest1.toDouble) }) mlprep.take(1) //res6: Array[Array[Double]] &＃61; Array(Array(0.0, 0.0, 2.0, 900.0, 1225.0, 6.0, 385.0, 214.0, 294.0))

创建标记点

从包含要素数组的RDD中&＃xff0c;我们创建一个包含LabeledPoints数组的RDD 。带标签的点是代表数据点的特征向量和标签的类。

//Making LabeledPoint of features - this is the training data for the model val mldata &＃61; mlprep.map(x &＃61;> LabeledPoint(x(0), Vectors.dense(x(1), x(2), x(3), x(4), x(5), x(6), x(7), x(8)))) mldata.take(1) //res7: Array[org.apache.spark.mllib.regression.LabeledPoint] &＃61; Array((0.0,[0.0,2.0,900.0,1225.0,6.0,385.0,214.0,294.0]))

接下来&＃xff0c;对数据进行拆分&＃xff0c;以得到较高百分比的延迟航班和不延迟航班。然后将其分为训练数据集和测试数据集

// mldata0 is %85 not delayed flights val mldata0 &＃61; mldata.filter(x &＃61;> x.label &＃61;&＃61; 0).randomSplit(Array(0.85, 0.15))(1) // mldata1 is %100 delayed flights val mldata1 &＃61; mldata.filter(x &＃61;> x.label !&＃61; 0) // mldata2 is delayed and not delayed val mldata2 &＃61; mldata0 &＃43;&＃43; mldata1// split mldata2 into training and test data val splits &＃61; mldata2.randomSplit(Array(0.7, 0.3)) val (trainingData, testData) &＃61; (splits(0), splits(1))testData.take(1) //res21: Array[org.apache.spark.mllib.regression.LabeledPoint] &＃61; Array((0.0,[18.0,6.0,900.0,1225.0,6.0,385.0,214.0,294.0]))

训练模型

模型训练1

接下来&＃xff0c;我们为决策树所需的参数准备值&＃xff1a;

categoricalFeaturesInfo &＃xff0c;它指定哪些要素是分类要素&＃xff0c;以及每个要素可以采用多少分类值。此处的第一项表示月份中的某天&＃xff0c;可以采用从0到31之间的值。第二项表示一周中的某日&＃xff0c;可以采用从1到7的值。载体值可以从4变为整数。不同的载体等等。
maxDepth:一棵树的最大深度。
maxBins:离散化连续特征时使用的仓数。
impurity:节点上标签同质性的杂质度量。

通过在输入要素和与那些要素相关的标记输出之间建立关联来训练模型。我们使用DecisionTree.trainClassifier方法训练模型&＃xff0c;该方法返回DecisionTreeModel。

// set ranges for 0&＃61;dofM 1&＃61;dofW 4&＃61;carrier 6&＃61;origin 7&＃61;dest var categoricalFeaturesInfo &＃61; Map[Int, Int]() categoricalFeaturesInfo &＃43;&＃61; (0 -> 31) categoricalFeaturesInfo &＃43;&＃61; (1 -> 7) categoricalFeaturesInfo &＃43;&＃61; (4 -> carrierMap.size) categoricalFeaturesInfo &＃43;&＃61; (6 -> originMap.size) categoricalFeaturesInfo &＃43;&＃61; (7 -> destMap.size)val numClasses &＃61; 2 // Defning values for the other parameters val impurity &＃61; "gini" val maxDepth &＃61; 9 val maxBins &＃61; 7000// call DecisionTree trainClassifier with the trainingData , which returns the model val model &＃61; DecisionTree.trainClassifier(trainingData, numClasses, categoricalFeaturesInfo, impurity, maxDepth, maxBins)// print out the decision tree model.toDebugString // 0&＃61;dofM 4&＃61;carrier 3&＃61;crsarrtime1 6&＃61;origin res20: String &＃61; DecisionTreeModel classifier of depth 9 with 919 nodesIf (feature 0 in {11.0,12.0,13.0,14.0,15.0,16.0,17.0,18.0,19.0,20.0,21.0,22.0,23.0,24.0,25.0,26.0,27.0,30.0})If (feature 4 in {0.0,1.0,2.0,3.0,4.0,5.0,6.0,7.0,8.0,9.0,10.0,11.0,13.0})If (feature 3 <&＃61; 1603.0)If (feature 0 in {11.0,12.0,13.0,14.0,15.0,16.0,17.0,18.0,19.0})If (feature 6 in {0.0,1.0,2.0,3.0,4.0,5.0,6.0,7.0,8.0,10.0,11.0,12.0,13.0...

Model.toDebugString打印出决策树&＃xff0c;该决策树会询问以下问题以确定航班是否延迟&＃xff1a;

spark-machine-tutorial-blog-img13

测试模型

接下来&＃xff0c;我们使用测试数据来获取预测&＃xff0c;然后将飞行延迟的预测与实际飞行延迟值&＃xff08;标签&＃xff09;进行比较。错误的预测比率是错误的预测数/测试数据值的计数&＃xff0c;为31&＃xff05;。

// Evaluate model on test instances and compute test error val labelAndPreds &＃61; testData.map { point &＃61;>val prediction &＃61; model.predict(point.features)(point.label, prediction) } labelAndPreds.take(3)res33: Array[(Double, Double)] &＃61; Array((0.0,0.0), (0.0,0.0), (0.0,0.0))val wrongPrediction &＃61;(labelAndPreds.filter{case (label, prediction) &＃61;> ( label !&＃61;prediction) })wrongPrediction.count() res35: Long &＃61; 11040val ratioWrong&＃61;wrongPrediction.count().toDouble/testData.count() ratioWrong: Double &＃61; 0.3157443157443157

想了解更多&＃xff1f;

免费点播Spark培训
http://spark.apache.org/docs/latest/mllib-decision-tree.html

在此博客文章中&＃xff0c;我们向您展示了如何开始使用Apache Spark的MLlib机器学习决策树进行分类。如果您对本教程还有其他疑问&＃xff0c;请在下面的评论部分中提问。

翻译自: https://www.javacodegeeks.com/2016/02/apache-spark-machine-learning-tutorial.html

推荐阅读

md5
内网渗透技术详解：PTH、PTT与PTK在域控环境中的应用及猫盘内网穿透配置

本文深入探讨了内网渗透技术，特别是PTH、PTT与PTK在域控环境中的应用，并详细介绍了猫盘内网穿透的配置方法。通过这些技术，安全研究人员可以更有效地进行内网渗透测试，解决常见的渗透测试难题。此外，文章还提供了实用的配置示例和操作步骤，帮助读者更好地理解和应用这些技术。 ... [详细]

蜡笔小新 2024-10-26 10:56:21
search
投融资周报 | Circle 达成 4 亿美元融资协议，唯一艺术平台 A 轮融资超千万美元

投融资周报 | Circle 达成 4 亿美元融资协议，唯一艺术平台 A 轮融资超千万美元 ... [详细]

蜡笔小新 2024-11-05 04:56:42
search
使用 SourceTree 管理 SVN 代码仓库的详细指南

SourceTree 是一款功能强大的 Git 管理工具，但很多人不知道它同样支持管理 SVN 代码仓库。本文将详细介绍如何使用 SourceTree 来管理和操作 SVN 代码仓库。 ... [详细]

蜡笔小新 2024-11-12 19:15:29
select
如何在Linux服务器上配置MySQL和Tomcat的开机自动启动

在Linux服务器上部署Web项目时，通常需要确保MySQL和Tomcat服务能够随系统启动而自动运行。本文将详细介绍如何在Linux环境中配置MySQL和Tomcat的开机自启动，以确保服务的稳定性和可靠性。通过合理的配置，可以有效避免因服务未启动而导致的项目故障。 ... [详细]

蜡笔小新 2024-11-11 19:41:03
search
机器学习的持续探索与进展

在机器学习领域，深入探讨了概率论与数理统计的基础知识，特别是这些理论在数据挖掘中的应用。文章重点分析了偏差（Bias）与方差（Variance）之间的平衡问题，强调了方差反映了不同训练模型之间的差异，例如在K折交叉验证中，不同模型之间的性能差异显著。此外，还讨论了如何通过优化模型选择和参数调整来有效控制这一平衡，以提高模型的泛化能力。 ... [详细]

蜡笔小新 2024-11-11 10:27:39
merge
MySQL索引详解及其优化策略

本文详细解析了MySQL索引的概念、数据结构及管理方法，并探讨了如何正确使用索引以提升查询性能。文章还深入讲解了联合索引与覆盖索引的应用场景，以及它们在优化数据库性能中的重要作用。此外，通过实例分析，进一步阐述了索引在高读写比系统中的必要性和优势。 ... [详细]

蜡笔小新 2024-11-05 10:36:17
hash
深入探讨：Java 8 中 HashMap 链表为何选择红黑树而非 AVL 树

深入探讨：Java 8 中 HashMap 链表为何选择红黑树而非 AVL 树 ... [详细]

蜡笔小新 2024-11-05 10:24:10
search
如何高效启动大数据应用之旅？

在前一篇文章中，我探讨了大数据的定义及其与数据挖掘的区别。本文将重点介绍如何高效启动大数据应用项目，涵盖关键步骤和最佳实践，帮助读者快速踏上大数据之旅。 ... [详细]

蜡笔小新 2024-11-04 18:30:38
search
六个关键步骤掌握Python数据分析，探索六款小众但强大的数据处理库

Python 数据分析领域不仅拥有高质量的开发环境，还提供了众多功能强大的第三方库。本文将介绍六个关键步骤，帮助读者掌握 Python 数据分析的核心技能，并深入探讨六款虽不广为人知但却极具潜力的数据处理库，如 Pandas 的替代品和新兴的可视化工具，助力数据科学家和分析师提升工作效率。 ... [详细]

蜡笔小新 2024-10-29 11:26:54
search
吴裕雄数据挖掘实战案例（13）：GBDT模型的深入应用与解析

#导入第三方包importpandasaspdimportmatplotlib.pyplotasplt#读入数据defaultpd.read_excel(r&# ... [详细]

蜡笔小新 2024-10-22 01:29:43
int
逻辑回归（Logistic+Regression）经典实例

机器学习算法完整版见fenghaootong-github房价预测数据集描述数据共有81个特征SalePrice-theproperty’ssalepriceindollars.T ... [详细]

蜡笔小新 2024-10-21 19:30:38
request
解决Only fullscreen opaque activities can request orientation错误的方法

本文介绍了在使用PictureSelectorLight第三方框架时遇到的Only fullscreen opaque activities can request orientation错误，并提供了一种有效的解决方案。 ... [详细]

蜡笔小新 2024-11-13 09:46:25
int
OpenAI首席执行官Sam Altman展望：人工智能的未来发展方向与挑战

OpenAI首席执行官Sam Altman展望：人工智能的未来发展方向与挑战 ... [详细]

蜡笔小新 2024-11-11 09:47:50
int
计算二叉树的直径：深入解析与优化算法

二叉树的直径是指树中任意两个叶节点之间最长路径上的节点数量。本文深入解析了计算二叉树直径的算法，并提出了一种优化方法，以提高计算效率和准确性。通过详细的案例分析和性能对比，展示了该优化算法在实际应用中的优势。 ... [详细]

蜡笔小新 2024-11-05 02:21:46
hash
第七天深入学习DGL框架：官方文档指导下的数据集下载与预处理技巧

在第七天的深度学习课程中，我们将重点探讨DGL框架的高级应用，特别是在官方文档指导下进行数据集的下载与预处理。通过详细的步骤说明和实用技巧，帮助读者高效地构建和优化图神经网络的数据管道。此外，我们还将介绍如何利用DGL提供的模块化工具，实现数据的快速加载和预处理，以提升模型训练的效率和准确性。 ... [详细]

蜡笔小新 2024-10-27 21:10:17

cr罗详青

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章