热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

PySpark随机森林回归机器学习——一种实用的方法,第7部分

PySpark随机森林回归机器学习——一种实用的方法,第7部分brilliantprogrammer大家好,在之前的博客中,我们学习了使用pyspark的线性回归算法,在本博客中,

PySpark 随机森林回归机器学习——一种实用的方法,第 7 部分

brilliantprogrammer

大家好,在之前的博客中,我们学习了使用 pyspark 的线性回归算法,在本博客中,我们还将更具体地学习使用 PySpark 的机器学习 随机森林回归 并且还执行一些实际操作。


注:启动步骤同 以前的教程 l,如果您不想再次运行它们,请直接跳到 Random Forest Regressor 部分。


首先,您必须从 kaggle 下载 Admission_Prediction.csv 数据集 链接在这里。

导入所需的库并创建 SparkSession。


使用的库

  1. 向量汇编器: 将多列合并为向量列的特征转换器。

  2. 矢量索引器: 自动识别分类特征(默认行为)。

  3. 随机森林回归器: 用于回归的随机森林学习算法。它支持连续和分类特征。

  4. 回归评估器: 回归评估器,它需要输入列预测、标签和可选的权重列


读取数据

清理数据

删除不需要的列并重命名某些列。


检查 Null 值并替换它们

将我们所有的特征组装到一个向量中

随机森林回归器

用于索引 Vector 数据集中的分类特征列的类。


拆分数据

按 7:3 的比例将数据拆分为测试和训练。


应用 RandomForestRegressor

训练模型

对测试数据进行预测

现在,我们完成了预测,我们将检查 RMSE 值和 R2 值。

到这里,我们就结束了本教程。

谢谢大家阅读这个博客。在这篇博客中,我们现在学习了使用 PySpark 的实用随机森林回归器,我们将在下一部分学习 数据块 平台。


如果您喜欢这个博客,请关注我的下一部分并鼓掌。


版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明

本文链接:https://www.qanswer.top/39732/33592909



推荐阅读
  • NLP | 一文完全搞懂序列标注算法
    序列标注模型用到了长短期记忆网络(LSTM),条件随机场(CRF),Highway网络,本文循序渐进的介绍了序列标注算法,Bepatience!跟 ... [详细]
  • 系数|量纲_机器学习基础一文带你用sklearn做特征工程
    篇首语:本文由编程笔记#小编为大家整理,主要介绍了机器学习基础一文带你用sklearn做特征工程相关的知识,希望对你有一定的参考价值。使用sklearn做特 ... [详细]
  • SSL协议、TLS协议,使用哪一种更安全?
    在金融银行业,保护机密信息的安全至关重要。由于财务记录完全通过在线数据库维护,因此实施保护客户、银行和金融机构免受黑客攻击的安全功能比以往任何时候都更加重要。安全套接字层(SSL) ... [详细]
  • 外层|条件下_MySQL还能这样玩第五篇之视图应该这样玩
    篇首语:本文由编程笔记#小编为大家整理,主要介绍了MySQL还能这样玩---第五篇之视图应该这样玩相关的知识,希望对你有一定的参考价值。 ... [详细]
  • Shiro 简单了解
    Shiro简单了解简单用过SpringSecurity安全框架后,再试试另一个安全框架——Shiro。1.Shiro简介ApacheShiro是一个强大且易用的Java安全框架:S ... [详细]
  • Spark 贝叶斯分类算法
    一、贝叶斯定理数学基础我们都知道条件概率的数学公式形式为即B发生的条件下A发生的概率等于A和B同时发生的概率除以B发生的概率。根据此公式变换,得到贝叶斯公式:即贝叶斯定律是关于随机 ... [详细]
  • AI 学习路线:从Python开始机器学习
    AI 学习路线:从Python开始机器学习 ... [详细]
  • 每日一书丨AI圣经《深度学习》作者斩获2018年图灵奖
    2019年3月27日——ACM宣布,深度学习之父YoshuaBengio,YannLeCun,以及GeoffreyHinton获得了2018年的图灵奖, ... [详细]
  • 这是一份详细 & 清晰的计算机网络基础 学习指南
    前言计算机网络基础该是程序猿需掌握的知识,但往往会被忽略今天,我将献上一份详细&清晰的计算机网络基础学习指南,涵盖TCPUDP协议、Http协议、Socket等,希望你们会喜欢。目 ... [详细]
  • DBA的日常运维–Part11.活动状态检查 ... [详细]
  • Mybatis源码解析——Executor
    ExecutorExecutor提供了数据库操作的一些方法以及Mybatis的缓存和事物管理功能。模板方法模式要实现某个方法,必须经过很多算法,但这些算法的顺序是固定的,将算法的运 ... [详细]
  • [译]技术公司十年经验的职场生涯回顾
    本文是一位在技术公司工作十年的职场人士对自己职业生涯的总结回顾。她的职业规划与众不同,令人深思又有趣。其中涉及到的内容有机器学习、创新创业以及引用了女性主义者在TED演讲中的部分讲义。文章表达了对职业生涯的愿望和希望,认为人类有能力不断改善自己。 ... [详细]
  • sklearn数据集库中的常用数据集类型介绍
    本文介绍了sklearn数据集库中常用的数据集类型,包括玩具数据集和样本生成器。其中详细介绍了波士顿房价数据集,包含了波士顿506处房屋的13种不同特征以及房屋价格,适用于回归任务。 ... [详细]
  • MyBatis模糊查询和多条件查询一、ISmbmsUserDao层根据姓名模糊查询publicListgetUser();多条件查询publicList ... [详细]
  • 系统osx10.11用的是brew下的php56brew下的nginx下了一个项目,在安装过程中提示缺少,intl和apc扩展,就用下面的语句下载了,也装上了,但php还是没有加载 ... [详细]
author-avatar
shurui26jx_882
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有