当前位置: 开发笔记 > 运维 > 正文

在Spark中获取树模型的叶子概率

作者：山间农夫的家 | 来源：互联网 | 2022-10-10 04:49

如何解决《在Spark中获取树模型的叶子概率》经验，需要怎么解决？

我正在尝试重构经过训练的基于火花树的模型（RandomForest或GBT分类器），使其可以在没有火花的环境中导出。该toDebugString方法是一个很好的起点。但是，对于RandomForestClassifier，字符串仅显示每棵树的预测类，而没有相对概率。因此，如果对所有树木的预测取平均值，则会得到错误的结果。

一个例子。我们DecisionTree以这种方式代表：

DecisionTreeClassificationModel (uid=dtc_884dc2111789) of depth 2 with 5 nodes
  If (feature 21 in {1.0})
   Predict: 0.0
  Else (feature 21 not in {1.0})
   If (feature 10 in {0.0})
    Predict: 0.0
   Else (feature 10 not in {0.0})
    Predict: 1.0

如我们所见，跟随这些节点，看起来预测总是为0或1。但是，如果将这棵单树应用于特征向量，则得到的概率像[0.1007, 0.8993]，并且它们在训练中非常有意义，因为在训练中设置负数/正数的比例，该比例最终与示例矢量与输出概率匹配的位置相同。

我的问题：这些概率存储在哪里？有没有办法提取它们？如果是这样，怎么办？一个pyspark解决方案是更好的。

spark
apache

推荐阅读

apache
深入理解Spark 2.2.0集群模式

本文详细介绍了Apache Spark 2.2.0版本中集群模式的基本概念和工作流程，包括如何通过集群管理器分配资源，以及Spark应用程序在集群中的运行机制。链接：http://spark.apache.org/docs/2.2.0/cluster-overview.html ... [详细]

蜡笔小新 2024-11-24 08:56:47
service
PHP 5.4 下 Windows 7 环境中 Memcached 分布式缓存的安装与配置

本文详细介绍了在 Windows 7 上安装和配置 PHP 5.4 的 Memcached 分布式缓存系统的方法，旨在减少数据库的频繁访问，提高应用程序的响应速度。 ... [详细]

蜡笔小新 2024-11-26 04:43:01
service
Java中利用POI库读取Doc和Docx文件的方法

近期在研究Java IO流技术时，遇到了一个关于如何正确读取Doc文档而不出现乱码的问题。本文将详细介绍使用Apache POI库处理Doc和Docx文件的具体方法，包括必要的库引入和示例代码。 ... [详细]

蜡笔小新 2024-11-25 19:51:38
grep
首次周测解析与答案

本文档提供了首次周测的答案解析，涵盖特殊符号、命令作用、路径说明以及实战练习等内容。 ... [详细]

蜡笔小新 2024-11-25 14:28:11
grep
如何在Apache HttpClient 4.x中配置默认上下文

本文探讨了在使用Apache HttpClient 4.x（作为commons-httpclient 3.x的后续版本）时，如何配置默认的HttpContext，以确保每次执行请求时无需显式传递上下文。 ... [详细]

蜡笔小新 2024-11-25 14:19:17
tomcat
一键LNMP配置SSL证书实现全站HTTPS访问

许多网站搭建者选择了便捷的一键LNMP安装包，但在网站部署完成后，配置SSL证书以支持HTTPS访问是一个不可或缺的步骤。本文将详细介绍如何通过简单的步骤完成这一过程。 ... [详细]

蜡笔小新 2024-11-25 12:54:33
curl
华为云openEuler环境下的Web应用部署实践

本文详细记录了在华为云openEuler系统上进行Web应用部署的具体步骤，包括配置yum源、安装Apache、MariaDB、PHP及其相关组件，并完成WordPress的安装与配置过程。 ... [详细]

蜡笔小新 2024-11-25 12:39:31
service
深入理解XSS漏洞及其防范措施

本文详细介绍了跨站脚本攻击（XSS）的基本概念、工作原理，并通过实际案例演示如何构建XSS漏洞的测试环境，以及探讨了XSS攻击的不同形式和防御策略。 ... [详细]

蜡笔小新 2024-11-24 21:14:20
port
PHP中处理HTTP头部信息的方法与技巧

本文详细介绍了在PHP中如何获取和处理HTTP头部信息，包括通过cURL获取请求头信息、使用header函数发送响应头以及获取客户端HTTP头部的方法。同时，还探讨了PHP中$_SERVER变量的使用，以获取客户端和服务器的相关信息。 ... [详细]

蜡笔小新 2024-11-24 16:12:27
linux
解决 MyBatis 批量操作时 BindingException 异常

本文探讨了在使用 MyBatis 进行批量数据处理时遇到的参数绑定异常问题，并提供了详细的解决方案。 ... [详细]

蜡笔小新 2024-11-24 13:03:13
linux
使用 ModelAttribute 实现页面数据自动填充

本文介绍了如何利用 Spring MVC 中的 ModelAttribute 注解，在页面跳转后自动填充表单数据。主要探讨了两种实现方法及其背后的原理。 ... [详细]

蜡笔小新 2024-11-24 12:55:24
服务器
Maven快照版本管理及更新策略详解

本文深入探讨了Maven中的快照版本管理和更新策略，解释了快照版本与正式版本的区别，并提供了如何配置快照更新策略的方法，以确保项目依赖始终保持最新。 ... [详细]

蜡笔小新 2024-11-24 06:20:08
服务器
使用UploadProgress实现文件上传进度条

本文介绍了如何通过安装和配置php_uploadprogress扩展来实现文件上传时的进度条显示功能。通过一个简单的示例，详细解释了从安装扩展到编写具体代码的全过程。 ... [详细]

蜡笔小新 2024-11-24 00:04:13
服务器
如何使用Maven将依赖插件一并打包进JAR文件

本文详细介绍了在使用Maven构建项目时，如何将所需的依赖插件一同打包进最终的JAR文件中，以避免手动部署依赖库的麻烦。 ... [详细]

蜡笔小新 2024-11-23 22:51:34
服务器
Hadoop MapReduce 实战案例：手机流量使用统计分析

本文通过一个具体的Hadoop MapReduce案例，详细介绍了如何利用MapReduce框架来统计和分析手机用户的流量使用情况，包括上行和下行流量的计算以及总流量的汇总。 ... [详细]

蜡笔小新 2024-11-23 20:11:23

山间农夫的家

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章