当前位置: 开发笔记 > 后端 > 正文

决策树的损失函数是什么？怎么理解？

作者：mobiledu2502889153 | 来源：互联网 | 2023-06-23 11:54

在学习决策树的过程中,会存在损失函数。损失函数是什么呢?如何理解?目录一.决策树的损失函数二.如何理解一.决策树的损失函数为了避免出现过拟合的现象，我们要对决策树进行剪枝。决策树的

在学习决策树的过程中,会存在损失函数。损失函数是什么呢?如何理解?

设决策树 T 的叶子节点个数为 |T|，t 是树 T 的叶子节点，该叶节点有 N_t 个样本点，其中 k 类的样本点有 N_tk 个，H_t(T) 为叶节点 t 上的经验熵，α⩾0 为正则化系数，则包含剪枝的决策树的损失函数可以定义为：
《决策树的损失函数是什么？怎么理解？》
其中，经验熵为：

右边第一项表示误差大小，第二项表示模型的复杂度，也就是用叶节点表示，防止过拟化。
损失函数中的第一项表示模型对训练数据的预测误差，也就是模型的拟合程度，第二项表示模型的复杂程度，通过参数 α 控制二者的影响力。一旦 α 确定，那么我们只要选择损失函数最小的模型即可。

二.如何理解

损失函数第一项为什么要乘以N_t呢？

理解1

首先问一个问题，H_t(T)代表的是什么？你肯定会说是经验熵，那什么是经验熵，你肯定会说是不确定度，到这里都没错，那这个不确定度是什么的不确定度呢？
可以理解为，这个叶子节点内部取k个类的不确定度，注意是节点【内部】的不确定度，每个叶子节点可以看作是独立的，既然是内部的事情，凭什么暴力的将各个内部的不确定度相加，我们至少到同一个级别的平台再加吧。
不知道你现在有没有感觉暴力的相加确实少了点什么，我的理解是，少了该节点的样本数，也就是N_t。不知道你有没有注意到，信息熵只用到了概率，而忽略了样本数，也就是只关注内部各个类别的比例，而不在乎整体数量的多少，那么乘以N_t后，我们把它叫做不确定次数，不确定程度就是不确定次数归一化后的东西。
既然都这么暴力了，就更暴力一点，你把Ht(T)理解成频率，N_t*H_t(T)对应地理解成次数吧。比如有A股B股两支股票，A股买了10次，赚了7次，B股买了100次，赚了50次，赚的频率分别是0.7和0.5，那么计算你投资的能力，是0.7+0.5更有意义呢还是7+50更有意义呢？我觉得7+50更有意义吧。
虽然不确定性和不确定次数并非频率和次数，但它们的相对关系就这么理解吧。

理解2
对每个叶节点t来说，H_t(T)表示t的熵（也就是不确定性）的期望，针对的是t子节点中每个数据实例的熵的期望，t子节点中有N_t个实例，那么t子节点总的熵（不确定性）就是N_tH_t(T)，整个树有∣T∣个叶节点，加起来就是整棵树的熵（不确定性，也可以理解成误差）。

可以看出，决策树的构建过程只考虑对于训练数据的拟合，每次特征选择也是考虑局部最优，而剪枝过程则是一个全局优化的过程，剪枝的过程利用验证集进行。

来源:https://blog.csdn.net/wjc1182511338/article/details/76793598

推荐阅读

ci
SSE图像算法优化系列三：超高速导向滤波实现过程纪要（欢迎挑战）

自从何凯明提出导向滤波后，因为其算法的简单性和有效性，该算法得到了广泛的应用，以至于新版的matlab都将其作为标准自带的函数之一了&#x ... [详细]

蜡笔小新 2024-11-23 10:46:33
正则
防范互联网服务提供商的恶意劫持行为

本文探讨了互联网服务提供商（ISP）如何可能篡改或插入用户请求的数据流，并提供了有效的技术手段来防止此类劫持行为，确保网络环境的安全与纯净。 ... [详细]

蜡笔小新 2024-11-23 09:41:45
java
解析Java虚拟机HotSpot中的GC算法实现

本文探讨了Java虚拟机（JVM）中HotSpot实现的垃圾回收（GC）算法，重点介绍了根节点枚举、安全点及安全区域的概念和技术细节，以及这些机制如何影响GC的效率和准确性。 ... [详细]

蜡笔小新 2024-11-23 09:12:01
正则
MongoDB 正则表达式排除查询

本文介绍了如何在 MongoDB 中使用正则表达式进行数据排除查询，特别关注了通过 $regex 和 $nin 操作符来过滤特定模式的数据。 ... [详细]

蜡笔小新 2024-11-22 21:20:42
localhost
Python3爬虫入门：pyspider的基本使用[python爬虫入门]

Python学习网有大量免费的Python入门教程，欢迎大家来学习。本文主要通过爬取去哪儿网的旅游攻略来给大家介绍pyspid ... [详细]

蜡笔小新 2024-11-22 18:00:41
漏洞
吴石访谈：腾讯安全科恩实验室如何引领物联网安全研究

腾讯安全科恩实验室曾两次成功破解特斯拉自动驾驶系统，并远程控制汽车，展示了其在汽车安全领域的强大实力。近日，该实验室负责人吴石接受了InfoQ的专访，详细介绍了团队未来的重点方向——物联网安全。 ... [详细]

蜡笔小新 2024-11-22 13:27:32
api
H5技术实现经典游戏《贪吃蛇》

本文将分享一个使用HTML5技术实现的经典小游戏——《贪吃蛇》。通过H5技术，我们将探讨如何构建这款游戏的两种主要玩法：积分闯关和无尽模式。 ... [详细]

蜡笔小新 2024-11-21 20:16:59
python
Python 开发环境最佳实践：Anaconda + Jupyter Notebook 快速上手指南

对于初学者而言，搭建一个高效稳定的 Python 开发环境是入门的关键一步。本文将详细介绍如何利用 Anaconda 和 Jupyter Notebook 来构建一个既易于管理又功能强大的开发环境。 ... [详细]

蜡笔小新 2024-11-21 18:30:23
正则
Python正则表达式(Python RegEx)

Python正则表达式快速参考常用函数：re.match():从字符串的起始位置匹配一个正则表达式。re.search():扫描整个字符串并返回第一个成功的匹配。re.s ... [详细]

蜡笔小新 2024-11-19 18:22:57
正则
Spring框架中UserLogDao Bean未定义异常分析与解决

本文详细探讨了Spring框架中遇到的NoSuchBeanDefinitionException异常，具体涉及com.thinkplatform.dao.UserLogDao Bean未定义的问题，并提供了相应的解决方案。 ... [详细]

蜡笔小新 2024-11-17 17:16:33
正则
PHP 基础与数据库操作

本文介绍了 PHP 的基本概念、服务器与客户端的工作原理，以及 PHP 如何与数据库交互。同时，还涵盖了常见的数据库操作和安全性问题。 ... [详细]

蜡笔小新 2024-11-17 15:45:08
正则
教你从写一个迷你koarouter到阅读koarouter源码

本打算教一步步实现koa-router，因为要解释的太多了，所以先简化成mini版本，从实现部分功能到阅读源码，希望能让你好理解一些。希望你之前有读过koa源码，没有的话，给你链接 ... [详细]

蜡笔小新 2024-11-17 13:09:46
正则
Spring Boot与Graylog集成实现微服务日志聚合与分析

本文介绍了如何在Graylog中配置输入源，并详细说明了Spring Boot项目中集成Graylog的日志聚合和分析方法，包括logback.xml的多环境配置。 ... [详细]

蜡笔小新 2024-11-17 11:47:30
正则
python3 基础回忆录

整理于2020年10月下旬：总结过去，展望未来Itistoughtodayandtomorrowwillbetougher.butthedayaftertomorrowisbeau ... [详细]

蜡笔小新 2024-11-17 10:24:41
正则
岭回归及其应用

本文介绍了岭回归的基本原理，并通过Python中的sklearn库实现了岭回归模型。岭回归通过在代价函数中加入L2正则项，有效解决了多重共线性问题。 ... [详细]

蜡笔小新 2024-11-16 06:54:42

mobiledu2502889153

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章