Python实现-最小二乘回归树RTree

作者：13578945682a_699 | 来源：互联网 | 2024-10-21 13:24

最小二乘回归树生成给定数据集D{,(xi,yi),},n维的实例xi有n个特征,通过选择一个特征j和该特征取值范围内的一个分割值s,将该组数据集分割成两部分:R

最小二乘回归树生成

给定数据集D={...,(xi,yi),...}, n维的实例xi有n个特征, 通过选择一个特征j和该特征取值范围内的一个分割值s,将该组数据集分割成两部分:

R 1 (j, s) = {x | x [j] \leq s}, R 2 (j, s) = {x | x [j] > s}

然后计算两个区域上所对应的输出的平均值作为该节点的输出:

c 1 = a v e r a g e (y i | x i \in R 1), c 2 = a v e r a g e (y i | x i \in R 2)

之后计算平方误差和:

e r r t o t a l = \sum x i \in R 1 (y i - c 1) 2 + \sum x i \in R 2 (y i - c 1) 2

j,s 的选择要使得

errtotal 最小, 本文采用的办法是用二重循环遍历所有特征和该特征下所有可能的分割点,最后找到使得

errtotal 最小的

j,s . 将数据集D作为根节点, 利用求得的

j,s 将数据集分成两个子集, 生成两个叶子节点, 并且把数据子集分配给两个叶子节点. 对叶子节点重复以上行为, 直到满足停止条件或者使得训练误差达到0, 这样就生成一颗二叉树, 当输入一个新实例之后, 根据每个节点上的

j,s 将实例点逐层划分到分到子节点, 直到遇到叶子节点, 将该叶子节点的输出值作为输出.

下面给出Python实现代码

import numpy as np
import matplotlib.pylab as plt
from mpl_toolkits.mplot3d import Axes3D

#定义一个简单的树结构
class RTree:
    def __init__(self,data,z,slicedIdx):
        self.data =data
        self.z =z
        self.isLeaf = True
        self.slicedIdx = slicedIdx #节点上只保存数据的序号,不保存数据子集,节约内存
        self.left =None
        self.right = None
        self.output = np.mean(z[slicedIdx])
        self.j = None
        self.s = None
    #本节点所带的子数据如果大于1个,则生成两个叶子节点,本节点不再是叶子节点
    def grow(self):
        if len(self.slicedIdx)>1:
            j,s,_ = bestDivi(self.data,self.z,self.slicedIdx)
            leftIdx, rightIdx = [], []
            for i in self.slicedIdx:
                if self.data[i,j]                    leftIdx.append(i)
                else:
                    rightIdx.append(i)
            self.isLeaf =False
            self.left = RTree(self.data,self.z,leftIdx)
            self.right = RTree(self.data,self.z,rightIdx)
            self.j=j
            self.s=s
    def err(self):
        return np.mean((self.z[self.slicedIdx]-self.output)**2)

#计算平方差 
def squaErr(data,output,slicedIdx,j,s):
    #挑选数据子集
    region1 = []
    region2 = []
    for i in slicedIdx:
        if data[i,j]            region1.append(i)
        else:
            region2.append(i)
    #计算子集上的平均输出
    c1 = np.mean(output[region1])
    err1 = np.sum((output[region1]-c1)**2)

    c2 = np.mean(output[region2])
    err2 = np.sum((output[region2]-c2)**2)
    #返回平方差
    return err1+err2

#用于选择最佳划分属性j和最切分点s
def bestDivi(data,z,slicedIdx):
    min_j = 0
    sortedValue = np.sort(data[slicedIdx][:,min_j])
    min_s = (sortedValue[0]+sortedValue[1])/2
    err = squaErr(data,z,slicedIdx,min_j,min_s)
    #遍历属性
    for j in range(data.shape[1]):
        #产生某个属性值的分割点集合
        sortedValue = np.sort(data[slicedIdx][:,j])
        sliceValue = (sortedValue[1:]+sortedValue[:-1])/2
        for s in sliceValue:
            errNew = squaErr(data,z,slicedIdx,j,s)
            if errNew                 err = errNew
                min_j = j
                min_s = s

    return min_j, min_s, err

#更新树
def updateTree(tree):
    if tree.isLeaf:
        tree.grow()
    else:
        updateTree(tree.left)
        updateTree(tree.right)

#预测一个数据点的输出
def predict(single_data,init_tree):
    tree = init_tree
    while True:
        if tree.isLeaf:
            return tree.output
        else:
            if single_data[tree.j]                 tree = tree.left
            else:
                tree = tree.right

#利用z=x+y+noise 人为生成一个数据集, 具有2个特征
n_samples = 300
points = np.random.rand(n_samples,2)
z = points[:,0]+points[:,1] + 0.2*(np.random.rand(n_samples)-0.5)
#生成根节点
root = RTree(points,z,range(n_samples))
#进行五次生长, 观测每次生长过后的拟合效果
for ii in range(5):
    updateTree(root)
    z_predicted = np.array([predict(p,root) for p in points])    
    fig = plt.figure(figsize=(8,8))
    ax = fig.add_subplot(111,projection="3d")
    ax.scatter(points[:,0],points[:,1],z)
    ax.scatter(points[:,0],points[:,1],z_predicted)

这里写图片描述

可见随着树的加深, 训练误差逐渐减小, 可见如果树足够深, 训练误差会达到0. 值得指出得是, 对于二分类问题, 树的VC维是无穷, 规模有限的数据集总可以被打散(scatter).

参考文献:

[1]李航. 统计学习方法.

python
tree

推荐阅读

python
Python自动化处理：从Word文档提取内容并生成带水印的PDF

本文介绍如何利用Python实现从特定网站下载Word文档，去除水印并添加自定义水印，最终将文档转换为PDF格式。该方法适用于批量处理和自动化需求。 ... [详细]

蜡笔小新 2024-12-27 13:10:20
python
Python 提取和替换 Word 文档中的图片

本文介绍如何使用 Python 提取和替换 .docx 文件中的图片。.docx 文件本质上是压缩文件，通过解压可以访问其中的图片资源。此外，我们还将探讨使用第三方库 docx 的方法来简化这一过程。 ... [详细]

蜡笔小新 2024-12-26 18:52:14
python
Node.js 本地扩展开发指南

本文详细介绍了如何在 Windows 环境下使用 node-gyp 工具进行 Node.js 本地扩展的编译和配置，涵盖从环境搭建到代码实现的全过程。 ... [详细]

蜡笔小新 2024-12-25 10:35:17
process
优化深度神经网络在低性能硬件上的运行

尽管深度学习带来了广泛的应用前景，其训练通常需要强大的计算资源。然而，并非所有开发者都能负担得起高性能服务器或专用硬件。本文探讨了如何在有限的硬件条件下（如ARM CPU）高效运行深度神经网络，特别是通过选择合适的工具和框架来加速模型推理。 ... [详细]

蜡笔小新 2024-12-24 08:48:32
python
Python配置文件读写指南

本文详细介绍如何使用Python进行配置文件的读写操作，涵盖常见的配置文件格式（如INI、JSON、TOML和YAML），并提供具体的代码示例。 ... [详细]

蜡笔小新 2024-12-28 08:39:55
python
2023年京东Android面试真题解析与经验分享

本文由一位拥有6年Android开发经验的工程师撰写，详细解析了京东面试中常见的技术问题。涵盖引用传递、Handler机制、ListView优化、多线程控制及ANR处理等核心知识点。 ... [详细]

蜡笔小新 2024-12-26 17:45:48
include
长春大学软件工程：二叉排序树实验报告

本实验主要探讨了二叉排序树（BST）的基本操作，包括创建、查找和删除节点。通过具体实例和代码实现，详细介绍了如何使用递归和非递归方法进行关键字查找，并展示了删除特定节点后的树结构变化。 ... [详细]

蜡笔小新 2024-12-26 15:32:56
include
洛谷 P4116 树上操作：颜色变换与路径查询

本题涉及一棵由N个节点组成的树（共有N-1条边），初始时所有节点均为白色。题目要求处理两种操作：一是改变某个节点的颜色（从白变黑或从黑变白）；二是查询从根节点到指定节点路径上的第一个黑色节点，若无则输出-1。 ... [详细]

蜡笔小新 2024-12-26 10:22:20
php
MySQL索引详解与优化

本文深入探讨了MySQL中的索引机制，包括索引的基本概念、优势与劣势、分类及其实现原理，并详细介绍了索引的使用场景和优化技巧。通过具体示例，帮助读者更好地理解和应用索引以提升数据库性能。 ... [详细]

蜡笔小新 2024-12-25 19:52:47
include
Codeforces Round #566 (Div. 2) A~F个人题解

Dashboard-CodeforcesRound#566(Div.2)-CodeforcesA.FillingShapes题意：给你一个的表格，你 ... [详细]

蜡笔小新 2024-12-25 18:41:21
hook
深入了解 Windows 窗体中的 SplitContainer 控件

SplitContainer 控件是 Windows 窗体中的一种复合控件，由两个可调整大小的面板和一个可移动的拆分条组成。本文将详细介绍其功能、属性以及如何通过编程方式创建复杂的用户界面。 ... [详细]

蜡笔小新 2024-12-25 17:20:08
text
Flutter | Key 的深度解析

在 Flutter 开发过程中，开发者经常会遇到 Widget 构造函数中的可选参数 Key。对于初学者来说，理解 Key 的作用和使用场景可能是一个挑战。本文将详细探讨 Key 的概念及其应用场景，并通过实例帮助你更好地掌握这一重要工具。 ... [详细]

蜡笔小新 2024-12-25 08:05:15
input
不确定性|放入_华为机试题 HJ9提取不重复的整数

不确定性|放入_华为机试题 HJ9提取不重复的整数 ... [详细]

蜡笔小新 2024-12-24 16:13:05
controller
深入解析Linux pinctrl子系统：数据结构详解

本文将详细探讨Linux pinctrl子系统的各个关键数据结构，帮助读者深入了解其内部机制。通过分析这些数据结构及其相互关系，我们将进一步理解pinctrl子系统的工作原理和设计思路。 ... [详细]

蜡笔小新 2024-12-23 19:52:26
version
Git管理工具SourceTree安装与使用指南

本文详细介绍了Git管理工具SourceTree的安装、配置及团队协作方案，旨在帮助开发者更高效地进行版本控制和项目管理。 ... [详细]

蜡笔小新 2024-12-23 18:58:52

13578945682a_699

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章