在分类过程中对连续数据的类划分

作者：书友56183408 | 来源：互联网 | 2023-09-14 17:18

分类中对连续数据的类划分：在C4.5算法中采用二分法对连续值进行处理。MarkdownCode对于连续的属性XX假设共出现了n个不同的取值，将这些取

分类中对连续数据的类划分&＃xff1a;

在 C4.5 算法中采用二分法对连续值进行处理。
Markdown Code

对于连续的属性 XX 假设共出现了 n 个不同的取值&＃xff0c;将这些取值从小到大排序{x1,x2,x3,…,xn}{x1,x2,x3,…,xn}&＃xff0c;其中找一点作为划分点 t &＃xff0c;则将数据划分为两类&＃xff0c;大于 t 的为一类&＃xff0c;小于 t 的为另一类。而 t 的取值通常为相邻两点的平均数

t&＃61;xi&＃43;xi&＃43;12t&＃61;xi&＃43;xi&＃43;12。

则在 n 个连续值之中&＃xff0c;可以作为划分点的 t 有 n-1 个。通过遍历可以像离散型一样来考察这些划分点。

Gain(D,X)&＃61;Ent(D)−||D

def get_splitpoint(data, base_ent, feature):"""参数:data -- 数据集base_ent -- 根节点的信息熵feature -- 需要划分的连续特征返回:final_t -- 连续值最优划分点"""continues_value &＃61; data[feature].sort_values().astype(np.float64) # 将连续值进行排序并转化为浮点类型continues_value &＃61; [i for i in continues_value] # 不保留原来的索引t_set &＃61; []t_ent &＃61; {}for i in range(len(continues_value)-1): # 得到划分点 t 的集合temp_t &＃61; (continues_value[i]&＃43;continues_value[i&＃43;1])/2t_set.append(temp_t)for each_t in t_set: # 计算最优划分点temp1_data &＃61; data[data[feature].astype(np.float64) > each_t] # 将大于划分点的分为一类temp2_data &＃61; data[data[feature].astype(np.float64) # 将小于划分点的分为一类weight1 &＃61; len(temp1_data)/len(data)weight2 &＃61; len(temp2_data)/len(data)temp_ent &＃61; base_ent-weight1 * \get_Ent(temp1_data)-weight2*get_Ent(temp2_data) # 计算每个划分点的信息增益t_ent[each_t] &＃61; temp_entprint("t_ent:", t_ent)final_t &＃61; max(t_ent, key&＃61;t_ent.get)return final_t final_t&＃61;get_splitpoint(data,base_ent,&＃39;height&＃39;)#得到final_t后&＃xff0c;对数据进行预处理&＃xff1a; def choice_1(x, t):if x > t:return ">{}".format(t)else:return "<{}".format(t) deal_data &＃61; data.copy() # 使用lambda和map函数将 height 按照final_t划分为两个类别 deal_data["height"] &＃61; pd.Series(map(lambda x: choice_1(int(x), final_t), deal_data["height"])) deal_data

推荐阅读

import
超级简单加解密工具的方案和功能

本文介绍了一个超级简单的加解密工具的方案和功能。该工具可以读取文件头，并根据特定长度进行加密，加密后将加密部分写入源文件。同时，该工具也支持解密操作。加密和解密过程是可逆的。本文还提到了一些相关的功能和使用方法，并给出了Python代码示例。 ... [详细]

蜡笔小新 2023-12-10 16:38:34
copy
颜色迁移（reinhard VS welsh）

不要谈什么天分，运气，你需要的是一个截稿日，以及一个不交稿就能打爆你狗头的人，然后你就会被自己的才华吓到。------ ... [详细]

蜡笔小新 2023-10-17 21:20:36
import
词向量计算文本相似度,通过词向量求文本相似度

基于词向量计算文本相似度1.测试数据：链接：https:pan.baidu.coms1fXJjcujAmAwTfsuTg2CbWA提取码：f4vx2.实验代码：imp ... [详细]

蜡笔小新 2023-10-17 12:10:15
import
logistic回归（线性和非线性）的开发笔记

本文由编程笔记#小编为大家整理，主要介绍了logistic回归（线性和非线性）相关的知识，包括线性logistic回归的代码和数据集的分布情况。希望对你有一定的参考价值。 ... [详细]

蜡笔小新 2023-12-14 21:40:43
header
如何自行分析定位SAP BSP错误

The“BSPtag”Imentionedintheblogtitlemeansforexamplethetagchtmlb:configCelleratorbelowwhichi ... [详细]

蜡笔小新 2023-12-14 19:58:05
datetime
SpringBoot uri统一权限管理的实现方法及步骤详解

本文详细介绍了SpringBoot中实现uri统一权限管理的方法，包括表结构定义、自动统计URI并自动删除脏数据、程序启动加载等步骤。通过该方法可以提高系统的安全性，实现对系统任意接口的权限拦截验证。 ... [详细]

蜡笔小新 2023-12-14 16:11:30
copy
不同优化算法的比较分析及实验验证

本文介绍了神经网络优化中常用的优化方法，包括学习率调整和梯度估计修正，并通过实验验证了不同优化算法的效果。实验结果表明，Adam算法在综合考虑学习率调整和梯度估计修正方面表现较好。该研究对于优化神经网络的训练过程具有指导意义。 ... [详细]

蜡笔小新 2023-12-13 16:05:14
copy
游标的使用笔记

本文介绍了游标的使用方法，并以一个水果供应商数据库为例进行了说明。首先创建了一个名为fruits的表，包含了水果的id、供应商id、名称和价格等字段。然后使用游标查询了水果的名称和价格，并将结果输出。最后对游标进行了关闭操作。通过本文可以了解到游标在数据库操作中的应用。 ... [详细]

蜡笔小新 2023-12-13 15:24:30
copy
[大整数乘法] java代码实现

本文介绍了使用java代码实现大整数乘法的过程，同时也涉及到大整数加法和大整数减法的计算方法。通过分治算法来提高计算效率，并对算法的时间复杂度进行了研究。详细代码实现请参考文章链接。 ... [详细]

蜡笔小新 2023-12-13 11:21:32
case
如何更高效地使用IF函数来获取输出列表

本文讨论了如何使用IF函数从基于有限输入列表的有限输出列表中获取输出，并提出了是否有更快/更有效的执行代码的方法。作者希望了解是否有办法缩短代码，并从自我开发的角度来看是否有更好的方法。提供的代码可以按原样工作，但作者想知道是否有更好的方法来执行这样的任务。 ... [详细]

蜡笔小新 2023-12-12 17:32:28
perl
欢乐的票圈重构之旅——RecyclerView的头尾布局增加

项目重构的Git地址：https:github.comrazerdpFriendCircletreemain-dev项目同步更新的文集：http:www.jianshu.comno ... [详细]

蜡笔小新 2023-12-11 19:09:56
split
求矩阵鞍点的个数

本文介绍了一个编程问题，要求求解一个给定n阶方阵的鞍点个数。通过输入格式的描述，可以了解到输入的是一个n阶方阵，每个元素都是整数。通过输出格式的描述，可以了解到输出的是鞍点的个数。通过题目集全集传送门，可以了解到提供了两个函数is_line_max和is_rank_min，用于判断一个元素是否为鞍点。本文还提供了三个样例，分别展示了不同情况下的输入和输出。 ... [详细]

蜡笔小新 2023-12-11 09:50:19
object
Java面经整理及相关概念解析

本文整理了Java面试中常见的问题及相关概念的解析，包括HashMap中为什么重写equals还要重写hashcode、map的分类和常见情况、final关键字的用法、Synchronized和lock的区别、volatile的介绍、Syncronized锁的作用、构造函数和构造函数重载的概念、方法覆盖和方法重载的区别、反射获取和设置对象私有字段的值的方法、通过反射创建对象的方式以及内部类的详解。 ... [详细]

蜡笔小新 2023-12-10 22:17:08
object
从相邻元素对还原数组的解题思路和代码

本文介绍了从相邻元素对还原数组的解题思路和代码。思路是使用HashMap存放邻接关系，并找出起始点，然后依次取。代码使用了HashMap来存放起始点所在的adjacentPairs中的位置，并对重复的起始点进行处理。 ... [详细]

蜡笔小新 2023-12-10 11:08:45
split
HashMap的扩容知识详解

本文详细介绍了HashMap的扩容知识，包括扩容的概述、扩容条件以及1.7版本中的扩容方法。通过学习本文，读者可以全面了解HashMap的扩容机制，提升对HashMap的理解和应用能力。 ... [详细]

蜡笔小新 2023-12-09 17:20:36

书友56183408

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章