机器学习之决策树——ID3算法简介

作者：dotagod12 | 来源：互联网 | 2023-02-05 20:34

决策树简介在相亲过程中，女方会根据男方的一些特征（年龄、长相、收入、是否公务员）来决策自己的行为（见还是不见）。如果利用kNN算法来预测女方是否去见相亲对象的话，需要保存样本数据，且需要将年龄

决策树简介

在相亲过程中，女方会根据男方的一些特征（年龄、长相、收入、是否公务员）来决策自己的行为（见还是不见）。如果利用kNN算法来预测女方是否去见相亲对象的话，需要保存样本数据，且需要将年龄等这些特征先转换为对应的数值，同时需要对所有数据计算距离值，非常耗时。因此，我们可以利用概率测量方法（决策树）来处理分类问题。

决策树定义

决策树的基本组成部分：决策节点、分支和叶子。

在上图中，第一次的决策节点是年龄；分支是长相、收入、公务员；叶子是见、不见。上图就是利用决策树进行分类的过程，是我们需要的结果。

ID3算法简介

对于女方来说，一个男人的特征权重是不一样的，到底哪个最重要，哪个次之，是需要进行分类的。如何分类，我们就需要利用一些决策树算法。下面将介绍一种算法：ID3算法。

ID3算法使用信息增益度来进行分类，关于相关概念，我们用一个简单的示例来介绍。

基于ID3算法的分类流程

1、样本数据如下：

2、计算根结点的熵值：

从类别来看，好=6次，差=6次，因此，根结点的熵值为：

E=-(6/12)log2(6/12)-(6/12)log2(6/12)=1

信息熵的普及：

信息熵表示的是不确定的量度。信息存在不确定性，一般来说，小概率事件比大概率事件包含的信息量大，而熵就是度量信息量大小的方法。假设X是一个离散随机变量，X的熵定义为：

对于结果只有2种情况（如好和差），即P{X=0}=p，P{X=1}=1-p，则H(X)=plogp-(1-p)log(1-p)，熵函数曲线如下：

3、计算样本中各个属性（性格、父母的教育程度、性别）的熵值及信息增益度：

对于属性“性格”来说，分为“内向”和“外向”。我们先来计算“内向”的信息熵：

E(性格，内向)=-(4/6)log2(4/6)-(2/6)log2(2/6)=0.9183

以此内推：

E(性格，外向)=-(4/6)log2(4/6)-(2/6)log2(2/6)=0.9183

所以，属性为性格的信息增益度为：

Gain(性格)=E-E(性格)=1-[(1/2)*0.9183+(1/2)*0.9183]=0.0817

同理可得：

Gain(父母教育程度)=0.4591

Gain(性别)=0

4、按照信息增益度的大小进行第一次分类：

因为Gain(父母的教育程度)>Gain(性格)>Gain(性别)，所以第一次划分属性时，以“父母的教育程度”进行划分，其第一次的决策树如下图：

5、计算样本中各个属性（性格、性别）的熵值和增益度：

经过一次划分后，属性“父母教育程度”为良的结果都为“好”；因此，第二次划分的样本如下：

Gain(性格)=0.3113

Gain(性别)=0.2045

6、按照信息增益度的大小进行第二次分类：

Gain(性格)>Gain(性别)，因此用“性格”来划分，得到的决策树如下：

7、得到最终的决策树：
目前只有“父母教育程度”为“中”和“差”的“外向”小学生还没有明确类别，需要用属性“性别”来进一步划分，得到最终的决策树如下：

推荐阅读

自动驾驶
吴石访谈：腾讯安全科恩实验室如何引领物联网安全研究

腾讯安全科恩实验室曾两次成功破解特斯拉自动驾驶系统，并远程控制汽车，展示了其在汽车安全领域的强大实力。近日，该实验室负责人吴石接受了InfoQ的专访，详细介绍了团队未来的重点方向——物联网安全。 ... [详细]

蜡笔小新 2024-11-22 13:27:32
pytorch
Python 开发环境最佳实践：Anaconda + Jupyter Notebook 快速上手指南

对于初学者而言，搭建一个高效稳定的 Python 开发环境是入门的关键一步。本文将详细介绍如何利用 Anaconda 和 Jupyter Notebook 来构建一个既易于管理又功能强大的开发环境。 ... [详细]

蜡笔小新 2024-11-21 18:30:23
人工智能
本周三大青年学术分享会即将开启

由雷锋网旗下的AI研习社主办，旨在促进AI领域的知识共享和技术交流。通过邀请来自学术界和工业界的专家进行在线分享，活动致力于搭建一个连接理论与实践的平台。 ... [详细]

蜡笔小新 2024-11-21 17:13:10
算法
深入解析层次聚类算法

本文详细介绍了层次聚类算法的基本原理，包括其通过构建层次结构来分类样本的特点，以及自底向上（凝聚）和自顶向下（分裂）两种主要的聚类策略。文章还探讨了不同距离度量方法对聚类效果的影响，并提供了具体的参数设置指导。 ... [详细]

蜡笔小新 2024-11-20 15:19:16
算法
计算机学报精选论文概览（2020-2022）

本文汇总了2020年至2022年间《计算机学报》上发表的若干重要论文，旨在为即将投稿的研究者提供参考。 ... [详细]

蜡笔小新 2024-11-20 11:08:21
算法
【转】强大的矩阵奇异值分解(SVD)及其应用

在工程实践中，经常要对大矩阵进行计算，除了使用分布式处理方法以外，就是通过理论方法，对矩阵降维。一下文章，我在 ... [详细]

蜡笔小新 2024-11-16 12:44:31
svm
机器学习算法：SVM（支持向量机）

SVM算法（SupportVectorMachine，支持向量机）的核心思想有2点：1、如果数据线性可分，那么基于最大间隔的方式来确定超平面，以确保全局最优， ... [详细]

蜡笔小新 2024-11-14 04:33:58
算法
Python基础：使用NLTK和Python构建机器学习应用

本文节选自《NLTK基础教程——用NLTK和Python库构建机器学习应用》一书的第1章第1.2节，作者Nitin Hardeniya。本文将带领读者快速了解Python的基础知识，为后续的机器学习应用打下坚实的基础。 ... [详细]

蜡笔小新 2024-11-13 21:23:34
算法
非计算机专业的朋友如何拿下多个Offer

大家好，我是归辰。秋招结束后，我已顺利入职，并应公子龙的邀请，分享一些秋招面试的心得体会，希望能帮助到学弟学妹们，让他们在未来的面试中更加顺利。 ... [详细]

蜡笔小新 2024-11-13 18:41:58
svm
利用OpenCV和线性SVM实现人脸识别

本文介绍如何使用OpenCV和线性支持向量机（SVM）模型来开发一个简单的人脸识别系统，特别关注在只有一个用户数据集时的处理方法。 ... [详细]

蜡笔小新 2024-11-13 14:50:37
人工智能
Python 数据可视化实战指南

本文详细介绍如何使用 Python 进行数据可视化，涵盖从环境搭建到具体实例的全过程。 ... [详细]

蜡笔小新 2024-11-13 06:03:30
神经网络
机器学习（ML）三之多层感知机

深度学习主要关注多层模型，现在以多层感知机（multilayerperceptron，MLP）为例，介绍多层神经网络的概念。隐藏层多层感知机在单层神经网络的基础上引入了一到多个隐藏 ... [详细]

蜡笔小新 2024-11-19 19:02:28
自然语言处理
英特尔推出第三代至强可扩展处理器及傲腾持久内存，AI性能显著提升

英特尔在数据创新峰会上发布了第三代至强可扩展处理器和第二代傲腾持久内存，全面增强AI能力和系统性能。 ... [详细]

蜡笔小新 2024-11-17 13:07:14
tensorflow
使用 Jupyter Notebook 实现 Markdown 编写与代码运行

Jupyter Notebook 是一个开源的基于网页的应用程序，允许用户在同一文档中编写 Markdown 文本和运行多种编程语言的代码，并实时查看运行结果。 ... [详细]

蜡笔小新 2024-11-15 14:50:50
机器学习
TabNine Pro 许可证支持多少设备？

探讨 TabNine Pro 许可证是否支持多台设备使用及用户体验。 ... [详细]

蜡笔小新 2024-11-15 12:59:05

dotagod12

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章