热门标签 | HotTags
当前位置:  开发笔记 > 后端 > 正文

模式识别学习笔记:第七章特征选择

本系列博客主要是在学习《模式识别(张学工著第三版)》时的一些笔记。本文地址:http:blog.csdn.netshanglianlmarticledetails494

本系列博客主要是在学习《模式识别(张学工著 第三版)》时的一些笔记。
本文地址:http://blog.csdn.net/shanglianlm/article/details/49464445

1. 前言

1-1 问题:

D 维特征中选择 d<D 个特征。

1-2 特征选择主要回答两个层面的问题:

  1. 对特征的评价,即怎样衡量一组特征对分类的有效性;
  2. 寻优的算法,即怎样更快地找到性能最优或比较好的特征组合。

2. 特征的评价准则

类别可分性准则:
这里写图片描述

2-1 基于类内类间距离的可分性判据

投影到另一空间后,类内离散度尽可能小、类间离散度尽可能大的准则来确定最佳的投影方向。

这里写图片描述
这里写图片描述
这里写图片描述

2-2 基于概率分布的可分性判据

这里写图片描述

常见的概率距离度量

这里写图片描述
这里写图片描述

2-3 基于熵的可分性判据

主要从后验概率角度来考虑。

这里写图片描述

2-4 利用统计检验作为可分性判据

这里写图片描述
这里写图片描述
这里写图片描述

特点
只能针对单个特征对分类性能进行判据,也存在针对多变量的,但是当特征维数较高时,往往较难实现。

3. 特征选择算法

3-1 特征选择的最优算法(穷举法)

分支定界方法的基本思想:

设法将所有可能特征选择组合构建成一个树状结构,按照特定的规律对树进行搜索,使得搜索过程尽可能早地可以达到最优解而不必遍历整棵树。

实例

从 D =6 个特征中选 d = 2 个特征。

  • 树的根节点包含全部特征,称为第 0 级,
  • 每一级的节点在其父节点基础上去掉一个特征(去掉的特征序号写在节点旁边)。
  • 对于第 l 层节点 i , 假设它包含 Di 个候选特征,我们在同一层中按照去掉单个特征后的准则函数对各个节点排序,如果去掉某个特征后准则函数损失函数最大,则认为这个特征最不可能去掉,放在该层最左侧节点。
  • 第 i 层节点下工生长 Did+1 个子节点。
  • 第 l +1 层的展开沿最右侧节点开始,在同层上已经在左侧节点上的特征在本节点之下不再进行舍弃,因此,第 l+1 层的一个节点上的候选基因就是它上一层的 Di 个候选特征减去本节点上舍弃的特征以及它同层左侧节点上的特征。
  • 从每一树枝的最右侧开始向下生长,当到达叶节点时计算当前达到的准则函数值,记作界限 B 。
  • 到达叶节点后算法向上回溯,每回溯一步把相应节点上舍弃的特征回收回来。遇到最近的分支节点停止回溯,从这个分支节点向下搜索左侧最近的一个分支。
  • 如果在搜索到某一个节点时,准则函数值已经小于界限 B,说明最优解已不可能在本节点之下的叶节点上,所以可以停止搜索,向上回溯。
  • 如果搜索到一个新的叶节点,则更新界限 B 值,向上回溯。
  • 直到不能向下搜索其他树枝,则算法停止,最后一次更新 B 时取得的特征组合就是特征选择的结果。

这里写图片描述

这里写图片描述

3-2 特征选择的次优算法(确定性的启发式搜索)

最优搜索方法的计算量可能仍然最大,因此会考虑一些计算量较小的次优搜索方法。

3-2-1 单独最优特征的组合

对每一个特征单独计算类别可分性依据,选取最大的前 d 个特征。

特点
只有当特征间统计独立和所采用的判据是每个特征上的判据之和或之积时,才最优。

3-2-2 顺序前进法(从底向上)

第一个特征选择单独最优,后面的特征选择与之组合最优的那些特征(一次可以一个也可以多个)。

特点
某个特征一旦被选中则不能再被剔除。

3-2-3 顺序后退法(从顶向下)

逐渐剔除不被选中的特征。与顺序前进法正好相反。

特点
某个特征一旦被剔除则不能再被选中。

3-2-4 增 l 减 r 法

交替使用 顺序前进法 和 顺序后退法。

3-3 特征选择的遗传算法(随机搜索)

这里写图片描述
这里写图片描述

特点
遗传算法虽然不能保证收敛到全局最优解,但是在多数情况下可以至少得到很好的次优解。

3-4 以分类性能为准则的特征选择算法(包裹法)

把分类器和特征选择集合起来,利用分类器进行特征选择的方法称作包裹法。

这些分类器要求满足两个条件
1. 分类器应该能够处理高维的特征向量。
2. 分类器能够在特征维数很高但样本数有限时仍能得到较好的效果。

常见的两种方法有 递归支持向量机(R-SVM)和支持向量机递归特征剔除(SVM-RFE)。

这里写图片描述


推荐阅读
  • 本文作者分享了在阿里巴巴获得实习offer的经历,包括五轮面试的详细内容和经验总结。其中四轮为技术面试,一轮为HR面试,涵盖了大量的Java技术和项目实践经验。 ... [详细]
  • Coursera ML 机器学习
    2019独角兽企业重金招聘Python工程师标准线性回归算法计算过程CostFunction梯度下降算法多变量回归![选择特征](https:static.oschina.n ... [详细]
  • 机器学习算法:SVM(支持向量机)
    SVM算法(SupportVectorMachine,支持向量机)的核心思想有2点:1、如果数据线性可分,那么基于最大间隔的方式来确定超平面,以确保全局最优, ... [详细]
  • 在机器学习领域,深入探讨了概率论与数理统计的基础知识,特别是这些理论在数据挖掘中的应用。文章重点分析了偏差(Bias)与方差(Variance)之间的平衡问题,强调了方差反映了不同训练模型之间的差异,例如在K折交叉验证中,不同模型之间的性能差异显著。此外,还讨论了如何通过优化模型选择和参数调整来有效控制这一平衡,以提高模型的泛化能力。 ... [详细]
  • 本文探讨了如何使用自增和自减运算符遍历二维数组中的元素。通过实例详细解释了指针与二维数组结合使用的正确方法,并解答了常见的错误用法。 ... [详细]
  • Hybrid 应用的后台接口与管理界面优化
    本文探讨了如何通过优化 Hybrid 应用的后台接口和管理界面,提升用户体验。特别是在首次加载 H5 页面时,为了减少用户等待时间和流量消耗,介绍了离线资源包的管理和分发机制。 ... [详细]
  • 解决SVN图标显示异常问题的综合指南
    本文详细探讨了SVN图标无法正常显示的问题,并提供了多种有效的解决方案,涵盖不同环境下的具体操作步骤。通过本文,您将了解如何排查和修复这些常见的SVN图标显示故障。 ... [详细]
  • Python第三方库安装的多种途径及注意事项
    本文详细介绍了Python第三方库的几种常见安装方法,包括使用pip命令、集成开发环境(如Anaconda)以及手动文件安装,并提供了每种方法的具体操作步骤和适用场景。 ... [详细]
  • 阿里云ecs怎么配置php环境,阿里云ecs配置选择 ... [详细]
  • 本文详细介绍了如何在预装Ubuntu系统的笔记本电脑上安装Windows 7。针对没有光驱的情况,提供了通过USB安装的具体方法,并解决了分区、驱动器无法识别等问题。 ... [详细]
  • 全面解析运维监控:白盒与黑盒监控及四大黄金指标
    本文深入探讨了白盒和黑盒监控的概念,以及它们在系统监控中的应用。通过详细分析基础监控和业务监控的不同采集方法,结合四个黄金指标的解读,帮助读者更好地理解和实施有效的监控策略。 ... [详细]
  • 实用正则表达式有哪些
    小编给大家分享一下实用正则表达式有哪些,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下 ... [详细]
  • 本文介绍如何使用OpenCV和线性支持向量机(SVM)模型来开发一个简单的人脸识别系统,特别关注在只有一个用户数据集时的处理方法。 ... [详细]
  • 支持向量机(SVM)在机器学习中的应用与学习心得
    支持向量机(SVM)是一种高效的二分类模型,其核心目标是通过寻找最优超平面来区分不同类别的数据点。在实际应用中,SVM能够有效地处理高维数据,并通过核技巧扩展到非线性分类问题。当新的数据点输入时,SVM会根据其相对于超平面的位置来判定其所属类别。训练过程中,SVM通过最大化间隔来确定最优超平面,从而提高模型的泛化能力。本文总结了SVM在机器学习中的应用及其学习心得,探讨了其在实际问题中的优势和局限性。 ... [详细]
  • 如何选择机器学习方法http:scikit-learn.orgstabletutorialmachine_learning_mapindex.html通用学习模式只需要先定义 ... [详细]
author-avatar
Jump_jiedB0_666
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有