热门标签 | HotTags
当前位置:  开发笔记 > 数据库 > 正文

属性子集选择的基本启发方法_属性选择

分类模型中的属性选择算法研究1引言20世纪六、七十年代以来,计算机科学技术的飞速发展使得存储或获得海量数据成为可能,数据存储成本的不断降低则加速了这一过

分类模型中的属性选择算法研究

1

引言

20

世纪六、七十年代以来,计算机科学技术的飞速发展使得存储或获得海量数据成为

可能,

数据存储成本的不断降低则加速了这一过程的发展。

因为数据生成和积聚的量超过了

分析人员所能分析的数量,

建立一套方法来从数据库中自动分析数据和进行知识发现将是一

种必然性选择。

对这一问题,

人们进行了有益的探索,

其结果是导致了处理大型或海量数据

的数据挖掘技术的产生和发展。

数据挖掘从机器学习、

统计学、

数据库等多学科领域汲取营养,

发展了一套适合自身特

点的数据挖掘方法和数据处理手段,

用于知识学习、

信息提取和结果可视化展现。

数据挖掘

任务建模过程中,在考虑模型拟合效果、任务系统运行时间和数据存储空间限制的前提下,

对某些数据集而言,包含所有或更多的属性

/

变量的模型并不一定是最适合、最满意的

(

或最

优的

)

模型。这是因为数据集中存在和学习任务不相关的属性

/

变量,或者是高度相关而冗余

属性

/

变量,它们会导致无效的归纳和降低学习的效率。最近的研究表明

1

,简单最近邻算

(KNN)

对不相关属性非常敏感——它的样本复杂度

(

达到给定精度所需最低样本量

)

与冗余

属性呈指数性增长。决策树算法,如

C4.5

,有时可能过度拟合数据,从而获得较大的树,

在许多情形下,去掉不相关或冗余的信息可使得

C4.5

产生更小的树。朴素贝叶斯分类算法

由于其给定类的属性独立性假设,冗余属性的存在也可能影响其分类表现。

大量的实证研究结果表明,属性选择在提高学习任务的效率、任务预测的精度和增强、

获得规则的可理解性等方面是较有成效的。

由此,

可知在数据挖掘任务建模过程中,

通过一

定的方式和方法去掉不相关或冗余属性,

进行属性变量选择往往可以获得更令人满意的知识

学习模型。这也就引发并促进了有关属性选择问题的研究和讨论。

2

属性选择概述

2.1

属性选择的定义

在过去的十多年,

属性选择己经在机器学习、

模式识别中关于数据的预处理部分变得非

常重要,特别是对于一些高维的数据,如基因数据、代谢数据、质谱数据等。从理论上讲,

属性数目越多,越有利于目标的分类,但实际情况并非如此。在样本数目有限的情况下,利

用很多属性进行分类器设计,

无论是从计算的复杂程度考虑,

还是分类器性能都是不适宜的。

同时样本的属性通常可分为

4

种类型,即有效属性,噪音属性,问题无关属性和冗余属性。

其中有效属性是指对学习算法有积极效果的属性,

噪音属性会对学习算法造成不良影响,

题无关属性指与学习算法无关的属性,

而冗余属性指包含分类有关的信息,

但在己有的属性

集中添加或删除该属性并不会影响学习算法性能的属性。

对于特定的任务来说,

噪音属性的存在容易使分类算法得出错误的结果,

导致错误分类

;

冗余和问题无关属性的存在会降低算法的性能。

人们通常通过属性选择或提取来去掉冗余和

噪音属性,

这是降低复杂度和提高分类精度的有效途径。

属性选择在减少冗余不相关属性的

同时,往往也可以:

(1)

减少获取数据的成本;

(2)

获得更易理解和解释的模型;

(3)

提高数据

挖掘归纳学习的速度和效率;

(4)

提高分类的精度;

(5)

降低或避免维度灾难;

(6)

更好地形成

结构化知识。



推荐阅读
  • 解决getallheaders函数导致的500错误及8种服务器性能优化策略
    本文探讨了解决getallheaders函数引起的服务器500错误的方法,并介绍八种有效的服务器性能优化技术,包括内存数据库的应用、Spark RDD的使用、缓存策略的实施、SSD的引入、数据库优化、IO模型的选择、多核处理策略以及分布式部署方案。 ... [详细]
  • 大数据核心技术解析
    本文深入探讨了大数据技术的关键领域,包括数据的收集、预处理、存储管理、以及分析挖掘等方面,旨在提供一个全面的技术框架理解。 ... [详细]
  • 数据管理权威指南:《DAMA-DMBOK2 数据管理知识体系》
    本书提供了全面的数据管理职能、术语和最佳实践方法的标准行业解释,构建了数据管理的总体框架,为数据管理的发展奠定了坚实的理论基础。适合各类数据管理专业人士和相关领域的从业人员。 ... [详细]
  • 智慧城市建设现状及未来趋势
    随着新基建政策的推进及‘十四五’规划的实施,我国正步入以5G、人工智能等先进技术引领的智慧经济新时代。规划强调加速数字化转型,促进数字政府建设,新基建政策亦倡导城市基础设施的全面数字化。本文探讨了智慧城市的发展背景、全球及国内进展、市场规模、架构设计,以及百度、阿里、腾讯、华为等领军企业在该领域的布局策略。 ... [详细]
  • 致信息安全爱好者的成长指南
    本文旨在为信息安全爱好者提供一份详尽的成长指南,涵盖从学习心态调整到具体技能提升的各个方面。 ... [详细]
  • 本文探讨了数据挖掘技术的发展及其在大数据环境下的应用流程,重点介绍了统计学、在线分析处理、信息检索、机器学习、专家系统和模式识别等领域的最新进展。 ... [详细]
  • 知识图谱与图神经网络在金融科技中的应用探讨
    本文详细介绍了融慧金科AI Lab负责人张凯博士在2020爱分析·中国人工智能高峰论坛上的演讲,探讨了知识图谱与图神经网络模型如何在金融科技领域发挥重要作用。 ... [详细]
  • 【转】强大的矩阵奇异值分解(SVD)及其应用
    在工程实践中,经常要对大矩阵进行计算,除了使用分布式处理方法以外,就是通过理论方法,对矩阵降维。一下文章,我在 ... [详细]
  • 从0到1搭建大数据平台
    从0到1搭建大数据平台 ... [详细]
  • 在机器学习领域,深入探讨了概率论与数理统计的基础知识,特别是这些理论在数据挖掘中的应用。文章重点分析了偏差(Bias)与方差(Variance)之间的平衡问题,强调了方差反映了不同训练模型之间的差异,例如在K折交叉验证中,不同模型之间的性能差异显著。此外,还讨论了如何通过优化模型选择和参数调整来有效控制这一平衡,以提高模型的泛化能力。 ... [详细]
  • 优化ListView性能
    本文深入探讨了如何通过多种技术手段优化ListView的性能,包括视图复用、ViewHolder模式、分批加载数据、图片优化及内存管理等。这些方法能够显著提升应用的响应速度和用户体验。 ... [详细]
  • 掌握Python岗位,你需要了解的关键技能
    最近,在社交平台脉脉上,一条关于Python岗位的消息引起了广泛关注。本文将探讨Python岗位的实际价值,并深入解析阿里巴巴等大公司在面试Python开发者时常见的问题。 ... [详细]
  • 使用R语言进行Foodmart数据的关联规则分析与可视化
    本文探讨了如何利用R语言中的arules和arulesViz包对Foodmart数据集进行关联规则的挖掘与可视化。文章首先介绍了数据集的基本情况,然后逐步展示了如何进行数据预处理、规则挖掘及结果的图形化呈现。 ... [详细]
  • 本文整理了关于Sia去中心化存储平台的重要网址和资源,旨在为研究者和用户提供全面的信息支持。 ... [详细]
  • 自然语言处理(NLP)——LDA模型:对电商购物评论进行情感分析
    目录一、2020数学建模美赛C题简介需求评价内容提供数据二、解题思路三、LDA简介四、代码实现1.数据预处理1.1剔除无用信息1.1.1剔除掉不需要的列1.1.2找出无效评论并剔除 ... [详细]
author-avatar
oyy8610406
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有