热门标签 | HotTags
当前位置:  开发笔记 > 数据库 > 正文

属性子集选择的基本启发方法_属性选择

分类模型中的属性选择算法研究1引言20世纪六、七十年代以来,计算机科学技术的飞速发展使得存储或获得海量数据成为可能,数据存储成本的不断降低则加速了这一过

分类模型中的属性选择算法研究

1

引言

20

世纪六、七十年代以来,计算机科学技术的飞速发展使得存储或获得海量数据成为

可能,

数据存储成本的不断降低则加速了这一过程的发展。

因为数据生成和积聚的量超过了

分析人员所能分析的数量,

建立一套方法来从数据库中自动分析数据和进行知识发现将是一

种必然性选择。

对这一问题,

人们进行了有益的探索,

其结果是导致了处理大型或海量数据

的数据挖掘技术的产生和发展。

数据挖掘从机器学习、

统计学、

数据库等多学科领域汲取营养,

发展了一套适合自身特

点的数据挖掘方法和数据处理手段,

用于知识学习、

信息提取和结果可视化展现。

数据挖掘

任务建模过程中,在考虑模型拟合效果、任务系统运行时间和数据存储空间限制的前提下,

对某些数据集而言,包含所有或更多的属性

/

变量的模型并不一定是最适合、最满意的

(

或最

优的

)

模型。这是因为数据集中存在和学习任务不相关的属性

/

变量,或者是高度相关而冗余

属性

/

变量,它们会导致无效的归纳和降低学习的效率。最近的研究表明

1

,简单最近邻算

(KNN)

对不相关属性非常敏感——它的样本复杂度

(

达到给定精度所需最低样本量

)

与冗余

属性呈指数性增长。决策树算法,如

C4.5

,有时可能过度拟合数据,从而获得较大的树,

在许多情形下,去掉不相关或冗余的信息可使得

C4.5

产生更小的树。朴素贝叶斯分类算法

由于其给定类的属性独立性假设,冗余属性的存在也可能影响其分类表现。

大量的实证研究结果表明,属性选择在提高学习任务的效率、任务预测的精度和增强、

获得规则的可理解性等方面是较有成效的。

由此,

可知在数据挖掘任务建模过程中,

通过一

定的方式和方法去掉不相关或冗余属性,

进行属性变量选择往往可以获得更令人满意的知识

学习模型。这也就引发并促进了有关属性选择问题的研究和讨论。

2

属性选择概述

2.1

属性选择的定义

在过去的十多年,

属性选择己经在机器学习、

模式识别中关于数据的预处理部分变得非

常重要,特别是对于一些高维的数据,如基因数据、代谢数据、质谱数据等。从理论上讲,

属性数目越多,越有利于目标的分类,但实际情况并非如此。在样本数目有限的情况下,利

用很多属性进行分类器设计,

无论是从计算的复杂程度考虑,

还是分类器性能都是不适宜的。

同时样本的属性通常可分为

4

种类型,即有效属性,噪音属性,问题无关属性和冗余属性。

其中有效属性是指对学习算法有积极效果的属性,

噪音属性会对学习算法造成不良影响,

题无关属性指与学习算法无关的属性,

而冗余属性指包含分类有关的信息,

但在己有的属性

集中添加或删除该属性并不会影响学习算法性能的属性。

对于特定的任务来说,

噪音属性的存在容易使分类算法得出错误的结果,

导致错误分类

;

冗余和问题无关属性的存在会降低算法的性能。

人们通常通过属性选择或提取来去掉冗余和

噪音属性,

这是降低复杂度和提高分类精度的有效途径。

属性选择在减少冗余不相关属性的

同时,往往也可以:

(1)

减少获取数据的成本;

(2)

获得更易理解和解释的模型;

(3)

提高数据

挖掘归纳学习的速度和效率;

(4)

提高分类的精度;

(5)

降低或避免维度灾难;

(6)

更好地形成

结构化知识。



推荐阅读
  • Python与R语言在功能和应用场景上各有优势。尽管R语言在统计分析和数据可视化方面具有更强的专业性,但Python作为一种通用编程语言,适用于更广泛的领域,包括Web开发、自动化脚本和机器学习等。对于初学者而言,Python的学习曲线更为平缓,上手更加容易。此外,Python拥有庞大的社区支持和丰富的第三方库,使其在实际应用中更具灵活性和扩展性。 ... [详细]
  • 知识图谱与图神经网络在金融科技中的应用探讨
    本文详细介绍了融慧金科AI Lab负责人张凯博士在2020爱分析·中国人工智能高峰论坛上的演讲,探讨了知识图谱与图神经网络模型如何在金融科技领域发挥重要作用。 ... [详细]
  • 【转】强大的矩阵奇异值分解(SVD)及其应用
    在工程实践中,经常要对大矩阵进行计算,除了使用分布式处理方法以外,就是通过理论方法,对矩阵降维。一下文章,我在 ... [详细]
  • Python 数据可视化实战指南
    本文详细介绍如何使用 Python 进行数据可视化,涵盖从环境搭建到具体实例的全过程。 ... [详细]
  • 从0到1搭建大数据平台
    从0到1搭建大数据平台 ... [详细]
  • 在机器学习领域,深入探讨了概率论与数理统计的基础知识,特别是这些理论在数据挖掘中的应用。文章重点分析了偏差(Bias)与方差(Variance)之间的平衡问题,强调了方差反映了不同训练模型之间的差异,例如在K折交叉验证中,不同模型之间的性能差异显著。此外,还讨论了如何通过优化模型选择和参数调整来有效控制这一平衡,以提高模型的泛化能力。 ... [详细]
  • K-均值聚类算法是一种经典的划分方法,广泛应用于数据挖掘和机器学习领域。该算法通过将数据集划分为多个互斥的簇,确保每个对象仅归属于一个簇。然而,这种严格的归属要求忽略了潜在的离群点和数据的复杂性,限制了其在某些场景下的适用性。为了提高算法的鲁棒性和灵活性,研究者们提出了多种改进方法,如引入模糊隶属度和基于密度的聚类技术。这些改进不仅提升了算法的性能,还扩展了其在实际问题中的应用范围。 ... [详细]
  • 探索聚类分析中的K-Means与DBSCAN算法及其应用
    聚类分析是一种用于解决样本或特征分类问题的统计分析方法,也是数据挖掘领域的重要算法之一。本文主要探讨了K-Means和DBSCAN两种聚类算法的原理及其应用场景。K-Means算法通过迭代优化簇中心来实现数据点的划分,适用于球形分布的数据集;而DBSCAN算法则基于密度进行聚类,能够有效识别任意形状的簇,并且对噪声数据具有较好的鲁棒性。通过对这两种算法的对比分析,本文旨在为实际应用中选择合适的聚类方法提供参考。 ... [详细]
  • AI TIME联合2021世界人工智能大会,共探图神经网络与认知智能前沿话题
    AI TIME携手2021世界人工智能大会,共同探讨图神经网络与认知智能的最新进展。自2018年在上海首次举办以来,WAIC已成为全球AI领域的年度盛会,吸引了众多专家学者和行业领袖参与。本次大会将聚焦图神经网络在复杂系统建模、知识图谱构建及认知智能应用等方面的技术突破和未来趋势。 ... [详细]
  • AI炼金术:KNN分类器的构建与应用
    本文介绍了如何使用Python及其相关库(如NumPy、scikit-learn和matplotlib)构建KNN分类器模型。通过详细的数据准备、模型训练及新样本预测的过程,展示KNN算法的实际操作步骤。 ... [详细]
  • 计算机学报精选论文概览(2020-2022)
    本文汇总了2020年至2022年间《计算机学报》上发表的若干重要论文,旨在为即将投稿的研究者提供参考。 ... [详细]
  • 在众多市场调研公司中,如何选择一家值得信赖的合作伙伴至关重要。基于我在市场调查行业近二十年的经验,我将推荐几家国内知名的市场调研机构,供您参考:1. 开元研究——专注于零售报刊发行研究、媒体广告价值评估及网络营销分析等领域,以其专业性和准确性赢得了广泛认可。 ... [详细]
  • 在前一篇文章《Hadoop》系列之“踽踽独行”(二)中,我们详细探讨了云计算的核心概念。本章将重点转向物联网技术,全面解析其基本原理、应用场景及未来发展前景。通过深入分析物联网的架构和技术栈,我们将揭示其在智能城市、工业自动化和智能家居等领域的广泛应用潜力。此外,还将讨论物联网面临的挑战,如数据安全和隐私保护等问题,并展望其在未来技术融合中的重要角色。 ... [详细]
  • 探讨 jBPM 数据库表结构设计的精要与实践
    探讨 jBPM 数据库表结构设计的精要与实践 ... [详细]
  • 如何高效进行仓库管理——DAMA第十一章:数据仓库与商务智能的应用与实践
    本文深入探讨了数据仓库、数据挖掘及数据库的相关知识,特别聚焦于《DAMA-第十一章:数据仓库与商务智能》中的应用与实践。对于希望提升仓库管理效率的专业人士,本文提供了宝贵的技术指导和实践经验,帮助读者更好地理解和应用这些技术,从而优化仓库管理流程。 ... [详细]
author-avatar
oyy8610406
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有