当前位置: 开发笔记 > 数据库 > 正文

属性子集选择的基本启发方法_属性选择

作者：oyy8610406 | 来源：互联网 | 2023-06-04 10:06

分类模型中的属性选择算法研究1引言20世纪六、七十年代以来，计算机科学技术的飞速发展使得存储或获得海量数据成为可能，数据存储成本的不断降低则加速了这一过

分类模型中的属性选择算法研究

引言

世纪六、七十年代以来&＃xff0c;计算机科学技术的飞速发展使得存储或获得海量数据成为

可能&＃xff0c;

数据存储成本的不断降低则加速了这一过程的发展。

因为数据生成和积聚的量超过了

分析人员所能分析的数量&＃xff0c;

建立一套方法来从数据库中自动分析数据和进行知识发现将是一

种必然性选择。

对这一问题&＃xff0c;

人们进行了有益的探索&＃xff0c;

其结果是导致了处理大型或海量数据

的数据挖掘技术的产生和发展。

数据挖掘从机器学习、

统计学、

数据库等多学科领域汲取营养&＃xff0c;

发展了一套适合自身特

点的数据挖掘方法和数据处理手段&＃xff0c;

用于知识学习、

信息提取和结果可视化展现。

数据挖掘

任务建模过程中&＃xff0c;在考虑模型拟合效果、任务系统运行时间和数据存储空间限制的前提下&＃xff0c;

对某些数据集而言&＃xff0c;包含所有或更多的属性

变量的模型并不一定是最适合、最满意的

(

或最

优的

)

模型。这是因为数据集中存在和学习任务不相关的属性

变量&＃xff0c;或者是高度相关而冗余

属性

变量&＃xff0c;它们会导致无效的归纳和降低学习的效率。最近的研究表明

【

】

&＃xff0c;简单最近邻算

法

(KNN)

对不相关属性非常敏感——它的样本复杂度

(

达到给定精度所需最低样本量

)

与冗余

属性呈指数性增长。决策树算法&＃xff0c;如

C4.5

&＃xff0c;有时可能过度拟合数据&＃xff0c;从而获得较大的树&＃xff0c;

在许多情形下&＃xff0c;去掉不相关或冗余的信息可使得

C4.5

产生更小的树。朴素贝叶斯分类算法

由于其给定类的属性独立性假设&＃xff0c;冗余属性的存在也可能影响其分类表现。

大量的实证研究结果表明&＃xff0c;属性选择在提高学习任务的效率、任务预测的精度和增强、

获得规则的可理解性等方面是较有成效的。

由此&＃xff0c;

可知在数据挖掘任务建模过程中&＃xff0c;

通过一

定的方式和方法去掉不相关或冗余属性&＃xff0c;

进行属性变量选择往往可以获得更令人满意的知识

学习模型。这也就引发并促进了有关属性选择问题的研究和讨论。

属性选择概述

2.1

属性选择的定义

在过去的十多年&＃xff0c;

属性选择己经在机器学习、

模式识别中关于数据的预处理部分变得非

常重要&＃xff0c;特别是对于一些高维的数据&＃xff0c;如基因数据、代谢数据、质谱数据等。从理论上讲&＃xff0c;

属性数目越多&＃xff0c;越有利于目标的分类&＃xff0c;但实际情况并非如此。在样本数目有限的情况下&＃xff0c;利

用很多属性进行分类器设计&＃xff0c;

无论是从计算的复杂程度考虑&＃xff0c;

还是分类器性能都是不适宜的。

同时样本的属性通常可分为

种类型&＃xff0c;即有效属性&＃xff0c;噪音属性&＃xff0c;问题无关属性和冗余属性。

其中有效属性是指对学习算法有积极效果的属性&＃xff0c;

噪音属性会对学习算法造成不良影响&＃xff0c;

问

题无关属性指与学习算法无关的属性&＃xff0c;

而冗余属性指包含分类有关的信息&＃xff0c;

但在己有的属性

集中添加或删除该属性并不会影响学习算法性能的属性。

对于特定的任务来说&＃xff0c;

噪音属性的存在容易使分类算法得出错误的结果&＃xff0c;

导致错误分类

;

冗余和问题无关属性的存在会降低算法的性能。

人们通常通过属性选择或提取来去掉冗余和

噪音属性&＃xff0c;

这是降低复杂度和提高分类精度的有效途径。

属性选择在减少冗余不相关属性的

同时&＃xff0c;往往也可以&＃xff1a;

(1)

减少获取数据的成本&＃xff1b;

(2)

获得更易理解和解释的模型&＃xff1b;

(3)

提高数据

挖掘归纳学习的速度和效率&＃xff1b;

(4)

提高分类的精度&＃xff1b;

(5)

降低或避免维度灾难&＃xff1b;

(6)

更好地形成

结构化知识。

推荐阅读

mysql
解决getallheaders函数导致的500错误及8种服务器性能优化策略

本文探讨了解决getallheaders函数引起的服务器500错误的方法，并介绍八种有效的服务器性能优化技术，包括内存数据库的应用、Spark RDD的使用、缓存策略的实施、SSD的引入、数据库优化、IO模型的选择、多核处理策略以及分布式部署方案。 ... [详细]

蜡笔小新 2024-12-03 18:26:35
数据库
数据管理权威指南：《DAMA-DMBOK2 数据管理知识体系》

本书提供了全面的数据管理职能、术语和最佳实践方法的标准行业解释，构建了数据管理的总体框架，为数据管理的发展奠定了坚实的理论基础。适合各类数据管理专业人士和相关领域的从业人员。 ... [详细]

蜡笔小新 2024-12-27 18:29:55
数据库
智慧城市建设现状及未来趋势

随着新基建政策的推进及‘十四五’规划的实施，我国正步入以5G、人工智能等先进技术引领的智慧经济新时代。规划强调加速数字化转型，促进数字政府建设，新基建政策亦倡导城市基础设施的全面数字化。本文探讨了智慧城市的发展背景、全球及国内进展、市场规模、架构设计，以及百度、阿里、腾讯、华为等领军企业在该领域的布局策略。 ... [详细]

蜡笔小新 2024-12-16 16:43:21
数据库
Python库在GIS与三维可视化中的应用

Python库极大地扩展了GIS的能力，使其能够执行复杂的数据科学任务。本文探讨了几个关键的Python库，这些库不仅增强了GIS的核心功能，还推动了地理信息系统向更高层次的应用发展。 ... [详细]

蜡笔小新 2024-12-13 17:24:24
数据库
机器学习与数据挖掘：基于Filter的特征选择——聚焦法

聚焦法是一种采用穷尽搜索策略的Filter型特征选择方法，其核心在于寻找能有效区分不同样本的最小特征集合。此方法的评估标准主要依赖于一致性测量。 ... [详细]

蜡笔小新 2024-12-11 15:12:58
数据库
智能全栈云风暴：AI引领的企业转型之路

当提及AI，人们脑海中常浮现的是天才少年独自编写算法，瞬间点亮机器人的双眼。然而，真正的AI革命正由大型企业和机构推动，它们利用全栈全场景AI技术，实现数字化与智能化的深度转型。 ... [详细]

蜡笔小新 2024-12-09 17:35:15
数据库
数据挖掘领域的十大重要算法解析

本文深入探讨了数据挖掘领域内的十个经典算法，包括但不限于C4.5决策树、K-Means聚类、支持向量机等。这些算法不仅在理论上有深厚的数学基础，也在实践中展现出强大的应用价值。 ... [详细]

蜡笔小新 2024-12-07 18:26:46
数据库
致信息安全爱好者的成长指南

本文旨在为信息安全爱好者提供一份详尽的成长指南，涵盖从学习心态调整到具体技能提升的各个方面。 ... [详细]

蜡笔小新 2024-12-03 19:44:46
数据库
数据挖掘技术及其应用流程综述

本文探讨了数据挖掘技术的发展及其在大数据环境下的应用流程，重点介绍了统计学、在线分析处理、信息检索、机器学习、专家系统和模式识别等领域的最新进展。 ... [详细]

蜡笔小新 2024-12-03 18:32:10
数据库
深入理解OAuth认证机制

本文介绍了OAuth认证协议的核心概念及其工作原理。OAuth是一种开放标准，旨在为第三方应用提供安全的用户资源访问授权，同时确保用户的账户信息（如用户名和密码）不会暴露给第三方。 ... [详细]

蜡笔小新 2024-12-28 12:07:46
数据库
精选Python视频教程：来自国际顶尖讲师的全面指南（附中文字幕）

本文将介绍由密歇根大学Charles Severance教授主讲的顶级Python入门系列课程，该课程广受好评，被誉为Python学习的最佳选择。通过生动有趣的教学方式，帮助初学者轻松掌握编程基础。 ... [详细]

蜡笔小新 2024-12-27 15:14:33
join
毕业设计：基于机器学习与深度学习的垃圾邮件（短信）分类算法实现

本文详细介绍了如何使用机器学习和深度学习技术对垃圾邮件和短信进行分类。内容涵盖从数据集介绍、预处理、特征提取到模型训练与评估的完整流程，并提供了具体的代码示例和实验结果。 ... [详细]

蜡笔小新 2024-12-25 17:38:50
join
广义线性模型（Generalized Linear Models, GLM）

　　上一篇博客中我们说到线性回归和逻辑回归之间隐隐约约好像有什么关系，到底是什么关系呢？我们就来探讨一下吧。（这一篇数学推导占了大多数，可能看起来会略有枯燥，但这本身就是一个把之前算法 ... [详细]

蜡笔小新 2024-12-24 19:32:12
数据库
数据集成策略：ETL与ELT架构对比及工具选择

随着企业信息化的深入发展，‘数据孤岛’问题日益突出，阻碍了数据的有效利用与整合。本文探讨了如何通过构建数据仓库解决这一问题，重点分析了ETL与ELT两种数据处理架构的特点及适用场景，为企业选择合适的ETL工具提供了指导。 ... [详细]

蜡笔小新 2024-12-05 17:37:33
sql
掌握Python岗位，你需要了解的关键技能

最近，在社交平台脉脉上，一条关于Python岗位的消息引起了广泛关注。本文将探讨Python岗位的实际价值，并深入解析阿里巴巴等大公司在面试Python开发者时常见的问题。 ... [详细]

蜡笔小新 2024-12-04 16:31:13

oyy8610406

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章