热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

数据预处理方法

原文:https:blog.csdn.netAnne999articledetails69261592?locationNum3&fps1数据预处理有四个任务,数据清洗、数据集成、

原文:https://blog.csdn.net/Anne999/article/details/69261592?locatiOnNum=3&fps=1

数据预处理有四个任务,数据清洗、数据集成、数据 变换和数据规约。

一、数据清洗

1.缺失值处理

处理缺失值分为三类:删除记录、数据补差和不处理。

数据补插方法:

1. 补插均值/中位数/众数

2. 使用固定值

3. 最近邻补插

4. 回归方法

5. 插值法

插值法介绍:

(1)拉格朗日插值法

(2)牛顿插值法 (需要另写,具有承袭性和易于变动节点的特点)

(3)Hermite插值

(4)分段插值

(5)样条插值
2.异常值处理

(1)删除有异常值的记录

(2)视为缺失值

(3)平均值修正

(4)不处理

要分析异常值的原因,再决定取舍。

二、数据集成

将多个数据源放在一个统一的数据仓库中。

1.实体识别

同名异义

异名同义

单位不统一

2.冗余属性识别

同一属性多次出现

同一属性命名不一致

三、数据变换

对数据进行规范化处理
1.简单函数变换

原始数据进行数学函数变换,平方、开方、取对数、差分运算。用来将不具有正太分布的数据变换成具有正太性的数据。

时间序列分析中,对数变换或者差分运算可以将非平稳序列转换为平稳序列。
2.规范化

消除指标间量纲影响

(1)最小-最大规范化

(2)零-均值规范化

(3)小数定标规范化
3.连续属性离散化

将连续属性变为分类属性,即连续属性离散化。数据离散化本质上通过断点集合将连续的属性空间划分为若干区,最后用不同的符号或者整数值代表落在每个子区间中的数据。离散化涉及两个子任务:确定分类以及如何将连续属性值映射到这些分类值。

(1)等宽法

(2)等频法

(3)基于聚类分析的方法
4.属性构造

利用已有的属性构造新的属性,并加到现有的属性中。
5.小波变换

非平稳序列的分析手段。

基于小波变换的特征提取方法:

(1)基于小波变换的多尺度空间能量分布特征提取法

(2)基于小波变换的多尺度空间的模极大特征值提取法

(3)基于小波变换的特征提取方法

(4)基于适应性小波神经网络的特征提取方法

四、数据规约

降低无效,错误数据对建模的影响,提高建模的准确性。

少量且代表性的数据将大幅缩减数据挖掘所需时间。

降低存储数据成本。
1.属性规约

(1)合并属性

(2)逐步向前选择

(3)逐步向后删除

(4)决策树归纳

(5)主成分分析

2.数值规约

通过选择替代的、较小的数据来减少数据量,包含有参数方法和无参数方法两类;有参数方法使用模型评估数据,不需要存放真实数据,只需要存放参数,例如回归、对数线性模型。无参数需要数据,例如直方图、聚类、抽样。



推荐阅读
  • 自然语言处理(NLP)——LDA模型:对电商购物评论进行情感分析
    目录一、2020数学建模美赛C题简介需求评价内容提供数据二、解题思路三、LDA简介四、代码实现1.数据预处理1.1剔除无用信息1.1.1剔除掉不需要的列1.1.2找出无效评论并剔除 ... [详细]
  • Vision Transformer (ViT) 和 DETR 深度解析
    本文详细介绍了 Vision Transformer (ViT) 和 DETR 的工作原理,并提供了相关的代码实现和参考资料。通过观看教学视频和阅读博客,对 ViT 的全流程进行了详细的笔记整理,包括代码详解和关键概念的解释。 ... [详细]
  • 从0到1搭建大数据平台
    从0到1搭建大数据平台 ... [详细]
  • Python 3 Scrapy 框架执行流程详解
    本文详细介绍了如何在 Python 3 环境下安装和使用 Scrapy 框架,包括常用命令和执行流程。Scrapy 是一个强大的 Web 抓取框架,适用于数据挖掘、监控和自动化测试等多种场景。 ... [详细]
  • 在机器学习领域,深入探讨了概率论与数理统计的基础知识,特别是这些理论在数据挖掘中的应用。文章重点分析了偏差(Bias)与方差(Variance)之间的平衡问题,强调了方差反映了不同训练模型之间的差异,例如在K折交叉验证中,不同模型之间的性能差异显著。此外,还讨论了如何通过优化模型选择和参数调整来有效控制这一平衡,以提高模型的泛化能力。 ... [详细]
  • 独家解析:深度学习泛化理论的破解之道与应用前景
    本文深入探讨了深度学习泛化理论的关键问题,通过分析现有研究和实践经验,揭示了泛化性能背后的核心机制。文章详细解析了泛化能力的影响因素,并提出了改进模型泛化性能的有效策略。此外,还展望了这些理论在实际应用中的广阔前景,为未来的研究和开发提供了宝贵的参考。 ... [详细]
  • SSAS入门指南:基础知识与核心概念解析
    ### SSAS入门指南:基础知识与核心概念解析Analysis Services 是一种专为决策支持和商业智能(BI)解决方案设计的数据引擎。该引擎能够为报告和客户端应用提供高效的分析数据,并支持在多维数据模型中构建高性能的分析应用。通过其强大的数据处理能力和灵活的数据建模功能,Analysis Services 成为了现代 BI 系统的重要组成部分。 ... [详细]
  • 能够感知你情绪状态的智能机器人即将问世 | 科技前沿观察
    本周科技前沿报道了多项重要进展,包括美国多所高校在机器人技术和自动驾驶领域的最新研究成果,以及硅谷大型企业在智能硬件和深度学习技术上的突破性进展。特别值得一提的是,一款能够感知用户情绪状态的智能机器人即将问世,为未来的人机交互带来了全新的可能性。 ... [详细]
  • 如何高效启动大数据应用之旅?
    在前一篇文章中,我探讨了大数据的定义及其与数据挖掘的区别。本文将重点介绍如何高效启动大数据应用项目,涵盖关键步骤和最佳实践,帮助读者快速踏上大数据之旅。 ... [详细]
  • 探索聚类分析中的K-Means与DBSCAN算法及其应用
    聚类分析是一种用于解决样本或特征分类问题的统计分析方法,也是数据挖掘领域的重要算法之一。本文主要探讨了K-Means和DBSCAN两种聚类算法的原理及其应用场景。K-Means算法通过迭代优化簇中心来实现数据点的划分,适用于球形分布的数据集;而DBSCAN算法则基于密度进行聚类,能够有效识别任意形状的簇,并且对噪声数据具有较好的鲁棒性。通过对这两种算法的对比分析,本文旨在为实际应用中选择合适的聚类方法提供参考。 ... [详细]
  • 在前一篇文章《Hadoop》系列之“踽踽独行”(二)中,我们详细探讨了云计算的核心概念。本章将重点转向物联网技术,全面解析其基本原理、应用场景及未来发展前景。通过深入分析物联网的架构和技术栈,我们将揭示其在智能城市、工业自动化和智能家居等领域的广泛应用潜力。此外,还将讨论物联网面临的挑战,如数据安全和隐私保护等问题,并展望其在未来技术融合中的重要角色。 ... [详细]
  • 中国学者实现 CNN 全程可视化,详尽展示每次卷积、ReLU 和池化过程 ... [详细]
  • 从2019年AI顶级会议最佳论文,探索深度学习的理论根基与前沿进展 ... [详细]
  • 近期的研究和探讨表明,人类意识的核心在于其方向性和目标导向性,而现有的现代神经网络技术尚无法完全模拟或创造这种意识。尽管如此,通过不断优化神经网络架构和算法,我们可以在特定任务中实现更高水平的智能化创新,从而推动人工智能领域的进一步发展。 ... [详细]
  • 浅层神经网络解析:本文详细探讨了两层神经网络(即一个输入层、一个隐藏层和一个输出层)的结构与工作原理。通过吴恩达教授的课程,读者将深入了解浅层神经网络的基本概念、参数初始化方法以及前向传播和反向传播的具体实现步骤。此外,文章还介绍了如何利用这些基础知识解决实际问题,并提供了丰富的实例和代码示例。 ... [详细]
author-avatar
何霞2502856453_910
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有