当前位置: 开发笔记 > 人工智能 > 正文

数据归一化、标准化和去中心化

作者：2449978963潇潇 | 来源：互联网 | 2023-06-17 14:54

数据预处理，一般有数据归一化、标准化和去中心化。归一化将数据映射到[0,1]或[-1,1]区间范围内，不同特征的量纲不同，值范围大小不同，存在奇异值，对训练有影响。标准化将数据映射

数据预处理，一般有数据归一化、标准化和去中心化。

归一化

将数据映射到[0,1]或[-1,1]区间范围内，不同特征的量纲不同，值范围大小不同，存在奇异值，对训练有影响。

标准化

将数据映射到满足标准正态分布的范围内，使数据满足均值为0，标准差为1。标准化同样可以消除不同特征的量纲。

去中心化

使数据满足均值为0，但对标准差没有要求。

每种方法对应的使用场景

1.若对数据的范围没有限定要求，则选择标准化进行数据预处理
2.若要求数据在某个范围内取值，则采用归一化。
3若数据不存在极端的极大极小值时，采用归一化。
4.若数据存在较多的异常值和噪音，采用标准化。

为什么需要对数据进行归一化或标准化

归一化/标准化可以使模型学习更快，少走弯路
在梯度下降过程中，不同特征值差异较大，则损失函数的等高线是个椭圆，因此梯度方向是拐来拐去，进行归一化/标准化后，等高线就变成近似圆，梯度方向比较平缓，少走弯路。
《数据归一化、标准化和去中心化》
避免数值问题
输入值过大时，容易出现数值问题，如2344&＃215;0.0002 与0.2344&＃215;2在计算机中算出来是不相等，而实际应该是相等的。
神经网络的需要

参考：https://www.jianshu.com/p/95a8f035c86c

推荐阅读

算法
Coursera ML 机器学习

2019独角兽企业重金招聘Python工程师标准线性回归算法计算过程CostFunction梯度下降算法多变量回归![选择特征](https:static.oschina.n ... [详细]

蜡笔小新 2024-12-22 16:09:09
神经网络
资源推荐 | TensorFlow官方中文教程助力英语非母语者学习

来源：机器之心。本文详细介绍了TensorFlow官方提供的中文版教程和指南，帮助开发者更好地理解和应用这一强大的开源机器学习平台。 ... [详细]

蜡笔小新 2024-12-28 09:00:51
算法
深入解析：手把手教你构建决策树算法

本文详细介绍了机器学习中广泛应用的决策树算法，通过天气数据集的实例演示了ID3和CART算法的手动推导过程。文章长度约2000字，建议阅读时间5分钟。 ... [详细]

蜡笔小新 2024-12-27 13:44:59
算法
机器学习中的相似度度量与模型优化

本文探讨了机器学习中常见的相似度度量方法，包括余弦相似度、欧氏距离和马氏距离，并详细介绍了如何通过选择合适的模型复杂度和正则化来提高模型的泛化能力。此外，文章还涵盖了模型评估的各种方法和指标，以及不同分类器的工作原理和应用场景。 ... [详细]

蜡笔小新 2024-12-26 18:10:02
算法
毕业设计：基于机器学习与深度学习的垃圾邮件（短信）分类算法实现

本文详细介绍了如何使用机器学习和深度学习技术对垃圾邮件和短信进行分类。内容涵盖从数据集介绍、预处理、特征提取到模型训练与评估的完整流程，并提供了具体的代码示例和实验结果。 ... [详细]

蜡笔小新 2024-12-25 17:38:50
算法
信用评分卡的Python实现与评估

本文介绍如何使用Python构建和评估信用评分卡模型，涵盖数据预处理、模型训练及验证指标选择。附带详细代码示例和视频教程链接。 ... [详细]

蜡笔小新 2024-12-25 10:16:23
神经网络
优化深度神经网络在低性能硬件上的运行

尽管深度学习带来了广泛的应用前景，其训练通常需要强大的计算资源。然而，并非所有开发者都能负担得起高性能服务器或专用硬件。本文探讨了如何在有限的硬件条件下（如ARM CPU）高效运行深度神经网络，特别是通过选择合适的工具和框架来加速模型推理。 ... [详细]

蜡笔小新 2024-12-24 08:48:32
算法
机器学习核心概念与技术

本文系统梳理了机器学习的关键知识点，涵盖模型评估、正则化、线性模型、支持向量机、决策树及集成学习等内容，并深入探讨了各算法的原理和应用场景。 ... [详细]

蜡笔小新 2024-12-22 09:15:30
算法
Python 工具推荐 | PyHubWeekly 第二十一期：提升命令行体验的五大工具

本期 PyHubWeekly 为大家精选了 GitHub 上五个优秀的 Python 工具，涵盖金融数据可视化、终端美化、国际化支持、图像增强和远程 Shell 环境配置。欢迎关注并参与项目。 ... [详细]

蜡笔小新 2024-12-21 14:45:11
神经网络
深入浅出TensorFlow数据读写机制

本文详细介绍TensorFlow中的数据读写操作，包括TFRecord文件的创建与读取，以及数据集（dataset）的相关概念和使用方法。 ... [详细]

蜡笔小新 2024-12-19 16:23:17
算法
LambdaMART算法详解

本文详细介绍了LambdaMART算法的背景、原理及其在信息检索中的应用。首先回顾了LambdaMART的发展历程，包括其前身RankNet和LambdaRank，然后深入探讨了LambdaMART如何结合梯度提升决策树（GBDT）和LambdaRank来优化排序问题。 ... [详细]

蜡笔小新 2024-12-18 12:30:35
算法
LeetCode 991：故障计算器的最优解法

探讨一个显示数字的故障计算器，它支持两种操作：将当前数字乘以2或减去1。本文将详细介绍如何用最少的操作次数将初始值X转换为目标值Y。 ... [详细]

蜡笔小新 2024-12-27 14:34:44
算法
理解感受野与锚框在目标检测中的应用

本文探讨了卷积神经网络（CNN）中感受野的概念及其与锚框（anchor box）的关系。感受野定义了特征图上每个像素点对应的输入图像区域大小，而锚框则是在每个像素中心生成的多个不同尺寸和宽高比的边界框。两者在目标检测任务中起到关键作用。 ... [详细]

蜡笔小新 2024-12-27 12:03:44
算法
寻找满足特定条件的整数N的最大和(a+b)

本文探讨了如何在给定整数N的情况下，找到两个不同的整数a和b，使得它们的和最大，并且满足特定的数学条件。 ... [详细]

蜡笔小新 2024-12-26 19:26:18
nlp
从零构建递归神经网络：仅用NumPy实现

尽管使用TensorFlow和PyTorch等成熟框架可以显著降低实现递归神经网络（RNN）的门槛，但对于初学者来说，理解其底层原理至关重要。本文将引导您使用NumPy从头构建一个用于自然语言处理（NLP）的RNN模型。 ... [详细]

蜡笔小新 2024-12-26 11:29:15

2449978963潇潇

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章