机器学习中的标准化缩放、最小-最大缩放及鲁棒缩放技术解析

作者：雅丽猫儿 | 来源：互联网 | 2024-11-05 15:46

标准缩放器、最小最大缩放器和鲁棒缩放器技术–ML原文:https://www . geesforgeks . org/stand

标准缩放器、最小最大缩放器和鲁棒缩放器技术–ML

原文:https://www . geesforgeks . org/standard scaler-minmax scaler-and-robust scaler-technologies-ml/

标准标度遵循标准正态分布。因此，它使均值= 0 并将数据换算成单位方差。
最小最大缩放器缩放范围【0，1】内的所有数据特征，如果数据集中有负值，则缩放范围【-1，1】内的所有数据特征。此缩放会压缩窄范围【0，0.005】内的所有内联。
在存在异常值的情况下，由于在计算经验均值和标准差时异常值的影响，StandardScaler 不能保证特征尺度的平衡。这导致特征值范围的缩小。
通过使用鲁棒缩放器()，我们可以去除异常值，然后使用标准缩放器或最小最大缩放器对数据集进行预处理。
RobustScaler 的工作原理:
类
sklearn . preference . RobustScaler(
with _ centering = True，
with_scaling=True，
分位数 _range=(25.0，75.0)
copy = True，
)
它使用对异常值具有鲁棒性的统计数据来缩放特征。此方法移除中间值，并缩放第一个四分位数和第三个四分位数之间的数据。即在第 25 分位数和第 75 分位数范围之间。该范围也称为四分位数范围。
然后存储中位数和四分位数范围，以便在将来使用转换方法的数据中使用。如果数据集中存在异常值，则中位数和四分位数范围提供更好的结果，并优于样本均值和方差。
RobustScaler 使用四分位数范围，因此对异常值具有鲁棒性。因此它的公式如下:
$\dfrac{x_i - Q_1(x)}{Q_3(x) - Q_1(x)}$
代码:StandardScaler、MinMaxScaler 和 RobustScaler 的比较。T43】

Python 3

# Importing libraries import pandas as pd import numpy as np from sklearn import preprocessing import matplotlib import matplotlib.pyplot as plt import seaborn as sns % matplotlib inline matplotlib.style.use('fivethirtyeight') # data x = pd.DataFrame({ # Distribution with lower outliers 'x1': np.concatenate([np.random.normal(20, 2, 1000), np.random.normal(1, 2, 25)]), # Distribution with higher outliers 'x2': np.concatenate([np.random.normal(30, 2, 1000), np.random.normal(50, 2, 25)]), }) np.random.normal scaler = preprocessing.RobustScaler() robust_df = scaler.fit_transform(x) robust_df = pd.DataFrame(robust_df, columns =['x1', 'x2']) scaler = preprocessing.StandardScaler() standard_df = scaler.fit_transform(x) standard_df = pd.DataFrame(standard_df, columns =['x1', 'x2']) scaler = preprocessing.MinMaxScaler() minmax_df = scaler.fit_transform(x) minmax_df = pd.DataFrame(minmax_df, columns =['x1', 'x2']) fig, (ax1, ax2, ax3, ax4) = plt.subplots(ncols = 4, figsize =(20, 5)) ax1.set_title('Before Scaling') sns.kdeplot(x['x1'], ax = ax1, color ='r') sns.kdeplot(x['x2'], ax = ax1, color ='b') ax2.set_title('After Robust Scaling') sns.kdeplot(robust_df['x1'], ax = ax2, color ='red') sns.kdeplot(robust_df['x2'], ax = ax2, color ='blue') ax3.set_title('After Standard Scaling') sns.kdeplot(standard_df['x1'], ax = ax3, color ='black') sns.kdeplot(standard_df['x2'], ax = ax3, color ='g') ax4.set_title('After Min-Max Scaling') sns.kdeplot(minmax_df['x1'], ax = ax4, color ='black') sns.kdeplot(minmax_df['x2'], ax = ax4, color ='g') plt.show()

输出:

output

鲁棒缩放器参数:

带 _ 居中:布尔:默认为真。如果该值为真，则数据在缩放前居中。当它应用于稀疏矩阵时，转换将引发异常，因为对它们进行中心化需要构建一个密集的矩阵，该矩阵通常太大而不适合内存。

with_scaling: boolean: 默认情况下也设置为 True。它将数据缩放到四分位数范围。

分位数 _ 范围:元组(q_min，q_max)，0.0分位数范围用于计算比例。默认情况下，其设置如下。默认值: (25.0，75.0) =(第一分位数，第三分位数)= IQR。

复制:布尔是可选参数。默认情况下，它为真。如果输入已经是 NumPy 数组或 scipy.sparse CSC 矩阵，并且如果轴= 1 ，通过将该参数设置为 False 来避免复制，而是执行就地行规范化。

属性:

center_:浮动数组:训练集中每个特征的中值。

scale_:浮动数组:训练集中特征的缩放四分位数范围。

机器学习

https

压缩

range

copy

python

import

process

io

写下你的评论吧 !

吐个槽吧,看都看了

会员登录 | 用户注册

推荐阅读

ip
利用决策树预测NBA比赛胜负的Python数据挖掘实践

本文通过使用2013-14赛季NBA赛程与结果数据集以及2013年NBA排名数据，结合《Python数据挖掘入门与实践》一书中的方法，展示如何应用决策树算法进行比赛胜负预测。我们将详细讲解数据预处理、特征工程及模型评估等关键步骤。 ... [详细]

蜡笔小新   2024-12-23 09:07:40

int
从 .NET 转 Java 的自学之路：IO 流基础篇

本文详细介绍了 Java 中的 IO 流，包括字节流和字符流的基本概念及其操作方式。探讨了如何处理不同类型的文件数据，并结合编码机制确保字符数据的正确读写。同时，文中还涵盖了装饰设计模式的应用，以及多种常见的 IO 操作实例。 ... [详细]

蜡笔小新   2024-12-26 17:37:25

object
React 表单验证：构建无第三方库的表单处理机制

本文将深入探讨如何在不依赖第三方库的情况下，使用 React 处理表单输入和验证。我们将介绍一种高效且灵活的方法，涵盖表单提交、输入验证及错误处理等关键功能。 ... [详细]

蜡笔小新   2024-12-24 15:48:48

ip
优化深度神经网络在低性能硬件上的运行

尽管深度学习带来了广泛的应用前景，其训练通常需要强大的计算资源。然而，并非所有开发者都能负担得起高性能服务器或专用硬件。本文探讨了如何在有限的硬件条件下（如ARM CPU）高效运行深度神经网络，特别是通过选择合适的工具和框架来加速模型推理。 ... [详细]

蜡笔小新   2024-12-24 08:48:32

ip
深入解析Java枚举及其高级特性

本文详细介绍了Java枚举的概念、语法、使用规则和应用场景，并探讨了其在实际编程中的高级应用。所有相关内容已收录于GitHub仓库[JavaLearningmanual](https://github.com/Ziphtracks/JavaLearningmanual)，欢迎Star并持续关注。 ... [详细]

蜡笔小新   2024-12-22 14:46:52

ip
优化C++项目中的JSON处理：选择高性能的RapidJSON库

在高并发需求的C++项目中，我们最初选择了JsonCpp进行JSON解析和序列化。然而，在处理大数据量时，JsonCpp频繁抛出异常，尤其是在多线程环境下问题更为突出。通过分析发现，旧版本的JsonCpp存在多线程安全性和性能瓶颈。经过评估，我们最终选择了RapidJSON作为替代方案，并实现了显著的性能提升。 ... [详细]

蜡笔小新   2024-12-21 18:13:59

int
python的交互模式怎么输出名文汉字[python常见问题]

在命令行模式下敲命令python，就看到类似如下的一堆文本输出，然后就进入到Python交互模式，它的提示符是>>>，此时我们可以使用print() ... [详细]

蜡笔小新   2024-12-27 21:32:05

ip
Dockerfile 编写与 Docker 网络配置详解

本文详细介绍了 Dockerfile 的编写方法及其在网络配置中的应用，涵盖基础指令、镜像构建与发布流程，并深入探讨了 Docker 的默认网络、容器互联及自定义网络的实现。 ... [详细]

蜡笔小新   2024-12-27 17:31:41

int
深入探讨CPU虚拟化与KVM内存管理

本文详细介绍了现代服务器架构中的CPU虚拟化技术，包括SMP、NUMA和MPP三种多处理器结构，并深入探讨了KVM的内存虚拟化机制。通过对比不同架构的特点和应用场景，帮助读者理解如何选择最适合的架构以优化性能。 ... [详细]

蜡笔小新   2024-12-25 19:15:51

ip
GDI基础介绍之几何绘图

使用GDI的一些AIP函数我们可以轻易的绘制出简 ... [详细]

蜡笔小新   2024-12-25 18:23:37

ip
深入解析 Spring Security 用户认证机制

本文将详细介绍 Spring Security 中用户登录认证的核心流程，重点分析 AbstractAuthenticationProcessingFilter 和 AuthenticationManager 的工作原理。通过理解这些组件的实现，读者可以更好地掌握 Spring Security 的认证机制。 ... [详细]

蜡笔小新   2024-12-25 16:00:21

ip
优化Windows系统以提升DAW性能

配置Windows操作系统以确保DAW（数字音频工作站）硬件和软件的高效运行可能是一个复杂且令人沮丧的过程。本文提供了一系列专业建议，帮助你优化Windows系统，确保录音和音频处理的流畅性。 ... [详细]

蜡笔小新   2024-12-25 09:41:14

ip
CentOS系统安装与配置常见问题及解决方案

本文详细介绍了在CentOS系统安装过程中遇到的常见问题及其解决方案，包括Vi编辑器的操作、图形界面的安装、网络连接故障排除等。通过本文，读者可以更好地理解和解决这些常见问题。 ... [详细]

蜡笔小新   2024-12-23 20:57:23

ip
Windows 7 64位系统下Redis的安装与PHP Redis扩展配置

本文详细介绍了在Windows 7 64位操作系统中安装Redis以及配置PHP Redis扩展的方法，包括下载、安装和基本使用步骤。适合对Redis和PHP集成感兴趣的开发人员参考。 ... [详细]

蜡笔小新   2024-12-22 23:56:09

ip
采用IKE方式建立IPsec安全隧道

一、【组网和实验环境】按如上的接口ip先作配置，再作ipsec的相关配置，配置文本见文章最后本文实验采用的交换机是H3C模拟器，下载地址如 ... [详细]

蜡笔小新   2024-12-22 20:24:15

雅丽猫儿

这个家伙很懒，什么也没留下！

Tags | 热门标签

settings

replace

fetch

version

client

post

rsa

integer

shell

object

go

netty

cookie

dockerfile

email

command

testing

char

javascript

eval

lua

timestamp

php7

uml

bitmap

metadata

schema

int

scala

ip

RankList | 热门文章

1OpenVswitch_Openvswitchovs

2Java改写重构第2版第一个示例

3是否有MySql的Profiler等效文件？

4fastjson判空_Spring boot FastJson 返回JSON数据删除了NULL空字段解决办法

5ros:cartographer（二）整体介绍

6完美解决Macbook安装win 10调节亮度的问题

7mysql5.7忘记密码三部曲(简单粗暴通俗易懂)

8简单DVD管理java练习题

9【转】IOS面试题

10linux系统下安装dovecot方法

115分钟攻克NDK开发中javah不能反编译的问题

12如何使用CorelDRAW中的钢笔工具抠图使用CorelDRAW中的钢笔工具抠图的教程

13如何判断电容好坏？

14Windows搭建Python2.7环境

15郑轻oj1042