当前位置: 开发笔记 > 编程语言 > 正文

【机器学习】归一化数值

作者：喂╲偶稀飯妳 | 来源：互联网 | 2023-09-16 21:19

1.为什么要归一化？表示一个事物有不同的维度｛即：属性｝，每个属性的取值范围不同，导致计算时

1. 为什么要归一化？

表示一个事物有不同的维度｛即：属性｝，每个属性的取值范围不同，导致计算时此属性占用的权重不同，即数据的量纲不同，量纲小的数据容易受到量纲大的数据影响。

如：

计算两个人的差异：

diff = (A.身高-B.身高)2 + (A.年龄-B.年龄)2 + (A.收入-B.收入)2

= (1.75-1.81)2 + (41-26)2 + (40000-10000)2

= 0.0036 + 225 + 900000000

距离 = diff1/2 = 30000.00375

问题来了，看这些属性，发现收入占用的权重太高，身高和年龄占用的权重相对较低，怎么弱化收入占用的权重呢？

我们把身高，年龄和收入这些属性映射到一个单位区间（0，1）中。

图中，根据梯形的特点可以得到如下公式

(1 – 0) / (max – min) = (归一化值 – 0) / (属性值 – min)

所以，归一化值 = (属性值 – min) / (max – min)

备注：

这种方法的优点是：可以把数据压缩到0-1空间内，但是对量纲大的数据压缩比例比较大。

假如3个属性最大和最小值如下:

经过归一化操作后：

= (1.75-1.2)/(2.1-1.2)

= 0.55 / 0.9

= 0.61

= (1.81-1.2)/(2.1-1.2)

= 0.61 / 0.9

= 0.678

= (41-16)/(101-16)

= 25 / 85

= 0.294

= (26-16)/(101-16)

= 20 / 85

= 0.235

= (40000-500)/(100000-500)

= 39500 / 99500

= 0.397

= (10000-500)/(100000-500)

= 19500 / 99500

= 0.196

使用归一化值计算两个人的差异：

diff = (A.身高归一化值-B.身高归一化值)2 + (A.年龄归一化值-B.年龄归一化值)2 + (A.收入归一化值-B.收入归一化值)2

= (0.61-0.678)2 + (0.294-0.235)2 + (0.397-0.196)2

= 0.004624 + 0.003481 + 0.040401

计算的值可以看出，3个属性占用的权重在一个数量级上，每个属性都不会独大。

距离 = diff1/2 = 0.2202

推荐阅读

io
从0到1搭建大数据平台

从0到1搭建大数据平台 ... [详细]

蜡笔小新 2024-11-12 15:26:03
io
网络爬虫的规范与限制

本文探讨了网络爬虫引发的问题及其解决方案，重点介绍了Robots协议的作用和使用方法，旨在为网络爬虫的合理使用提供指导。 ... [详细]

蜡笔小新 2024-11-13 15:45:41
io
JUC（三）：深入解析AQS

本文详细介绍了Java并发工具包中的核心类AQS（AbstractQueuedSynchronizer），包括其基本概念、数据结构、源码分析及核心方法的实现。 ... [详细]

蜡笔小新 2024-11-13 15:40:34
function
Laravel 开发技巧：如何为集合中的每个元素添加递增编号

本文将介绍如何在 Laravel 集合中为每个数组元素添加递增的编号，帮助开发者更好地管理和操作数据。 ... [详细]

蜡笔小新 2024-11-13 14:56:08
io
c语言拓展数学函数库,c语言数学库

C语言中全部可用的数学函数有哪些？2．longlabs(longn);求长整型数的绝对值。3．doublefabs(doublex);求实数的绝对值。4．doublefloor(d ... [详细]

蜡笔小新 2024-11-13 14:46:34
io
Spring 切面配置中的切点表达式详解

本文介绍了如何在Spring框架中使用AspectJ风格的切面配置，详细解释了切点表达式的语法和常见示例，帮助开发者更好地理解和应用Spring AOP。 ... [详细]

蜡笔小新 2024-11-13 14:07:16
io
Spring – Bean Life Cycle

Spring – Bean Life Cycle ... [详细]

蜡笔小新 2024-11-13 13:24:40
int
[c++基础]STL

cppfig15_10.cppincludeincludeusingnamespacestd;templatevoidprintVector(constvector&integer ... [详细]

蜡笔小新 2024-11-13 13:22:43
io
双指针法高效解决七道链表问题

双指针法在链表问题中应用广泛，能够高效解决多种经典问题，如合并两个有序链表、合并多个有序链表、查找倒数第k个节点等。本文将详细介绍这些应用场景及其解决方案。 ... [详细]

蜡笔小新 2024-11-13 13:16:55
hash
探讨Redis的最佳应用场景

本文将深入探讨Redis在不同场景下的最佳应用，包括其优势和适用范围。 ... [详细]

蜡笔小新 2024-11-13 12:35:53
php
Redis 脑裂现象及其应对策略

本文探讨了 Redis 集群中的脑裂现象及其解决方案，包括脑裂的成因、影响以及如何通过配置项防止脑裂的发生。 ... [详细]

蜡笔小新 2024-11-13 12:18:46
php
国联物流在线：专业大件运输与物流服务

国联物流是一家由国家出资设立的国有企业，全称为湖南国联物流有限公司，成立于2001年3月，前身为株洲国联货运部。公司现办公地点位于湖南长沙，专注于大件运输、药品配送及第三方物流服务。 ... [详细]

蜡笔小新 2024-11-13 11:44:22
char
深入解析HTML5字符集属性：charset与defaultCharset

本文将详细介绍HTML5中新增的字符集属性charset和defaultCharset，帮助开发者更好地理解和应用这些属性，以确保网页在不同环境下的正确显示。 ... [详细]

蜡笔小新 2024-11-13 11:09:46
get
Android开发技巧：使用IconFont减少应用体积

本文介绍如何在Android应用中使用IconFont来显示图标，从而有效减少应用的体积。 ... [详细]

蜡笔小新 2024-11-12 12:07:42
int
开发日志：高效图片压缩与上传技术解析

开发日志：高效图片压缩与上传技术解析 ... [详细]

蜡笔小新 2024-11-11 19:33:51

喂╲偶稀飯妳

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章