机器学习学习笔记降维与度量学习

作者：mr.sun | 来源：互联网 | 2023-09-23 13:17

降维与度量学习

k近邻学习(kNN)

k-Nearest Neighbor，k近邻学习是一种常用的监督学习方法。

工作机制

给定测试样本，基于某种距离度量找出训练集中与其最靠近的k个训练样本，然后基于这k个邻居的信息来进行预测，通常，在分类任务中可使用投票法（选择这k个样本中出现最多的类别标记作为预测结果），在回归任务中可使用平均法（将这k个样本的实值输出标记的平均值作为预测结果）。
另外，还可以基于距离远近进行加权或加权投票，距离越近的样本权重越大。
这里的距离，跟聚类的距离是一个距离，感觉用距离的话，更加形象一点，但有的时候转不过来弯- -。
这里将k近邻学习概括起来，就一句话，近朱者赤，近墨者黑，你跟测试样本越近，就越可能是一个类。
注意，这里要理解，测试样本就是一个样本，我们需要得出这个样本的标记（或者输出标记的平均值），就靠与ta靠近的这k个训练样本，他们决定了测试样本的标记到底是什么。
看到这里，你一下子就能知道这个算法的特点，就是根本不需要进行显式的训练，就是不需要花费时间来进行训练，有这样的特点的学习算法，就称之为懒惰学习，反之，则成为急切学习。

机器学习-学习笔记降维与度量学习
看上面这个图，从近到远，依次选择1 3 5，根据投票法进行分类，得到的结果竟然不同，所以呢，这个算法，k值很重要，起到决定性的影响。

不过我感觉，这个算法的好坏，错误率的高低，取决于距离度量算法- -。

计算错误率

机器学习-学习笔记降维与度量学习

再看一下下面这个讨论
机器学习-学习笔记降维与度量学习

根据这个，k近邻学习，如果是临时性创建分类或者回归，并且精度不要求太精准的话（用的次数越多，精度越高），可以使用，不过有一点需要注意，就是在维度高，数据量小，密度小的时候，错误率会变高。

低维嵌入

当数据的维度变高时，计算量几何增长，使得运算变得困难，不易得出结果（这种情况称为维数灾难）。

一个重要的解决途径就是降维（维数化简）。

降维

通过某种数学变换将原始高维属性空间转变为一个低维子空间，在这个子空间中样本密度大幅提高，距离计算也变得更为容易。
当然，这个降维其实也有他的理论依据，不然能随随便便降么- -
很多时候，人们或者计算机搜集到的数据样本虽然是高维的，但是跟学习任务相关的也许仅仅是某个低维分布，比如你在做图像处理的时候，我们只需要判断有几个独立的物体，这个时候只需要将图片计算阈值，进行二值处理即可，即降维（忽略颜色）。

机器学习-学习笔记降维与度量学习

多维缩放(MDS)

在现实应用中为了有效降维，往往仅需要降维后的距离与原始空间中的距离尽可能接近，而不必严格相等。

算法流程

机器学习-学习笔记降维与度量学习

主成分分析(PCA)

PCA的数学原理

算法流程

机器学习-学习笔记降维与度量学习

推荐阅读

图片
Java swing 连连看小游戏开发小系统项目源代码实训实验毕设

Javaswing连连看小游戏开发小系统项目源代码实训实验能满足学习和二次开发可以作为初学者熟悉Java的学习，作为老师阶段性学习的一个成功检验不再是单调的理解老师空泛的知识，导入 ... [详细]

蜡笔小新 2024-11-12 10:14:33
int
双指针法高效解决七道链表问题

双指针法在链表问题中应用广泛，能够高效解决多种经典问题，如合并两个有序链表、合并多个有序链表、查找倒数第k个节点等。本文将详细介绍这些应用场景及其解决方案。 ... [详细]

蜡笔小新 2024-11-13 13:16:55
default
深入解析HTML5字符集属性：charset与defaultCharset

本文将详细介绍HTML5中新增的字符集属性charset和defaultCharset，帮助开发者更好地理解和应用这些属性，以确保网页在不同环境下的正确显示。 ... [详细]

蜡笔小新 2024-11-13 11:09:46
default
Python 数据可视化实战指南

本文详细介绍如何使用 Python 进行数据可视化，涵盖从环境搭建到具体实例的全过程。 ... [详细]

蜡笔小新 2024-11-13 06:03:30
default
《程序员的数学》：一本适合初学者的数学指南

结城浩（1963年7月出生），日本资深程序员和技术作家，居住在东京武藏野市。他开发了著名的YukiWiki软件，并在杂志上发表了大量程序入门文章和技术翻译作品。结城浩著有30多本关于编程和数学的书籍，其中许多被翻译成英文和韩文。 ... [详细]

蜡笔小新 2024-11-12 21:47:50
import
使用多项式拟合分析淘宝双11销售趋势

根据天猫官方数据，2019年双11成交额达到2684亿元，再次刷新历史记录。本文通过多项式拟合方法，分析并预测未来几年的销售趋势。 ... [详细]

蜡笔小新 2024-11-12 16:57:26
int
MySQL 5.7 学习指南：SQLyog 中的主键、列属性和数据类型

本文介绍了 MySQL 5.7 中主键（Primary Key）和自增（Auto-Increment）的概念，以及如何在 SQLyog 中设置这些属性。同时，还探讨了数据类型的分类和选择，以及列属性的设置方法。 ... [详细]

蜡笔小新 2024-11-12 15:57:04
int
机器学习的持续探索与进展

在机器学习领域，深入探讨了概率论与数理统计的基础知识，特别是这些理论在数据挖掘中的应用。文章重点分析了偏差（Bias）与方差（Variance）之间的平衡问题，强调了方差反映了不同训练模型之间的差异，例如在K折交叉验证中，不同模型之间的性能差异显著。此外，还讨论了如何通过优化模型选择和参数调整来有效控制这一平衡，以提高模型的泛化能力。 ... [详细]

蜡笔小新 2024-11-11 10:27:39
less
能够感知你情绪状态的智能机器人即将问世 | 科技前沿观察

本周科技前沿报道了多项重要进展，包括美国多所高校在机器人技术和自动驾驶领域的最新研究成果，以及硅谷大型企业在智能硬件和深度学习技术上的突破性进展。特别值得一提的是，一款能够感知用户情绪状态的智能机器人即将问世，为未来的人机交互带来了全新的可能性。 ... [详细]

蜡笔小新 2024-11-05 20:45:31
less
Redis 脑裂现象及其应对策略

本文探讨了 Redis 集群中的脑裂现象及其解决方案，包括脑裂的成因、影响以及如何通过配置项防止脑裂的发生。 ... [详细]

蜡笔小新 2024-11-13 12:18:46
less
国联物流在线：专业大件运输与物流服务

国联物流是一家由国家出资设立的国有企业，全称为湖南国联物流有限公司，成立于2001年3月，前身为株洲国联货运部。公司现办公地点位于湖南长沙，专注于大件运输、药品配送及第三方物流服务。 ... [详细]

蜡笔小新 2024-11-13 11:44:22
hash
Java 编程错误：对象无法转换为 long 类型

本文介绍了在 Java 编程中遇到的一个常见错误：对象无法转换为 long 类型，并提供了详细的解决方案。 ... [详细]

蜡笔小新 2024-11-13 10:57:24
import
使用 Python 封装依赖方法构建测试用例的依赖关系

本文介绍如何通过 Python 的 `unittest` 和 `functools` 模块封装一个依赖方法，用于管理测试用例之间的依赖关系。该方法能够确保在某个测试用例失败时，依赖于它的其他测试用例将被跳过。 ... [详细]

蜡笔小新 2024-11-13 10:42:38
int
深入理解ASCII、ANSI、GB2312、UNICODE及UTF-8、UTF-16编码

本文回顾了作者初次接触Unicode编码时的经历，并详细探讨了ASCII、ANSI、GB2312、UNICODE以及UTF-8和UTF-16编码的区别和应用场景。通过实例分析，帮助读者更好地理解和使用这些编码。 ... [详细]

蜡笔小新 2024-11-13 07:33:27
int
Flutter 开发中集成极光推送的详细步骤

本文详细介绍了如何在 Flutter 项目中集成极光推送服务，包括配置和测试的具体步骤。 ... [详细]

蜡笔小新 2024-11-13 00:53:40

mr.sun

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章