KNN(k-nearestneighbor的缩写)又叫最近邻算法

作者：济南谷幽兰 | 来源：互联网 | 2023-05-16 05:32

KNN(k-nearestneighbor的缩写)又叫最近邻算法机器学习笔记--KNN算法1前言Hello,everyone.我是小花。大四毕业，留在学校有点事情，就在这里和大

KNN(k-nearest neighbor的缩写)又叫最近邻算法

机器学习笔记--KNN算法1

前言

Hello ,everyone. 我是小花。大四毕业，留在学校有点事情，就在这里和大家吹吹我们的狐朋狗友算法---KNN算法，为什么叫狐朋狗友算法呢，在这里我先卖个关子，且听我慢慢道来。

一 KNN算法简介

KNN(k-nearest neighbor的缩写)又叫最近邻算法。是1968年由Cover和Hart提出的一种用于分类和回归的无母数统计方法。什么叫无母统计方法呢，这里作个补充：无母统计方法又称非参数统计学，是统计学的一个分支，适用于母群体情况未明，小样本，母群体分布不为常态也不易转换为常态。特点在于尽量减少或不修改其建立之模型，比较适合处理样本不大的数据。（我怎么感觉这么像韦小宝啊。。。哈哈，有点扯远了，你懂得）。

KNN的工作原理是：存在一个样本数据集合，也称为训练样本集，而且样本集中每个数据都存在标签，也就是我们知道样本集中每一个数据与所属分类对应关系。输入没有标签的新数据后，将新数据的每个特征与样本集中数据对应的特征进行比较，然后算法提取样本集中特征最相似数据（最近邻）的分类标签。怎样理解这句话呢，现在我们想，假如广场上有很多狗，这些狗都是一条母狗带一群小狗，各个品种的都有。每条狗都都知道自己的母亲是谁。但是有一条狗喝了不下心忘情水，不知道自己妈妈在哪了，如何找他的母亲呢。那我们就把这条狗的特征与那些小狗的特征进行对比。然后取最相似的狗，那么他的母亲就是这只单身狗的母亲~~我们可以想象，一只吉娃娃一定离一直泰迪很远吧。

K-最近邻分类算法

1：令k是最近邻数目，D是训练样本的集合

2 : for每个测试样例 z=（x’,y’）do

3：计算z 和每个样例（x,y）∈D之间的距离d(x’,x)

4：选择离z最近的K个训练样例的集合Z_ZD

5：y’=argmax∑(x_i,y_i)∈D_Z^I(V=YI)

6：end for

又扯远了，现在言归正传。我想看这个都是像我这样天天撸代码的“抠脚大汉”。那我们直接上伪代码！

啧啧，有了伪代码果然神清气爽。那我们就来说说伪代码吧。首先大家肯定会问第三行，如何求取z 和每个样例（x,y）∈D之间的距离d(x’,x)？他们之间的距离公式是什么，这个真就问对人了。我们的祖师爷们早就给我们想好了招式了，现在请把任督二脉打开，我要传功给你！

二 KNN注意点

2.1 KNN算法的距离度量

特征空间中两个实例点的距+离是两个实例点相似程度的反应。（一定要重点理解，可以拿单身狗的想想）。K近邻模型的特征空间一般是n 维实数向量空间R^N.使用的距离是欧式距离，但也可以是其他距离，例如更加一般的L_P距离（L_pdistance）或Minkowski距离（Minkowski distance）

1. 欧氏距离，最常见的两点之间或多点之间的距离表示法，又称之为欧几里得度量，它定义于欧几里得空间中，如点 x = (x1,...,xn) 和 y = (y1,...,yn) 之间的距离为：

2.曼哈顿距离, 曼哈顿距离依赖坐标系统的转度，而非系统在坐标上的平移或映射。

2.3 KNN算法中K的奥妙

现在有很多小伙伴要问我了，你说这个是狐朋狗友算法，你怎么解释？中国有句古话叫观其友而知其人，就是说啊，我看你身边的朋友我就知道你是什么样的人，就像我周围的同学大部分是比较傻叉的，余下的我还要解释么？。。。又自黑了。。。。估计有些朋友要怼我了，你罗里吧嗦半天，K是什么意思？其实K 就是我们最近的K个朋友，比如我最近的朋友是一个人，他是流氓，那么我是流氓的可能性是不是很大？假如K是四个，他们三个中有三个流氓，一个人渣。Vote 3:1 。好，小花是流氓，判定正确。。。下面看图：

222

对于未知类黑爱心,他可能是五角星，也可能是菱形。当K=3的时候，菱形PK 五角星=2:1 ，菱形胜利，老婆归我（黑色星）。当K=7时，菱形PK五角星=5:2，五角星胜利，老婆归我。这个怎么像黑帮斗殴，人多力量大啊！对了，就是人多力量大，识时务者为俊杰。

综上所述，K的选择很大程度决定了算法是否能正确分类。这也是KNN欠缺的地方。

2.3 对于KNN的补充

2.3.1 权重化

很多聪明的小伙伴会问，你的距离公式是不是有点问题？假如我现在给百合网做一个推荐系统，根据的分高低为你推荐一个你们会觉得合适的人。对象特性（身高，体重，相貌，学历，收入，爱好），假如你是一个颜控，你对身高体重外貌比较在意，对收入及学历不是太在乎，我想这也是我们在现实相亲中经常遇到的问题。那如果我们按照上面的欧氏距离公式去求，似乎收入和学历对分数的影响和相貌，身高体重一样大啊。那么为了解决这个问题，我们引入了权重的概念，比如当我们进入系统，系统会可以让我们输入：（身高，体重，相貌，学历，收入，爱好）的权重w^T（w₁, w_2, w₃, w_4,w₅, w₆）,你认为重要你就输入大一点，你认为不重要，你就输入小一定，当然这些权重最好都是小于1 的。改变的公式如下:

2.3.2归一化

现在带入公式发现，假如身高180和收入8000，即使收入的权重比较小，但是对距离的影响还是很大。在处理这种不同权值范围的特征值时，我们通常采用的方法是将数值归一化，如将取值范围处理为0到1或者-1到1之间。下面的公式可以将任意取值范围的特征值转化为0到1区间内的值：

newValue=(oldValue – min)/(max – min)

最后说一句，小花的算法讲解，算法1一般先介绍基本理论，算法二开始都是这个算法在具体生活中的实例，总之，跟着小花一步一步学吧，毕竟我也刚接触，有很多理解不到位的地方还请大家指出来，一起去思考。哈哈。

分类: 机器学习

推荐阅读

深度学习
非计算机专业的朋友如何拿下多个Offer

大家好，我是归辰。秋招结束后，我已顺利入职，并应公子龙的邀请，分享一些秋招面试的心得体会，希望能帮助到学弟学妹们，让他们在未来的面试中更加顺利。 ... [详细]

蜡笔小新 2024-11-13 18:41:58
深度学习
利用OpenCV和线性SVM实现人脸识别

本文介绍如何使用OpenCV和线性支持向量机（SVM）模型来开发一个简单的人脸识别系统，特别关注在只有一个用户数据集时的处理方法。 ... [详细]

蜡笔小新 2024-11-13 14:50:37
深度学习
Python 数据可视化实战指南

本文详细介绍如何使用 Python 进行数据可视化，涵盖从环境搭建到具体实例的全过程。 ... [详细]

蜡笔小新 2024-11-13 06:03:30
算法
如何撰写数据分析师（包括转行者）的面试简历？

CDA数据分析师团队出品，作者：徐杨老师，编辑：Mika。本文将帮助您了解如何撰写一份高质量的数据分析师简历，特别是对于转行者。 ... [详细]

蜡笔小新 2024-11-12 18:20:52
深度学习
飞桨助力产业智能化：百度自研AI硬件深度融合

在2019中国国际智能产业博览会上，百度董事长兼CEO李彦宏强调，人工智能应务实推进其在各行业的应用。随后，在“ABC SUMMIT 2019百度云智峰会”上，百度展示了通过“云+AI”推动AI工业化和产业智能化的最新成果。 ... [详细]

蜡笔小新 2024-11-12 00:45:20
算法
非线性门控感知器算法的实现与应用分析

非线性门控感知器算法的实现与应用分析 ... [详细]

蜡笔小新 2024-11-11 12:19:17
深度学习
机器学习的持续探索与进展

在机器学习领域，深入探讨了概率论与数理统计的基础知识，特别是这些理论在数据挖掘中的应用。文章重点分析了偏差（Bias）与方差（Variance）之间的平衡问题，强调了方差反映了不同训练模型之间的差异，例如在K折交叉验证中，不同模型之间的性能差异显著。此外，还讨论了如何通过优化模型选择和参数调整来有效控制这一平衡，以提高模型的泛化能力。 ... [详细]

蜡笔小新 2024-11-11 10:27:39
深度学习
深入解析监督学习的核心概念与应用

本文深入探讨了监督学习的基本原理及其广泛应用。监督学习作为机器学习的重要分支，通过利用带有标签的训练数据，能够有效构建预测模型。文章详细解析了监督学习的关键概念，如特征选择、模型评估和过拟合问题，并介绍了其在图像识别、自然语言处理等领域的实际应用。 ... [详细]

蜡笔小新 2024-11-09 21:07:22
深度学习
独家解析：深度学习泛化理论的破解之道与应用前景

本文深入探讨了深度学习泛化理论的关键问题，通过分析现有研究和实践经验，揭示了泛化性能背后的核心机制。文章详细解析了泛化能力的影响因素，并提出了改进模型泛化性能的有效策略。此外，还展望了这些理论在实际应用中的广阔前景，为未来的研究和开发提供了宝贵的参考。 ... [详细]

蜡笔小新 2024-11-09 19:29:56
算法
支持向量机（SVM）在机器学习中的应用与学习心得

支持向量机（SVM）是一种高效的二分类模型，其核心目标是通过寻找最优超平面来区分不同类别的数据点。在实际应用中，SVM能够有效地处理高维数据，并通过核技巧扩展到非线性分类问题。当新的数据点输入时，SVM会根据其相对于超平面的位置来判定其所属类别。训练过程中，SVM通过最大化间隔来确定最优超平面，从而提高模型的泛化能力。本文总结了SVM在机器学习中的应用及其学习心得，探讨了其在实际问题中的优势和局限性。 ... [详细]

蜡笔小新 2024-11-06 19:38:05
机器人
能够感知你情绪状态的智能机器人即将问世 | 科技前沿观察

本周科技前沿报道了多项重要进展，包括美国多所高校在机器人技术和自动驾驶领域的最新研究成果，以及硅谷大型企业在智能硬件和深度学习技术上的突破性进展。特别值得一提的是，一款能够感知用户情绪状态的智能机器人即将问世，为未来的人机交互带来了全新的可能性。 ... [详细]

蜡笔小新 2024-11-05 20:45:31
机器学习
《统计学习方法》第一章：基础概念与理论框架综述

第一章介绍了统计学习方法的基础概念与理论框架。1.2节详细讨论了两种模型类型：一种直接输出具体的数值结果，另一种则输出概率分布。条件概率分布描述了在给定输入 \( x \) 的情况下，多个可能输出 \( y \) 的概率分布情况，而直接输出数值的模型则为每个输入 \( x \) 提供一个确定的输出值。这一部分还探讨了这些模型在实际应用中的重要性和应用场景。 ... [详细]

蜡笔小新 2024-11-09 13:15:04
机器学习
2021年Java开发实战：当前时间戳转换方法详解与实用网址推荐

在当前的就业市场中，金九银十过后，金三银四也即将到来。本文将分享一些实用的面试技巧和题目，特别是针对正在寻找新工作机会的Java开发者。作者在准备字节跳动的面试过程中积累了丰富的经验，并成功获得了Offer。文中详细介绍了如何将当前时间戳进行转换的方法，并推荐了一些实用的在线资源，帮助读者更好地应对技术面试。 ... [详细]

蜡笔小新 2024-11-08 22:43:32
机器学习
【PDF资源】大数据峰会：阿里巴巴在大规模流式增量计算中的应用与实践

布民于2015年加入阿里巴巴，目前担任阿里云高级专家和技术委员会成员，负责大规模流计算与图计算平台。他在微软亚洲研究院期间担任主管研究员，专注于大规模分布式计算的研究。本文将详细介绍阿里巴巴在大规模流式增量计算中的应用与实践，分享其在实时数据处理和分析方面的最新进展和技术挑战。 ... [详细]

蜡笔小新 2024-11-08 18:31:57
机器学习
提升 Kubernetes 集群管理效率的七大专业工具

Kubernetes 在云原生环境中的应用日益广泛，然而集群管理的复杂性也随之增加。为了提高管理效率，本文推荐了七款专业工具，这些工具不仅能够简化日常操作，还能提升系统的稳定性和安全性。从自动化部署到监控和故障排查，这些工具覆盖了集群管理的各个方面，帮助管理员更好地应对挑战。 ... [详细]

蜡笔小新 2024-11-07 17:01:31

济南谷幽兰

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章