当前位置: 开发笔记 > 人工智能 > 正文

[置顶]k近邻法（K-NN）

作者：Daro_olingke_572 | 来源：互联网 | 2022-12-16 15:41

K近邻法（k-NN）是一种基本的分类和回归方法。1K近邻法——分类已知：训练数据集，数据集中的每一个实例由一个特征向量表示，并且显示的给出了该实例所属的类别。输入：一个新实例的特征向量，参数k的数&

K近邻法（k-NN）是一种基本的分类和回归方法。

1 K近邻法——分类

已知：训练数据集，数据集中的每一个实例由一个特征向量表示，并且显示的给出了该

实例所属的类别。

输入：一个新实例的特征向量，参数k的数值。

输出：输入实例所属的类别。

设训练集

T = { (x1,y1) , (x2,y2),...,(xN,yN) }

其中，N为训练样本个数，i = 1,2,...,N， xi为表示第i个训练样本的特征向量，yi为其对

应的类别（类别的个数与样本个数没有直接联系）。

根据给定的距离度量（如欧式距离），在训练T中找出与输入实例x距离最近的k各点，

将这k个点的集合记为Nk(x)。直观来看Nk(x)对输入实例x属于哪个类别是最有发言权的，

这也是k近邻法简单却没放弃准确度的原因。

分析Nk(x)，利用分类决策方法（如多数表决法）决定x属于哪个类别。

其中I为指示函数，当yi= cj是I为1，否则为0。

该式的含义为在Nk(x)中，哪种类别占的最多则输入实例属于哪一类，这是最简单的分类

决策方法，也可将Nk(x)中每个实例赋予一定的权值进行分类决策，这种方法对于一些类

别容量差别较大的情况效果较好。

1.1 距离度量

特征空间两个实例点的距离表示了他们的相似程度。K近邻法中使用的是欧式距离，同

样可以使用其他距离。

设k近邻法中实例特征向量为一个n维实数向量，记为，其中

上标(m) 表示向量第m维的数值。

则一般距离Lp定义为：

当p=2时就是我们常用的欧式距离。

1.2 k值的选择

k值的选择会对k近邻法的结果产生重大的影响，若选择较小的k值，学习的近似误差会

减小( 因为k值越小则选出的实例整体越接近输入实例 )；但学习的估计误差会增大( 这

种情况下容错性比较小，若近邻的实例恰巧是噪声则预测往往会出错)。此种情况模型

比较复杂容易发生过拟合。

若选择较大的k值，则学习的近似误差会增大，学习的估计误差会减少。此时模型比较

简单（举个极端的例子，当k为无穷大时所有的新输入实例都在同一类，此时模型最简单）。

1.2.1 k值与模型的复杂度

k值越小模型越复杂。假设训练集中含有6个训练实例，并且在特征空间中按下图分布。

其中A,B,C,D,E,F是六个正方形，每个正方形正中心有一个训练实例（不用管实例属于哪个类别），当k = 1即最近邻法，整个特征空间被划分为一些子空间使的相同子空间内的实例属于同一类，子空间分别为ABCDEF共六个；当k = 4时，子空间个数为两个，以直线L划分；当 k = 6时，子空间个数为1。一般情况下虽然不同的k值，并没有使得k近邻法在计算机中运算的时间复杂度有所变化，但它却影响着k近邻法模型的复杂度，上述子空间的划分就是它的一个表现，此时模型复杂度 (k = 1)>(k = 4)>(k = 6)。

1.3 分类决策规则

k近邻法中的分类决策规则往往是多数表决，即输入实例的k个近邻的训练实例中的多数类决定输入实例的类别。多数表决规则的解释：如果分类的损失函数为0-1损失函数，分类函数为： f：x ——>{c1,c2,...,ch} 其中x为实例的特征向量，c1,c2,...,ch为h个类别。对给定的实例x，其最近邻的k个训练实例构成的集合Nk(x)，如果覆盖Nk(x)的区域的类别是cj，则误分类率是：

要使误分类率最小即经验风险最小，就要使所以多数表决规则等价于

经验风险最小化。

2 K近邻法——回归

KNN算法不仅可以用于分类，还可以用于回归。通过找出一个样本的k个最近邻居，

将这些邻居的属性的平均值赋给该样本，就可以得到该样本的属性。更有用的方法

是将不同距离的邻居对该样本产生的影响给予不同的权值(weight)，如权值与距离成正比。

参考文献：统计学习方法(李航)

ps：最近接触的机器学习领域，敬请广大读者随时不吝批评指正，感谢。

推荐阅读

机器学习
【转】强大的矩阵奇异值分解(SVD)及其应用

在工程实践中，经常要对大矩阵进行计算，除了使用分布式处理方法以外，就是通过理论方法，对矩阵降维。一下文章，我在 ... [详细]

蜡笔小新 2024-11-16 12:44:31
机器学习
机器学习算法：SVM（支持向量机）

SVM算法（SupportVectorMachine，支持向量机）的核心思想有2点：1、如果数据线性可分，那么基于最大间隔的方式来确定超平面，以确保全局最优， ... [详细]

蜡笔小新 2024-11-14 04:33:58
nlp
Python基础：使用NLTK和Python构建机器学习应用

本文节选自《NLTK基础教程——用NLTK和Python库构建机器学习应用》一书的第1章第1.2节，作者Nitin Hardeniya。本文将带领读者快速了解Python的基础知识，为后续的机器学习应用打下坚实的基础。 ... [详细]

蜡笔小新 2024-11-13 21:23:34
机器学习
非计算机专业的朋友如何拿下多个Offer

大家好，我是归辰。秋招结束后，我已顺利入职，并应公子龙的邀请，分享一些秋招面试的心得体会，希望能帮助到学弟学妹们，让他们在未来的面试中更加顺利。 ... [详细]

蜡笔小新 2024-11-13 18:41:58
机器学习
利用OpenCV和线性SVM实现人脸识别

本文介绍如何使用OpenCV和线性支持向量机（SVM）模型来开发一个简单的人脸识别系统，特别关注在只有一个用户数据集时的处理方法。 ... [详细]

蜡笔小新 2024-11-13 14:50:37
机器学习
Python 数据可视化实战指南

本文详细介绍如何使用 Python 进行数据可视化，涵盖从环境搭建到具体实例的全过程。 ... [详细]

蜡笔小新 2024-11-13 06:03:30
机器学习
如何撰写数据分析师（包括转行者）的面试简历？

CDA数据分析师团队出品，作者：徐杨老师，编辑：Mika。本文将帮助您了解如何撰写一份高质量的数据分析师简历，特别是对于转行者。 ... [详细]

蜡笔小新 2024-11-12 18:20:52
nlp
飞桨助力产业智能化：百度自研AI硬件深度融合

在2019中国国际智能产业博览会上，百度董事长兼CEO李彦宏强调，人工智能应务实推进其在各行业的应用。随后，在“ABC SUMMIT 2019百度云智峰会”上，百度展示了通过“云+AI”推动AI工业化和产业智能化的最新成果。 ... [详细]

蜡笔小新 2024-11-12 00:45:20
机器学习
非线性门控感知器算法的实现与应用分析

非线性门控感知器算法的实现与应用分析 ... [详细]

蜡笔小新 2024-11-11 12:19:17
算法
8月15日学习总结

今日深入研究了树状数组，感觉难度较大，通过课件和博客辅助学习，仍有许多疑惑。主要探讨了老师推荐的三道题目，初步掌握了树状数组的基本用法。同时，还学习了逆序数和离散化的概念及其应用。 ... [详细]

蜡笔小新 2024-11-16 12:37:38
机器人
自动驾驶中的9种传感器融合算法

来源丨AI修炼之路在自动驾驶汽车中，传感器融合是融合来自多个传感器数据的过程。该步骤在机器人技术中是强制性的，因为它提供了更高的可靠性、冗余性以及最终的 ... [详细]

蜡笔小新 2024-11-16 12:07:16
算法
欧拉法与龙格-库塔法在微分方程求解中的对比分析

本文探讨了计算机如何理解和模拟连续系统的动态特性，重点介绍了欧拉法和龙格-库塔法这两种常用的数值积分方法。通过详细的理论分析和MATLAB代码实现，对比了两种方法在求解微分方程时的性能和适用性。 ... [详细]

蜡笔小新 2024-11-16 10:46:23
算法
Dijkstra算法详解——求解单源最短路径问题

本文详细介绍了Dijkstra算法，该算法用于解决图中从单个源点到其他所有顶点的最短路径问题。 ... [详细]

蜡笔小新 2024-11-16 10:14:21
算法
【目标检测】YOLOv1onestage

YOLO由24层ConvNet和2层FCs组成。其核心思想是将图片均匀划分为多个gridcell，每个gridcell产生两个bbox和gridcell中如果存在对象，对象是各类的 ... [详细]

蜡笔小新 2024-11-16 10:09:33
算法
Java开发岗位及其职责详解

Java作为全球最流行的编程语言之一，应用广泛。本文将详细介绍Java开发的相关岗位及其具体职责，帮助读者更好地了解这一领域的职业发展路径。 ... [详细]

蜡笔小新 2024-11-16 09:47:03

Daro_olingke_572

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章