Python实战之KNN实现

作者：手机用户2502884755 | 来源：互联网 | 2023-09-25 16:13

用Python来实现K近邻分类算法（KNN）已经是一个老生常谈的问题，网上也已经有诸多资料，不过这里我还是决定记录一下自己的学习心得。1、配置numpy库numpy库是Python用于

　　用Python来实现K近邻分类算法（KNN）已经是一个老生常谈的问题，网上也已经有诸多资料，不过这里我还是决定记录一下自己的学习心得。

　　1、配置numpy库

　　numpy库是Python用于矩阵运算的第三方库，大多数数学运算都会依赖这个库来进行，关于numpy库的配置参见：Python配置第三方库Numpy和matplotlib的曲折之路，配置完成后将numpy库整体导入到当前工程中。

　　2、准备训练样本

　　这里简单的构造四个点并配以对应标签作为KNN的训练样本：

# ====================创建训练样本====================
def createdataset():
    group = array([[1.0, 1.1], [1.0, 1.0], [0, 0], [0, 0.1]])
    labels = ['A', 'B', 'C', 'D']
    return group, labels

　　这里有一个小细节，就是通过array（）函数老构造并初始化numpy的矩阵对象时，要保证只有一个参数，因此在代码中需要将参数用中括号括起来，像下面这种调用方式是不合法的：

group = array([1.0, 1.1], [1.0, 1.0], [0, 0], [0, 0.1])

　　3、创建分类函数

　　K近邻算法在分类时一般是根据欧氏距离进行分类的，因此需要将输入的数据与训练数据在各个维度上相减再平方求和，再开方，如下：

# ====================欧氏距离分类====================
def classify(Inx, Dataset, labels, k):
    DataSetSize = Dataset.shape[0]  # 获取数据的行数，shape[1]位列数
    diffmat = tile(Inx, (DataSetSize, 1)) - Dataset
    SqDiffMat = diffmat**2
    SqDistances = SqDiffMat.sum(axis=1)
    Distance = SqDistances**0.5
    SortedDistanceIndicies = Distance.argsort()
    ClassCount = {}

　　这里tile（）函数是numpy的矩阵扩展函数，比如说这个例子中训练样本有四个二维坐标点，对于输入样本（一个二维坐标点），需要将其先扩展为一个4行1列的矩阵，然后在进行矩阵减法，在平法求和，再开平方算距离。计算完距离之后，调用矩阵对象的排序成员函数argsort（）对距离进行升序排序。在这里介绍一个Pycharm查看源码生命的小技巧：加入在编写这段程序的时候我们并不确定argsort（）是否为array对象的成员函数，我们选中这个函数然后右键 -> Go to -> Declaration，这样就会跳转到argsort（）函数的声明代码片中，通过查看代码的从属关系能够确认array类中确实包含这个成员函数，调用没有问题：

　　对距离排序之后，接下来就根据前K个最小距离值所对应的标签来判断当前样本属于哪一类：

    for i in range(k):
        VoteiLabel = labels[SortedDistanceIndicies[i]]
        ClassCount[VoteiLabel] = ClassCount.get(VoteiLabel, 0) + 1
    SortedClassCount = sorted(ClassCount.items(), key = operator.itemgetter(1), reverse = True)

　　这里有一个小问题就是在Python2中获取字典元素使用的是dict.iteritems（）成员函数，而在Python3中改为dict.items（）函数。“key = operator.itemgetter(1)”的意思是指定函数针对字典中第二维元素进行排序，注意这里需要在之前导入符号库operator。这里是通过记录前K个距离最下值中每类标签出现的次数来判决测试样本的归属。

　　4、测试

　　这里给出完整的KNN测试代码：

# coding: utf-8
from numpy import *
import operator


# ====================创建训练样本====================
def createdataset():
    group = array([[1.0, 1.1], [1.0, 1.0], [0, 0], [0, 0.1]])
    labels = ['A', 'B', 'C', 'D']
    return group, labels

# ====================欧氏距离分类====================
def classify(Inx, Dataset, labels, k):
    DataSetSize = Dataset.shape[0]  # 获取数据的行数，shape[1]位列数
    diffmat = tile(Inx, (DataSetSize, 1)) - Dataset
    SqDiffMat = diffmat**2
    SqDistances = SqDiffMat.sum(axis=1)
    Distance = SqDistances**0.5
    SortedDistanceIndicies = Distance.argsort()
    ClassCount = {}
    for i in range(k):
        VoteiLabel = labels[SortedDistanceIndicies[i]]
        ClassCount[VoteiLabel] = ClassCount.get(VoteiLabel, 0) + 1
    SortedClassCount = sorted(ClassCount.items(), key = operator.itemgetter(1), reverse = True)
    return SortedClassCount[0][0]

Groups, Labels = createdataset()
Result = classify([0, 0], Groups, Labels, 1)
print(Result)

　　运行代码，程序答应结果“C”。这里需要提一点的就是对于单训练样本（每类只有一个训练样本）的分类问题，KNN的K值应该设定为1。

推荐阅读

search
机器学习的持续探索与进展

在机器学习领域，深入探讨了概率论与数理统计的基础知识，特别是这些理论在数据挖掘中的应用。文章重点分析了偏差（Bias）与方差（Variance）之间的平衡问题，强调了方差反映了不同训练模型之间的差异，例如在K折交叉验证中，不同模型之间的性能差异显著。此外，还讨论了如何通过优化模型选择和参数调整来有效控制这一平衡，以提高模型的泛化能力。 ... [详细]

蜡笔小新 2024-11-11 10:27:39
function
在范围[0..n-1]中产生m个不同的随机数 - Generating m distinct random numbers in the range [0..n-1]

Ihavetwomethodsofgeneratingmdistinctrandomnumbersintherange[0..n-1]我有两种方法在范围[0.n-1]中生 ... [详细]

蜡笔小新 2024-11-13 09:49:14
function
Python 数据可视化实战指南

本文详细介绍如何使用 Python 进行数据可视化，涵盖从环境搭建到具体实例的全过程。 ... [详细]

蜡笔小新 2024-11-13 06:03:30
search
杜甫《喜晴》的两种英译比较

本文对比了杜甫《喜晴》的两种英文翻译版本：a. Pleased with Sunny Weather 和 b. Rejoicing in Clearing Weather。a 版由 alexcwlin 翻译并经 Adam Lam 编辑，b 版则由哈佛大学的宇文所安教授 (Prof. Stephen Owen) 翻译。 ... [详细]

蜡笔小新 2024-11-12 15:02:28
merge
如何将Python与Excel高效结合：常用操作技巧解析

本文深入探讨了如何将Python与Excel高效结合，涵盖了一系列实用的操作技巧。文章内容详尽，步骤清晰，注重细节处理，旨在帮助读者掌握Python与Excel之间的无缝对接方法，提升数据处理效率。 ... [详细]

蜡笔小新 2024-11-11 15:18:30
search
图像相似度对比的多种方法

本文介绍了几种常用的图像相似度对比方法，包括直方图方法、图像模板匹配、PSNR峰值信噪比、SSIM结构相似性和感知哈希算法。每种方法都有其优缺点，适用于不同的应用场景。 ... [详细]

蜡笔小新 2024-11-13 11:04:56
search
单片微机原理P3：80C51外部拓展系统

　　外部拓展其实是个相对来说很好玩的章节，可以真正开始用单片机写程序了，比较重要的是外部存储器拓展，81C55拓展，矩阵键盘，动态显示，DAC和ADC。0.IO接口电路概念与存 ... [详细]

蜡笔小新 2024-11-12 19:51:29
function
Java 并发编程：深入解析 AtomicInteger 和 CAS 无锁算法

在多线程并发环境中，普通变量的操作往往是线程不安全的。本文通过一个简单的例子，展示了如何使用 AtomicInteger 类及其核心的 CAS 无锁算法来保证线程安全。 ... [详细]

蜡笔小新 2024-11-12 16:40:04
function
解决Bootstrap DataTable Ajax请求重复问题

在最近的一个项目中，我们使用了JQuery DataTable进行数据展示，虽然使用起来非常方便，但在测试过程中发现了一个问题：当查询条件改变时，有时查询结果的数据不正确。通过FireBug调试发现，点击搜索按钮时，会发送两次Ajax请求，一次是原条件的请求，一次是新条件的请求。 ... [详细]

蜡笔小新 2024-11-12 13:59:27
uri
poj 3352 Road Construction

poj 3352 Road Construction ... [详细]

蜡笔小新 2024-11-12 11:24:39
uri
飞桨助力产业智能化：百度自研AI硬件深度融合

在2019中国国际智能产业博览会上，百度董事长兼CEO李彦宏强调，人工智能应务实推进其在各行业的应用。随后，在“ABC SUMMIT 2019百度云智峰会”上，百度展示了通过“云+AI”推动AI工业化和产业智能化的最新成果。 ... [详细]

蜡笔小新 2024-11-12 00:45:20
uri
独家解析：深度学习泛化理论的破解之道与应用前景

本文深入探讨了深度学习泛化理论的关键问题，通过分析现有研究和实践经验，揭示了泛化性能背后的核心机制。文章详细解析了泛化能力的影响因素，并提出了改进模型泛化性能的有效策略。此外，还展望了这些理论在实际应用中的广阔前景，为未来的研究和开发提供了宝贵的参考。 ... [详细]

蜡笔小新 2024-11-09 19:29:56
uri
能够感知你情绪状态的智能机器人即将问世 | 科技前沿观察

本周科技前沿报道了多项重要进展，包括美国多所高校在机器人技术和自动驾驶领域的最新研究成果，以及硅谷大型企业在智能硬件和深度学习技术上的突破性进展。特别值得一提的是，一款能够感知用户情绪状态的智能机器人即将问世，为未来的人机交互带来了全新的可能性。 ... [详细]

蜡笔小新 2024-11-05 20:45:31
uri
机器学习中的标准化缩放、最小-最大缩放及鲁棒缩放技术解析

机器学习中的标准化缩放、最小-最大缩放及鲁棒缩放技术解析 ... [详细]

蜡笔小新 2024-11-05 15:46:18
function
利用CIFAR10数据集快速掌握Mixup数据增强技术，显著提高图像分类精度

通过使用CIFAR-10数据集，本文详细介绍了如何快速掌握Mixup数据增强技术，并展示了该方法在图像分类任务中的显著效果。实验结果表明，Mixup能够有效提高模型的泛化能力和分类精度，为图像识别领域的研究提供了有价值的参考。 ... [详细]

蜡笔小新 2024-11-05 14:24:36

手机用户2502884755

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章