热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

Python实战之KNN实现

用Python来实现K近邻分类算法(KNN)已经是一个老生常谈的问题,网上也已经有诸多资料,不过这里我还是决定记录一下自己的学习心得。1、配置numpy库numpy库是Python用于

  用Python来实现K近邻分类算法(KNN)已经是一个老生常谈的问题,网上也已经有诸多资料,不过这里我还是决定记录一下自己的学习心得。

  1、配置numpy库

  numpy库是Python用于矩阵运算的第三方库,大多数数学运算都会依赖这个库来进行,关于numpy库的配置参见:Python配置第三方库Numpy和matplotlib的曲折之路,配置完成后将numpy库整体导入到当前工程中。

  2、准备训练样本

  这里简单的构造四个点并配以对应标签作为KNN的训练样本:

# ====================创建训练样本====================
def createdataset():
group
= array([[1.0, 1.1], [1.0, 1.0], [0, 0], [0, 0.1]])
labels
= ['A', 'B', 'C', 'D']
return group, labels

  这里有一个小细节,就是通过array()函数老构造并初始化numpy的矩阵对象时,要保证只有一个参数,因此在代码中需要将参数用中括号括起来,像下面这种调用方式是不合法的:

group = array([1.0, 1.1], [1.0, 1.0], [0, 0], [0, 0.1])

  3、创建分类函数

  K近邻算法在分类时一般是根据欧氏距离进行分类的,因此需要将输入的数据与训练数据在各个维度上相减再平方求和,再开方,如下:

# ====================欧氏距离分类====================
def classify(Inx, Dataset, labels, k):
DataSetSize
= Dataset.shape[0] # 获取数据的行数,shape[1]位列数
diffmat = tile(Inx, (DataSetSize, 1)) - Dataset
SqDiffMat
= diffmat**2
SqDistances
= SqDiffMat.sum(axis=1)
Distance
= SqDistances**0.5
SortedDistanceIndicies
= Distance.argsort()
ClassCount
= {}

  这里tile()函数是numpy的矩阵扩展函数,比如说这个例子中训练样本有四个二维坐标点,对于输入样本(一个二维坐标点),需要将其先扩展为一个4行1列的矩阵,然后在进行矩阵减法,在平法求和,再开平方算距离。计算完距离之后,调用矩阵对象的排序成员函数argsort()对距离进行升序排序。在这里介绍一个Pycharm查看源码生命的小技巧:加入在编写这段程序的时候我们并不确定argsort()是否为array对象的成员函数,我们选中这个函数然后 右键 -> Go to -> Declaration,这样就会跳转到argsort()函数的声明代码片中,通过查看代码的从属关系能够确认array类中确实包含这个成员函数,调用没有问题:

  对距离排序之后,接下来就根据前K个最小距离值所对应的标签来判断当前样本属于哪一类:

    for i in range(k):
VoteiLabel
= labels[SortedDistanceIndicies[i]]
ClassCount[VoteiLabel]
= ClassCount.get(VoteiLabel, 0) + 1
SortedClassCount
= sorted(ClassCount.items(), key = operator.itemgetter(1), reverse = True)

  这里有一个小问题就是在Python2中获取字典元素使用的是dict.iteritems()成员函数,而在Python3中改为dict.items()函数。“key = operator.itemgetter(1)”的意思是指定函数针对字典中第二维元素进行排序,注意这里需要在之前导入符号库operator。这里是通过记录前K个距离最下值中每类标签出现的次数来判决测试样本的归属。

  4、测试

  这里给出完整的KNN测试代码:

# coding: utf-8
from numpy import *
import operator


# ====================创建训练样本====================
def createdataset():
group
= array([[1.0, 1.1], [1.0, 1.0], [0, 0], [0, 0.1]])
labels
= ['A', 'B', 'C', 'D']
return group, labels

# ====================欧氏距离分类====================
def classify(Inx, Dataset, labels, k):
DataSetSize
= Dataset.shape[0] # 获取数据的行数,shape[1]位列数
diffmat = tile(Inx, (DataSetSize, 1)) - Dataset
SqDiffMat
= diffmat**2
SqDistances
= SqDiffMat.sum(axis=1)
Distance
= SqDistances**0.5
SortedDistanceIndicies
= Distance.argsort()
ClassCount
= {}
for i in range(k):
VoteiLabel
= labels[SortedDistanceIndicies[i]]
ClassCount[VoteiLabel]
= ClassCount.get(VoteiLabel, 0) + 1
SortedClassCount
= sorted(ClassCount.items(), key = operator.itemgetter(1), reverse = True)
return SortedClassCount[0][0]

Groups, Labels
= createdataset()
Result
= classify([0, 0], Groups, Labels, 1)
print(Result)

  运行代码,程序答应结果“C”。这里需要提一点的就是对于单训练样本(每类只有一个训练样本)的分类问题,KNN的K值应该设定为1。


推荐阅读
  • 在机器学习领域,深入探讨了概率论与数理统计的基础知识,特别是这些理论在数据挖掘中的应用。文章重点分析了偏差(Bias)与方差(Variance)之间的平衡问题,强调了方差反映了不同训练模型之间的差异,例如在K折交叉验证中,不同模型之间的性能差异显著。此外,还讨论了如何通过优化模型选择和参数调整来有效控制这一平衡,以提高模型的泛化能力。 ... [详细]
  • Ihavetwomethodsofgeneratingmdistinctrandomnumbersintherange[0..n-1]我有两种方法在范围[0.n-1]中生 ... [详细]
  • Python 数据可视化实战指南
    本文详细介绍如何使用 Python 进行数据可视化,涵盖从环境搭建到具体实例的全过程。 ... [详细]
  • 本文对比了杜甫《喜晴》的两种英文翻译版本:a. Pleased with Sunny Weather 和 b. Rejoicing in Clearing Weather。a 版由 alexcwlin 翻译并经 Adam Lam 编辑,b 版则由哈佛大学的宇文所安教授 (Prof. Stephen Owen) 翻译。 ... [详细]
  • 如何将Python与Excel高效结合:常用操作技巧解析
    本文深入探讨了如何将Python与Excel高效结合,涵盖了一系列实用的操作技巧。文章内容详尽,步骤清晰,注重细节处理,旨在帮助读者掌握Python与Excel之间的无缝对接方法,提升数据处理效率。 ... [详细]
  • 本文介绍了几种常用的图像相似度对比方法,包括直方图方法、图像模板匹配、PSNR峰值信噪比、SSIM结构相似性和感知哈希算法。每种方法都有其优缺点,适用于不同的应用场景。 ... [详细]
  • 单片微机原理P3:80C51外部拓展系统
      外部拓展其实是个相对来说很好玩的章节,可以真正开始用单片机写程序了,比较重要的是外部存储器拓展,81C55拓展,矩阵键盘,动态显示,DAC和ADC。0.IO接口电路概念与存 ... [详细]
  • 在多线程并发环境中,普通变量的操作往往是线程不安全的。本文通过一个简单的例子,展示了如何使用 AtomicInteger 类及其核心的 CAS 无锁算法来保证线程安全。 ... [详细]
  • 解决Bootstrap DataTable Ajax请求重复问题
    在最近的一个项目中,我们使用了JQuery DataTable进行数据展示,虽然使用起来非常方便,但在测试过程中发现了一个问题:当查询条件改变时,有时查询结果的数据不正确。通过FireBug调试发现,点击搜索按钮时,会发送两次Ajax请求,一次是原条件的请求,一次是新条件的请求。 ... [详细]
  • poj 3352 Road Construction ... [详细]
  • 在2019中国国际智能产业博览会上,百度董事长兼CEO李彦宏强调,人工智能应务实推进其在各行业的应用。随后,在“ABC SUMMIT 2019百度云智峰会”上,百度展示了通过“云+AI”推动AI工业化和产业智能化的最新成果。 ... [详细]
  • 独家解析:深度学习泛化理论的破解之道与应用前景
    本文深入探讨了深度学习泛化理论的关键问题,通过分析现有研究和实践经验,揭示了泛化性能背后的核心机制。文章详细解析了泛化能力的影响因素,并提出了改进模型泛化性能的有效策略。此外,还展望了这些理论在实际应用中的广阔前景,为未来的研究和开发提供了宝贵的参考。 ... [详细]
  • 能够感知你情绪状态的智能机器人即将问世 | 科技前沿观察
    本周科技前沿报道了多项重要进展,包括美国多所高校在机器人技术和自动驾驶领域的最新研究成果,以及硅谷大型企业在智能硬件和深度学习技术上的突破性进展。特别值得一提的是,一款能够感知用户情绪状态的智能机器人即将问世,为未来的人机交互带来了全新的可能性。 ... [详细]
  • 机器学习中的标准化缩放、最小-最大缩放及鲁棒缩放技术解析 ... [详细]
  • 通过使用CIFAR-10数据集,本文详细介绍了如何快速掌握Mixup数据增强技术,并展示了该方法在图像分类任务中的显著效果。实验结果表明,Mixup能够有效提高模型的泛化能力和分类精度,为图像识别领域的研究提供了有价值的参考。 ... [详细]
author-avatar
手机用户2502884755
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有