热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

Python实战之KNN实现

用Python来实现K近邻分类算法(KNN)已经是一个老生常谈的问题,网上也已经有诸多资料,不过这里我还是决定记录一下自己的学习心得。1、配置numpy库numpy库是Python用于

  用Python来实现K近邻分类算法(KNN)已经是一个老生常谈的问题,网上也已经有诸多资料,不过这里我还是决定记录一下自己的学习心得。

  1、配置numpy库

  numpy库是Python用于矩阵运算的第三方库,大多数数学运算都会依赖这个库来进行,关于numpy库的配置参见:Python配置第三方库Numpy和matplotlib的曲折之路,配置完成后将numpy库整体导入到当前工程中。

  2、准备训练样本

  这里简单的构造四个点并配以对应标签作为KNN的训练样本:

# ====================创建训练样本====================
def createdataset():
group
= array([[1.0, 1.1], [1.0, 1.0], [0, 0], [0, 0.1]])
labels
= ['A', 'B', 'C', 'D']
return group, labels

  这里有一个小细节,就是通过array()函数老构造并初始化numpy的矩阵对象时,要保证只有一个参数,因此在代码中需要将参数用中括号括起来,像下面这种调用方式是不合法的:

group = array([1.0, 1.1], [1.0, 1.0], [0, 0], [0, 0.1])

  3、创建分类函数

  K近邻算法在分类时一般是根据欧氏距离进行分类的,因此需要将输入的数据与训练数据在各个维度上相减再平方求和,再开方,如下:

# ====================欧氏距离分类====================
def classify(Inx, Dataset, labels, k):
DataSetSize
= Dataset.shape[0] # 获取数据的行数,shape[1]位列数
diffmat = tile(Inx, (DataSetSize, 1)) - Dataset
SqDiffMat
= diffmat**2
SqDistances
= SqDiffMat.sum(axis=1)
Distance
= SqDistances**0.5
SortedDistanceIndicies
= Distance.argsort()
ClassCount
= {}

  这里tile()函数是numpy的矩阵扩展函数,比如说这个例子中训练样本有四个二维坐标点,对于输入样本(一个二维坐标点),需要将其先扩展为一个4行1列的矩阵,然后在进行矩阵减法,在平法求和,再开平方算距离。计算完距离之后,调用矩阵对象的排序成员函数argsort()对距离进行升序排序。在这里介绍一个Pycharm查看源码生命的小技巧:加入在编写这段程序的时候我们并不确定argsort()是否为array对象的成员函数,我们选中这个函数然后 右键 -> Go to -> Declaration,这样就会跳转到argsort()函数的声明代码片中,通过查看代码的从属关系能够确认array类中确实包含这个成员函数,调用没有问题:

  对距离排序之后,接下来就根据前K个最小距离值所对应的标签来判断当前样本属于哪一类:

    for i in range(k):
VoteiLabel
= labels[SortedDistanceIndicies[i]]
ClassCount[VoteiLabel]
= ClassCount.get(VoteiLabel, 0) + 1
SortedClassCount
= sorted(ClassCount.items(), key = operator.itemgetter(1), reverse = True)

  这里有一个小问题就是在Python2中获取字典元素使用的是dict.iteritems()成员函数,而在Python3中改为dict.items()函数。“key = operator.itemgetter(1)”的意思是指定函数针对字典中第二维元素进行排序,注意这里需要在之前导入符号库operator。这里是通过记录前K个距离最下值中每类标签出现的次数来判决测试样本的归属。

  4、测试

  这里给出完整的KNN测试代码:

# coding: utf-8
from numpy import *
import operator


# ====================创建训练样本====================
def createdataset():
group
= array([[1.0, 1.1], [1.0, 1.0], [0, 0], [0, 0.1]])
labels
= ['A', 'B', 'C', 'D']
return group, labels

# ====================欧氏距离分类====================
def classify(Inx, Dataset, labels, k):
DataSetSize
= Dataset.shape[0] # 获取数据的行数,shape[1]位列数
diffmat = tile(Inx, (DataSetSize, 1)) - Dataset
SqDiffMat
= diffmat**2
SqDistances
= SqDiffMat.sum(axis=1)
Distance
= SqDistances**0.5
SortedDistanceIndicies
= Distance.argsort()
ClassCount
= {}
for i in range(k):
VoteiLabel
= labels[SortedDistanceIndicies[i]]
ClassCount[VoteiLabel]
= ClassCount.get(VoteiLabel, 0) + 1
SortedClassCount
= sorted(ClassCount.items(), key = operator.itemgetter(1), reverse = True)
return SortedClassCount[0][0]

Groups, Labels
= createdataset()
Result
= classify([0, 0], Groups, Labels, 1)
print(Result)

  运行代码,程序答应结果“C”。这里需要提一点的就是对于单训练样本(每类只有一个训练样本)的分类问题,KNN的K值应该设定为1。


推荐阅读
  • 生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型,可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]
  • 阿里Treebased Deep Match(TDM) 学习笔记及技术发展回顾
    本文介绍了阿里Treebased Deep Match(TDM)的学习笔记,同时回顾了工业界技术发展的几代演进。从基于统计的启发式规则方法到基于内积模型的向量检索方法,再到引入复杂深度学习模型的下一代匹配技术。文章详细解释了基于统计的启发式规则方法和基于内积模型的向量检索方法的原理和应用,并介绍了TDM的背景和优势。最后,文章提到了向量距离和基于向量聚类的索引结构对于加速匹配效率的作用。本文对于理解TDM的学习过程和了解匹配技术的发展具有重要意义。 ... [详细]
  • 云原生边缘计算之KubeEdge简介及功能特点
    本文介绍了云原生边缘计算中的KubeEdge系统,该系统是一个开源系统,用于将容器化应用程序编排功能扩展到Edge的主机。它基于Kubernetes构建,并为网络应用程序提供基础架构支持。同时,KubeEdge具有离线模式、基于Kubernetes的节点、群集、应用程序和设备管理、资源优化等特点。此外,KubeEdge还支持跨平台工作,在私有、公共和混合云中都可以运行。同时,KubeEdge还提供数据管理和数据分析管道引擎的支持。最后,本文还介绍了KubeEdge系统生成证书的方法。 ... [详细]
  • CSS3选择器的使用方法详解,提高Web开发效率和精准度
    本文详细介绍了CSS3新增的选择器方法,包括属性选择器的使用。通过CSS3选择器,可以提高Web开发的效率和精准度,使得查找元素更加方便和快捷。同时,本文还对属性选择器的各种用法进行了详细解释,并给出了相应的代码示例。通过学习本文,读者可以更好地掌握CSS3选择器的使用方法,提升自己的Web开发能力。 ... [详细]
  • [译]技术公司十年经验的职场生涯回顾
    本文是一位在技术公司工作十年的职场人士对自己职业生涯的总结回顾。她的职业规划与众不同,令人深思又有趣。其中涉及到的内容有机器学习、创新创业以及引用了女性主义者在TED演讲中的部分讲义。文章表达了对职业生涯的愿望和希望,认为人类有能力不断改善自己。 ... [详细]
  • sklearn数据集库中的常用数据集类型介绍
    本文介绍了sklearn数据集库中常用的数据集类型,包括玩具数据集和样本生成器。其中详细介绍了波士顿房价数据集,包含了波士顿506处房屋的13种不同特征以及房屋价格,适用于回归任务。 ... [详细]
  • 浏览器中的异常检测算法及其在深度学习中的应用
    本文介绍了在浏览器中进行异常检测的算法,包括统计学方法和机器学习方法,并探讨了异常检测在深度学习中的应用。异常检测在金融领域的信用卡欺诈、企业安全领域的非法入侵、IT运维中的设备维护时间点预测等方面具有广泛的应用。通过使用TensorFlow.js进行异常检测,可以实现对单变量和多变量异常的检测。统计学方法通过估计数据的分布概率来计算数据点的异常概率,而机器学习方法则通过训练数据来建立异常检测模型。 ... [详细]
  • 本文介绍了Python语言程序设计中文件和数据格式化的操作,包括使用np.savetext保存文本文件,对文本文件和二进制文件进行统一的操作步骤,以及使用Numpy模块进行数据可视化编程的指南。同时还提供了一些关于Python的测试题。 ... [详细]
  • Introduction(简介)Forbeingapowerfulobject-orientedprogramminglanguage,Cisuseda ... [详细]
  • Vue基础一、什么是Vue1.1概念Vue(读音vjuː,类似于view)是一套用于构建用户界面的渐进式JavaScript框架,与其它大型框架不 ... [详细]
  • 在本教程中,我们将看到如何使用FLASK制作第一个用于机器学习模型的RESTAPI。我们将从创建机器学习模型开始。然后,我们将看到使用Flask创建AP ... [详细]
  • 【论文】ICLR 2020 九篇满分论文!!!
    点击上方,选择星标或置顶,每天给你送干货!阅读大概需要11分钟跟随小博主,每天进步一丢丢来自:深度学习技术前沿 ... [详细]
  • [转载]从零开始学习OpenGL ES之四 – 光效
    继续我们的iPhoneOpenGLES之旅,我们将讨论光效。目前,我们没有加入任何光效。幸运的是,OpenGL在没有设置光效的情况下仍然可 ... [详细]
  • 本文介绍了Swing组件的用法,重点讲解了图标接口的定义和创建方法。图标接口用来将图标与各种组件相关联,可以是简单的绘画或使用磁盘上的GIF格式图像。文章详细介绍了图标接口的属性和绘制方法,并给出了一个菱形图标的实现示例。该示例可以配置图标的尺寸、颜色和填充状态。 ... [详细]
  • 本博文基于《Amalgamationofproteinsequence,structureandtextualinformationforimprovingprote ... [详细]
author-avatar
手机用户2502884755
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有