当前位置: 开发笔记 > 编程语言 > 正文

python实现KNN分类器——手写识别

作者：玉龙惊云诱惑_786_286 | 来源：互联网 | 2023-10-12 13:35

1.1优劣优点：进度高，对异常值不敏感，无数据输入假定缺点：计算复杂度高，空间复杂度高应用：主要用于文本分类，相似推荐适用数据范围：数值型和标称型1.2算法伪代码（1）计算已知类别

1.1 优劣

优点：进度高，对异常值不敏感，无数据输入假定

缺点：计算复杂度高，空间复杂度高

应用：主要用于文本分类，相似推荐

适用数据范围：数值型和标称型

1.2 算法伪代码

（1）计算已知类别数据集中的点与当前点的距离

（2）按照距离递增次序排序，选取与当前点距离最小的 k 个点

（3）确定前 k 个点所在类别的出现频率

（4）返回前 k 个点出现频率最高的类别作为当前点的预测分类

2 手写识别

2.1 概念

指在手写设备上书写时产生的轨迹信息转化为具体字码，本篇博客重点非搭建手写识别系统，而是帮助理解 KNN。

2.2 编程实现步骤

（1）将图片（txt 文本）转为一个向量，即32*32的数组转化为1*1024的数组（特征向量）

（2）将特征向量转化为矩阵

（3）计算每个测试集中的特征向量和训练集中的特征向量的距离，选取距离较小的前 k 个，该特征向量对应的图片数字为 k 个图片中出现次数最多的那个数字。

2.3 具体代码

（1）转化为1*1024特征向量

def img2vector(filename):
    returnVect = zeros((1,1024))
    fr = open(filename)
    for i in range(32):
        lineStr = fr.readline()
        for j in range(32):
            returnVect[0,32*i+j] = int(lineStr[j])
    return returnVect

（2）计算欧式距离，返回测试图片的类别

def classify0(inX, dataSet, labels, k):
    dataSetSize = dataSet.shape[0]                  
    diffMat = tile(inX, (dataSetSize,1)) - dataSet   # shape[0]得出dataSet的行数，即样本个数   
    sqDiffMat = diffMat**2                           # tile(A,(m,n))将数组A作为元素构造m行n列的数组
    sqDistances = sqDiffMat.sum(axis=1)                  
    distances = sqDistances**0.5
    sortedDistIndicies = distances.argsort()         # array.argsort()，得到每个元素的排序序号   
    classCount={}                                    # sortedDistIndicies[0]表示排序后排在第一个的那个数在原来数组中的下标  
    for i in range(k):
        voteIlabel = labels[sortedDistIndicies[i]]
        classCount[voteIlabel] = classCount.get(voteIlabel,0) + 1 # 从字典中获取key对应的value，没有key的话返回0
    # sorted()函数，按照第二个元素即value的次序逆向（reverse=True）排序  
    sortedClassCount = sorted(classCount.items(), key=operator.itemgetter(1), reverse=True)
    return sortedClassCount[0][0]

（3）将每个向量合成矩阵，并对测试集中的每个样本分类

def handwritingClassTest():
    hwLabels = []
    # os模块中的listdir('str')可以读取目录str下的所有文件名，返回一个字符串列表  
    trainingFileList = listdir('trainingDigits')          
    m = len(trainingFileList)
    trainingMat = zeros((m,1024))
    for i in range(m):
        fileNameStr = trainingFileList[i]                  
        fileStr = fileNameStr.split('.')[0]                
        classNumStr = int(fileStr.split('_')[0])          
        hwLabels.append(classNumStr)
        trainingMat[i,:] = img2vector('trainingDigits/%s' % fileNameStr)
    
    # 逐一读取测试图片，同时将其分类 
    testFileList = listdir('testDigits')       
    errorCount = 0.0
    mTest = len(testFileList)
    for i in range(mTest):
        fileNameStr = testFileList[i]
        fileStr = fileNameStr.split('.')[0]     
        classNumStr = int(fileStr.split('_')[0])
        vectorUnderTest = img2vector('testDigits/%s' % fileNameStr)
        classifierResult = classify0(vectorUnderTest, trainingMat, hwLabels, 3)
        print("the classifier came back with: %d, the real answer is: %d" % (classifierResult, classNumStr))
        if (classifierResult != classNumStr): 
            errorCount += 1.0
    print("\nthe total number of errors is: %d" % errorCount)
    print("\nthe total error rate is: %f" % (errorCount/float(mTest)))

3 运行结果

进入模块所在的文件夹，打开 Spyder，运行模块。然后在 Ipython 控制台输入以下代码：

import KNN
KNN.handwritingClassTest()

得到以下结果：

python 实现 KNN 分类器——手写识别

在 k = 3 的时候，错误率为1.2%。

参考资料：

《机器学习实战》

推荐阅读

io
毕业设计：基于机器学习与深度学习的垃圾邮件（短信）分类算法实现

本文详细介绍了如何使用机器学习和深度学习技术对垃圾邮件和短信进行分类。内容涵盖从数据集介绍、预处理、特征提取到模型训练与评估的完整流程，并提供了具体的代码示例和实验结果。 ... [详细]

蜡笔小新 2024-12-25 17:38:50
io
Python 的 10 个开发技巧！太实用了

1.如何在运行状态查看源代码？查看函数的源代码，我们通常会使用IDE来完成。比如在PyCharm中，你可以Ctrl+鼠标点击进入函数的源代码。那如果没有IDE呢？当我们想使用一个函 ... [详细]

蜡笔小新 2024-12-27 18:36:54
io
JQuery基础：省市联动与表单验证

本文介绍了如何使用JQuery实现省市二级联动和表单验证。首先，通过change事件监听用户选择的省份，并动态加载对应的城市列表。其次，详细讲解了使用Validation插件进行表单验证的方法，包括内置规则、自定义规则及实时验证功能。 ... [详细]

蜡笔小新 2024-12-27 17:10:48
format
Yii2 GridView 实现列表页数据直接编辑的完整指南

本文详细介绍了如何使用 Yii2 的 GridView 组件在列表页面实现数据的直接编辑功能。通过具体的代码示例和步骤，帮助开发者快速掌握这一实用技巧。 ... [详细]

蜡笔小新 2024-12-27 16:27:52
io
2023年京东Android面试真题解析与经验分享

本文由一位拥有6年Android开发经验的工程师撰写，详细解析了京东面试中常见的技术问题。涵盖引用传递、Handler机制、ListView优化、多线程控制及ANR处理等核心知识点。 ... [详细]

蜡笔小新 2024-12-26 17:45:48
io
汇编语言等号伪指令解析：探究其陡峭的学习曲线

汇编语言以其独特的特性和复杂的语法结构，一直被认为是编程领域中学习难度较高的语言之一。本文将探讨汇编语言中的等号伪指令及其对初学者带来的挑战，并结合社区反馈分析其学习曲线。 ... [详细]

蜡笔小新 2024-12-26 10:34:21
install
基于KVM的SRIOV直通配置及性能测试

SRIOV介绍、VF直通配置，以及包转发率性能测试小慢哥的原创文章，欢迎转载目录?1.SRIOV介绍?2.环境说明?3.开启SRIOV?4.生成VF?5.VF ... [详细]

蜡笔小新 2024-12-25 19:26:39
io
VSCode 自定义代码片段配置：实现类似IDEA的快捷代码段（如sout或psvm）

本文详细介绍如何在VSCode中配置自定义代码片段，使其具备与IDEA相似的代码生成快捷键功能。通过具体的Java和HTML代码片段示例，展示配置步骤及效果。 ... [详细]

蜡笔小新 2024-12-25 17:10:13
io
数据库内核开发入门 | 搭建研发环境的初步指南

本课程将带你从零开始，逐步掌握数据库内核开发的基础知识和实践技能，重点介绍如何搭建OceanBase的开发环境。 ... [详细]

蜡笔小新 2024-12-27 16:38:48
io
扫描线三巨头 hdu1928hdu 1255 hdu 1542 [POJ 1151]

学习链接：http:blog.csdn.netlwt36articledetails48908031学习扫描线主要学习的是一种扫描的思想，后期可以求解很 ... [详细]

蜡笔小新 2024-12-26 20:04:36
io
解析Java中Text.splitText()方法及其应用场景

本文详细介绍了Java中org.w3c.dom.Text类的splitText()方法，通过多个代码示例展示了其实际应用。该方法用于将文本节点在指定位置拆分为两个节点，并保持在文档树中。 ... [详细]

蜡笔小新 2024-12-26 18:31:42
format
从零构建递归神经网络：仅用NumPy实现

尽管使用TensorFlow和PyTorch等成熟框架可以显著降低实现递归神经网络（RNN）的门槛，但对于初学者来说，理解其底层原理至关重要。本文将引导您使用NumPy从头构建一个用于自然语言处理（NLP）的RNN模型。 ... [详细]

蜡笔小新 2024-12-26 11:29:15
format
基因组浏览器中的Wig格式解析

本文详细介绍了Wiggle（Wig）格式及其在基因组浏览器中的应用，涵盖variableStep和fixedStep两种主要格式的特点、适用场景及具体使用方法。同时，还提供了关于数据值和自定义参数的补充信息。 ... [详细]

蜡笔小新 2024-12-26 11:21:09
cmd
MicroATX与MATX：主板规格详解

本文详细介绍了MicroATX（也称Mini ATX）和MATX主板规格，探讨了它们的结构特点、应用场景及对电脑系统成本和性能的影响。同时，文章还涵盖了相关操作系统的实用技巧，如蓝牙设备图标删除、磁盘管理等。 ... [详细]

蜡笔小新 2024-12-25 18:53:29
io
PHP Eloquent ORM 中的关联查询扩展

本文探讨了如何在 PHP 的 Eloquent ORM 中实现数据表之间的关联查询，并通过具体示例详细解释了如何将关联数据嵌入到查询结果中。这不仅提高了数据查询的效率，还简化了代码逻辑。 ... [详细]

蜡笔小新 2024-12-25 18:14:14

玉龙惊云诱惑_786_286

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章