热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

KNN图像分类及Python实现

NN,NearestNeighbor,最近邻KNN,K-NearestNeighbor,K最近邻KNN分类的思路:分类的过程其实是直接将测试集的每一个图片和训练集中的所有图片进行比

NN,Nearest Neighbor,最近邻

KNN,K-Nearest Neighbor,K最近邻

KNN分类的思路:



  • 分类的过程其实是直接将测试集的每一个图片和训练集中的所有图片进行比较,计算距离(这里使用L2距离)。

  • 距离越远,代表图片之间的相似度越低;距离越近,代表图片之间越相似。

  • 找到和测试图片距离最近的K个图,统计它们的分类,数量最多的分类就作为测试图片的分类。

 

Python实现:

1、加载CIFAR-10数据,参考前一篇 CIFAR-10和python读取



  • X_train,训练集 (50000,32,32,3)

  • y_train, 训练分类集 (50000,)

  • X_test, 测试集 (5000,32,32,3)

  • y_test,测试分类集 (5000,)

# Load the raw CIFAR-10 data.
cifar10_dir = 'cs231n/datasets/cifar-10-batches-py'
# Cleaning up variables to prevent loading data multiple times (which may cause memory issue)
try:
del X_train, y_train #del 只删除变量,不删变量引用的数据
del X_test, y_test
print('Clear previously loaded data.')
except:
pass
X_train, y_train, X_test, y_test
= load_CIFAR10(cifar10_dir)

为了提高执行效率,只从中取出5000和500个训练和测试数据,并变形为(5000,3072)和(500,3072)。

其中,3072=32*32*3,代表一个图片。

 

2、创建KNN分类器

from cs231n.classifiers import KNearestNeighbor
classifier
= KNearestNeighbor()
classifier.train(X_train, y_train)

 

 KNN分类并不对训练集做处理,只是单纯的保存下来。

class KNearestNeighbor(object):
def __init__(self):
pass
def train(self, X, y):
self.X_train
= X
self.y_train
= y

 

3、计算距离

下面给出了三种计算距离的方式,最后可以看出向量计算的效率是最高的,



  • 双层循环

  • 单层循环

  • 无循环

双层循环:效率低

def compute_distances_two_loops(self, X):
num_test
= X.shape[0]
num_train
= self.X_train.shape[0]
dists
= np.zeros((num_test, num_train))
for i in range(num_test):
for j in range(num_train):
# numpy中的array可以直接逐元素相减
# square可以对整个array中的某一行中的每个元素做平方
dists[i, j] = np.sqrt( np.sum( np.square( self.X_train[ j, : ] - X[ i, : ]) ) )
   return dists

 

单层循环: 

和双层循环的区别在于,直接用整个数组减去另一个数组的一行,实现的就是每行相减的效果。

def compute_distances_one_loop(self, X):
num_test
= X.shape[0]
num_train
= self.X_train.shape[0]
dists
= np.zeros((num_test, num_train))
for i in range(num_test):

# self.X_train - X[ i, : ], 前者的每行减去后者
# np.sum中的axis =1, 表示每行中的所有列相加
dists[i, :] = np.sqrt( np.sum( np.square( self.X_train - X[ i, : ]), axis=1 ) )
return dists

 

无循环:

利用



  • L2距离平方和的展开

  • numpy的广播机制(broadcast)https://docs.scipy.org/doc/numpy-1.13.0/user/basics.broadcasting.html

def compute_distances_no_loops(self, X):
num_test
= X.shape[0]
num_train
= self.X_train.shape[0]
dists
= np.zeros((num_test, num_train))
# 思路:L2距离展开,x-y的平方等于 x的平方 + y的平方 - 2xy, 2xy中的y需要从行转为列,再和x做点积。
# 最后生成的矩阵的每个元素,就是x-y的平方

# 2xy
d1 = np.dot(X, self.X_train.T)
#x的平方,keepdims=True,是保持矩阵的维度;500*1
# False,结果是一维的, 1*500
d2 = np.sum( np.square(X), axis=1, keepdims=True)

#y的平方
d3 = np.sum( np.square(self.X_train), axis=1, keepdims=True)
# 广播
# 500*1 和5000* 1是不能相加的
# 500*1 和5000*1的转置(1*5000)相加,会得到500 * 5000矩阵
dists = np.sqrt(d2 + d3.T - 2*d1)
return dists

 

可以计算三个方式获取的dists之间的差别,没有问题的话,difference应该是0

# np.linalg.norm, 计算范数
#
fro,F-范数,矩阵范数,矩阵中各项元素的绝对值平方的总和
difference = np.linalg.norm(dists - dists_one, ord='fro')

 

4、分类

def predict_labels(self, dists, k=1):
num_test
= dists.shape[0]
y_pred
= np.zeros(num_test)

for i in range(num_test):
closest_y
= []
# np.argsort,排序后的索引list,对应原array_like
labels = self.y_train[np.argsort(dists[i, :])].flatten()
# [0:k] 取0到k-1
closest_y = labels[0:k]

# Counter, 统计每个元素出现的次数
c = Counter(closest_y)
# most_common(n) 取数量最多的前n种
# most_common(1) = [(2, 3)], list, 2是种类,3是次数
# c.most_common(1)[0] = (2, 3), tuple
# c.most_common(1)[0][0] = 2
y_pred[i] = c.most_common(1)[0][0]

return y_pred

 

5、交叉验证



  • 交叉验证就是将训练集分为N等分,

  • 取其中一份作为验证集,其他作为训练集。

  • 每个等分分别做一次验证集,实现交叉验证。

  • 交叉验证可以减少过拟合。

num_folds = 5
k_choices
= [1, 3, 5, 8, 10, 12, 15, 20, 50, 100]
X_train_folds
= []
y_train_folds
= []
# array_split,将数组等分
#
和split的区别是,在不能等分的情况下,也能做到尽量等分。
X_train_folds = np.array_split(X_train, num_folds)
y_train_folds
= np.array_split(y_train, num_folds)
k_to_accuracies
= {}
for k in k_choices:
k_to_accuracies[k]
= []
for i in range(num_folds):
y_pred
= classifier.predict_labels(X_train_folds[i], k=k)
# ==比较两个数组,可以得到相等元素的个数
num_correct = np.sum(y_pred == y_train_folds[i])
accuracy
= float(num_correct) / len(X_train_folds[i])
k_to_accuracies[k].append(accuracy)

 

准确率统计图

# plot the raw observations
for k in k_choices:
accuracies
= k_to_accuracies[k]
plt.scatter([k]
* len(accuracies), accuracies)
# plot the trend line with error bars that correspond to standard deviation
#
平均值
accuracies_mean = np.array([np.mean(v) for k,v in sorted(k_to_accuracies.items())])
# 标准差
accuracies_std = np.array([np.std(v) for k,v in sorted(k_to_accuracies.items())])
plt.errorbar(k_choices, accuracies_mean, yerr
=accuracies_std) # 误差图
plt.title('Cross-validation on k')
plt.xlabel(
'k')
plt.ylabel(
'Cross-validation accuracy')
plt.show()

 每个k对应5个交叉验证数据集,得到5个准确率,再取均值。最后的连线就是均值的连线。


 

python相关:

1、ndarray之间可以直接算术运算,相同维度的可以,不同维度的,通过广播也可以做到。

2、一些函数也可以直接对整个ndarray操作,实际上是对其中的每个元素操作。np.square

用到的一些方法:



  • np.sqrt, np.sum

  • np.argsort,排序后得到的对应原数组的索引数组。

  • flattern,转为1维数组

  • Counter,from collections import Counter, 统计list中每个元素出现的次数

  • most_common(n),取数量最多的前n种

  • np.array_split,等分ndarray

  • ==,可以取得数组中对应的元素个数

  • np.linalg.norm, 计算范数

  • np.random.choice, 随机选择

  • np.flatnonzero, 返回不等于0 的索引集合

  • np.mean, 计算平均值

  • np.std, 计算标准差

  • %load_ext autoreload,# 引用的其他模块更改了,可以自动重新加载

 

Reference:

http://cs231n.github.io/classification/



推荐阅读
  • 本文详细介绍了 Dockerfile 的编写方法及其在网络配置中的应用,涵盖基础指令、镜像构建与发布流程,并深入探讨了 Docker 的默认网络、容器互联及自定义网络的实现。 ... [详细]
  • DNN Community 和 Professional 版本的主要差异
    本文详细解析了 DotNetNuke (DNN) 的两种主要版本:Community 和 Professional。通过对比两者的功能和附加组件,帮助用户选择最适合其需求的版本。 ... [详细]
  • XNA 3.0 游戏编程:从 XML 文件加载数据
    本文介绍如何在 XNA 3.0 游戏项目中从 XML 文件加载数据。我们将探讨如何将 XML 数据序列化为二进制文件,并通过内容管道加载到游戏中。此外,还会涉及自定义类型读取器和写入器的实现。 ... [详细]
  • 本文详细介绍了Java中org.neo4j.helpers.collection.Iterators.single()方法的功能、使用场景及代码示例,帮助开发者更好地理解和应用该方法。 ... [详细]
  • 本文将介绍如何编写一些有趣的VBScript脚本,这些脚本可以在朋友之间进行无害的恶作剧。通过简单的代码示例,帮助您了解VBScript的基本语法和功能。 ... [详细]
  • Java 中的 BigDecimal pow()方法,示例 ... [详细]
  • 1:有如下一段程序:packagea.b.c;publicclassTest{privatestaticinti0;publicintgetNext(){return ... [详细]
  • 数据管理权威指南:《DAMA-DMBOK2 数据管理知识体系》
    本书提供了全面的数据管理职能、术语和最佳实践方法的标准行业解释,构建了数据管理的总体框架,为数据管理的发展奠定了坚实的理论基础。适合各类数据管理专业人士和相关领域的从业人员。 ... [详细]
  • 本文介绍了如何使用JQuery实现省市二级联动和表单验证。首先,通过change事件监听用户选择的省份,并动态加载对应的城市列表。其次,详细讲解了使用Validation插件进行表单验证的方法,包括内置规则、自定义规则及实时验证功能。 ... [详细]
  • 本文详细介绍了Java中org.eclipse.ui.forms.widgets.ExpandableComposite类的addExpansionListener()方法,并提供了多个实际代码示例,帮助开发者更好地理解和使用该方法。这些示例来源于多个知名开源项目,具有很高的参考价值。 ... [详细]
  • 本文详细介绍了Akka中的BackoffSupervisor机制,探讨其在处理持久化失败和Actor重启时的应用。通过具体示例,展示了如何配置和使用BackoffSupervisor以实现更细粒度的异常处理。 ... [详细]
  • 本文详细介绍了Java编程语言中的核心概念和常见面试问题,包括集合类、数据结构、线程处理、Java虚拟机(JVM)、HTTP协议以及Git操作等方面的内容。通过深入分析每个主题,帮助读者更好地理解Java的关键特性和最佳实践。 ... [详细]
  • 本文介绍了如何在具备多个IP地址的FTP服务器环境中,通过动态地址端口复用和地址转换技术优化网络配置。重点讨论了2Mb/s DDN专线连接、Cisco 2611路由器及内部网络地址规划。 ... [详细]
  • 在前两篇文章中,我们探讨了 ControllerDescriptor 和 ActionDescriptor 这两个描述对象,分别对应控制器和操作方法。本文将基于 MVC3 源码进一步分析 ParameterDescriptor,即用于描述 Action 方法参数的对象,并详细介绍其工作原理。 ... [详细]
  • Android 渐变圆环加载控件实现
    本文介绍了如何在 Android 中创建一个自定义的渐变圆环加载控件,该控件已在多个知名应用中使用。我们将详细探讨其工作原理和实现方法。 ... [详细]
author-avatar
手机用户2602937435
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有