开发笔记:在python中使用KNN算法实现鸢尾花数据集分类

作者：气质未央若 | 来源：互联网 | 2023-09-18 18:06

篇首语：本文由编程笔记#小编为大家整理，主要介绍了在python中使用KNN算法实现鸢尾花数据集分类相关的知识，希望对你有一定的参考价值。

篇首语：本文由编程笔记#小编为大家整理，主要介绍了在python中使用 KNN算法实现鸢尾花数据集分类相关的知识，希望对你有一定的参考价值。

在python中使用 KNN算法实现鸢尾花数据集分类

作者介绍
数据集介绍
KNN算法介绍
用KNN实现鸢尾花分类

作者介绍

乔冠华&＃xff0c;女&＃xff0c;西安工程大学电子信息学院&＃xff0c;2020级硕士研究生&＃xff0c;张宏伟人工智能课题组。
研究方向&＃xff1a;机器视觉与人工智能。
电子邮件&＃xff1a;1078914066&＃64;qq.com

数据集介绍

在这里插入图片描述

Iris鸢尾花数据集&＃xff1a; 包含 3 类分别为山鸢尾&＃xff08;Iris-setosa&＃xff09;、变色鸢尾&＃xff08;Iris-versicolor&＃xff09;和维吉尼亚鸢尾&＃xff08;Iris-virginica&＃xff09;&＃xff0c;共 150 条数据&＃xff0c;每类各 50 个数据&＃xff0c;每条记录都有 4 项特征&＃xff1a;花萼长度、花萼宽度、花瓣长度、花瓣宽度&＃xff0c;通常可以通过这4个特征预测鸢尾花卉属于哪一品种。

数据集获取&＃xff1a;
首先要在自己的Python环境中下载sklearn(进入个人虚拟环境并输入):

pip install sklearn

接着就可以输入下面代码&＃xff0c;下载数据集

from sklearn.datasets import load_iris iris_dataset &＃61; load_iris()

Iris数据集包含在sklearn库当中&＃xff0c;具体在sklearn\\datasets\\data文件夹下&＃xff0c;文件名为iris.csv。其数据格式如下&＃xff1a;
在这里插入图片描述
图中第一行数据的意义是&＃xff1a;150&＃xff08;数据集中数据的总条数&＃xff09;&＃xff1b;4&＃xff08;特征值的类别数&＃xff09;&＃xff0c;即花萼长度、花萼宽度、花瓣长度、花瓣宽度&＃xff1b;setosa、versicolor、virginica&＃xff1a;三种鸢尾花名。
从第二行开始各列数据的意义&＃xff1a;第一列为花萼长度值&＃xff1b;第二列为花萼宽度值&＃xff1b;第三列为花瓣长度值&＃xff1b;第四列为花瓣宽度值&＃xff1b;第五列对应是种类&＃xff08;三类鸢尾花分别用0&＃xff0c;1&＃xff0c;2表示&＃xff09;。

KNN算法介绍

算法介绍&＃xff1a;
KNN算法也称K最近邻算法&＃xff0c;是有监督学习中最常用的分类算法之一。其算法原理是&＃xff1a;给定一个训练数据集&＃xff0c;对新的输入实例&＃xff0c;在训练数据集中找到与该实例最邻近的K个实例&＃xff0c; 这K个实例的多数属于某个类&＃xff0c;就把该输入实例分类到这个类中。

一句话形容 KNN 算法的思想&＃xff1a;物以类聚&＃xff0c;人以群分

在 KNN 算法中新样本到邻近样本的距离一般采用的是欧式距离&＃xff08;常用&＃xff09;或者曼哈顿距离

在这里插入图片描述
根据KNN算法的原理&＃xff0c;该方法在确定分类决策上只依据最邻近的一个或者几个样本的类别来决定待测样本所属的类别&＃xff0c;因此&＃xff0c;选取合适的邻近样本数K就十分重要了。
K值的影响&＃xff1a;
当我们要确定图中绿色待测样本属于红色类别还是蓝色类别时&＃xff0c;我们可以通过不同的K值大小得出不同的预测结果。
K&＃61;1时&＃xff0c;距离绿色样本最近的一个类型是红色&＃xff0c;因此判定绿色样本属于红色类。

在这里插入图片描述

K&＃61;3时&＃xff0c;距离绿色样本最近的3个实例中&＃xff08;圆圈内&＃xff09;&＃xff0c;有两个是蓝色、一个是红色。则绿色样本属于蓝色类。
在这里插入图片描述
K&＃61;5时&＃xff0c;距离绿色样本最近的5个实例中&＃xff08;圆圈内&＃xff09;&＃xff0c;有三个是红色、两个是蓝色。则绿色样本属于红色类。

在这里插入图片描述
K值的选取&＃xff1a;

K 值一般是通过交叉验证来确定的&＃xff08;经验规则来说&＃xff0c;一般 k 是低于训练样本数的平方根&＃xff09;

交叉验证&＃xff1a;本例中通过将原始数据按照一定的比例&＃xff0c;如 4&＃xff1a;1 &＃xff0c;拆分成训练数据集和测试数据集&＃xff0c;K 值从一个较小的值开始选取&＃xff0c;逐渐增大&＃xff0c;然后计算整个集合的方差&＃xff0c;从而确定一个合适的 K 值。
代码参考&＃xff1a;链接: https://zhuanlan.zhihu.com/p/61996479.

用KNN实现鸢尾花分类

实现过程&＃xff1a;
1)利用slearn库中的load_iris()导入iris数据集 &＃xff1b;
2)使用train_test_split()对数据集进行划分&＃xff0c;并进行数据集的随机分割&＃xff1b;
3)KNeighborsClassifier()设置邻居数&＃xff1b;
4)利用fit()构建基于训练集的模型&＃xff1b;
5)使用predict()进行预测&＃xff1b;
6)使用score()进行模型评估。

代码实现&＃xff1a;

from sklearn.datasets import load_iris from sklearn.model_selection import train_test_split#用于模型划分 from sklearn.neighbors import KNeighborsClassifier##KNN算法包 import numpy as np # 载入数据集 iris_dataset &＃61; load_iris() X &＃61; iris_dataset[&＃39;data&＃39;]#特征 Y &＃61; iris_dataset[&＃39;target&＃39;]#类别 # 数据划分 X_train, X_test, Y_train, Y_test &＃61; train_test_split(X, Y, test_size&＃61;0.2, random_state&＃61;0) #训练阶段 knn &＃61; KNeighborsClassifier(n_neighbors&＃61;5)#设置邻居数K knn.fit(X_train, Y_train)#构建基于训练集的模型 #测试评估模型 Y_pred&＃61;knn.predict(X_test) print("Test set score:{:.2f}".format(knn.score(X_test, Y_test))) # 做出预测&＃xff0c;预测花萼长5cm宽2.9cm&＃xff0c;花瓣长1cm宽0.2cm的花型 X_new &＃61; np.array([[5, 2.9, 1, 0.2]]) prediction &＃61; knn.predict(X_new) print("Prediction:{}".format(prediction)) print("Predicted target name:{}".format(iris_dataset[&＃39;target_names&＃39;][prediction]))

运行结果&＃xff1a;
在这里插入图片描述
此外&＃xff0c;KNN算法适合对稀有事件进行分类&＃xff0c;特别适合于对象具有多个类别标签的多分类问题。但是&＃xff0c;当样本不平衡时&＃xff0c;如一个类的样本容量很大&＃xff0c;而其他样本容量很小时&＃xff0c;有可能导致当输入一个新样本时&＃xff0c;该样本的K个邻居中大容量类的样本占多数&＃xff0c;少数类容易分错&＃xff1b;需要存储全部训练样本&＃xff0c;计算量较大&＃xff0c;因为对每一个待分类的文本都要计算它到全体已知样本的距离&＃xff0c;才能求得它的K个最近邻点。

参考链接&＃xff1a;
深入浅出KNN算法&＃xff1a;https://zhuanlan.zhihu.com/p/61341071.
用鸢尾花数据集实现knn分类算法&＃xff1a; https://blog.csdn.net/qq_43407321/article/details/102531080.
原生Python实现KNN分类算法: https://www.huaweicloud.com/articles/f162bc2162a6052a787bf912f64d01fb.html.

推荐阅读

python
如何高效启动大数据应用之旅？

在前一篇文章中，我探讨了大数据的定义及其与数据挖掘的区别。本文将重点介绍如何高效启动大数据应用项目，涵盖关键步骤和最佳实践，帮助读者快速踏上大数据之旅。 ... [详细]

蜡笔小新 2024-11-04 18:30:38
string
大类|电阻器_使用Requests、Etree、BeautifulSoup、Pandas和Path库进行数据抓取与处理 | 将指定区域内容保存为HTML和Excel格式

大类|电阻器_使用Requests、Etree、BeautifulSoup、Pandas和Path库进行数据抓取与处理 | 将指定区域内容保存为HTML和Excel格式 ... [详细]

蜡笔小新 2024-11-11 19:05:59
string
非计算机专业的朋友如何拿下多个Offer

大家好，我是归辰。秋招结束后，我已顺利入职，并应公子龙的邀请，分享一些秋招面试的心得体会，希望能帮助到学弟学妹们，让他们在未来的面试中更加顺利。 ... [详细]

蜡笔小新 2024-11-13 18:41:58
case
JUC（三）：深入解析AQS

本文详细介绍了Java并发工具包中的核心类AQS（AbstractQueuedSynchronizer），包括其基本概念、数据结构、源码分析及核心方法的实现。 ... [详细]

蜡笔小新 2024-11-13 15:40:34
case
双指针法高效解决七道链表问题

双指针法在链表问题中应用广泛，能够高效解决多种经典问题，如合并两个有序链表、合并多个有序链表、查找倒数第k个节点等。本文将详细介绍这些应用场景及其解决方案。 ... [详细]

蜡笔小新 2024-11-13 13:16:55
string
IOS Run loop详解

为什么80%的码农都做不了架构师？转自http:blog.csdn.netztp800201articledetails9240913感谢作者分享Objecti ... [详细]

蜡笔小新 2024-11-13 12:14:35
string
Java 并发编程：深入解析 AtomicInteger 和 CAS 无锁算法

在多线程并发环境中，普通变量的操作往往是线程不安全的。本文通过一个简单的例子，展示了如何使用 AtomicInteger 类及其核心的 CAS 无锁算法来保证线程安全。 ... [详细]

蜡笔小新 2024-11-12 16:40:04
less
杜甫《喜晴》的两种英译比较

本文对比了杜甫《喜晴》的两种英文翻译版本：a. Pleased with Sunny Weather 和 b. Rejoicing in Clearing Weather。a 版由 alexcwlin 翻译并经 Adam Lam 编辑，b 版则由哈佛大学的宇文所安教授 (Prof. Stephen Owen) 翻译。 ... [详细]

蜡笔小新 2024-11-12 15:02:28
string
Spring 3.0.5 中获取 MySQL 表的自增主键

本文介绍了如何在 Spring 3.0.5 中使用 JdbcTemplate 插入数据并获取 MySQL 表中的自增主键。 ... [详细]

蜡笔小新 2024-11-13 18:00:32
string
SpringMVC 入门指南：快速上手 Java Web 开发

本文将带你快速了解 SpringMVC 框架的基本使用方法，通过实现一个简单的 Controller 并在浏览器中访问，展示 SpringMVC 的强大与简便。 ... [详细]

蜡笔小新 2024-11-13 14:22:01
instance
Spring – Bean Life Cycle

Spring – Bean Life Cycle ... [详细]

蜡笔小新 2024-11-13 13:24:40
install
Python错误重试让多少开发者头疼？高效解决方案出炉

### 优化后的摘要在处理 Python 开发中的错误重试问题时，许多开发者常常感到困扰。为了应对这一挑战，`tenacity` 库提供了一种高效的解决方案。首先，通过 `pip install tenacity` 安装该库。使用时，可以通过简单的规则配置重试策略。例如，可以设置多个重试条件，使用 `|`（或）和 `&`（与）操作符组合不同的参数，从而实现灵活的错误重试机制。此外，`tenacity` 还支持自定义等待时间、重试次数和异常处理，为开发者提供了强大的工具来提高代码的健壮性和可靠性。 ... [详细]

蜡笔小新 2024-11-11 10:33:20
python
在List和Set集合中存储Object类型的数据元素

在List和Set集合中存储Object类型的数据元素 ... [详细]

蜡笔小新 2024-11-09 18:55:32
instance
Netty框架中运用Protobuf实现高效通信协议

在Netty框架中，通过引入Protobuf来实现高效的通信协议。为了使用Protobuf，需要先准备好环境，包括下载并安装Protobuf的代码生成器`protoc`以及相应的源码包。具体资源可从官方下载页面获取，确保版本兼容性以充分发挥其性能优势。此外，配置好开发环境后，可以通过定义`.proto`文件来自动生成Java类，从而简化数据序列化和反序列化的操作，提高通信效率。 ... [详细]

蜡笔小新 2024-11-05 17:06:20
python
利用 Python 管道实现父子进程间高效通信

利用 Python 管道实现父子进程间高效通信 ... [详细]

蜡笔小新 2024-11-04 20:26:43

气质未央若

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章