热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

总结机器学习部分计算原理—续

首先补充一下关于数据集的几点内容,在上次博客之后做的练习中,我发现了关于数据集中一些比较重要却被我忽视的内容。1、划分数据集。对于机器学习来说,不能将所有的数据都用来进行训练,这是

  首先补充一下关于数据集的几点内容,在上次博客之后做的练习中,我发现了关于数据集中一些比较重要却被我忽视的内容。

  1、划分数据集。对于机器学习来说,不能将所有的数据都用来进行训练,这是因为倘若将所有的数据都用来训练,然后训练完毕后的模型直接去进行预测等工作,这样很难判断训练模型究竟好不好,是不是能比较准确的进行工程实践。所以,必须将数据集划分成训练集和测试集。当然一般来说,训练集会多一些,测试集会占到10%~30%。

  划分数据集的代码如下:


from sklearn.model_selection import train_test_split
# 以鸢尾花集来举例子
#
划分数据集
x_train,x_test,y_train,y_test=train_test_split(iris.data,iris.target,random_state=30)

   train_test_split方法参数输入顺序是:数据集的特征值,数据集的标签值。然后是一些默认参数,比较重要的就是random_state,不同的随机数种子会造成不同的随机采样结果。最后比较重要的就是train_test_split方法的返回值,返回数据顺序是:训练集特征值,测试集特征值,训练集目标值,测试集目标值,简称训特、测特、训目、测目,一般表示为x_train,y_train,x_test,y_test。

  2、K-近邻算法,非常非常基础的机器学习算法之一,又叫KNN(K Nearest Neighbors)算法,K是自己规定的常数,K-近邻算法的核心思想就是“找近的”,距离是衡量关系的最重要因素。在n个样本点中,选出距离要测试的样本点最近的K个样本,再选取这K个样本中标签相同数量最多的样本的标签,这个标签就是测试点的标签。所以,K值的选取是很重要的因素,K值不能取1,因为如果正好取到离得最近的“坏点”,预测就会错误;K值也不能取得太大,因为相同标签的数量多,但对于样本的标签来说不一定是对的。下面附上鸢尾花集的K-近邻算法。


from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsClassifier
# 使用K-近邻算法
def KNN_iris():
# 获取数据
iris = load_iris()
# 划分数据集
x_train,x_test,y_train,y_test=train_test_split(iris.data,iris.target,random_state=30)
# 特征工程:标准化
stand_trans = StandardScaler()
x_train_standard
= stand_trans.fit_transform(x_train)
x_test_standard
= stand_trans.transform(x_test)
# K-近邻算法预估器
estimator = KNeighborsClassifier(n_neighbors=5)
estimator.fit(x_train_standard,y_train)
# 模型评估
# 1、直接比对真实值和预测值
y_predict = estimator.predict(x_test_standard)
print("直接作对比:",y_predict==y_test)
# 2、计算准确率
score = estimator.score(x_test_standard,y_test)
print("计算准确率:",score)
print("Iris‘s data:",iris.data)
print("Iris‘s target:",iris.target)
if __name__ == __main__:
KNN_iris()

 

截图如下

技术分享图片

 

 


推荐阅读
  • 深入理解 Oracle 存储函数:计算员工年收入
    本文介绍如何使用 Oracle 存储函数查询特定员工的年收入。我们将详细解释存储函数的创建过程,并提供完整的代码示例。 ... [详细]
  • 本文总结了2018年的关键成就,包括职业变动、购车、考取驾照等重要事件,并分享了读书、工作、家庭和朋友方面的感悟。同时,展望2019年,制定了健康、软实力提升和技术学习的具体目标。 ... [详细]
  • 在计算机技术的学习道路上,51CTO学院以其专业性和专注度给我留下了深刻印象。从2012年接触计算机到2014年开始系统学习网络技术和安全领域,51CTO学院始终是我信赖的学习平台。 ... [详细]
  • CSS 布局:液态三栏混合宽度布局
    本文介绍了如何使用 CSS 实现液态的三栏布局,其中各栏具有不同的宽度设置。通过调整容器和内容区域的属性,可以实现灵活且响应式的网页设计。 ... [详细]
  • Linux 系统启动故障排除指南:MBR 和 GRUB 问题
    本文详细介绍了 Linux 系统启动过程中常见的 MBR 扇区和 GRUB 引导程序故障及其解决方案,涵盖从备份、模拟故障到恢复的具体步骤。 ... [详细]
  • 本文介绍了如何使用jQuery根据元素的类型(如复选框)和标签名(如段落)来获取DOM对象。这有助于更高效地操作网页中的特定元素。 ... [详细]
  • 本文介绍如何在 Xcode 中使用快捷键和菜单命令对多行代码进行缩进,包括右缩进和左缩进的具体操作方法。 ... [详细]
  • 在Linux系统中配置并启动ActiveMQ
    本文详细介绍了如何在Linux环境中安装和配置ActiveMQ,包括端口开放及防火墙设置。通过本文,您可以掌握完整的ActiveMQ部署流程,确保其在网络环境中正常运行。 ... [详细]
  • 本文介绍如何通过Windows批处理脚本定期检查并重启Java应用程序,确保其持续稳定运行。脚本每30分钟检查一次,并在需要时重启Java程序。同时,它会将任务结果发送到Redis。 ... [详细]
  • MySQL中枚举类型的所有可能值获取方法
    本文介绍了一种在MySQL数据库中查询枚举(ENUM)类型字段所有可能取值的方法,帮助开发者更好地理解和利用这一数据类型。 ... [详细]
  • PyCharm下载与安装指南
    本文详细介绍如何从官方渠道下载并安装PyCharm集成开发环境(IDE),涵盖Windows、macOS和Linux系统,同时提供详细的安装步骤及配置建议。 ... [详细]
  • 在 Windows 10 中,F1 至 F12 键默认设置为快捷功能键。本文将介绍几种有效方法来禁用这些快捷键,并恢复其标准功能键的作用。请注意,部分笔记本电脑的快捷键可能无法完全关闭。 ... [详细]
  • 1:有如下一段程序:packagea.b.c;publicclassTest{privatestaticinti0;publicintgetNext(){return ... [详细]
  • DNN Community 和 Professional 版本的主要差异
    本文详细解析了 DotNetNuke (DNN) 的两种主要版本:Community 和 Professional。通过对比两者的功能和附加组件,帮助用户选择最适合其需求的版本。 ... [详细]
  • 几何画板展示电场线与等势面的交互关系
    几何画板是一款功能强大的物理教学软件,具备丰富的绘图和度量工具。它不仅能够模拟物理实验过程,还能通过定量分析揭示物理现象背后的规律,尤其适用于难以在实际实验中展示的内容。本文将介绍如何使用几何画板演示电场线与等势面之间的关系。 ... [详细]
author-avatar
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有