当前位置: 开发笔记 > 编程语言 > 正文

sklearn读取html,sklearn数据库【老鱼学sklearn】(示例代码)

作者：尕心疼TammyY | 来源：互联网 | 2023-09-18 12:56

在做机器学习时需要有数据进行训练，幸好sklearn提供了很多已经标注好的数据集供我们进行训练。本节就来看看sklearn提供了哪些可供训练的数据集。房价数据from

在做机器学习时需要有数据进行训练&＃xff0c;幸好sklearn提供了很多已经标注好的数据集供我们进行训练。

本节就来看看sklearn提供了哪些可供训练的数据集。

房价数据

from sklearn.datasets import load_boston

boston &＃61; load_boston()

print(boston.data.shape)

这个数据集的shape为&＃xff1a;

(506, 13)

也就是506行&＃xff0c;13列&＃xff0c;这里13列就是影响房价的13个属性&＃xff0c;具体是哪些属性可以通过如下代码打印出来&＃xff1a;

print(boston.feature_names)

输出为&＃xff1a;

[\&＃39;CRIM\&＃39; \&＃39;ZN\&＃39; \&＃39;INDUS\&＃39; \&＃39;CHAS\&＃39; \&＃39;NOX\&＃39; \&＃39;RM\&＃39; \&＃39;AGE\&＃39; \&＃39;DIS\&＃39; \&＃39;RAD\&＃39; \&＃39;TAX\&＃39; \&＃39;PTRATIO\&＃39;

\&＃39;B\&＃39; \&＃39;LSTAT\&＃39;]

具体代表啥意思&＃xff0c;要么自己猜&＃xff0c;要么上网查吧&＃xff0c;我不一一去解释了&＃xff0c;我猜几个&＃xff1a;RM:room数&＃xff0c;也就是户型中的几房&＃xff0c;AGE:age(房龄)&＃xff0c;不知道猜得对不对&＃xff0c;大家自己去实践就是了。

你说我咋知道这个数据集中有feature_names属性&＃xff0c;我也不知道&＃xff0c;我只是把上面的boston整个打印出来看到其中有这个属性的。

预测房价案例

from sklearn.datasets import load_boston

from sklearn.linear_model import LinearRegression

from sklearn.model_selection import train_test_split

# 加载房价数据

boston &＃61; load_boston()

data_X &＃61; boston.data

data_y &＃61; boston.target

# 拆分训练集和测试集

X_train, X_test, y_train, y_test &＃61; train_test_split(data_X, data_y, test_size&＃61;0.3)

# 创建线性回归模型

model &＃61; LinearRegression()

# 训练模型

model.fit(X_train, y_train)

# 打印出预测的前5条房价数据

print("预测的前5条房价数据:")

print(model.predict(X_test)[:5])

# 打印出测试集中实际房价前5条数据

print("测试集中实际房价前5条数据:")

print(y_test[:5])

输出&＃xff1a;

预测的前5条房价数据:

[ 17.44807408 27.78251433 18.8344117 17.85437188 34.47632703]

测试集中实际房价前5条数据:

[ 14.3 22.3 22.6 20.6 34.9]

以这个结果集中第一条数据为例&＃xff0c;我们预测出某房子的价格是17.4万&＃xff0c;而实际价格是14.3万。

不过说实话&＃xff0c;上面的房价数据只能用于测试算法&＃xff0c;我们真要预测房价的话&＃xff0c;原始数据的获得没有那么全和规整&＃xff0c;因此&＃xff0c;在机器学习中&＃xff0c;收集数据并清洗也是一个很重要的工作&＃xff0c;脏活累活也必须得干&＃xff0c;光有算法没啥用。

花的数据前面一个博文已经讲过了&＃xff0c;这里就不再重复了。

手写数字识别数据

创建样本数据

也可以生成一些虚拟的数据&＃xff0c;这些是位于官网的API文档中Samples generator一节&＃xff1a;

案例源代码为&＃xff1a;

from sklearn.datasets import make_regression

import matplotlib.pyplot as plt

# 创建100个样本&＃xff0c;1个属性值的数据&＃xff0c;输出一个目标值&＃xff0c;同时也设置了噪音

X, y &＃61; make_regression(n_samples&＃61;100, n_features&＃61;1, n_targets&＃61;1, noise&＃61;10)

print(X.shape)

print(y.shape)

# 对X,y画散点图&＃xff0c;看看长啥模样的

plt.scatter(X, y)

plt.show()

输出的数据为&＃xff1a;

(100, 1)

(100,)

也就是X值中有100行1列&＃xff0c;y值是100行的值。

输出的图形为&＃xff1a;

看起来接近一条直线。

推荐阅读

get
新浪笔试题

1:有如下一段程序：packagea.b.c;publicclassTest{privatestaticinti0;publicintgetNext(){return ... [详细]

蜡笔小新 2024-12-27 19:32:17
get
技术分享：从动态网站提取站点密钥的解决方案

本文探讨了如何从动态网站中提取站点密钥，特别是针对验证码（reCAPTCHA）的处理方法。通过结合Selenium和requests库，提供了详细的代码示例和优化建议。 ... [详细]

蜡笔小新 2024-12-28 04:11:47
get
Java并发编程：LinkedBlockingQueue的实际应用

本文介绍了Java并发库中的阻塞队列（BlockingQueue）及其典型应用场景。通过具体实例，展示了如何利用LinkedBlockingQueue实现线程间高效、安全的数据传递，并结合线程池和原子类优化性能。 ... [详细]

蜡笔小新 2024-12-27 18:51:49
range
深入理解org.neo4j.helpers.collection.Iterators.single()方法及其应用

本文详细介绍了Java中org.neo4j.helpers.collection.Iterators.single()方法的功能、使用场景及代码示例，帮助开发者更好地理解和应用该方法。 ... [详细]

蜡笔小新 2024-12-28 10:51:55
get
优化ListView性能

本文深入探讨了如何通过多种技术手段优化ListView的性能，包括视图复用、ViewHolder模式、分批加载数据、图片优化及内存管理等。这些方法能够显著提升应用的响应速度和用户体验。 ... [详细]

蜡笔小新 2024-12-28 10:36:30
config
Python配置文件读写指南

本文详细介绍如何使用Python进行配置文件的读写操作，涵盖常见的配置文件格式（如INI、JSON、TOML和YAML），并提供具体的代码示例。 ... [详细]

蜡笔小新 2024-12-28 08:39:55
config
Java 中的 BigDecimal pow()方法，示例

Java 中的 BigDecimal pow()方法，示例 ... [详细]

蜡笔小新 2024-12-27 20:54:03
get
深入理解Cookie与Session会话管理

本文详细介绍了如何通过HTTP响应和请求处理浏览器的Cookie信息，以及如何创建、设置和管理Cookie。同时探讨了会话跟踪技术中的Session机制，解释其原理及应用场景。 ... [详细]

蜡笔小新 2024-12-27 18:20:43
get
MyBatis 动态 SQL 详解与应用

本文深入探讨 MyBatis 中动态 SQL 的使用方法，包括 if/where、trim 自定义字符串截取规则、choose 分支选择、封装查询和修改条件的 where/set 标签、批量处理的 foreach 标签以及内置参数和 bind 的用法。 ... [详细]

蜡笔小新 2024-12-27 16:20:10
window
分页插件3指定到某一页

前言--页数多了以后需要指定到某一页（只做了功能，样式没有细调）html ... [详细]

蜡笔小新 2024-12-27 15:19:01
range
Akka BackoffSupervisor的深入解析与实践

本文详细介绍了Akka中的BackoffSupervisor机制，探讨其在处理持久化失败和Actor重启时的应用。通过具体示例，展示了如何配置和使用BackoffSupervisor以实现更细粒度的异常处理。 ... [详细]

蜡笔小新 2024-12-27 15:04:09
get
Java 类成员初始化顺序与数组创建

本文探讨了Java中类成员的初始化顺序、静态引入、可变参数以及finalize方法的应用。通过具体的代码示例，详细解释了这些概念及其在实际编程中的使用。 ... [详细]

蜡笔小新 2024-12-27 19:39:42
range
Python 的 10 个开发技巧！太实用了

1.如何在运行状态查看源代码？查看函数的源代码，我们通常会使用IDE来完成。比如在PyCharm中，你可以Ctrl+鼠标点击进入函数的源代码。那如果没有IDE呢？当我们想使用一个函 ... [详细]

蜡笔小新 2024-12-27 18:36:54
get
java编写的简易计算器

主要用了2个类来实现的，话不多说，直接看运行结果，然后在奉上源代码1.Index.javaimportjava.awt.Color;im ... [详细]

蜡笔小新 2024-12-27 18:18:10
get
深入理解 SQL 视图、存储过程与事务

本文详细介绍了SQL中的视图、存储过程和事务的概念及应用。视图为用户提供了一种灵活的数据查询方式，存储过程则封装了复杂的SQL逻辑，而事务确保了数据库操作的完整性和一致性。 ... [详细]

蜡笔小新 2024-12-27 17:40:42

尕心疼TammyY

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章