当前位置: 开发笔记 > 编程语言 > 正文

sklearn数据集库中的常用数据集类型介绍

作者：手机用户2602919547 | 来源：互联网 | 2023-12-13 17:45

本文介绍了sklearn数据集库中常用的数据集类型，包括玩具数据集和样本生成器。其中详细介绍了波士顿房价数据集，包含了波士顿506处房屋的13种不同特征以及房屋价格，适用于回归任务。

datasets数据集

分享一些学习到的知识

sklearn的数据集库datasets提供很多不同的数据集，主要包含以下几大类：

玩具数据集

真实世界中的数据集

样本生成器

样本图片

svmlight或libsvm格式的数据

从openml.org下载的数据

从外部加载的数据

用的比较多的就是1和3，这里进行主要介绍，其他的会进行简单介绍，但是不建议使用。

玩具数据集

scikit-learn 内置有一些小型标准数据集，不需要从某个外部网站下载任何文件，用datasets.load_xx()加载。

(一) 波士顿房价

统计了波士顿506处房屋的13种不同特征（包含城镇犯罪率、一氧化氮浓度、住宅平均房间数、到中心区域的加权距离以及自住房平均房价等）以及房屋的价格，适用于回归任务。

from sklearn import datasets # 导入库 boston = datasets.load_boston() # 导入波士顿房价数据 print(boston.keys()) # 查看键(属性) ['data','target','feature_names','DESCR', 'filename'] print(boston.data.shape,boston.target.shape) # 查看数据的形状 (506, 13) (506,) print(boston.feature_names) # 查看有哪些特征这里共13种 print(boston.DESCR) # described 描述这个数据集的信息 print(boston.filename) # 文件路径

(二) 鸢尾花

这个数据集包含了150个鸢尾花样本，对应3种鸢尾花，各50个样本，以及它们各自对应的4种关于花外形的数据，适用于分类任务。

from sklearn import datasets # 导入库 iris = datasets.load_iris() # 导入鸢尾花数据 print(iris.data.shape,iris.target.shape) # (150, 4) (150,) print(iris.feature_names) # [花萼长，花萼宽，花瓣长，花瓣宽]

还可以在sklearn\datasets_base.py文件中查看信息：3类，每类50个，共150个样本，维度（特征）为4，特征的数值是真实的，并且都是正数。

其他数据集大同小异，节省大家时间，下面只做简单介绍。

(三) 糖尿病

主要包括442个实例，每个实例10个属性值，分别是：Age(年龄)、性别(Sex)、Body mass index(体质指数)、Average Blood Pressure(平均血压)、S1~S6一年后疾病级数指标，Target为一年后患疾病的定量指标，适用于回归任务。

from sklearn import datasets # 导入库 diabetes = datasets.load_diabetes() # 导入糖尿病数据

(四) 手写数字

共有1797个样本，每个样本有64的元素，对应到一个8&＃215;8像素点组成的矩阵，每一个值是其灰度值， target值是0-9，适用于分类任务。

from sklearn import datasets # 导入库 digits = datasets.load_digits() # 导入手写数字数据

(五) 体能训练

兰纳胡德提供的体能训练数据，data和target都是20&＃215;3，data的特征包括Chins, Situps and Jumps.(引体向上仰卧起坐跳跃)，target的三维分别是Weight, Waist and Pulse.(体重腰围脉搏)，适用于回归问题，用的少。

(六) 红酒

共178个样本，代表了红酒的三个档次（分别有59，71，48个样本），以及与之对应的13维的属性数据，适用于分类任务。

from sklearn import datasets # 导入库 wine = datasets.load_wine() # 导入红酒数据

(七) 威斯康辛州乳腺癌

包含了威斯康辛州记录的569个病人的乳腺癌恶性/良性（1/0）类别型数据，以及与之对应的30个维度的生理指标数据，适用于二分类问题。

from sklearn import datasets # 导入库 cancer = datasets.load_breast_cancer() # 导入乳腺癌数据

真实世界中的数据集

scikit-learn 提供加载较大数据集的工具，并在必要时可以在线下载这些数据集，用datasets.fetch_xx()加载。

调用	描述
fetch_olivetti_faces()	Olivetti 脸部图片数据集
fetch_20newsgroups()	用于文本分类、文本挖据和信息检索研究的国际标准数据集之一。数据集收集了大约20,000左右的新闻组文档，均匀分为20个不同主题的新闻组集合。返回一个可以被文本特征提取器
fetch_20newsgroups_vectorized()	这是上面这个文本数据的向量化后的数据，返回一个已提取特征的文本序列，即不需要使用特征提取器
fetch_lfw_people()	打好标签的人脸数据集
fetch_lfw_pairs()	该任务称为人脸验证：给定一对两张图片，二分类器必须预测这两个图片是否来自同一个人
fetch_covtype()	森林植被类型，总计581012个样本，每个样本由54个维度表示（12个属性，其中2个分别是onehot4维和onehot40维），以及target表示植被类型1-7，所有属性值均为number，详情可调用fetch_covtype()[‘DESCR’]了解每个属性的具体含义
fetch_rcv1()	路透社新闻语料数据集
fetch_kddcup99()	KDD竞赛在1999年举行时采用的数据集，KDD99数据集仍然是网络入侵检测领域的事实Benckmark，为基于计算智能的网络入侵检测研究奠定基础，包含41项特征
fetch_california_housing()	加利福尼亚的房价数据，总计20640个样本，每个样本8个属性表示，以及房价作为target，所有属性值均为number，详情可调用fetch_california_housing()[‘DESCR’]了解每个属性的具体含义
fetch_species_distributions()	物种分布数据集

样本生成器

(一) 簇

from sklearn import datasets centers = [[2,2],[8,2],[2,8],[8,8]] x, y = datasets.make_blobs(n_samples=1000, n_features=2, centers=4,cluster_std=1)

n_samples:样本数

n_features:特征数（维度）

centers:中心数，也可以是中心的坐标

cluster_std:簇的方差

(二) 同心圆

x, y = datasets.make_circles(n_samples=5000, noise=0.04, factor=0.7)

noise:噪声

factor:内圆与外圆的距离为1的时候最小

(三) 月牙

x, y = datasets.make_moons(n_samples=3000, noise=0.05)

(四) 分类

x, y =datasets.make_classification(n_classes=4, n_samples=1000, n_features=2, n_informative=2 , n_redundant=0, n_clusters_per_class=1,n_repeated=0, random_state=22)

n_classes:类的数目

n_informative:有效的特征数

n_redundant:冗余特征数有效特征数的线性组合

n_repeated:有效特征数和冗余特征数的有效组合

n_informative + n_redundant + n_repeated <= n_features

n_clusters_per_class:每一类的簇数

n_classes * n_clusters_per_class <= 2**n_informative

样本图片

scikit 在通过图片的作者共同授权下嵌入了几个样本 JPEG 图片。这些图像为了方便用户对 test algorithms （测试算法）和 pipeline on 2D data （二维数据管道）进行测试，用datasets.load_sample_image()加载。

from sklearn import datasets import matplotlib.pyplot as plt img = datasets.load_sample_image('flower.jpg') print(img.shape) # (427, 640, 3) print(img.dtype) # uint8 plt.imshow(img) plt.show()

svmlight或libsvm格式的数据

可以加载svmlight / libsvm格式的数据集。

from sklearn.datasets import load_svmlight_file,load_svmlight_files # 加载单个文件 X_train, y_train = load_svmlight_file("/path/to/train_dataset.txt") # 加载多个文件 X_train, y_train, X_test, y_test = load_svmlight_files(("/path/to/train_dataset.txt", "/path/to/test_dataset.txt"))

svmlight / libsvm格式的公共数据集

从openml.org下载的数据

openml.org 是一个用于机器学习数据和实验的公共存储库，它允许每个人上传开放的数据集，可以通过sklearn.datasets.fetch_openml()函数来从openml.org下载数据集。

例如，下载gene expressions in mice brains（老鼠大脑中的基因表达）数据集:

from sklearn.datasets import fetch_openml mice = fetch_openml(name='miceprotein', version=4) print(mice.DESCR) # 查看详情

从外部加载的数据

建议除了玩具数据集和生成数据集以外，都在网上下载后用pandas导入。

kaggle：https://www.kaggle.com

天池：https://tianchi.aliyun.com/dataset

搜狗实验室：http://www.sogou.com/labs/resource/list_pingce.php

DC竞赛：https://www.pkbigdata.com/common/cmptIndex.html

DF竞赛：https://www.datafountain.cn/datasets

例如，导入iris文件：

import pandas as pd import seaborn as sns # 基于matplotlib和pandas的画图库 import matplotlib.pyplot as plt data = pd.read_csv('G:\iris.csv', encoding='gbk') # 我把数据集列名改成了中文所以用gbk解码 sns.relplot(x='花萼长', y='花瓣长', hue='类别',data=data) # seaborn库这里不做过多介绍 plt.rcParams['font.sans-serif'] = ['SimHei'] # 步骤一（替换sans-serif字体） # plt.rcParams['axes.unicode_minus'] = False # 步骤二（解决坐标轴负数的负号显示问题） plt.show()

总结

sklearn的数据集datasets库中，我们一般使用玩具数据集和样本生成器比较多，其他数据建议外部导入。

下一期向大家介绍sklearn中关于数据预处理的一些常用操作。

来源：https://www.bilibili.com/video/BV1H7411874E?p=2

推荐阅读

ip
优化ListView性能

本文深入探讨了如何通过多种技术手段优化ListView的性能，包括视图复用、ViewHolder模式、分批加载数据、图片优化及内存管理等。这些方法能够显著提升应用的响应速度和用户体验。 ... [详细]

蜡笔小新 2024-12-28 10:36:30
function
Python 的 10 个开发技巧！太实用了

1.如何在运行状态查看源代码？查看函数的源代码，我们通常会使用IDE来完成。比如在PyCharm中，你可以Ctrl+鼠标点击进入函数的源代码。那如果没有IDE呢？当我们想使用一个函 ... [详细]

蜡笔小新 2024-12-27 18:36:54
function
Yii2 GridView 实现列表页数据直接编辑的完整指南

本文详细介绍了如何使用 Yii2 的 GridView 组件在列表页面实现数据的直接编辑功能。通过具体的代码示例和步骤，帮助开发者快速掌握这一实用技巧。 ... [详细]

蜡笔小新 2024-12-27 16:27:52
char
Java面试题解析

本文详细介绍了Java编程语言中的核心概念和常见面试问题，包括集合类、数据结构、线程处理、Java虚拟机（JVM）、HTTP协议以及Git操作等方面的内容。通过深入分析每个主题，帮助读者更好地理解Java的关键特性和最佳实践。 ... [详细]

蜡笔小新 2024-12-27 13:55:14
char
Python自动化处理：从Word文档提取内容并生成带水印的PDF

本文介绍如何利用Python实现从特定网站下载Word文档，去除水印并添加自定义水印，最终将文档转换为PDF格式。该方法适用于批量处理和自动化需求。 ... [详细]

蜡笔小新 2024-12-27 13:10:20
ip
编写有趣的VBScript恶作剧脚本

本文将介绍如何编写一些有趣的VBScript脚本，这些脚本可以在朋友之间进行无害的恶作剧。通过简单的代码示例，帮助您了解VBScript的基本语法和功能。 ... [详细]

蜡笔小新 2024-12-28 09:46:23
ip
Python配置文件读写指南

本文详细介绍如何使用Python进行配置文件的读写操作，涵盖常见的配置文件格式（如INI、JSON、TOML和YAML），并提供具体的代码示例。 ... [详细]

蜡笔小新 2024-12-28 08:39:55
ip
技术分享：从动态网站提取站点密钥的解决方案

本文探讨了如何从动态网站中提取站点密钥，特别是针对验证码（reCAPTCHA）的处理方法。通过结合Selenium和requests库，提供了详细的代码示例和优化建议。 ... [详细]

蜡笔小新 2024-12-28 04:11:47
ip
Go语言基础：Hello World 实践

本文将介绍如何使用 Go 语言编写和运行一个简单的“Hello, World!”程序。内容涵盖开发环境配置、代码结构解析及执行步骤。 ... [详细]

蜡笔小新 2024-12-27 21:29:35
ip
HDFS与Hive中的数据存储和管理机制

本文探讨了Hive中内部表和外部表的区别及其在HDFS上的路径映射，详细解释了两者的创建、加载及删除操作，并提供了查看表详细信息的方法。通过对比这两种表类型，帮助读者理解如何更好地管理和保护数据。 ... [详细]

蜡笔小新 2024-12-27 20:21:48
ip
深入理解Tornado模板系统

本文详细介绍了Tornado框架中模板系统的使用方法。Tornado自带的轻量级、高效且灵活的模板语言位于tornado.template模块，支持嵌入Python代码片段，帮助开发者快速构建动态网页。 ... [详细]

蜡笔小新 2024-12-27 19:22:16
jsp
PHP 5.2.5 安装与配置指南

本文详细介绍了 PHP 5.2.5 的安装和配置步骤，帮助开发者解决常见的环境配置问题，特别是上传图片时遇到的错误。通过本教程，您可以顺利搭建并优化 PHP 运行环境。 ... [详细]

蜡笔小新 2024-12-27 19:05:41
jsp
Java并发编程：LinkedBlockingQueue的实际应用

本文介绍了Java并发库中的阻塞队列（BlockingQueue）及其典型应用场景。通过具体实例，展示了如何利用LinkedBlockingQueue实现线程间高效、安全的数据传递，并结合线程池和原子类优化性能。 ... [详细]

蜡笔小新 2024-12-27 18:51:49
function
JQuery基础：省市联动与表单验证

本文介绍了如何使用JQuery实现省市二级联动和表单验证。首先，通过change事件监听用户选择的省份，并动态加载对应的城市列表。其次，详细讲解了使用Validation插件进行表单验证的方法，包括内置规则、自定义规则及实时验证功能。 ... [详细]

蜡笔小新 2024-12-27 17:10:48
function
Android LED 数字字体的应用与实现

本文介绍了一种适用于 Android 应用的 LED 数字字体（digital font），并详细描述了其在 UI 设计中的应用场景及其实现方法。这种字体常用于视频、广告倒计时等场景，能够增强视觉效果。 ... [详细]

蜡笔小新 2024-12-27 10:34:22

手机用户2602919547

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章