使用Sklearn进行数据挖掘的步骤

作者：落叶野 | 来源：互联网 | 2023-09-16 12:46

本篇内容介绍了“使用Sklearn进行数据挖掘的步骤”的有关知识，在实际案例的操作过程中，不少人都会遇到这样的困境，接下来就让小编带领大家学习

本篇内容介绍了“使用Sklearn进行数据挖掘的步骤”的有关知识，在实际案例的操作过程中，不少人都会遇到这样的困境，接下来就让小编带领大家学习一下如何处理这些情况吧！希望大家仔细阅读，能够学有所成！

1 使用sklearn进行数据挖掘

1.1 数据挖掘的步骤

数据挖掘通常包括数据采集，数据分析，特征工程，训练模型，模型评估等步骤。使用sklearn工具可以方便地进行特征工程和模型训练工作，在《使用sklearn做单机特征工程》中，我们***留下了一些疑问：特征处理类都有三个方法fit、transform和fit_transform，fit方法居然和模型训练方法fit同名(不光同名，参数列表都一样)，这难道都是巧合?

显然，这不是巧合，这正是sklearn的设计风格。我们能够更加优雅地使用sklearn进行特征工程和模型训练工作。此时，不妨从一个基本的数据挖掘场景入手：

使用Sklearn进行数据挖掘的步骤

我们使用sklearn进行虚线框内的工作(sklearn也可以进行文本特征提取)。通过分析sklearn源码，我们可以看到除训练，预测和评估以外，处理其他工作的类都实现了3个方法：fit、transform和fit_transform。从命名中可以看到，fit_transform方法是先调用fit然后调用transform，我们只需要关注fit方法和transform方法即可。

transform方法主要用来对特征进行转换。从可利用信息的角度来说，转换分为无信息转换和有信息转换。无信息转换是指不利用任何其他信息进行转换，比如指数、对数函数转换等。有信息转换从是否利用目标值向量又可分为无监督转换和有监督转换。无监督转换指只利用特征的统计信息的转换，统计信息包括均值、标准差、边界等等，比如标准化、PCA法降维等。有监督转换指既利用了特征信息又利用了目标值信息的转换，比如通过模型选择特征、LDA法降维等。通过总结常用的转换类，我们得到下表：

使用Sklearn进行数据挖掘的步骤

不难看到，只有有信息的转换类的fit方法才实际有用，显然fit方法的主要工作是获取特征信息和目标值信息，在这点上，fit方法和模型训练时的fit方法就能够联系在一起了：都是通过分析特征和目标值，提取有价值的信息，对于转换类来说是某些统计量，对于模型来说可能是特征的权值系数等。另外，只有有监督的转换类的fit和transform方法才需要特征和目标值两个参数。fit方法无用不代表其没实现，而是除合法性校验以外，其并没有对特征和目标值进行任何处理，Normalizer的fit方法实现如下：

def fit(self, X, y=None):  """Do nothing and return the estimator unchanged This method is just there to implement the usual API and hence work in pipelines. """ X = check_array(X, accept_sparse=&＃39;csr&＃39;) return self

基于这些特征处理工作都有共同的方法，那么试想可不可以将他们组合在一起?在本文假设的场景中，我们可以看到这些工作的组合形式有两种：流水线式和并行式。基于流水线组合的工作需要依次进行，前一个工作的输出是后一个工作的输入;基于并行式的工作可以同时进行，其使用同样的输入，所有工作完成后将各自的输出合并之后输出。sklearn提供了包pipeline来完成流水线式和并行式的工作。

1.2 数据初貌

在此，我们仍然使用IRIS数据集来进行说明。为了适应提出的场景，对原数据集需要稍微加工：

from numpy import hstack, vstack, array, median, nan from numpy.random import choice from sklearn.datasets import load_iris  #特征矩阵加工 #使用vstack增加一行含缺失值的样本(nan, nan, nan, nan) #使用hstack增加一列表示花的颜色（0-白、1-黄、2-红），花的颜色是随机的，意味着颜色并不影响花的分类 iris.data = hstack((choice([0, 1, 2], size=iris.data.shape[0]+1).reshape(-1,1), vstack((iris.data, array([nan, nan, nan, nan]).reshape(1,-1))))) #目标值向量加工 #增加一个目标值，对应含缺失值的样本，值为众数 iris.target = hstack((iris.target, array([median(iris.target)])))

1.3 关键技术

并行处理，流水线处理，自动化调参，持久化是使用sklearn优雅地进行数据挖掘的核心。并行处理和流水线处理将多个特征处理工作，甚至包括模型训练工作组合成一个工作(从代码的角度来说，即将多个对象组合成了一个对象)。在组合的前提下，自动化调参技术帮我们省去了人工调参的反锁。训练好的模型是贮存在内存中的数据，持久化能够将这些数据保存在文件系统中，之后使用时无需再进行训练，直接从文件系统中加载即可。

2 并行处理

并行处理使得多个特征处理工作能够并行地进行。根据对特征矩阵的读取方式不同，可分为整体并行处理和部分并行处理。整体并行处理，即并行处理的每个工作的输入都是特征矩阵的整体;部分并行处理，即可定义每个工作需要输入的特征矩阵的列。

2.1 整体并行处理

pipeline包提供了FeatureUnion类来进行整体并行处理：

from numpy import log1p from sklearn.preprocessing import FunctionTransformer from sklearn.preprocessing import Binarizer from sklearn.pipeline import FeatureUnion   #新建将整体特征矩阵进行对数函数转换的对象 step2_1 = (&＃39;ToLog&＃39;, FunctionTransformer(log1p)) #新建将整体特征矩阵进行二值化类的对象 step2_2 = (&＃39;ToBinary&＃39;, Binarizer()) #新建整体并行处理对象 #该对象也有fit和transform方法，fit和transform方法均是并行地调用需要并行处理的对象的fit和transform方法 #参数transformer_list为需要并行处理的对象列表，该列表为二元组列表，***元为对象的名称，第二元为对象  step2 = (&＃39;FeatureUnion&＃39;, FeatureUnion(transformer_list=[step2_1, step2_2, step2_3]))

2.2 部分并行处理

整体并行处理有其缺陷，在一些场景下，我们只需要对特征矩阵的某些列进行转换，而不是所有列。pipeline并没有提供相应的类(仅OneHotEncoder类实现了该功能)，需要我们在FeatureUnion的基础上进行优化：

View Code

在本文提出的场景中，我们对特征矩阵的第1列(花的颜色)进行定性特征编码，对第2、3、4列进行对数函数转换，对第5列进行定量特征二值化处理。使用FeatureUnionExt类进行部分并行处理的代码如下：

from numpy import log1p from sklearn.preprocessing import OneHotEncoder from sklearn.preprocessing import FunctionTransformer from sklearn.preprocessing import Binarizer  #新建将部分特征矩阵进行定性特征编码的对象 step2_1 = (&＃39;OneHotEncoder&＃39;, OneHotEncoder(sparse=False)) #新建将部分特征矩阵进行对数函数转换的对象 step2_2 = (&＃39;ToLog&＃39;, FunctionTransformer(log1p)) #新建将部分特征矩阵进行二值化类的对象 step2_3 = (&＃39;ToBinary&＃39;, Binarizer()) #新建部分并行处理对象 #参数transformer_list为需要并行处理的对象列表，该列表为二元组列表，***元为对象的名称，第二元为对象 #参数idx_list为相应的需要读取的特征矩阵的列 step2 = (&＃39;FeatureUnionExt&＃39;, FeatureUnionExt(transformer_list=[step2_1, step2_2, step2_3], idx_list=[[0], [1, 2, 3], [4]]))

3 流水线处理

pipeline包提供了Pipeline类来进行流水线处理。流水线上除***一个工作以外，其他都要执行fit_transform方法，且上一个工作输出作为下一个工作的输入。***一个工作必须实现fit方法，输入为上一个工作的输出;但是不限定一定有transform方法，因为流水线的***一个工作可能是训练!

根据本文提出的场景，结合并行处理，构建完整的流水线的代码如下：

from numpy import log1p 
from sklearn.preprocessing import Imputer 
from sklearn.preprocessing import OneHotEncoder 
from sklearn.preprocessing import FunctionTransformer 
from sklearn.preprocessing import Binarizer 
from sklearn.preprocessing import MinMaxScaler 
from sklearn.feature_selection import SelectKBest 
from sklearn.feature_selection import chi2 
from sklearn.decomposition import PCA 
from sklearn.linear_model import LogisticRegression 
from sklearn.pipeline import Pipeline 

#新建计算缺失值的对象 
step1 = (&＃39;Imputer&＃39;, Imputer()) 
#新建将部分特征矩阵进行定性特征编码的对象 
step2_1 = (&＃39;OneHotEncoder&＃39;, OneHotEncoder(sparse=False)) 
#新建将部分特征矩阵进行对数函数转换的对象 
step2_2 = (&＃39;ToLog&＃39;, FunctionTransformer(log1p)) 
#新建将部分特征矩阵进行二值化类的对象 
step2_3 = (&＃39;ToBinary&＃39;, Binarizer()) 
#新建部分并行处理对象，返回值为每个并行工作的输出的合并 
step2 = (&＃39;FeatureUnionExt&＃39;, FeatureUnionExt(transformer_list=[step2_1, step2_2, step2_3], idx_list=[[0], [1, 2, 3], [4]])) 
#新建无量纲化对象 
step3 = (&＃39;MinMaxScaler&＃39;, MinMaxScaler()) 
#新建卡方校验选择特征的对象 
step4 = (&＃39;SelectKBest&＃39;, SelectKBest(chi2, k=3)) 
#新建PCA降维的对象 
step5 = (&＃39;PCA&＃39;, PCA(n_compOnents=2)) 
#新建逻辑回归的对象，其为待训练的模型作为流水线的***一步 
step6 = (&＃39;LogisticRegression&＃39;, LogisticRegression(penalty=&＃39;l2&＃39;)) 
#新建流水线处理对象 
#参数steps为需要流水线处理的对象列表，该列表为二元组列表，***元为对象的名称，第二元为对象 
pipeline = Pipeline(steps=[step1, step2, step3, step4, step5, step6])

4 自动化调参

网格搜索为自动化调参的常见技术之一，grid_search包提供了自动化调参的工具，包括GridSearchCV类。对组合好的对象进行训练以及调参的代码如下：

from sklearn.grid_search import GridSearchCV  
#新建网格搜索对象 
#***参数为待训练的模型 
#param_grid为待调参数组成的网格，字典格式，键为参数名称（格式“对象名称__子对象名称__参数名称”），值为可取的参数值列表 
grid_search = GridSearchCV(pipeline, param_grid={&＃39;FeatureUnionExt__ToBinary__threshold&＃39;:[1.0, 2.0, 3.0, 4.0], &＃39;LogisticRegression__C&＃39;:[0.1, 0.2, 0.4, 0.8]}) 
#训练以及调参 
grid_search.fit(iris.data, iris.target)

5 持久化

externals.joblib包提供了dump和load方法来持久化和加载内存数据：

#持久化数据 #***个参数为内存中的对象 #第二个参数为保存在文件系统中的名称 #第三个参数为压缩级别，0为不压缩，3为合适的压缩级别 dump(grid_search, &＃39;grid_search.dmp&＃39;, compress=3) #从文件系统中加载数据到内存中 grid_search = load(&＃39;grid_search.dmp&＃39;)

6 回顾

使用Sklearn进行数据挖掘的步骤

注意：组合和持久化都会涉及pickle技术，在sklearn的技术文档中有说明，将lambda定义的函数作为FunctionTransformer的自定义转换函数将不能pickle化。

“使用Sklearn进行数据挖掘的步骤”的内容就介绍到这里了，感谢大家的阅读。如果想了解更多行业相关的知识可以关注编程笔记网站，小编将为大家输出更多高质量的实用文章！

推荐阅读

process
解决Bootstrap DataTable Ajax请求重复问题

在最近的一个项目中，我们使用了JQuery DataTable进行数据展示，虽然使用起来非常方便，但在测试过程中发现了一个问题：当查询条件改变时，有时查询结果的数据不正确。通过FireBug调试发现，点击搜索按钮时，会发送两次Ajax请求，一次是原条件的请求，一次是新条件的请求。 ... [详细]

蜡笔小新 2024-11-12 13:59:27
process
pytorch(一)：torch构建数据集并训练一个神经网络

目录预备知识导包构建数据集神经网络结构训练测试精度可视化计算模型精度损失可视化输出网络结构信息训练神经网络定义参数载入数据载入神经网络结构、损失及优化训练及测试损失、精度可视化qu ... [详细]

蜡笔小新 2024-11-14 13:06:38
utf-8
Android Studio SQLite 数据库增删改查简单（代码参考）

一个建表一个执行crud操作建表代码importandroid.content.Context;importandroid.database.sqlite.SQLiteDat ... [详细]

蜡笔小新 2024-11-14 11:01:49
process
Spring Data JdbcTemplate 入门指南

本文将介绍如何使用 Spring JdbcTemplate 进行数据库操作，包括查询和插入数据。我们将通过一个学生表的示例来演示具体步骤。 ... [详细]

蜡笔小新 2024-11-14 10:33:29
process
Python 主成分分析（PCA）及其相关系数计算方法

本文详细介绍了如何使用 Python 进行主成分分析（PCA），包括数据导入、预处理、模型训练和结果可视化等步骤。通过具体的代码示例，帮助读者理解和应用 PCA 技术。 ... [详细]

蜡笔小新 2024-11-13 19:56:29
数组
在范围[0..n-1]中产生m个不同的随机数 - Generating m distinct random numbers in the range [0..n-1]

Ihavetwomethodsofgeneratingmdistinctrandomnumbersintherange[0..n-1]我有两种方法在范围[0.n-1]中生 ... [详细]

蜡笔小新 2024-11-13 09:49:14
process
解决Only fullscreen opaque activities can request orientation错误的方法

本文介绍了在使用PictureSelectorLight第三方框架时遇到的Only fullscreen opaque activities can request orientation错误，并提供了一种有效的解决方案。 ... [详细]

蜡笔小新 2024-11-13 09:46:25
js
Ext JS MVC系列一：环境搭建与框架概览

本文主要介绍了如何在项目中使用Ext JS 4作为前端框架，并详细讲解了Ext JS 4的MVC开发模式。文章将从项目目录结构、相关CSS和JS文件的引用以及MVC框架的整体认识三个方面进行总结。 ... [详细]

蜡笔小新 2024-11-12 16:05:44
数组
如何在Java中使用DButils类

这期内容当中小编将会给大家带来有关如何在Java中使用DButils类，文章内容丰富且以专业的角度为大家分析和叙述，阅读完这篇文章希望大家可以有所收获。D ... [详细]

蜡笔小新 2024-11-12 13:46:11
process
解决 Ubuntu 下 Samba 重新安装时配置文件未重新生成的问题

在 Ubuntu 中遇到 Samba 服务器故障时，尝试卸载并重新安装 Samba 发现配置文件未重新生成。本文介绍了解决该问题的方法。 ... [详细]

蜡笔小新 2024-11-12 13:02:23
grid
在AX2012中使用自定义查询在数据网格视图中显示数据

本文介绍了如何在AX2012中通过自定义查询在数据网格视图中显示所有记录的方法。 ... [详细]

蜡笔小新 2024-11-12 12:02:50
process
第二十五天接口、多态

1.java是面向对象的语言。设计模式：接口接口类是从java里衍生出来的，不是python原生支持的主要用于继承里多继承抽象类是python原生支持的主要用于继承里的单继承但是接 ... [详细]

蜡笔小新 2024-11-12 06:43:20
process
如何在Linux服务器上配置MySQL和Tomcat的开机自动启动

在Linux服务器上部署Web项目时，通常需要确保MySQL和Tomcat服务能够随系统启动而自动运行。本文将详细介绍如何在Linux环境中配置MySQL和Tomcat的开机自启动，以确保服务的稳定性和可靠性。通过合理的配置，可以有效避免因服务未启动而导致的项目故障。 ... [详细]

蜡笔小新 2024-11-11 19:41:03
process
优化Hadoop 2.7.2源代码以支持Snappy压缩和解压功能的Native编译

为了在Hadoop 2.7.2中实现对Snappy压缩和解压功能的原生支持，本文详细介绍了如何重新编译Hadoop源代码，并优化其Native编译过程。通过这一优化，可以显著提升数据处理的效率和性能。此外，还探讨了编译过程中可能遇到的问题及其解决方案，为用户提供了一套完整的操作指南。 ... [详细]

蜡笔小新 2024-11-09 19:45:36
process
Web开发框架概览：Java与JavaScript技术及框架综述

Web开发涉及服务器端和客户端的协同工作。在服务器端，Java是一种优秀的编程语言，适用于构建各种功能模块，如通过Servlet实现特定服务。客户端则主要依赖HTML进行内容展示，同时借助JavaScript增强交互性和动态效果。此外，现代Web开发还广泛使用各种框架和库，如Spring Boot、React和Vue.js，以提高开发效率和应用性能。 ... [详细]

蜡笔小新 2024-11-09 11:59:38

落叶野

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章