交叉验证的得分怎么分析_数据探索很麻烦？推荐一款史上最强大的特征分析可视化工具：yellowbrick...

作者：书友53537817 | 来源：互联网 | 2023-09-23 20:37

作者：xiaoyu微信公众号：Python数据科学知乎：python数据分析师前言玩过建模的朋友都知道，在建立模型之前有很长

作者&＃xff1a;xiaoyu

微信公众号&＃xff1a;Python数据科学

知乎&＃xff1a;python数据分析师

前言

玩过建模的朋友都知道&＃xff0c;在建立模型之前有很长的一段特征工程工作要做&＃xff0c;而在特征工程的过程中&＃xff0c;探索性数据分析又是必不可少的一部分&＃xff0c;因为如果我们要对各个特征进行细致的分析&＃xff0c;那么必然会进行一些可视化以辅助我们来做选择和判断。

可视化的工具有很多&＃xff0c;但是能够针对特征探索性分析而进行专门可视化的不多&＃xff0c;今天给大家介绍一款功能十分强大的工具&＃xff1a;yellowbrick&＃xff0c;希望通过这个工具的辅助可以节省更多探索的时间&＃xff0c;快速掌握特征信息。

功能

雷达 RadViz

RadViz雷达图是一种多变量数据可视化算法&＃xff0c;它围绕圆周均匀地分布每个特征&＃xff0c;并且标准化了每个特征值。一般数据科学家使用此方法来检测类之间的关联。例如&＃xff0c;是否有机会从特征集中学习一些东西或是否有太多的噪音&＃xff1f;

# Load the classification data set data &＃61; load_data("occupancy")# Specify the features of interest and the classes of the target features &＃61; ["temperature", "relative humidity", "light", "C02", "humidity"] classes &＃61; ["unoccupied", "occupied"]# Extract the instances and target X &＃61; data[features] y &＃61; data.occupancy# Import the visualizer from yellowbrick.features import RadViz# Instantiate the visualizer visualizer &＃61; RadViz(classes&＃61;classes, features&＃61;features)visualizer.fit(X, y) # Fit the data to the visualizer visualizer.transform(X) # Transform the data visualizer.poof() # Draw/show/poof the data

从上面雷达图可以看出5个维度中&＃xff0c;温度对于目标类的影响是比较大的。

一维排序 Rank 1D

特征的一维排序利用排名算法&＃xff0c;仅考虑单个特征&＃xff0c;默认情况下使用Shapiro-Wilk算法来评估与特征相关的实例分布的正态性&＃xff0c;然后绘制一个条形图&＃xff0c;显示每个特征的相对等级。

from yellowbrick.features import Rank1D# Instantiate the 1D visualizer with the Sharpiro ranking algorithm visualizer &＃61; Rank1D(features&＃61;features, algorithm&＃61;&＃39;shapiro&＃39;)visualizer.fit(X, y) # Fit the data to the visualizer visualizer.transform(X) # Transform the data visualizer.poof() # Draw/show/poof the data

PCA Projection

PCA分解可视化利用主成分分析将高维数据分解为二维或三维&＃xff0c;以便可以在散点图中绘制每个实例。PCA的使用意味着可以沿主要变化轴分析投影数据集&＃xff0c;并且可以解释该数据集以确定是否可以利用球面距离度量。

双重图 Biplot

PCA投影可以增强到双点&＃xff0c;其点是投影实例&＃xff0c;其矢量表示高维空间中数据的结构。通过使用proj_features &＃61; True标志&＃xff0c;数据集中每个要素的向量将在散点图上以该要素的最大方差方向绘制。这些结构可用于分析特征对分解的重要性或查找相关方差的特征以供进一步分析。

# Load the classification data set data &＃61; load_data(&＃39;concrete&＃39;)# Specify the features of interest and the target target &＃61; "strength" features &＃61; [&＃39;cement&＃39;, &＃39;slag&＃39;, &＃39;ash&＃39;, &＃39;water&＃39;, &＃39;splast&＃39;, &＃39;coarse&＃39;, &＃39;fine&＃39;, &＃39;age&＃39; ]# Extract the instance data and the target X &＃61; data[features] y &＃61; data[target]visualizer &＃61; PCADecomposition(scale&＃61;True, proj_features&＃61;True) visualizer.fit_transform(X, y) visualizer.poof()

特征重要性 Feature Importance

特征工程过程涉及选择生成有效模型所需的最小特征&＃xff0c;因为模型包含的特征越多&＃xff0c;它就越复杂&＃xff08;数据越稀疏&＃xff09;&＃xff0c;因此模型对方差的误差越敏感。消除特征的常用方法是描述它们对模型的相对重要性&＃xff0c;然后消除弱特征或特征组合并重新评估以确定模型在交叉验证期间是否更好。

在scikit-learn中&＃xff0c;Decision Tree模型和树的集合&＃xff08;如Random Forest&＃xff0c;Gradient Boosting和AdaBoost&＃xff09;在拟合时提供feature_importances_属性。Yellowbrick FeatureImportances可视化工具利用此属性对相对重要性进行排名和绘制。

import matplotlib.pyplot as pltfrom sklearn.ensemble import GradientBoostingClassifierfrom yellowbrick.features.importances import FeatureImportances# Create a new matplotlib figure fig &＃61; plt.figure() ax &＃61; fig.add_subplot()viz &＃61; FeatureImportances(GradientBoostingClassifier(), ax&＃61;ax) viz.fit(X, y) viz.poof()

递归特征消除 Recursive Feature Elimination

递归特征消除&＃xff08;RFE&＃xff09;是一种特征选择方法&＃xff0c;它训练模型并删除最弱的特征&＃xff08;或多个特征&＃xff09;&＃xff0c;直到达到指定数量的特征。特征按模型的coef_或feature_importances_属性排序&＃xff0c;并通过递归消除每个循环的少量特征&＃xff0c;RFE尝试消除模型中可能存在的依赖性和共线性。

RFE需要保留指定数量的特征&＃xff0c;但事先通常不知道有多少特征有效。为了找到最佳数量的特征&＃xff0c;交叉验证与RFE一起用于对不同的特征子集进行评分&＃xff0c;并选择最佳评分特征集合。RFECV可视化绘制模型中的特征数量以及它们的交叉验证测试分数和可变性&＃xff0c;并可视化所选数量的特征。

from sklearn.svm import SVC from sklearn.datasets import make_classificationfrom yellowbrick.features import RFECV# Create a dataset with only 3 informative features X, y &＃61; make_classification(n_samples&＃61;1000, n_features&＃61;25, n_informative&＃61;3, n_redundant&＃61;2,n_repeated&＃61;0, n_classes&＃61;8, n_clusters_per_class&＃61;1, random_state&＃61;0 )# Create RFECV visualizer with linear SVM classifier viz &＃61; RFECV(SVC(kernel&＃61;&＃39;linear&＃39;, C&＃61;1)) viz.fit(X, y) viz.poof()

该图显示了理想的RFECV曲线&＃xff0c;当捕获三个信息特征时&＃xff0c;曲线跳跃到极好的准确度&＃xff0c;然后随着非信息特征被添加到模型中&＃xff0c;精度逐渐降低。阴影区域表示交叉验证的可变性&＃xff0c;一个标准偏差高于和低于曲线绘制的平均精度得分。

下面是一个真实数据集&＃xff0c;我们可以看到RFECV对信用违约二元分类器的影响。

from sklearn.ensemble import RandomForestClassifier from sklearn.model_selection import StratifiedKFolddf &＃61; load_data(&＃39;credit&＃39;)target &＃61; &＃39;default&＃39; features &＃61; [col for col in data.columns if col !&＃61; target]X &＃61; data[features] y &＃61; data[target]cv &＃61; StratifiedKFold(5) oz &＃61; RFECV(RandomForestClassifier(), cv&＃61;cv, scoring&＃61;&＃39;f1_weighted&＃39;)oz.fit(X, y) oz.poof()

在这个例子中&＃xff0c;我们可以看到选择了19个特征&＃xff0c;尽管在大约5个特征之后模型的f1分数似乎没有太大改善。选择要消除的特征在确定每个递归的结果中起着重要作用&＃xff1b;修改步骤参数以在每个步骤中消除多个特征可能有助于尽早消除最差特征&＃xff0c;增强其余特征&＃xff08;并且还可用于加速具有大量特征的数据集的特征消除&＃xff09;。

残差图 Residuals Plot

在回归模型的上下文中&＃xff0c;残差是目标变量&＃xff08;y&＃xff09;的观测值与预测值&＃xff08;ŷ&＃xff09;之间的差异&＃xff0c;例如&＃xff0c;预测的错误。残差图显示垂直轴上的残差与水平轴上的因变量之间的差异&＃xff0c;允许检测目标中可能容易出错或多或少的误差的区域。

from sklearn.linear_model import Ridge from yellowbrick.regressor import ResidualsPlot# Instantiate the linear model and visualizer ridge &＃61; Ridge() visualizer &＃61; ResidualsPlot(ridge)visualizer.fit(X_train, y_train) # Fit the training data to the model visualizer.score(X_test, y_test) # Evaluate the model on the test data visualizer.poof() # Draw/show/poof the data

正则化 Alpha Selection

正则化旨在惩罚模型复杂性&＃xff0c;因此α越高&＃xff0c;模型越复杂&＃xff0c;由于方差&＃xff08;过度拟合&＃xff09;而减少误差。另一方面&＃xff0c;太高的Alpha会因偏差&＃xff08;欠调&＃xff09;而增加误差。因此&＃xff0c;重要的是选择最佳α&＃xff0c;以便在两个方向上最小化误差。 AlphaSelection Visualizer演示了不同的α值如何影响线性模型正则化过程中的模型选择。一般而言&＃xff0c;α增加了正则化的影响&＃xff0c;例如&＃xff0c;如果alpha为零&＃xff0c;则没有正则化&＃xff0c;α越高&＃xff0c;正则化参数对最终模型的影响越大。

import numpy as npfrom sklearn.linear_model import LassoCV from yellowbrick.regressor import AlphaSelection# Create a list of alphas to cross-validate against alphas &＃61; np.logspace(-10, 1, 400)# Instantiate the linear model and visualizer model &＃61; LassoCV(alphas&＃61;alphas) visualizer &＃61; AlphaSelection(model)visualizer.fit(X, y) g &＃61; visualizer.poof()

分类预测误差 Class Prediction Error

类预测误差图提供了一种快速了解分类器在预测正确类别方面有多好的方法。

from sklearn.ensemble import RandomForestClassifierfrom yellowbrick.classifier import ClassPredictionError# Instantiate the classification model and visualizer visualizer &＃61; ClassPredictionError(RandomForestClassifier(), classes&＃61;classes )# Fit the training data to the visualizer visualizer.fit(X_train, y_train)# Evaluate the model on the test data visualizer.score(X_test, y_test)# Draw visualization g &＃61; visualizer.poof()

当然也同时有分类评估指标的可视化&＃xff0c;包括混淆矩阵、AUC/ROC、召回率/精准率等等。

二分类辨别阈值 Discrimination Threshold

关于二元分类器的辨别阈值的精度&＃xff0c;召回&＃xff0c;f1分数和queue rate的可视化。辨别阈值是在阴性类别上选择正类别的概率或分数。通常&＃xff0c;将其设置为50&＃xff05;&＃xff0c;但可以调整阈值以增加或降低对误报或其他应用因素的敏感度。

from sklearn.linear_model import LogisticRegression from yellowbrick.classifier import DiscriminationThreshold# Instantiate the classification model and visualizer logistic &＃61; LogisticRegression() visualizer &＃61; DiscriminationThreshold(logistic)visualizer.fit(X, y) # Fit the training data to the visualizer visualizer.poof() # Draw/show/poof the data

聚类肘部法则 Elbow Method

KElbowVisualizer实现了“肘部”法则&＃xff0c;通过使模型具有K的一系列值来帮助数据科学家选择最佳簇数。如果折线图类似于手臂&＃xff0c;那么“肘”&＃xff08;拐点&＃xff09;就是曲线&＃xff09;是一个很好的迹象&＃xff0c;表明基础模型最适合那一点。

在下面的示例中&＃xff0c;KElbowVisualizer在具有8个随机点集的样本二维数据集上适合KMeans模型&＃xff0c;以获得4到11的K值范围。当模型适合8个聚类时&＃xff0c;我们可以在图中看到“肘部”&＃xff0c;在这种情况下&＃xff0c;我们知道它是最佳数字。

from sklearn.datasets import make_blobs# Create synthetic dataset with 8 random clusters X, y &＃61; make_blobs(centers&＃61;8, n_features&＃61;12, shuffle&＃61;True, random_state&＃61;42)from sklearn.cluster import KMeans from yellowbrick.cluster import KElbowVisualizer# Instantiate the clustering model and visualizer model &＃61; KMeans() visualizer &＃61; KElbowVisualizer(model, k&＃61;(4,12))visualizer.fit(X) # Fit the data to the visualizer visualizer.poof() # Draw/show/poof the data

集群间距离图 Intercluster Distance Maps

集群间距离地图以2维方式显示集群中心的嵌入&＃xff0c;并保留与其他中心的距离。例如。中心越靠近可视化&＃xff0c;它们就越接近原始特征空间。根据评分指标调整集群的大小。默认情况下&＃xff0c;它们按内部数据的多少&＃xff0c;例如属于每个中心的实例数。这给出了集群的相对重要性。但请注意&＃xff0c;由于两个聚类在2D空间中重叠&＃xff0c;因此并不意味着它们在原始特征空间中重叠。

from sklearn.datasets import make_blobs# Make 12 blobs dataset X, y &＃61; make_blobs(centers&＃61;12, n_samples&＃61;1000, n_features&＃61;16, shuffle&＃61;True)from sklearn.cluster import KMeans from yellowbrick.cluster import InterclusterDistance# Instantiate the clustering model and visualizer visualizer &＃61; InterclusterDistance(KMeans(9))visualizer.fit(X) # Fit the training data to the visualizer visualizer.poof() # Draw/show/poof the data

模型选择-学习曲线 Learning Curve

学习曲线基于不同数量的训练样本&＃xff0c;检验模型训练分数与交叉验证测试分数的关系。这种可视化通常用来表达两件事&＃xff1a;

1. 模型会不会随着数据量增多而效果变好

2. 模型对偏差和方差哪个更加敏感

下面是利用yellowbrick生成的学习曲线可视化图。该学习曲线对于分类、回归和聚类都可以适用。

模型选择-验证曲线 Validation Curve

模型验证用于确定模型对其已经过训练的数据的有效性以及它对新输入的泛化程度。为了测量模型的性能&＃xff0c;我们首先将数据集拆分为训练和测试&＃xff0c;将模型拟合到训练数据上并在保留的测试数据上进行评分。

为了最大化分数&＃xff0c;必须选择模型的超参数&＃xff0c;以便最好地允许模型在指定的特征空间中操作。大多数模型都有多个超参数&＃xff0c;选择这些参数组合的最佳方法是使用网格搜索。然而&＃xff0c;绘制单个超参数对训练和测试数据的影响有时是有用的&＃xff0c;以确定模型是否对某些超参数值不适合或过度拟合。

import numpy as npfrom sklearn.tree import DecisionTreeRegressor from yellowbrick.model_selection import ValidationCurve# Load a regression dataset data &＃61; load_data(&＃39;energy&＃39;)# Specify features of interest and the target targets &＃61; ["heating load", "cooling load"] features &＃61; [col for col in data.columns if col not in targets]# Extract the instances and target X &＃61; data[features] y &＃61; data[targets[0]]viz &＃61; ValidationCurve(DecisionTreeRegressor(), param_name&＃61;"max_depth",param_range&＃61;np.arange(1, 11), cv&＃61;10, scoring&＃61;"r2" )# Fit and poof the visualizer viz.fit(X, y) viz.poof()

总结

个人认为yellowbrick这个工具非常好&＃xff0c;一是因为解决了特征工程和建模过程中的可视化问题&＃xff0c;极大地简化了操作&＃xff1b;二是通过各种可视化也可以补充自己对建模的一些盲区。

本篇仅展示了建模中部分可视化功能&＃xff0c;详细的完整功能请参考&＃xff1a;

https://www.scikit-yb.org/en/latest/index.html

如果觉得有帮助&＃xff0c;还请给点个赞&＃xff01;

欢迎关注我的个人公众号&＃xff1a;Python数据科学

推荐阅读

default
Spring – Bean Life Cycle

Spring – Bean Life Cycle ... [详细]

蜡笔小新 2024-11-13 13:24:40
default
Java 并发编程：深入解析 AtomicInteger 和 CAS 无锁算法

在多线程并发环境中，普通变量的操作往往是线程不安全的。本文通过一个简单的例子，展示了如何使用 AtomicInteger 类及其核心的 CAS 无锁算法来保证线程安全。 ... [详细]

蜡笔小新 2024-11-12 16:40:04
range
c/c++常用代码doc,ppt,xls文件格式转PDF格式[转]

[转]doc,ppt,xls文件格式转PDF格式http:blog.csdn.netlee353086articledetails7920355确实好用。需要注意的是#import ... [详细]

蜡笔小新 2024-11-12 16:19:40
runtime
深入解析 Lifecycle 的实现原理

本文将详细介绍 Android Jetpack 中 Lifecycle 组件的实现原理，帮助开发者更好地理解和使用 Lifecycle，避免常见的内存泄漏问题。 ... [详细]

蜡笔小新 2024-11-12 14:05:19
list
使用 ListView 浏览安卓系统中的回收站文件

使用 ListView 浏览安卓系统中的回收站文件 ... [详细]

蜡笔小新 2024-11-09 16:34:55
list
计算机视觉领域介绍 | 自然语言驱动的跨模态行人重识别前沿技术综述（上篇）

本文介绍了计算机视觉领域的最新进展，特别是自然语言驱动的跨模态行人重识别技术。上篇内容详细探讨了该领域的基础理论、关键技术及当前的研究热点，为读者提供了全面的概述。 ... [详细]

蜡笔小新 2024-11-07 12:41:08
list
Java DAO模式详解与代码示例

DAO（Data Access Object）模式是一种用于抽象和封装所有对数据库或其他持久化机制访问的方法，它通过提供一个统一的接口来隐藏底层数据访问的复杂性。 ... [详细]

蜡笔小新 2024-11-13 12:25:33
list
Spring Boot 中配置全局文件上传路径并实现文件上传功能

本文介绍如何在 Spring Boot 项目中配置全局文件上传路径，并通过读取配置项实现文件上传功能。通过这种方式，可以更好地管理和维护文件路径。 ... [详细]

蜡笔小新 2024-11-13 11:19:38
list
杜甫《喜晴》的两种英译比较

本文对比了杜甫《喜晴》的两种英文翻译版本：a. Pleased with Sunny Weather 和 b. Rejoicing in Clearing Weather。a 版由 alexcwlin 翻译并经 Adam Lam 编辑，b 版则由哈佛大学的宇文所安教授 (Prof. Stephen Owen) 翻译。 ... [详细]

蜡笔小新 2024-11-12 15:02:28
callback
深切明白ES6笔记（三）函数

重要知识点有：函数参数默许值、盈余参数、扩大运算符、new.target属性、块级函数、箭头函数以及尾挪用优化《深切明白ES6》笔记目次函数的默许参数在ES5中，我们给函数传参数， ... [详细]

蜡笔小新 2024-11-12 14:57:05
callback
字节流(InputStream和OutputStream)，字节流读写文件，字节流的缓冲区，字节缓冲流

字节流抽象类InputStream和OutputStream是字节流的顶级父类所有的字节输入流都继承自InputStream，所有的输出流都继承子OutputStreamInput ... [详细]

蜡笔小新 2024-11-12 14:07:25
range
大类|电阻器_使用Requests、Etree、BeautifulSoup、Pandas和Path库进行数据抓取与处理 | 将指定区域内容保存为HTML和Excel格式

大类|电阻器_使用Requests、Etree、BeautifulSoup、Pandas和Path库进行数据抓取与处理 | 将指定区域内容保存为HTML和Excel格式 ... [详细]

蜡笔小新 2024-11-11 19:05:59
range
如何将Python与Excel高效结合：常用操作技巧解析

本文深入探讨了如何将Python与Excel高效结合，涵盖了一系列实用的操作技巧。文章内容详尽，步骤清晰，注重细节处理，旨在帮助读者掌握Python与Excel之间的无缝对接方法，提升数据处理效率。 ... [详细]

蜡笔小新 2024-11-11 15:18:30
range
如何在C#中配置组合框的背景颜色？

如何在C#中配置组合框的背景颜色？ ... [详细]

蜡笔小新 2024-11-08 13:06:59
range
C++ 开发实战：实用技巧与经验分享

C++ 开发实战：实用技巧与经验分享 ... [详细]

蜡笔小新 2024-11-07 20:31:03

书友53537817

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章