当前位置: 开发笔记 > 编程语言 > 正文

python重要性_如何用Python计算特征重要性？

作者：手浪用户2602901267 | 来源：互联网 | 2023-07-05 19:24

特征重要性评分是一种为输入特征评分的手段，其依据是输入特征在预测目标变量过程中的有用程度。特征重要性有许多类型和来源，尽管有许多比较常见，

特征重要性评分是一种为输入特征评分的手段&＃xff0c;其依据是输入特征在预测目标变量过程中的有用程度。

特征重要性有许多类型和来源&＃xff0c;尽管有许多比较常见&＃xff0c;比如说统计相关性得分&＃xff0c;线性模型的部分系数&＃xff0c;基于决策树的特征重要性和经过随机排序得到重要性得分。

特征重要性在预测建模项目中起着重要作用&＃xff0c;包括提供对数据、模型的见解&＃xff0c;以及如何降维和选择特征&＃xff0c;从而提高预测模型的的效率和有效性。

在本教程中&＃xff0c;我将会阐述用于python机器学习的特征重要性。完成本教程后&＃xff0c;你将会知道&＃xff1a;特征重要性在预测建模中的作用

如何计算和查看来自线性模型和决策树的特征重要性

如何计算和查看随机排序重要性得分

现在让我们开始吧.

教程概述

本教程分为五部分&＃xff0c;分别是&＃xff1a;

1.特征重要性

2.准备

2.1. 检查Scikit-Learn版本

2.2. 创建测试数据集

3.特征重要性系数

3.1. 基于线性回归系数的特征重要性

3.2. 基于Logistic回归的特征重要性

4.基于决策树的特征重要性

4.1. 基于CART的特征重要性

4.2. 基于随机森林的特征重要性

4.3. 基于XGBoost的特征重要性

5.随机排序特征重要性

5.1. 随机排序&＃xff08;回归&＃xff09;中的特征重要性

5.2. 随机排序&＃xff08;分类&＃xff09;中的特征重要性

1.特征重要性

特征重要性是一种为预测模型的输入特征评分的方法&＃xff0c;该方法揭示了进行预测时每个特征的相对重要性。

可以为涉及预测数值的问题&＃xff08;称为回归&＃xff09;和涉及预测类别标签的问题&＃xff08;称为分类&＃xff09;计算特征重要性得分。

这些得分非常有用&＃xff0c;可用于预测建模问题中的多种情况&＃xff0c;例如&＃xff1a;更好地理解数据

更好地理解模型

减少输入特征的数量

特征重要性得分可以帮助了解数据集

相对得分可以突出显示哪些特征可能与目标最相关&＃xff0c;反之则突出哪些特征最不相关。这可以由一个领域专家解释&＃xff0c;并且可以用作收集更多的或不同的数据的基础。

特征重要性得分可以帮助了解模型

大多数重要性得分是通过数据集拟合出的预测模型计算的。查看重要性得分可以洞悉该特定模型&＃xff0c;以及知道在进行预测时哪些特征最重要和哪些最不重要。这是一种模型解释&＃xff0c;适用于那些支持它的模型。

特征重要性可用于改进预测模型

可以使用的重要性得分来选择要删除的特征&＃xff08;最低得分&＃xff09;或要保留的特征&＃xff08;最高得分&＃xff09;。这是一种特征选择&＃xff0c;可以简化正在建模的问题&＃xff0c;加快建模过程&＃xff08;删除特征称为降维&＃xff09;&＃xff0c;在某些情况下&＃xff0c;还可以改善模型的性能。

特征重要性得分可以被输入到包装器模型&＃xff0c;如SelectFromModel或SelectKBest&＃xff0c;以进行特征选择。

有许多方法和模型可以计算特征重要性得分。

也许最简单的方法是计算每个特征和目标变量之间的统计学相关系数。

在本教程中&＃xff0c;我们将研究三种比较高级的特征重要性&＃xff0c;即&＃xff1a;从模型系数得知的特征重要性。

决策树中的特征重要性。

随机排序检验中的特征重要性。

现在让我们深入了解这三个&＃xff01;

2.准备

在深入学习之前&＃xff0c;我们先确认我们的环境并准备一些测试数据集。

检查Scikit-Learn版本

首先&＃xff0c;确认你已安装最新版本的scikit-learn库。这非常重要&＃xff0c;因为在本教程中&＃xff0c;我们我们研究的一些模型需要最新版的库。

您可以使用以下示例代码来查看已安装的库的版本&＃xff1a;# check scikit-learn version

import sklearn

print(sklearn.__version__)

运行示例代码将会打印出库的版本。在撰写本文时&＃xff0c;大概是version 0.22。你需要使用此版本或更高版本的scikit-learn。0.22.1

生成测试数据集

接下来&＃xff0c;让我们生成一些测试数据集&＃xff0c;这些数据集可以作为基础来证明和探索特征重要性得分。每个测试问题有五个重要特征和五不重要的特征&＃xff0c;看看哪种方法可以根据其重要性找到或区分特征可能会比较有意思。

分类数据集

我们将使用make_classification()函数创建一个用于测试的二进制分类数据集。

数据集将包含1000个实例&＃xff0c;且包含10个输入特征&＃xff0c;其中五个将会提供信息&＃xff0c;其余五个是多余的。

为了确保每次运行代码时都得到相同的实例&＃xff0c;我们将使用假随机数种子。下面列出了创建数据集的示例。# test classification dataset

from sklearn.datasets import make_classification

# define dataset

X, y &＃61; make_classification(n_samples&＃61;1000, n_features&＃61;10, n_informative&＃61;5, n_redundant&＃61;5, random_state&＃61;1)

# summarize the dataset

print(X.shape, y.shape)

运行示例&＃xff0c;创建数据集&＃xff0c;并确保所需的样本和特征数量。(1000, 10) (1000,)

回归数据集

我们将使用make_regression()函数创建一个用于测试的回归数据集。

像分类数据集一样&＃xff0c;回归数据集将包含1000个实例&＃xff0c;且包含10个输入特征&＃xff0c;其中五个将会提供信息&＃xff0c;其余五个是多余的。# test regression dataset

from sklearn.datasets import make_regression

# define dataset

X, y &＃61; make_regression(n_samples&＃61;1000, n_features&＃61;10, n_informative&＃61;5, random_state&＃61;1)

# summarize the dataset

print(X.shape, y.shape)

运行示例&＃xff0c;创建数据集&＃xff0c;并确保所需的样本和特征数量。(1000, 10) (1000,)

接下来&＃xff0c;我们仔细看一下特征重要性系数。

3.特征重要性系数

线性的机器学习能够拟合出预测是输入值的加权和的模型。

案例包括线性回归&＃xff0c;逻辑回归&＃xff0c;和正则化的扩展案例&＃xff0c;如岭回归和弹性网络。

所有这些算法都是找到一组要在加权求和中使用的系数&＃xff0c;以便进行预测。这些系数可以直接用作粗略类型的特征重要性得分。

我们来仔细研究一下分类和回归中的特征重要性系数。我们将在数据集中拟合出一个模型以找到系数&＃xff0c;然后计算每个输入特征的重要性得分&＃xff0c;最终创建一个条形图来了解特征的相对重要性。

3.1线性回归特征重要性

我们可以在回归数据集中拟合出一个LinearRegression模型&＃xff0c;并检索coeff_属性&＃xff0c;该属性包含为每个输入变量&＃xff08;特征&＃xff09;找到的系数。这些系数可以为粗略特征重要性评分提供依据。该模型假设输入变量具有相同的比例或者在拟合模型之前已被按比例缩放。

下面列出了针对特征重要性的线性回归系数的完整示例。# linear regression feature importance

from sklearn.datasets import make_regression

from sklearn.linear_model import LinearRegression

from matplotlib import pyplot

# define dataset

X, y &＃61; make_regression(n_samples&＃61;1000, n_features&＃61;10, n_informative&＃61;5, random_state&＃61;1)

# define the model

model &＃61; LinearRegression()

# fit the model

model.fit(X, y)

# get importance

importance &＃61; model.coef_

# summarize feature importance

for i,v in enumerate(importance):

print(&＃39;Feature: %0d, Score: %.5f&＃39; % (i,v))

# plot feature importance

pyplot.bar([x for x in range(len(importance))], importance)

pyplot.show()

运行示例&＃xff0c;拟合模型&＃xff0c;然后输出每个特征的系数值。

得分表明&＃xff0c;模型找到了五个重要特征&＃xff0c;并用零标记了剩下的特征&＃xff0c;实际上&＃xff0c;将他们从模型中去除了。Feature: 0, Score: 0.00000

Feature: 1, Score: 12.44483

Feature: 2, Score: -0.00000

Feature: 3, Score: -0.00000

Feature: 4, Score: 93.32225

Feature: 5, Score: 86.50811

Feature: 6, Score: 26.74607

Feature: 7, Score: 3.28535

Feature: 8, Score: -0.00000

Feature: 9, Score: 0.00000

然后为特征重要性得分创建条形图。

这种方法也可以用于岭回归和弹性网络模型。

3.2 Logistic回归特征重要性

就像线性回归模型一样&＃xff0c;我们也可以在回归数据集中拟合出一个LogisticRegression模型&＃xff0c;并检索coeff_属性。这些系数可以为粗略特征重要性评分提供依据。该模型假设输入变量具有相同的比例或者在拟合模型之前已被按比例缩放。

下面列出了针对特征重要性的Logistic回归系数的完整示例。# logistic regression for feature importance

from sklearn.datasets import make_classification

from sklearn.linear_model import LogisticRegression

from matplotlib import pyplot

# define dataset

X, y &＃61; make_classification(n_samples&＃61;1000, n_features&＃61;10, n_informative&＃61;5, n_redundant&＃61;5, random_state&＃61;1)

# define the model

model &＃61; LogisticRegression()

# fit the model

model.fit(X, y)

# get importance

importance &＃61; model.coef_[0]

# summarize feature importance

for i,v in enumerate(importance):

print(&＃39;Feature: %0d, Score: %.5f&＃39; % (i,v))

# plot feature importance

pyplot.bar([x for x in range(len(importance))], importance)

pyplot.show()

运行示例&＃xff0c;拟合模型&＃xff0c;然后输出每个特征的系数值。

回想一下&＃xff0c;这是有关0和1的分类问题。请注意系数既可以为正&＃xff0c;也可以为负。正数表示预测类别1的特征&＃xff0c;而负数表示预测类别0的特征。

从这些结果&＃xff0c;至少从我所知道的结果中&＃xff0c;无法清晰的确定出重要和不重要特征。Feature: 0, Score: 0.16320

Feature: 1, Score: -0.64301

Feature: 2, Score: 0.48497

Feature: 3, Score: -0.46190

Feature: 4, Score: 0.18432

Feature: 5, Score: -0.11978

Feature: 6, Score: -0.40602

Feature: 7, Score: 0.03772

Feature: 8, Score: -0.51785

Feature: 9, Score: 0.26540

然后为特征重要性得分创建条形图。

现在我们已经看到了将系数用作重要性得分的示例&＃xff0c;接下来让我们看向基于决策树的重要性得分的常见示例

4.基于决策树的特征重要性

决策树算法&＃xff0c;比如说classification and regression trees&＃xff08;CART&＃xff09;根据Gini系数或熵的减少来提供重要性得分。这个方法也可用于随机森林和梯度提升算法。

OK.现在让我们看看相应的运行示例。

4.1基于CART的特征重要性

对于在scikit-learn中实现的特征重要性&＃xff0c;我们可以将CART算法用于DecisionTreeRegressor和DecisionTreeClassifier类

拟合后&＃xff0c;模型提供feature_importances_属性&＃xff0c;可以访问该属性以检索每个输入特征的相对重要性得分。

让我们看一个用于回归和分类的示例。

基于CART&＃xff08;回归&＃xff09;的特征重要性

下面列出了拟合DecisionTreeRegressor和计算特征重要性得分的完整示例。# decision tree for feature importance on a regression problem

from sklearn.datasets import make_regression

from sklearn.tree import DecisionTreeRegressor

from matplotlib import pyplot

# define dataset

X, y &＃61; make_regression(n_samples&＃61;1000, n_features&＃61;10, n_informative&＃61;5, random_state&＃61;1)

# define the model

model &＃61; DecisionTreeRegressor()

# fit the model

model.fit(X, y)

# get importance

importance &＃61; model.feature_importances_

# summarize feature importance

for i,v in enumerate(importance):

print(&＃39;Feature: %0d, Score: %.5f&＃39; % (i,v))

# plot feature importance

pyplot.bar([x for x in range(len(importance))], importance)

pyplot.show()

运行示例&＃xff0c;拟合模型&＃xff0c;然后输出每个特征的系数值。

结果表明&＃xff0c;这十个特征中的三个可能对预测很重要。Feature: 0, Score: 0.00294

Feature: 1, Score: 0.00502

Feature: 2, Score: 0.00318

Feature: 3, Score: 0.00151

Feature: 4, Score: 0.51648

Feature: 5, Score: 0.43814

Feature: 6, Score: 0.02723

Feature: 7, Score: 0.00200

Feature: 8, Score: 0.00244

Feature: 9, Score: 0.00106

然后为特征重要性得分创建条形图。

基于CART&＃xff08;分类&＃xff09;的特征重要性

下面列出了拟合DecisionTreeClassifier和计算特征重要性得分的完整示例# decision tree for feature importance on a classification problem

from sklearn.datasets import make_classification

from sklearn.tree import DecisionTreeClassifier

from matplotlib import pyplot

# define dataset

X, y &＃61; make_classification(n_samples&＃61;1000, n_features&＃61;10, n_informative&＃61;5, n_redundant&＃61;5, random_state&＃61;1)

# define the model

model &＃61; DecisionTreeClassifier()

# fit the model

model.fit(X, y)

# get importance

importance &＃61; model.feature_importances_

# summarize feature importance

for i,v in enumerate(importance):

print(&＃39;Feature: %0d, Score: %.5f&＃39; % (i,v))

# plot feature importance

pyplot.bar([x for x in range(len(importance))], importance)

pyplot.show()

运行示例&＃xff0c;拟合模型&＃xff0c;然后输出每个特征的系数值。

结果表明&＃xff0c;这十个特征中的四个可能对预测很重要。Feature: 0, Score: 0.01486

Feature: 1, Score: 0.01029

Feature: 2, Score: 0.18347

Feature: 3, Score: 0.30295

Feature: 4, Score: 0.08124

Feature: 5, Score: 0.00600

Feature: 6, Score: 0.19646

Feature: 7, Score: 0.02908

Feature: 8, Score: 0.12820

Feature: 9, Score: 0.04745

然后为特征重要性得分创建条形图。

4.2随机森林中的特征重要性

对于在scikit-learn中实现的特征重要性&＃xff0c;我们可以将Random Forest算法用于DecisionTreeRegressor和DecisionTreeClassifier类。

拟合后&＃xff0c;模型提供feature_importances_属性&＃xff0c;可以访问该属性以检索每个输入特征的相对重要性得分。

这种方法也可以与装袋和极端随机树&＃xff08;extraTree&＃xff09;算法一起使用。

让我们看一个用于回归和分类的示例。

随机森林&＃xff08;回归&＃xff09;中的特征重要性

下面列出了拟合RandomForestRegressor和计算特征重要性得分的完整示例# random forest for feature importance on a regression problem

from sklearn.datasets import make_regression

from sklearn.ensemble import RandomForestRegressor

from matplotlib import pyplot

# define dataset

X, y &＃61; make_regression(n_samples&＃61;1000, n_features&＃61;10, n_informative&＃61;5, random_state&＃61;1)

# define the model

model &＃61; RandomForestRegressor()

# fit the model

model.fit(X, y)

# get importance

importance &＃61; model.feature_importances_

# summarize feature importance

for i,v in enumerate(importance):

print(&＃39;Feature: %0d, Score: %.5f&＃39; % (i,v))

# plot feature importance

pyplot.bar([x for x in range(len(importance))], importance)

pyplot.show()

运行示例&＃xff0c;拟合模型&＃xff0c;然后输出每个特征的系数值。

结果表明&＃xff0c;这十个特征中的两个或三个可能对预测很重要。Feature: 0, Score: 0.00280

Feature: 1, Score: 0.00545

Feature: 2, Score: 0.00294

Feature: 3, Score: 0.00289

Feature: 4, Score: 0.52992

Feature: 5, Score: 0.42046

Feature: 6, Score: 0.02663

Feature: 7, Score: 0.00304

Feature: 8, Score: 0.00304

Feature: 9, Score: 0.00283

然后为特征重要性得分创建条形图。

随机森林&＃xff08;分类&＃xff09;中的特征重要性

下面列出了拟合RandomForestClassifier和计算特征重要性得分的完整示例# random forest for feature importance on a classification problem

from sklearn.datasets import make_classification

from sklearn.ensemble import RandomForestClassifier

from matplotlib import pyplot

# define dataset

X, y &＃61; make_classification(n_samples&＃61;1000, n_features&＃61;10, n_informative&＃61;5, n_redundant&＃61;5, random_state&＃61;1)

# define the model

model &＃61; RandomForestClassifier()

# fit the model

model.fit(X, y)

# get importance

importance &＃61; model.feature_importances_

# summarize feature importance

for i,v in enumerate(importance):

print(&＃39;Feature: %0d, Score: %.5f&＃39; % (i,v))

# plot feature importance

pyplot.bar([x for x in range(len(importance))], importance)

pyplot.show()

运行示例&＃xff0c;拟合模型&＃xff0c;然后输出每个特征的系数值。

结果表明&＃xff0c;这十个特征中的两个或三个可能对预测很重要。Feature: 0, Score: 0.06523

Feature: 1, Score: 0.10737

Feature: 2, Score: 0.15779

Feature: 3, Score: 0.20422

Feature: 4, Score: 0.08709

Feature: 5, Score: 0.09948

Feature: 6, Score: 0.10009

Feature: 7, Score: 0.04551

Feature: 8, Score: 0.08830

Feature: 9, Score: 0.04493

然后为特征重要性得分创建条形图。

4.3基于XGBoost的特征重要性

XGBoost是一个库&＃xff0c;它提供了随机梯度提升算法的高效实现。可以通过XGBRegressor和XGBClassifier类将此算法与scikit-learn一起使用。

拟合后&＃xff0c;模型提供feature_importances_属性&＃xff0c;可以访问该属性以检索每个输入特征的相对重要性得分。

scikit-learn还通过GradientBoostingClassifier和GradientBoostingRegressor提供了该算法&＃xff0c;并且可以使用相同的特征选择方法

首先&＃xff0c;安装XGBoost库&＃xff0c;例如&＃xff1a;sudo pip install xgboost

然后&＃xff0c;通过检查版本号来确认该库已正确安装并且可以正常工作。# check xgboost version

import xgboost

print(xgboost.__version__)

运行该示例&＃xff0c;你应该看到以下版本号或者更高版本。0.90

有关XGBoost库的更多信息&＃xff0c;请看&＃xff1a;XGBoost with Python

让我们看一个用于回归和分类问题的示例。

基于XGBoost&＃xff08;回归&＃xff09;的特征重要性

下面列出了拟合XGBRegressor并且计算特征重要性得分的完整示例# xgboost for feature importance on a regression problem

from sklearn.datasets import make_regression

from xgboost import XGBRegressor

from matplotlib import pyplot

# define dataset

X, y &＃61; make_regression(n_samples&＃61;1000, n_features&＃61;10, n_informative&＃61;5, random_state&＃61;1)

# define the model

model &＃61; XGBRegressor()

# fit the model

model.fit(X, y)

# get importance

importance &＃61; model.feature_importances_

# summarize feature importance

for i,v in enumerate(importance):

print(&＃39;Feature: %0d, Score: %.5f&＃39; % (i,v))

# plot feature importance

pyplot.bar([x for x in range(len(importance))], importance)

pyplot.show()

运行示例&＃xff0c;拟合模型&＃xff0c;然后输出每个特征的系数值。

结果表明&＃xff0c;这十个特征中的两个或三个可能对预测很重要。Feature: 0, Score: 0.00060

Feature: 1, Score: 0.01917

Feature: 2, Score: 0.00091

Feature: 3, Score: 0.00118

Feature: 4, Score: 0.49380

Feature: 5, Score: 0.42342

Feature: 6, Score: 0.05057

Feature: 7, Score: 0.00419

Feature: 8, Score: 0.00124

Feature: 9, Score: 0.00491

然后为特征重要性得分创建条形图。

基于XGBoost&＃xff08;分类&＃xff09;的特征重要性

下面列出了拟合XGBClassifier并且计算特征重要性得分的完整示例# xgboost for feature importance on a classification problem

from sklearn.datasets import make_classification

from xgboost import XGBClassifier

from matplotlib import pyplot

# define dataset

X, y &＃61; make_classification(n_samples&＃61;1000, n_features&＃61;10, n_informative&＃61;5, n_redundant&＃61;5, random_state&＃61;1)

# define the model

model &＃61; XGBClassifier()

# fit the model

model.fit(X, y)

# get importance

importance &＃61; model.feature_importances_

# summarize feature importance

for i,v in enumerate(importance):

print(&＃39;Feature: %0d, Score: %.5f&＃39; % (i,v))

# plot feature importance

pyplot.bar([x for x in range(len(importance))], importance)

pyplot.show()

运行示例&＃xff0c;拟合模型&＃xff0c;然后输出每个特征的系数值。

结果表明&＃xff0c;这十个特征中有七个可能对预测很重要。Feature: 0, Score: 0.02464

Feature: 1, Score: 0.08153

Feature: 2, Score: 0.12516

Feature: 3, Score: 0.28400

Feature: 4, Score: 0.12694

Feature: 5, Score: 0.10752

Feature: 6, Score: 0.08624

Feature: 7, Score: 0.04820

Feature: 8, Score: 0.09357

Feature: 9, Score: 0.02220

然后为特征重要性得分创建条形图。

5.基于随机排序的特征重要性

随机排序特征重要性&＃xff08;Permutation feature importance&＃xff09;可以计算相对重要性&＃xff0c;与所使用的模型无关。

首先&＃xff0c;在数据集中拟合出一个模型&＃xff0c;比如说一个不支持本地特征重要性评分的模型。然后&＃xff0c;尽管对数据集中的特征值进行了干扰&＃xff0c;但仍可以使用该模型进行预测。对数据集中的每个特征进行此操作。然后&＃xff0c;再将整个流程重新操作3、5、10或更多次。我们得到每个输入特征的平均重要性得分&＃xff08;以及在重复的情况下得分的分布&＃xff09;。

此方法可以用于回归或分类&＃xff0c;要求选择性能指标作为重要性得分的基础&＃xff0c;例如回归中的均方误差和分类中的准确性。

可以通过permutation_importance()函数&＃xff08;以模型和数据集为参数&＃xff09;和评分函数进行随机排序特性选择。

让我们看下这个特征选择方法&＃xff0c;其算法并不支持特征选择&＃xff0c;尤其是k近邻算法&＃xff08; k-nearest neighbors&＃xff09;。

5.1随机排序&＃xff08;回归&＃xff09;特征重要性

下面列出了拟合KNeighborsRegressor并且计算特征重要性得分的完整示例。# permutation feature importance with knn for regression

from sklearn.datasets import make_regression

from sklearn.neighbors import KNeighborsRegressor

from sklearn.inspection import permutation_importance

from matplotlib import pyplot

# define dataset

X, y &＃61; make_regression(n_samples&＃61;1000, n_features&＃61;10, n_informative&＃61;5, random_state&＃61;1)

# define the model

model &＃61; KNeighborsRegressor()

# fit the model

model.fit(X, y)

# perform permutation importance

results &＃61; permutation_importance(model, X, y, scoring&＃61;&＃39;neg_mean_squared_error&＃39;)

# get importance

importance &＃61; results.importances_mean

# summarize feature importance

for i,v in enumerate(importance):

print(&＃39;Feature: %0d, Score: %.5f&＃39; % (i,v))

# plot feature importance

pyplot.bar([x for x in range(len(importance))], importance)

pyplot.show()

运行示例&＃xff0c;拟合模型&＃xff0c;然后输出每个特征的系数值。

结果表明&＃xff0c;这十个特征中的两个或三个可能对预测很重要。Feature: 0, Score: 175.52007

Feature: 1, Score: 345.80170

Feature: 2, Score: 126.60578

Feature: 3, Score: 95.90081

Feature: 4, Score: 9666.16446

Feature: 5, Score: 8036.79033

Feature: 6, Score: 929.58517

Feature: 7, Score: 139.67416

Feature: 8, Score: 132.06246

Feature: 9, Score: 84.94768

然后为特征重要性得分创建条形图。

5.2随机排序&＃xff08;分类&＃xff09;特征重要性

下面列出了拟合KNeighborsClassifier并且计算特征重要性得分的完整示例。# permutation feature importance with knn for classification

from sklearn.datasets import make_classification

from sklearn.neighbors import KNeighborsClassifier

from sklearn.inspection import permutation_importance

from matplotlib import pyplot

# define dataset

X, y &＃61; make_classification(n_samples&＃61;1000, n_features&＃61;10, n_informative&＃61;5, n_redundant&＃61;5, random_state&＃61;1)

# define the model

model &＃61; KNeighborsClassifier()

# fit the model

model.fit(X, y)

# perform permutation importance

results &＃61; permutation_importance(model, X, y, scoring&＃61;&＃39;accuracy&＃39;)

# get importance

importance &＃61; results.importances_mean

# summarize feature importance

for i,v in enumerate(importance):

print(&＃39;Feature: %0d, Score: %.5f&＃39; % (i,v))

# plot feature importance

pyplot.bar([x for x in range(len(importance))], importance)

pyplot.show()

运行示例&＃xff0c;拟合模型&＃xff0c;然后输出每个特征的系数值。

结果表明&＃xff0c;这十个特征中的两个或三个可能对预测很重要。Feature: 0, Score: 0.04760

Feature: 1, Score: 0.06680

Feature: 2, Score: 0.05240

Feature: 3, Score: 0.09300

Feature: 4, Score: 0.05140

Feature: 5, Score: 0.05520

Feature: 6, Score: 0.07920

Feature: 7, Score: 0.05560

Feature: 8, Score: 0.05620

Feature: 9, Score: 0.03080

然后为特征重要性得分创建条形图。

总结

在本教程中&＃xff0c;您知道了在Python机器学习中的特征重要性得分。

具体来说&＃xff0c;您了解到&＃xff1a;特征重要性在预测建模问题中的作用

如何从线性模型和决策树中计算和查看特征重要性

如何计算和查看随机排序特征重要性得分

推荐阅读

ip
投融资周报 | Circle 达成 4 亿美元融资协议，唯一艺术平台 A 轮融资超千万美元

投融资周报 | Circle 达成 4 亿美元融资协议，唯一艺术平台 A 轮融资超千万美元 ... [详细]

蜡笔小新 2024-11-05 04:56:42
function
利用CIFAR10数据集快速掌握Mixup数据增强技术，显著提高图像分类精度

通过使用CIFAR-10数据集，本文详细介绍了如何快速掌握Mixup数据增强技术，并展示了该方法在图像分类任务中的显著效果。实验结果表明，Mixup能够有效提高模型的泛化能力和分类精度，为图像识别领域的研究提供了有价值的参考。 ... [详细]

蜡笔小新 2024-11-05 14:24:36
process
如何高效启动大数据应用之旅？

在前一篇文章中，我探讨了大数据的定义及其与数据挖掘的区别。本文将重点介绍如何高效启动大数据应用项目，涵盖关键步骤和最佳实践，帮助读者快速踏上大数据之旅。 ... [详细]

蜡笔小新 2024-11-04 18:30:38
python
使用 ListView 浏览安卓系统中的回收站文件

使用 ListView 浏览安卓系统中的回收站文件 ... [详细]

蜡笔小新 2024-11-09 16:34:55
post
优化后的标题：深入探讨网关安全：将微服务升级为OAuth2资源服务器的最佳实践

本文深入探讨了如何将微服务升级为OAuth2资源服务器，以订单服务为例，详细介绍了在POM文件中添加 `spring-cloud-starter-oauth2` 依赖，并配置Spring Security以实现对微服务的保护。通过这一过程，不仅增强了系统的安全性，还提高了资源访问的可控性和灵活性。文章还讨论了最佳实践，包括如何配置OAuth2客户端和资源服务器，以及如何处理常见的安全问题和错误。 ... [详细]

蜡笔小新 2024-11-09 16:13:27
text
如何在C#中通过选择ComboBox项从MySQL数据库中检索数据值

本文探讨了如何在C#应用程序中通过选择ComboBox项从MySQL数据库中检索数据值。具体介绍了在事件处理方法 `comboBox2_SelectedIndexChanged` 中可能出现的常见错误，并提供了详细的解决方案和优化建议，以确保数据能够正确且高效地从数据库中读取并显示在界面上。此外，还讨论了连接字符串的配置、SQL查询语句的编写以及异常处理的最佳实践，帮助开发者避免常见的陷阱并提高代码的健壮性。 ... [详细]

蜡笔小新 2024-11-07 19:18:29
filter
Scala学习指南：从零开始掌握基础

本指南从零开始介绍Scala编程语言的基础知识，重点讲解了Scala解释器REPL（读取-求值-打印-循环）的使用方法。REPL是Scala开发中的重要工具，能够帮助初学者快速理解和实践Scala的基本语法和特性。通过详细的示例和练习，读者将能够熟练掌握Scala的基础概念和编程技巧。 ... [详细]

蜡笔小新 2024-11-07 18:07:59
default
Android中将独立SO库封装进JAR包并实现SO库的加载与调用

在Android开发中，将独立的SO库封装进JAR包并实现其加载与调用是一个常见的需求。本文详细介绍了如何将SO库嵌入到JAR包中，并确保在外部应用调用该JAR包时能够正确加载和使用这些SO库。通过这种方式，开发者可以更方便地管理和分发包含原生代码的库文件，提高开发效率和代码复用性。文章还探讨了常见的问题及其解决方案，帮助开发者避免在实际应用中遇到的坑。 ... [详细]

蜡笔小新 2024-11-07 14:28:55
const
Java 曾经有过配对类吗？—— 探讨 Java 中 Pair 类的历史与现状

本文探讨了 Java 中 Pair 类的历史与现状。虽然 Java 标准库中没有内置的 Pair 类，但社区和第三方库提供了多种实现方式，如 Apache Commons 的 Pair 类和 JavaFX 的 javafx.util.Pair 类。这些实现为需要处理成对数据的开发者提供了便利。此外，文章还讨论了为何标准库未包含 Pair 类的原因，以及在现代 Java 开发中使用 Pair 类的最佳实践。 ... [详细]

蜡笔小新 2024-11-06 18:56:35
ip
Python 实战：异步爬虫（协程技术）与分布式爬虫（多进程应用）深入解析

本文将深入探讨 Python 异步爬虫和分布式爬虫的技术细节，重点介绍协程技术和多进程应用在爬虫开发中的实际应用。通过对比多进程和协程的工作原理，帮助读者理解两者在性能和资源利用上的差异，从而在实际项目中做出更合适的选择。文章还将结合具体案例，展示如何高效地实现异步和分布式爬虫，以提升数据抓取的效率和稳定性。 ... [详细]

蜡笔小新 2024-11-05 14:12:56
post
优化后的标题：hCalendar微格式：深入解析事件与时间、地点相关的活动标记方法

本文深入探讨了 hCalendar 微格式在事件与时间、地点相关活动标记中的应用。作为微格式系列文章的第四篇，前文已分别介绍了 rel 属性用于定义链接关系、XFN 微格式增强链接的人际关系描述以及 hCard 微格式对个人和组织信息的描述。本次将重点解析 hCalendar 如何通过结构化数据标记，提高事件信息的可读性和互操作性。 ... [详细]

蜡笔小新 2024-11-04 17:57:52
post
深入理解Java中的多态性概念及其应用

多态是面向对象编程中的三大核心特性之一，与封装和继承共同构成了面向对象的基础。多态使得代码更加灵活和可扩展，封装和继承则为其提供了必要的支持。本文将深入探讨多态的概念及其在Java中的具体应用，帮助读者全面理解和掌握这一关键知识点。 ... [详细]

蜡笔小新 2024-11-09 13:38:15
post
Linux网络配置详解：Firewalld与Netfilter机制解析及iptables应用

在Linux系统中，网络配置是至关重要的任务之一。本文详细解析了Firewalld和Netfilter机制，并探讨了iptables的应用。通过使用`ip addr show`命令来查看网卡IP地址（需要安装`iproute`包），当网卡未分配IP地址或处于关闭状态时，可以通过`ip link set`命令进行配置和激活。此外，文章还介绍了如何利用Firewalld和iptables实现网络流量控制和安全策略管理，为系统管理员提供了实用的操作指南。 ... [详细]

蜡笔小新 2024-11-09 12:37:55
filter
定时器输入捕捉技术详解与应用

本文详细介绍了定时器输入捕捉技术的原理及其应用。通过配置定时器通道的引脚模式为输入模式，并设置相应的捕获触发条件，可以实现对外部信号的精确捕捉。该技术在实时控制系统中具有广泛的应用，如电机控制、频率测量等场景。文中还提供了具体的配置步骤和示例代码，帮助读者更好地理解和应用这一技术。 ... [详细]

蜡笔小新 2024-11-09 10:21:55
function
如何撰写适应变化的高效代码：策略与实践

编写高质量且适应变化的代码是每位程序员的追求。优质代码的关键在于其可维护性和可扩展性。本文将从面向对象编程的角度出发，探讨实现这一目标的具体策略与实践方法，帮助开发者提升代码效率和灵活性。 ... [详细]

蜡笔小新 2024-11-09 10:20:32

手浪用户2602901267

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章