一个RandomizedSearchCV和GridSearchCV组合使用调参的例子先随机大致搜索，再网格精细化搜索

作者：孟倩-951127 | 来源：互联网 | 2023-10-13 11:30

温度预测示例&参数优化工具RandomizedSearchCVtaon关注0.1292019.12.0618:18:08字数2,203阅读523一般情况下，我们做

温度预测示例&参数优化工具RandomizedSearchCV

taon关注

0.1292019.12.06 18:18:08字数 2,203阅读 523

一般情况下&＃xff0c;我们做数据挖掘任务都是按照“数据预处理 - 特征工程 - 构建模型&＃xff08;使用默认参数或经验参数&＃xff09; - 模型评估 - 参数优化 - 模型固定”这样一个流程来处理问题。这一小节&＃xff0c;我们要讨论的主题就是参数优化&＃xff0c;前面我们讨论过GridSearchCV&＃xff08;网格搜索&＃xff09;这个工具&＃xff0c;它是对我们的参数进行组合&＃xff0c;选取效果最好的那组参数。

data mining.jpg

这一节&＃xff0c;我们探索下参数优化当中的另一个工具RandomizedSearchCV&＃xff08;随机搜索&＃xff09;&＃xff0c;这名字咋一听感觉有点不太靠谱&＃xff0c;对&＃xff0c;它是有点不太靠谱&＃xff0c;但为什么我们还要用它呢&＃xff1f;因为它的效率高&＃xff0c;它可以快速地帮助我们确定一个参数的大概范围&＃xff0c;然后我们再使用网格搜索确定参数的精确值。就像警察抓犯人一样&＃xff0c;先得快速地确认罪犯的活动区域&＃xff0c;然后在该区域内展开地毯式搜索&＃xff0c;这样效率更高。

这一小节&＃xff0c;我们以随机森林模型作为例子&＃xff0c;通过演示一个完整的建模过程&＃xff0c;来说明RandomizedSearchCV的用法。当然这个工具不是随机森林特有的&＃xff0c;它可以应用于任何模型的参数优化当中。

随机森林模型&＃xff1a;
官方文档&＃xff1a;https://scikitlearn.org/stable/modules/generated/sklearn.ensemble.RandomForestRegressor.html?highlight&＃61;randomforestr#sklearn.ensemble.RandomForestRegressor

RandomForestRegressor.png

从上图可以看出随机森林模型有很多参数&＃xff0c;如&＃xff1a;n_estimators, max_depth, min_samples_split, min_samples_leaf,max_features,bootstrap等。每一个参数都会对最终结果产生影响&＃xff0c;同时每一个参数又有着众多的取值&＃xff0c;我们的目标是找到最优的参数组合&＃xff0c;使得我们的模型效果最好。

RandomizedSearchCV工具&＃xff1a;
官方文档&＃xff1a;
https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.RandomizedSearchCV.html?highlight&＃61;randomized#sklearn.model_selection.RandomizedSearchCV

RandomizedSearchCV.png

RandomizedSearchCV参数说明&＃xff1a;

estimator&＃xff1a;我们要传入的模型&＃xff0c;如KNN,LogisticRegression,RandomForestRegression等。
params_distributions&＃xff1a;参数分布&＃xff0c;字典格式。将我们所传入模型当中的参数组合为一个字典。
n_iter&＃xff1a;随机寻找参数组合的数量&＃xff0c;默认值为10。
scoring&＃xff1a;模型的评估方法。在分类模型中有accuracy,precision,recall_score,roc_auc_score等&＃xff0c;在回归模型中有MSE&＃xff0c;RMSE等。
n_jobs&＃xff1a;并行计算时使用的计算机核心数量&＃xff0c;默认值为1。当n_jobs的值设为-1时&＃xff0c;则使用所有的处理器。
iid&＃xff1a;bool变量&＃xff0c;默认为deprecated&＃xff0c;返回值为每折交叉验证的值。当iid &＃61; True时&＃xff0c;返回的是交叉验证的均值。
cv&＃xff1a;交叉验证的折数&＃xff0c;最新的sklearn库默认为5。

接下来&＃xff0c;我们采用温度数据集作为例子&＃xff0c;来演示RandomizedSearchCV的用法。我们将进行一个完整的数据建模过程&＃xff1a;数据预处理 - 模型搭建 - RandomizedSearchCV参数优化 - GridSearchCV参数优化 - 确定最优参数&＃xff0c;确定模型。

温度数据集&＃xff1a;链接&＃xff1a;https://pan.baidu.com/s/1q10_Vz7ujuu8oCOqysNU7A
提取码&＃xff1a;bxcr

任务目标&＃xff1a;基于昨天和前天的一些历史天气数据&＃xff0c;建立模型&＃xff0c;预测当天的最高的真实温度。

数据集中主要特征说明&＃xff1a;

ws_1&＃xff1a;昨天的风速。
prcp_1&＃xff1a;昨天的降水量。
snwd_1&＃xff1a;昨天的降雪厚度。
temp_1&＃xff1a;昨天的最高温度。
temp_2&＃xff1a;前天的最高温度。
average&＃xff1a;历史中这一天的平均最高温度。
actual&＃xff1a;当天的真实最高温度。

建模完整过程演示&＃xff1a;

#导入数据分析的两大工具包 import numpy as np import pandas as pd#读取数据 df &＃61; pd.read_csv(&＃39;D:\\Py_dataset\\temps_extended.csv&＃39;) df.head() #查看数据的规模 df.shape (2191, 12)#该数据集有2191个样本&＃xff0c;每个样本有12个特征。

1.数据预处理

该数据集整体上是比较干净的&＃xff0c;没有缺失值和异常值。这一步我们熟悉下数据预处理的基本过程。

# 1.查看数据集的基本信息 df.info()

df info.png

从上述结果可以看出这份数据集的整体情况。一共2191个样本&＃xff0c;索引从0开始&＃xff0c;截止于2190。一共12个特征&＃xff0c;每个特征的数量为2191&＃xff0c;缺失值情况&＃xff08;non-null&＃xff09;&＃xff0c;类型&＃xff08;int64 or object or float64&＃xff09;&＃xff0c;内存使用205.5KB。

由于数据没有缺失值&＃xff0c;所以我们不需要做缺失值处理。接下来我们看数据类型&＃xff0c;由于计算机只能识别数值型数据&＃xff0c;所以我们必须将数据集中的非数值型数据转化为数值型数据。该数据集中只有"weekday"是object类型&＃xff0c;由于我们要预测的是今天的温度值&＃xff0c;所以日期数据&＃xff08;如昨天是几号&＃xff0c;星期几&＃xff09;对我们的结果没有什么影响&＃xff0c;将这些日期数据删掉。数据集中有一个"friend"特征&＃xff0c;该值的意思可能是朋友的猜测结果&＃xff0c;在建模过程中&＃xff0c;我们暂不关注这个特征&＃xff0c;所以将"friend"特征也删掉。

df &＃61; df.drop([&＃39;year&＃39;,&＃39;month&＃39;,&＃39;day&＃39;,&＃39;weekday&＃39;,&＃39;friend&＃39;],axis &＃61; 1) df.head()

clean-data.png

2.数据切分

当我们完成了数据集清洗之后&＃xff0c;接下来就是将原始数据集切分为特征&＃xff08;features&＃xff09;和标签&＃xff08;labels&＃xff09;。接着将特征和标签再次切分为训练特征&＃xff0c;测试特征&＃xff0c;训练标签和测试标签。

#导入数据切分模块 from sklearn.model_selection import train_test_split #提取数据标签 labels &＃61; df[&＃39;actual&＃39;] #提取数据特征 features &＃61; df.drop(&＃39;actual&＃39;,axis &＃61; 1)#将数据切分为训练集和测试集 train_features,test_features,train_labels,test_labels &＃61; train_test_split(features,labels, test_size &＃61; 0.3,random_state &＃61; 0)print(&＃39;训练特征的规模:&＃39;,train_features.shape) print(&＃39;训练标签的规模:&＃39;,train_labels.shape) print(&＃39;测试特征的规模:&＃39;,test_features.shape) print(&＃39;测试标签的规模:&＃39;,test_labels.shape)#切分之后的结果训练特征的规模: (1533, 6) 训练标签的规模: (1533,) 测试特征的规模: (658, 6) 测试标签的规模: (658,)

3.建立初始随机森林模型

建立初始模型&＃xff0c;基本上都使用模型的默认参数&＃xff0c;建立RF&＃xff08;RandomForestRegressor&＃xff09;模型&＃xff0c;我们唯一指定了一个n_estimators参数。

from sklearn.ensemble import RandomForestRegressor#建立初始模型 RF &＃61; RandomForestRegressor(n_estimators &＃61; 100,random_state &＃61; 0) #训练数据 RF.fit(train_features,train_labels) #预测数据 predictions &＃61; RF.predict(test_features)

4.模型评估

该例子我们使用的是回归模型&＃xff0c;预测结果是一个准确的数值。我们的目标是希望我们的预测结果与真实数据的误差越好。所以我们在此选用的模型评估方法为均方误差&＃xff08;mean_squared_error&＃xff09;和均方根误差&＃xff08;root_mean_squared_error&＃xff09;。下式分别是MSE和RMSE的计算公式&＃xff0c;其中Yi为真实值&＃xff0c;Yi^为预测值。

MSE.png

RMSE.png

from sklearn.metrics import mean_squared_error #传入真实值&＃xff0c;预测值 MSE &＃61; mean_squared_error(test_labels,predictions)RMSE &＃61; np.sqrt(MSE) print(&＃39;模型预测误差:&＃39;,RMSE) 模型预测误差: 5.068073484568353

5.RandomizdSearchCV参数优化

from sklearn.model_selection import RandomizedSearchCVRF &＃61; RandomForestRegressor() #设置初始的参数空间 n_estimators &＃61; [int(x) for x in np.linspace(start &＃61; 200,stop &＃61; 2000,num &＃61; 10)] min_samples_split &＃61; [2,5,10] min_samples_leaf &＃61; [1,2,4] max_depth &＃61; [5,8,10] max_features &＃61; [&＃39;auto&＃39;,&＃39;sqrt&＃39;] bootstrap &＃61; [True,False] #将参数整理为字典格式 random_params_group &＃61; {&＃39;n_estimators&＃39;:n_estimators,&＃39;min_samples_split&＃39;:min_samples_split,&＃39;min_samples_leaf&＃39;:min_samples_leaf,&＃39;max_depth&＃39;:max_depth,&＃39;max_features&＃39;:max_features,&＃39;bootstrap&＃39;:bootstrap} #建立RandomizedSearchCV模型 random_model &＃61;RandomizedSearchCV(RF,param_distributions &＃61; random_params_group,n_iter &＃61; 100, scoring &＃61; &＃39;neg_mean_squared_error&＃39;,verbose &＃61; 2,n_jobs &＃61; -1,cv &＃61; 3,random_state &＃61; 0) #使用该模型训练数据 random_model.fit(train_features,train_labels)

Random_model fit process.png

我们观察下模型的训练过程&＃xff0c;我们设置了n_iter&＃61;100&＃xff0c;由于交叉验证的折数&＃61;3&＃xff0c;所以该模型要迭代300次。第二层显示的是训练过程的用时&＃xff0c;训练完成总共用了6.2min。第三层显示的是参与训练的参数。

使用集成算法的属性&＃xff0c;获得Random_model最好的参数

random_model.best_params_ {&＃39;n_estimators&＃39;: 1200,&＃39;min_samples_split&＃39;: 5,&＃39;min_samples_leaf&＃39;: 4,&＃39;max_features&＃39;: &＃39;auto&＃39;,&＃39;max_depth&＃39;: 5,&＃39;bootstrap&＃39;: True}

将得出的最优参数&＃xff0c;传给RF模型&＃xff0c;再次训练参数&＃xff0c;并进行结果预测。可以看到经过参数优化后&＃xff0c;模型的效果提升了2%。

RF &＃61; RandomForestRegressor(n_estimators &＃61; 1200,min_samples_split &＃61; 5,min_samples_leaf &＃61; 4,max_features &＃61; &＃39;auto&＃39;,max_depth &＃61; 5,bootstrap &＃61; True) RF.fit(train_features,train_labels) predictions &＃61; RF.predict(test_features)RMSE &＃61; np.sqrt(mean_squared_error(test_labels,predictions))print(&＃39;模型预测误差:&＃39;,RMSE) print(&＃39;模型的提升效果:{}&＃39;.format(round(100*(5.06-4.96)/5.06),2),&＃39;%&＃39;)模型预测误差: 4.966401154246091 模型的提升效果:2 %

6.使用GridSearhCV对参数进行进一步优化

上一步基本上确定了参数的大概范围&＃xff0c;这一步我们在该范围&＃xff0c;进行更加细致的搜索。网格搜索的效率比较低&＃xff0c;这里我只选择了少数的几个参数&＃xff0c;但是用时也达到了9分钟。如果参数增加&＃xff0c;模型训练的时间将会大幅增加。

from sklearn.model_selection import GridSearchCV import timeparam_grid &＃61; {&＃39;n_estimators&＃39;:[1100,1200,1300],&＃39;min_samples_split&＃39;:[4,5,6,7],&＃39;min_samples_leaf&＃39;:[3,4,5],&＃39;max_depth&＃39;:[4,5,6,7]} RF &＃61; RandomForestRegressor() grid &＃61; GridSearchCV(RF,param_grid &＃61; param_grid,scoring &＃61; &＃39;neg_mean_squared_error&＃39;,cv &＃61; 3,n_jobs &＃61; -1) start_time &＃61; time.time() grid.fit(train_features,train_labels) end_time &＃61; time.time() print(&＃39;模型训练用时:{}&＃39;.format(end_time - start_time)) 模型训练用时:534.4072196483612

获得grid模型最好的参数

grid.best_params_ {&＃39;max_depth&＃39;: 5,&＃39;min_samples_leaf&＃39;: 5,&＃39;min_samples_split&＃39;: 6,&＃39;n_estimators&＃39;: 1100}

将最好的模型参数传给RF模型&＃xff0c;再次对数据进行训练并作出预测。

RF &＃61; RandomForestRegressor(n_estimators &＃61; 1100,min_samples_split &＃61; 6,min_samples_leaf &＃61; 5,max_features &＃61; &＃39;auto&＃39;,max_depth &＃61; 5,bootstrap &＃61; True) RF.fit(train_features,train_labels) predictions &＃61; RF.predict(test_features)RMSE &＃61; np.sqrt(mean_squared_error(test_labels,predictions))print(&＃39;模型预测误差:&＃39;,RMSE) 模型预测误差: 4.969890784882202

从结果来看&＃xff0c;模型效果并没有什么提升&＃xff0c;说明在随机搜索的过程中&＃xff0c;已经找到了最优参数。最终结果模型预测的温度与实际温度相差4.96华氏度&＃xff08;2.75℃&＃xff09;。我们以该数据集作为一个示例&＃xff0c;总结数据挖掘的全过程以及RandomizedSearchCV工具&＃xff0c;在具体的调参工作中也是通过一步一步去优化参数&＃xff0c;不断缩小预测值与真实值之间的误差。

prediction result.png

7.总结

1.随机参数选择模型&＃xff08;RandomizedSearchCV&＃xff09;可以帮助我们快速的确定参数的范围。
2.对于随机参数选择模型而言&＃xff0c;初始的特征空间选择特别重要。如果初始的特征空间选择不对&＃xff0c;则后面的调参工作都可能是徒劳。我们可参考一些经验值或者做一些对比试验&＃xff0c;来确定模型的参数空间。
3.RandomizedSearchCV和GridSearchCV搭配使用&＃xff0c;先找大致范围&＃xff0c;再精确搜索。
4.通过优化模型参数&＃xff0c;虽然每次的提升幅度不是很大&＃xff0c;但是通过多次的优化&＃xff0c;这些小的提升累加在一起就是很大的提升。
5.遇到不懂的问题&＃xff0c;多查看sklearn官方文档&＃xff0c;这是一个逐渐积累和提升的过程。

推荐阅读

post
新浪笔试题

1:有如下一段程序：packagea.b.c;publicclassTest{privatestaticinti0;publicintgetNext(){return ... [详细]

蜡笔小新 2024-12-27 19:32:17
config
编写有趣的VBScript恶作剧脚本

本文将介绍如何编写一些有趣的VBScript脚本，这些脚本可以在朋友之间进行无害的恶作剧。通过简单的代码示例，帮助您了解VBScript的基本语法和功能。 ... [详细]

蜡笔小新 2024-12-28 09:46:23
select
技术分享：从动态网站提取站点密钥的解决方案

本文探讨了如何从动态网站中提取站点密钥，特别是针对验证码（reCAPTCHA）的处理方法。通过结合Selenium和requests库，提供了详细的代码示例和优化建议。 ... [详细]

蜡笔小新 2024-12-28 04:11:47
select
解决Uploadify在IE浏览器中的兼容性问题

本文详细介绍了如何解决Uploadify插件在Internet Explorer（IE）9和10版本中遇到的点击失效及JQuery运行时错误问题。通过修改相关JavaScript代码，确保上传功能在不同浏览器环境中的一致性和稳定性。 ... [详细]

蜡笔小新 2024-12-27 22:07:40
merge
Java面试题解析

本文详细介绍了Java编程语言中的核心概念和常见面试问题，包括集合类、数据结构、线程处理、Java虚拟机（JVM）、HTTP协议以及Git操作等方面的内容。通过深入分析每个主题，帮助读者更好地理解Java的关键特性和最佳实践。 ... [详细]

蜡笔小新 2024-12-27 13:55:14
string
深入理解Java泛型：JDK 5的新特性

本文详细介绍了Java泛型的概念及其在JDK 5中的应用，通过具体代码示例解释了泛型的引入、作用和优势。同时，探讨了泛型类、泛型方法和泛型接口的实现，并深入讲解了通配符的使用。 ... [详细]

蜡笔小新 2024-12-26 11:15:56
php
深入理解 Oracle 存储函数：计算员工年收入

本文介绍如何使用 Oracle 存储函数查询特定员工的年收入。我们将详细解释存储函数的创建过程，并提供完整的代码示例。 ... [详细]

蜡笔小新 2024-12-28 09:49:42
string
Java 中的 BigDecimal pow()方法，示例

Java 中的 BigDecimal pow()方法，示例 ... [详细]

蜡笔小新 2024-12-27 20:54:03
merge
C++实现经典排序算法

本文详细介绍了七种经典的排序算法及其性能分析。每种算法的平均、最坏和最好情况的时间复杂度、辅助空间需求以及稳定性都被列出，帮助读者全面了解这些排序方法的特点。 ... [详细]

蜡笔小新 2024-12-27 19:25:14
php
深入理解Cookie与Session会话管理

本文详细介绍了如何通过HTTP响应和请求处理浏览器的Cookie信息，以及如何创建、设置和管理Cookie。同时探讨了会话跟踪技术中的Session机制，解释其原理及应用场景。 ... [详细]

蜡笔小新 2024-12-27 18:20:43
bit
360SRC安全应急响应：从漏洞提交到修复的全过程

本文详细介绍了360SRC平台处理一起关键安全事件的过程，涵盖从漏洞提交、验证、排查到最终修复的各个环节。通过这一案例，展示了360在安全应急响应方面的专业能力和严谨态度。 ... [详细]

蜡笔小新 2024-12-27 11:10:05
select
利用存储过程构建年度日历表的详细指南

本文将介绍如何使用SQL存储过程创建一个完整的年度日历表。通过实例演示，帮助读者掌握存储过程的应用技巧，并提供详细的代码解析和执行步骤。 ... [详细]

蜡笔小新 2024-12-26 18:20:17
php
macOS系统及其关键功能解析

本文详细介绍了macOS系统的核心组件，包括如何管理其安全特性——系统完整性保护（SIP），并探讨了不同版本的更新亮点。对于使用macOS系统的用户来说，了解这些信息有助于更好地管理和优化系统性能。 ... [详细]

蜡笔小新 2024-12-26 18:05:04
php
Python 爬虫基础教程及代码实例

根据最新发布的《互联网人才趋势报告》，尽管大量IT从业者已转向Python开发，但随着人工智能和大数据领域的迅猛发展，仍存在巨大的人才缺口。本文将详细介绍如何使用Python编写一个简单的爬虫程序，并提供完整的代码示例。 ... [详细]

蜡笔小新 2024-12-26 10:42:40
const
使用JPA Criteria API构建动态查询条件

本文介绍如何使用JPA Criteria API创建带有多个可选参数的动态查询方法。当某些参数为空时，这些参数不会影响最终查询结果。 ... [详细]

蜡笔小新 2024-12-26 09:26:16

孟倩-951127

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章