Datawhale7月组队学习task5模型建立和评估

作者：仲颖凯翰奕颖 | 来源：互联网 | 2023-08-30 21:36

Datawhale7月组队学习task5模型建立和评估文章目录Datawhale7月组队学习task5模型建立和评估引入preparation一.模型搭建和评估--建模模型搭建1.

文章目录

Datawhale7月组队学习task5模型建立和评估
- 引入
- - - - preparation
- 一.模型搭建和评估--建模
- - 模型搭建
  - - 1.任务一&＃xff1a;切割训练集和测试集
    - 2.任务二&＃xff1a;模型创建
    - 3.任务三&＃xff1a;输出模型预测结果
- 二.模型搭建和评估-评估
- - 模型评估
  - - 1.任务一&＃xff1a;交叉验证
    - - 提示4
      - 思考4
    - 2.任务二&＃xff1a;混淆矩阵
    - - 提示5
    - 3.任务三&＃xff1a;ROC曲线
    - - 提示6
      - 思考6
- 三.感谢Datawhale

引入

经过前面的两章的知识点的学习&＃xff0c;可以对数数据的本身进行处理&＃xff0c;比如数据本身的增删查补&＃xff0c;还可以做必要的清洗工作。那么下面我们就要开始使用我们前面处理好的数据了。这一章我们要做的就是使用数据&＃xff0c;我们做数据分析的目的也就是&＃xff0c;运用我们的数据以及结合我的业务来得到某些我们需要知道的结果。那么分析的第一步就是建模&＃xff0c;搭建一个预测模型或者其他模型&＃xff1b;我们从这个模型的到结果之后&＃xff0c;我们要分析我的模型是不是足够的可靠&＃xff0c;那我就需要评估这个模型。

我们拥有的泰坦尼克号的数据集&＃xff0c;那么我们这次的目的就是&＃xff0c;完成泰坦尼克号存活预测这个任务

preparation

引入库和数据集

2

import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns from IPython.display import Image
%matplotlib inline
plt.rcParams[&＃39;font.sans-serif&＃39;] &＃61; [&＃39;SimHei&＃39;] # 用来正常显示中文标签 plt.rcParams[&＃39;axes.unicode_minus&＃39;] &＃61; False # 用来正常显示负号 plt.rcParams[&＃39;figure.figsize&＃39;] &＃61; (10, 6) # 设置输出图片大小
%matplotlib inline #能在控制台生成图像
plt.rcParams[&＃39;font.sans-serif&＃39;] &＃61; [&＃39;SimHei&＃39;] # 用来正常显示中文标签 plt.rcParams[&＃39;axes.unicode_minus&＃39;] &＃61; False # 用来正常显示负号 plt.rcParams[&＃39;figure.figsize&＃39;] &＃61; (10, 6) # 设置输出图片大小
# 读取原数据数集 train &＃61; pd.read_csv(&＃39;train.csv&＃39;)
#读取清洗过的数据集 data &＃61; pd.read_csv(&＃39;clear_data.csv&＃39;)

一.模型搭建和评估–建模

模型搭建

我们这里使用一个机器学习最常用的一个库&＃xff08;sklearn&＃xff09;来完成我们的模型的搭建

1.任务一&＃xff1a;切割训练集和测试集

【思考】

划分数据集的方法有哪些&＃xff1f;

sklearn数据集分割方法汇总
为什么使用分层抽样&＃xff0c;这样的好处有什么&＃xff1f;

分层抽样的优缺点

from sklearn.model_selection import train_test_split

X &＃61; data y &＃61; train[&＃39;Survived&＃39;]

# 对数据集进行切割 X_train, X_test, y_train, y_test &＃61; train_test_split(X, y, stratify&＃61;y, random_state&＃61;0)

# 查看数据形状 X_train.shape, X_test.shape

【思考】

什么情况下切割数据集的时候不用进行随机选取

数据集本身随机性较高

2.任务二&＃xff1a;模型创建

创建基于线性模型的分类模型&＃xff08;逻辑回归&＃xff09;
创建基于树的分类模型&＃xff08;决策树、随机森林&＃xff09;
分别使用这些模型进行训练&＃xff0c;分别的到训练集和测试集的得分
查看模型的参数&＃xff0c;并更改参数值&＃xff0c;观察模型变化

from sklearn.linear_model import LogisticRegression from sklearn.ensemble import RandomForestClassifier

默认参数逻辑回归模型&＃xff1a;

lr &＃61; LogisticRegression() lr.fit(X_train, y_train)

查看训练集和测试集score值&＃xff1a;

print("Training set score: {:.2f}".format(lr.score(X_train, y_train))) print("Testing set score: {:.2f}".format(lr.score(X_test, y_test)))

调整参数后的逻辑回归模型&＃xff1a;

lr2 &＃61; LogisticRegression(C&＃61;100) lr2.fit(X_train, y_train)

print("Training set score: {:.2f}".format(lr2.score(X_train, y_train))) print("Testing set score: {:.2f}".format(lr2.score(X_test, y_test)))

默认参数的随机森林分类模型:

rfc &＃61; RandomForestClassifier() rfc.fit(X_train, y_train)

print("Training set score: {:.2f}".format(rfc.score(X_train, y_train))) print("Testing set score: {:.2f}".format(rfc.score(X_test, y_test)))

调整参数后的随机森林分类模型:

rfc2 &＃61; RandomForestClassifier(n_estimators&＃61;100, max_depth&＃61;5) rfc2.fit(X_train, y_train)

print("Training set score: {:.2f}".format(rfc2.score(X_train, y_train))) print("Testing set score: {:.2f}".format(rfc2.score(X_test, y_test)))

【思考】

为什么线性模型可以进行分类任务&＃xff0c;背后是怎么的数学关系
对于多分类问题&＃xff0c;线性模型是怎么进行分类的

3.任务三&＃xff1a;输出模型预测结果

输出模型预测分类标签
输出不同分类标签的预测概率

预测标签

pred &＃61; lr.predict(X_train)

可以看到0和1的数组

pred[:10]

预测标签概率

pred_proba &＃61; lr.predict_proba(X_train)

【思考】

预测标签的概率对我们有什么帮助

评判结果的可信度

二.模型搭建和评估-评估

引入

根据之前的模型的建模&＃xff0c;我们知道如何运用sklearn这个库来完成建模&＃xff0c;以及我们知道了的数据集的划分等等操作。那么一个模型我们怎么知道它好不好用呢&＃xff1f;以至于我们能不能放心的使用模型给我的结果呢&＃xff1f;那么今天的学习的评估&＃xff0c;就会很有帮助。

from sklearn.model_selection import train_test_split

# 一般先取出X和y后再切割&＃xff0c;有些情况会使用到未切割的&＃xff0c;这时候X和y就可以用,x是清洗好的数据&＃xff0c;y是我们要预测的存活数据&＃39;Survived&＃39; data &＃61; pd.read_csv(&＃39;clear_data.csv&＃39;) train &＃61; pd.read_csv(&＃39;train.csv&＃39;) X &＃61; data y &＃61; train[&＃39;Survived&＃39;]

# 对数据集进行切割 X_train, X_test, y_train, y_test &＃61; train_test_split(X, y, stratify&＃61;y, random_state&＃61;0)

# 默认参数逻辑回归模型 lr &＃61; LogisticRegression() lr.fit(X_train, y_train)

模型评估

1.任务一&＃xff1a;交叉验证

用10折交叉验证来评估之前的逻辑回归模型
计算交叉验证精度的平均值

#提示&＃xff1a;交叉验证 Image(&＃39;Snipaste_2020-01-05_16-37-56.png&＃39;)

提示4

交叉验证在sklearn中的模块为sklearn.model_selection

from sklearn.model_selection import cross_val_score

lr &＃61; LogisticRegression(C&＃61;100) scores &＃61; cross_val_score(lr, X_train, y_train, cv&＃61;10)

# k折交叉验证分数 scores

# 平均交叉验证分数 print("Average cross-validation score: {:.2f}".format(scores.mean()))

思考4

k折越多的情况下会带来什么样的影响&＃xff1f;

k折越多&＃xff0c;评估结果的稳定性越高

2.任务二&＃xff1a;混淆矩阵

计算二分类问题的混淆矩阵
计算精确率、召回率以及f-分数

【思考】什么是二分类问题的混淆矩阵&＃xff0c;理解这个概念&＃xff0c;知道它主要是运算到什么任务中的

混淆矩阵

提示5

from sklearn.metrics import confusion_matrix

# 训练模型 lr &＃61; LogisticRegression(C&＃61;100) lr.fit(X_train, y_train)

# 模型预测结果 pred &＃61; lr.predict(X_train)

# 混淆矩阵 confusion_matrix(y_train, pred)

from sklearn.metrics import classification_report

# 精确率、召回率以及f1-score print(classification_report(y_train, pred))

3.任务三&＃xff1a;ROC曲线

绘制ROC曲线

【思考】什么是OCR曲线&＃xff0c;OCR曲线的存在是为了解决什么问题&＃xff1f;

什么是ROC曲线&＃xff1f;为什么要使用ROC

提示6

ROC曲线在sklearn中的模块为sklearn.metrics
ROC曲线下面所包围的面积越大越好

from sklearn.metrics import roc_curve

fpr, tpr, thresholds &＃61; roc_curve(y_test, lr.decision_function(X_test)) plt.plot(fpr, tpr, label&＃61;"ROC Curve") plt.xlabel("FPR") plt.ylabel("TPR (recall)") # 找到最接近于0的阈值 close_zero &＃61; np.argmin(np.abs(thresholds)) plt.plot(fpr[close_zero], tpr[close_zero], &＃39;o&＃39;, markersize&＃61;10, label&＃61;"threshold zero", fillstyle&＃61;"none", c&＃61;&＃39;k&＃39;, mew&＃61;2) plt.legend(loc&＃61;4)

思考6

对于多分类问题如何绘制ROC曲线

ROC曲线绘制(python&＃43;sklearn&＃43;多分类)

三.感谢Datawhale

之前在了解数据科学竞赛的时候&＃xff0c;偶然发现了datawhale这样一个组织&＃xff0c;现在发现真的是个宝&＃xff01;

这种引导式的学习方式&＃xff0c;还有开源的理念&＃xff0c;都让一个我这样大一的计算机学生感觉看到了另一个世界!

8月的组队学习再见&＃xff01;

推荐阅读

function
在范围[0..n-1]中产生m个不同的随机数 - Generating m distinct random numbers in the range [0..n-1]

Ihavetwomethodsofgeneratingmdistinctrandomnumbersintherange[0..n-1]我有两种方法在范围[0.n-1]中生 ... [详细]

蜡笔小新 2024-11-13 09:49:14
select
如何在C#中配置组合框的背景颜色？

如何在C#中配置组合框的背景颜色？ ... [详细]

蜡笔小新 2024-11-08 13:06:59
select
技术日志：使用 Ruby 爬虫抓取拉勾网职位数据并生成词云分析报告

技术日志：使用 Ruby 爬虫抓取拉勾网职位数据并生成词云分析报告 ... [详细]

蜡笔小新 2024-11-07 14:33:19
function
利用CIFAR10数据集快速掌握Mixup数据增强技术，显著提高图像分类精度

通过使用CIFAR-10数据集，本文详细介绍了如何快速掌握Mixup数据增强技术，并展示了该方法在图像分类任务中的显著效果。实验结果表明，Mixup能够有效提高模型的泛化能力和分类精度，为图像识别领域的研究提供了有价值的参考。 ... [详细]

蜡笔小新 2024-11-05 14:24:36
shell
EST：西湖大学鞠峰组污水厂病原菌与土著反硝化细菌是多重抗生素耐药基因的活跃表达者...

点击蓝字关注我们编译：祝新宇校稿：鞠峰、袁凌论文ID原名：PathogenicandIndigenousDenitrifyingBacte ... [详细]

蜡笔小新 2024-11-13 21:09:41
select
日志处理流程：Flume+MapReduce+Hive+Sqoop+MySQL

本文介绍了如何使用Flume从Linux文件系统收集日志并存储到HDFS，然后通过MapReduce清洗数据，使用Hive进行数据分析，并最终通过Sqoop将结果导出到MySQL数据库。 ... [详细]

蜡笔小新 2024-11-13 18:47:34
select
Python 数据可视化实战指南

本文详细介绍如何使用 Python 进行数据可视化，涵盖从环境搭建到具体实例的全过程。 ... [详细]

蜡笔小新 2024-11-13 06:03:30
select
php更新数据库字段的函数是,php更新数据库字段的函数是

php更新数据库字段的函数是,php更新数据库字段的函数是 ... [详细]

蜡笔小新 2024-11-12 11:37:31
char
poj 3352 Road Construction

poj 3352 Road Construction ... [详细]

蜡笔小新 2024-11-12 11:24:39
function
使用 Matplotlib 保存 Python 动态图像为视频文件的方法与技巧

本文介绍了如何利用 `matplotlib` 库中的 `FuncAnimation` 类将 Python 中的动态图像保存为视频文件。通过详细解释 `FuncAnimation` 类的参数和方法，文章提供了多种实用技巧，帮助用户高效地生成高质量的动态图像视频。此外，还探讨了不同视频编码器的选择及其对输出文件质量的影响，为读者提供了全面的技术指导。 ... [详细]

蜡笔小新 2024-11-11 22:11:30
function
MySQL Decimal 类型的最大值解析及其在数据处理中的应用艺术

在关系型数据库中，表的设计与SQL语句的编写对性能的影响至关重要，甚至可占到90%以上。本文将重点探讨MySQL中Decimal类型的最大值及其在数据处理中的应用技巧，通过实例分析和优化建议，帮助读者深入理解并掌握这一重要知识点。 ... [详细]

蜡笔小新 2024-11-11 19:36:19
select
遗传算法的自我问答与解析

遗传算法中选择算子为何置于交叉算子和变异算子之前？本文探讨了这一问题，并详细介绍了遗传算法中常用的选择算子类型及其作用机制。此外，还分析了不同选择算子对算法性能的影响，为实际应用提供了理论依据。 ... [详细]

蜡笔小新 2024-11-11 13:00:19
split
Pandas 散点图矩阵（scatter_matrix）绘图功能及其参数详解

通过使用 `pandas` 库中的 `scatter_matrix` 函数，可以有效地绘制出多个特征之间的两两关系。该函数不仅能够生成散点图矩阵，还能通过参数如 `frame`、`alpha`、`c`、`figsize` 和 `ax` 等进行自定义设置，以满足不同的可视化需求。此外，`diagonal` 参数允许用户选择对角线上的图表类型，例如直方图或密度图，从而提供更多的数据洞察。 ... [详细]

蜡笔小新 2024-11-09 12:03:42
function
HTML 页面中调用 JavaScript 函数生成随机数值并自动展示

在HTML页面中，通过调用JavaScript函数生成随机数值，并将其自动展示在页面上。具体实现包括构建HTML页面结构，定义JavaScript函数以生成随机数，以及在页面加载时自动调用该函数并将结果呈现给用户。 ... [详细]

蜡笔小新 2024-11-06 12:20:41
function
使用JavaScript生成Java兼容的UUID代码实现与优化技巧

本文介绍了UUID（通用唯一标识符）的概念及其在JavaScript中生成Java兼容UUID的代码实现与优化技巧。UUID是一个128位的唯一标识符，广泛应用于分布式系统中以确保唯一性。文章详细探讨了如何利用JavaScript生成符合Java标准的UUID，并提供了多种优化方法，以提高生成效率和兼容性。 ... [详细]

蜡笔小新 2024-11-05 18:19:54

仲颖凯翰奕颖

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章