热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

Datawhale数据分析任务05:构建与评估数据模型

特征工程

缺失值填充

Datawhale-数据分析-Task05 数据建模及模型评估

编码分类变量

Datawhale-数据分析-Task05 数据建模及模型评估

模型搭建

处理完前面的数据我们就得到建模数据,下一步是选择合适模型
在进行模型选择之前我们需要先知道数据集最终是进行监督学习还是无监督学习
除了根据我们任务来选择模型外,还可以根据数据样本量以及特征的稀疏性来决定
刚开始我们总是先尝试使用一个基本的模型来作为其baseline,进而再训练其他模型做对比,最终选择泛化能力或性能比较好的模型

切割训练集和测试集

按比例切割训练集和测试集(一般测试集的比例有30%、25%、20%、15%和10%)
按目标变量分层进行等比切割
设置随机种子以便结果能复现Datawhale-数据分析-Task05 数据建模及模型评估

模型创建

创建基于线性模型的分类模型(逻辑回归)
创建基于树的分类模型(决策树、随机森林)
查看模型的参数,并更改参数值,观察模型变化

为什么线性模型可以进行分类任务,背后是怎么的数学关系
答:因为线性模型即逻辑回归可以通过在一个线性函数上下进行两个类别的判别。

对于多分类问题,线性模型是怎么进行分类的
答:使用Softmax函数进行多分类。
Datawhale-数据分析-Task05 数据建模及模型评估
Datawhale-数据分析-Task05 数据建模及模型评估

输出模型预测结果

Datawhale-数据分析-Task05 数据建模及模型评估
这样可以清楚哪个标签预测概率更高。

模型评估

交叉验证

Datawhale-数据分析-Task05 数据建模及模型评估

混淆矩阵

Datawhale-数据分析-Task05 数据建模及模型评估

ROC曲线

Datawhale-数据分析-Task05 数据建模及模型评估
Datawhale-数据分析-Task05 数据建模及模型评估


推荐阅读
  • Hired网站最新发布的开发者调查显示,Python 语言继续受到开发者的广泛欢迎,而 PHP 则被评为最不受欢迎的语言。该报告基于 Hired 数据科学团队对 13 个城市中 9800 名开发者的调查数据,深入分析了当前编程语言的使用趋势和开发者偏好。此外,报告还探讨了其他热门语言如 JavaScript 和 Java 的表现,并提供了对技术招聘市场的洞见。 ... [详细]
  • PHP开发人员薪资水平分析:工程师平均工资概况
    PHP开发人员薪资水平分析:工程师平均工资概况 ... [详细]
  • 商业智能:智能驱动的商业决策与数据分析 ... [详细]
  • 本文深入探讨了二叉树路径和问题的算法优化方法。具体而言,给定一棵二叉树,需要找出所有从根节点到叶节点的路径,其中各节点值的总和等于指定的目标值。通过详细分析和优化,提出了一种高效的解决方案,并通过多个样例验证了其有效性和性能。 ... [详细]
  • Node.js 配置文件管理方法详解与最佳实践
    本文详细介绍了 Node.js 中配置文件管理的方法与最佳实践,涵盖常见的配置文件格式及其优缺点,并提供了多种实用技巧和示例代码,帮助开发者高效地管理和维护项目配置,具有较高的参考价值。 ... [详细]
  • 网站开发过程中应关注的关键要素与注意事项
    网站开发过程中应关注的关键要素与注意事项 ... [详细]
  • 深入理解Linux网络编程:UDP协议实战解析
    深入理解Linux网络编程:UDP协议实战解析 ... [详细]
  • 每日词汇精选——第50天- **character** (n./v.): 字符、符号、角色、个性- **screenshot** (n.): 屏幕截图、界面快照、画面捕捉- **notification** (n.): 通知、通告、提示信息、提醒窗口这些词汇在日常交流和技术文档中都非常常见,掌握它们有助于提升语言表达的准确性和专业性。 ... [详细]
  • Python: 如何判断哪些SciPy和NumPy函数支持多核并行计算? ... [详细]
  • 如何高效启动大数据应用之旅?
    在前一篇文章中,我探讨了大数据的定义及其与数据挖掘的区别。本文将重点介绍如何高效启动大数据应用项目,涵盖关键步骤和最佳实践,帮助读者快速踏上大数据之旅。 ... [详细]
  • 本文详细解析了九度编程平台上的斐波那契数列高效算法挑战(题目编号:1387)。该挑战要求在1秒的时间限制和32兆的内存限制下,设计出高效的斐波那契数列计算方法。通过多种算法的对比和性能分析,本文提供了优化方案,帮助参赛者在限定资源条件下实现高效计算。 ... [详细]
  • 在GitHub上克隆vue-element-admin项目时遇到依赖安装错误
    在 GitHub 上克隆 vue-element-admin 项目后,使用 `npm install` 安装依赖时遇到了未知的 Git 错误。具体错误信息为 `npm ERR! code 128`,提示命令执行失败。这可能是由于网络问题、Git 配置不正确或某些依赖包的仓库地址无效导致的。建议检查网络连接、更新 Git 版本并确保所有依赖项的 URL 正确无误。 ... [详细]
  • 如何在Mac上构建高效的本地服务器环境
    在Mac上构建高效的本地服务器环境,首先需要了解基本步骤:1. 配置目录基础;2. 启动Apache服务;3. 添加自定义文档至本地服务器;4. 查看自定义效果。此外,还可以通过手机或其他电脑访问本机服务器,以确保跨设备的兼容性和调试效果。Mac系统自带的Apache服务为本地开发提供了便捷的工具,本文将详细介绍每个步骤的具体操作方法。 ... [详细]
  • CAS 机制下的无锁队列设计与实现 ... [详细]
  • PHP 中逻辑运算符“&&”的含义与应用详解
    在 PHP 中,逻辑运算符 `&&` 用于表示“与”关系。该运算符要求其两侧的表达式都必须为真(true),最终结果才会为真。例如,在表达式 `$x && $y` 中,只有当 `$x` 和 `$y` 同时为真时,整个表达式的值才会为真。这一运算符在条件判断和控制流程中非常常用,能够有效简化复杂的逻辑表达式。 ... [详细]
author-avatar
雪国文话天下
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有