当前位置: 开发笔记 > 前端 > 正文

盐城汽车上牌量预测

作者：cool瀚_325 | 来源：互联网 | 2023-09-15 18:48

本次赛题需要利用历史某3年的汽车日上牌数据，预测某2年每天的汽车上牌数。初赛将挑选出5个汽车品牌，给出这些品牌每天的上牌数，当天是星期几&

本次赛题需要利用历史某3年的汽车日上牌数据&＃xff0c;预测某2年每天的汽车上牌数。初赛将挑选出5个汽车品牌&＃xff0c;给出这些品牌每天的上牌数&＃xff0c;当天是星期几&＃xff0c;来预测5个汽车品牌未来每天的上牌总数。

数据说明

1、数据分成训练数据&＃xff08;train.txt&＃xff09;和测试数据&＃xff08;test.txt&＃xff09;。其中

前3个字段是特征变量&＃xff0c;”cnt“是目标变量

2、数据经过严格脱敏&＃xff0c;所以选手看到的”cnt”并非真值&＃xff1b;字段“date”&＃xff0c;“brand”用数字替代&＃xff1b;字段“day_of_week”是真实的数据

3、排名结果依据预测结果的MSE

选手需要提交测试数据的预测结果&＃xff0c;共2列&＃xff1a;

【题目分析】

首先&＃xff0c;本次比赛的题目是一个预测问题&＃xff0c;从过去数据中找到某种规则并对之后的事件进行预测。

其次&＃xff0c;从训练集可以看到&＃xff0c;每条样本有四个属性&＃xff0c;date是从1到n的连续值&＃xff1b;day_of_week是一个离散属性&＃xff0c;属性值包含1到7&＃xff1b;brand也是一个离散属性&＃xff0c;属性值包含1到5&＃xff1b;cnt即为我们的目标属性也就是当天的汽车上牌量&＃xff08;整数&＃xff09;

请注意&＃xff1a;提交结果只需要预测当天物种测量的总上牌量即可&＃xff0c;而并不需要预测出5中车辆相应的上牌量。

【本文方法】

通过探索性分析找出样本潜在属性来替代date&＃xff0c;将预测问题转化为一个回归问题&＃xff0c;将最后的预测值取整得到结果

一般数据挖掘流程

1、定义问题&＃xff1a;即分析问题&＃xff0c;确定问题的属性

2、收集数据&＃xff1a;本次竞赛已经给出数据集&＃xff0c;在网站下载即可

3、数据清洗&＃xff1a;经数据集中的缺失项、异常值进行优化处理&＃xff0c;保证后续工作正常展开

4、进行探索性分析&＃xff08;EDA&＃xff09;:通过图形化数据分析找出潜在问题

5、模型选择&＃xff1a;即选择与问题相匹配的机器学习算法

6、模型拟合与优化处理

【探索性分析】

1、先将同一天的汽车上上牌数量求出来&＃xff1b;这一步将得到一个表格&＃xff0c;每个样本只有三个属性 &＃xff0c;即date、day_of_week、cnt&＃xff08;当天上牌数总量&＃xff09;

2、接下来将该表格每天的上牌量进行散点图展示&＃xff0c;利用matplotlib库中的scatter函数&＃xff0c;散点结果如下&＃xff1a;

可以看出由于训练集是收集了三年的上牌信息&＃xff0c;所以数据呈现一定的周期性

3、与此同时&＃xff0c;数据也呈现了一定的断层&＃xff0c;也就是500以下有一部分样本&＃xff0c;1000以上有一部分样本&＃xff0c;考虑到周末与工作日节假日的区别&＃xff0c;这些区别可能是导致了上牌量的极端分布&＃xff0c;因此做了将工作日和周六周日进行分开散点&＃xff0c;散点如下&＃xff1a;

可以看到&＃xff0c;工作日与周六周日的影响因素确实很大&＃xff0c;但在某些点也出现了异常点&＃xff0c;也就是三年内有几个工作日上牌量极少&＃xff0c;而有几个周六或者周日上牌量特别高&＃xff0c;考虑到我国国情&＃xff0c;有三八妇女节、五一劳动节、六一儿童节&＃xff0c;十一国庆七天假、清明中秋等传统节日以及圣诞节等国外节日所在星期不固定所导致以上情况。

4、由于箱型图信息量大&＃xff0c;对异常值敏感等优点&＃xff0c;接下来对星期1-7绘制箱型图&＃xff0c;从而观察异常值&＃xff0c;图像图下

从图中可以看出&＃xff0c;工作日五天之间存在细微的差别&＃xff0c;周日的数据跨度大需要适度的处理。

【数据预处理】

1、通过阈值的方法剔除异常值&＃xff1b;此时的样本适量由原来的1032变成了990了

2、由于给定数据集中样本的date属性域是一个从1到n的离散属性&＃xff0c;也就是没有一个样本的date值是唯一的&＃xff0c;所以无法用作训练回归模型的自变量&＃xff0c;然而除了date就只剩下day_of_week这一个自变量了&＃xff0c;为了增加准确率&＃xff0c;根据自然法则将样本划分为四个集合&＃xff0c;分别表示春夏秋冬&＃xff0c;同时考虑到训练集中包含三年的上牌数据&＃xff0c;整体手动划分起来具有一定的困难&＃xff0c;准确率也无法保障&＃xff0c;于是采用了将三年数据通过date折叠成一年&＃xff0c;样本数量保持不变&＃xff0c;

其中data是之前一步的X&＃xff0c;就是剔除掉离群点的训练集&＃xff0c;对这个训练集进行散点结果如下&＃xff1a;

箱型图如下&＃xff1a;

2、接下来给这些样本加上季节属性&＃xff0c;

3、接下来进行测试集的预处理&＃xff08;由于训练集只有date和day_of_week两个属性&＃xff0c;需要加上季节属性&＃xff09;

【模型选择与拟合】

本文使用的是随机森林中的回归模型&＃xff0c;并且通过改变随机种子改变训练计划分策略从而多次建模预测去预测平均值。

总结&＃xff1a;
以上所述的方法还尊在很多不足的地方&＃xff0c;比如&＃xff0c;对三年样本的折叠策略存在误差&＃xff1b;季节划分上存在误差&＃xff1b;非周六周日的节假日并没有被考虑在内&＃xff1b;迭代次数较少等。

转:https://www.cnblogs.com/zhibei/p/9382206.html

推荐阅读

js
Python库在GIS与三维可视化中的应用

Python库极大地扩展了GIS的能力，使其能够执行复杂的数据科学任务。本文探讨了几个关键的Python库，这些库不仅增强了GIS的核心功能，还推动了地理信息系统向更高层次的应用发展。 ... [详细]

蜡笔小新 2024-12-13 17:24:24
js
深入解析：手把手教你构建决策树算法

本文详细介绍了机器学习中广泛应用的决策树算法，通过天气数据集的实例演示了ID3和CART算法的手动推导过程。文章长度约2000字，建议阅读时间5分钟。 ... [详细]

蜡笔小新 2024-12-27 13:44:59
jq
Coursera ML 机器学习

2019独角兽企业重金招聘Python工程师标准线性回归算法计算过程CostFunction梯度下降算法多变量回归![选择特征](https:static.oschina.n ... [详细]

蜡笔小新 2024-12-22 16:09:09
jq
大数据核心技术解析

本文深入探讨了大数据技术的关键领域，包括数据的收集、预处理、存储管理、以及分析挖掘等方面，旨在提供一个全面的技术框架理解。 ... [详细]

蜡笔小新 2024-12-03 12:31:21
html
深入探讨CPU虚拟化与KVM内存管理

本文详细介绍了现代服务器架构中的CPU虚拟化技术，包括SMP、NUMA和MPP三种多处理器结构，并深入探讨了KVM的内存虚拟化机制。通过对比不同架构的特点和应用场景，帮助读者理解如何选择最适合的架构以优化性能。 ... [详细]

蜡笔小新 2024-12-25 19:15:51
html
深入剖析 DEX 赛道：从 60 大头部项目看五大趋势

本文通过分析 60 大头部去中心化交易平台（DEX），揭示了当前 DEX 赛道的五大发展趋势，包括市场集中度、跨链协议、AMM+NFT 结合、新公链崛起以及稳定币和衍生品交易的增长潜力。 ... [详细]

蜡笔小新 2024-12-24 14:51:19
html
Python 工具推荐 | PyHubWeekly 第二十一期：提升命令行体验的五大工具

本期 PyHubWeekly 为大家精选了 GitHub 上五个优秀的 Python 工具，涵盖金融数据可视化、终端美化、国际化支持、图像增强和远程 Shell 环境配置。欢迎关注并参与项目。 ... [详细]

蜡笔小新 2024-12-21 14:45:11
js
LambdaMART算法详解

本文详细介绍了LambdaMART算法的背景、原理及其在信息检索中的应用。首先回顾了LambdaMART的发展历程，包括其前身RankNet和LambdaRank，然后深入探讨了LambdaMART如何结合梯度提升决策树（GBDT）和LambdaRank来优化排序问题。 ... [详细]

蜡笔小新 2024-12-18 12:30:35
html
全能终端工具推荐：高效、免费、易用

介绍一款备受好评的全能型终端工具——MobaXterm，它不仅功能强大，而且完全免费，适合各类用户使用。 ... [详细]

蜡笔小新 2024-12-16 21:02:15
html
智慧城市建设现状及未来趋势

随着新基建政策的推进及‘十四五’规划的实施，我国正步入以5G、人工智能等先进技术引领的智慧经济新时代。规划强调加速数字化转型，促进数字政府建设，新基建政策亦倡导城市基础设施的全面数字化。本文探讨了智慧城市的发展背景、全球及国内进展、市场规模、架构设计，以及百度、阿里、腾讯、华为等领军企业在该领域的布局策略。 ... [详细]

蜡笔小新 2024-12-16 16:43:21
html
厘清机器学习与数据分析的界限

本文旨在探讨机器学习与数据分析之间的差异，不仅在于它们处理的数据类型，还包括技术背景、业务应用场景以及参与者的不同。通过深入分析，希望能为读者提供清晰的理解。 ... [详细]

蜡笔小新 2024-12-12 15:15:36
html
深入解析：主流开源分布式文件系统综述

本文详细探讨了几款主流的开源分布式文件系统，包括HDFS、MooseFS、Lustre、GlusterFS和CephFS，重点分析了它们的元数据管理和数据一致性机制，旨在为读者提供深入的技术见解。 ... [详细]

蜡笔小新 2024-12-08 19:30:59
html
数据挖掘领域的十大重要算法解析

本文深入探讨了数据挖掘领域内的十个经典算法，包括但不限于C4.5决策树、K-Means聚类、支持向量机等。这些算法不仅在理论上有深厚的数学基础，也在实践中展现出强大的应用价值。 ... [详细]

蜡笔小新 2024-12-07 18:26:46
html
掌握Python岗位，你需要了解的关键技能

最近，在社交平台脉脉上，一条关于Python岗位的消息引起了广泛关注。本文将探讨Python岗位的实际价值，并深入解析阿里巴巴等大公司在面试Python开发者时常见的问题。 ... [详细]

蜡笔小新 2024-12-04 16:31:13
html
解决getallheaders函数导致的500错误及8种服务器性能优化策略

本文探讨了解决getallheaders函数引起的服务器500错误的方法，并介绍八种有效的服务器性能优化技术，包括内存数据库的应用、Spark RDD的使用、缓存策略的实施、SSD的引入、数据库优化、IO模型的选择、多核处理策略以及分布式部署方案。 ... [详细]

蜡笔小新 2024-12-03 18:26:35

cool瀚_325

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章