热门标签 | HotTags
当前位置:  开发笔记 > 前端 > 正文

盐城汽车上牌量预测

本次赛题需要利用历史某3年的汽车日上牌数据,预测某2年每天的汽车上牌数。初赛将挑选出5个汽车品牌,给出这些品牌每天的上牌数,当天是星期几&

本次赛题需要利用历史某3年的汽车日上牌数据,预测某2年每天的汽车上牌数。初赛将挑选出5个汽车品牌,给出这些品牌每天的上牌数,当天是星期几,来预测5个汽车品牌未来每天的上牌总数。

数据说明

1、数据分成训练数据(train.txt)和测试数据(test.txt)。其中

前3个字段是特征变量,”cnt“是目标变量

2、数据经过严格脱敏,所以选手看到的”cnt”并非真值;字段“date”,“brand”用数字替代;字段“day_of_week”是真实的数据

3、排名结果依据预测结果的MSE

选手需要提交测试数据的预测结果,共2列:

【题目分析】

首先,本次比赛的题目是一个预测问题,从过去数据中找到某种规则并对之后的事件进行预测。

其次,从训练集可以看到,每条样本有四个属性,date是从1到n的连续值;day_of_week是一个离散属性,属性值包含1到7;brand也是一个离散属性,属性值包含1到5;cnt即为我们的目标属性也就是当天的汽车上牌量(整数)

请注意:提交结果只需要预测当天物种测量的总上牌量即可,而 并不需要预测出5中车辆相应的上牌量。   

【本文方法】

通过探索性分析找出样本潜在属性来替代date,将预测问题转化为一个回归问题,将最后的预测值取整得到结果

一般数据挖掘流程

1、定义问题:即分析问题,确定问题的属性

2、收集数据:本次竞赛已经给出数据集,在网站下载即可

3、数据清洗:经数据集中的缺失项、异常值进行优化处理,保证后续工作正常展开

4、进行探索性分析(EDA):通过图形化数据分析找出潜在问题

5、模型选择:即选择与问题相匹配的机器学习算法

6、模型拟合与优化处理

【探索性分析】

1、先将同一天的汽车上上牌数量求出来;这一步将得到一个表格,每个样本只有三个属性 ,即date、day_of_week、cnt(当天上牌数总量)

2、接下来将该表格每天的上牌量进行散点图展示,利用matplotlib库中的scatter函数,散点结果如下:

可以看出由于训练集是收集了三年的上牌信息,所以数据呈现一定的周期性

3、与此同时,数据也呈现了一定的断层,也就是500以下有一部分样本,1000以上有一部分样本,考虑到周末与工作日节假日的区别,这些区别可能是导致了上牌量的极端分布,因此做了将工作日和周六周日进行分开散点,散点如下:

可以看到,工作日与周六周日的影响因素确实很大,但在某些点也出现了异常点,也就是三年内有几个工作日上牌量极少,而有几个周六或者周日上牌量特别高,考虑到我国国情,有三八妇女节、五一劳动节、六一儿童节,十一国庆七天假、清明中秋等传统节日以及圣诞节等国外节日所在星期不固定所导致以上情况。

4、由于箱型图信息量大,对异常值敏感等优点,接下来对星期1-7绘制箱型图,从而观察异常值,图像图下

从图中可以看出,工作日五天之间存在细微的差别,周日的数据跨度大需要适度的处理。

【数据预处理】

1、通过阈值的方法剔除异常值;此时的样本适量由原来的1032变成了990了

2、由于给定数据集中样本的date属性域是一个从1到n的离散属性,也就是没有一个样本的date值是唯一的,所以无法用作训练回归模型的自变量,然而除了date就只剩下day_of_week这一个自变量了,为了增加准确率,根据自然法则将样本划分为四个集合,分别表示春夏秋冬,同时考虑到训练集中包含三年的上牌数据,整体手动划分起来具有一定的困难,准确率也无法保障,于是采用了将三年数据通过date折叠成一年,样本数量保持不变,

其中data是之前一步的X,就是剔除掉离群点的训练集,对这个训练集进行散点结果如下:

箱型图如下:

2、接下来给这些样本加上季节属性,

3、接下来进行测试集的预处理(由于训练集只有date和day_of_week两个属性,需要加上季节属性)

【模型选择与拟合】

本文使用的是随机森林中的回归模型,并且通过改变随机种子改变训练计划分策略从而多次建模预测去预测平均值 。

 总结:
以上所述的方法还尊在很多不足的地方,比如,对三年样本的折叠策略存在误差;季节划分上存在误差;非周六周日的节假日并没有被考虑在内;迭代次数较少等。

 

转:https://www.cnblogs.com/zhibei/p/9382206.html



推荐阅读
  • 本文介绍了Python语言程序设计中文件和数据格式化的操作,包括使用np.savetext保存文本文件,对文本文件和二进制文件进行统一的操作步骤,以及使用Numpy模块进行数据可视化编程的指南。同时还提供了一些关于Python的测试题。 ... [详细]
  • 微软头条实习生分享深度学习自学指南
    本文介绍了一位微软头条实习生自学深度学习的经验分享,包括学习资源推荐、重要基础知识的学习要点等。作者强调了学好Python和数学基础的重要性,并提供了一些建议。 ... [详细]
  • PRML读书会第十四章 Combining Models(committees,Boosting,AdaBoost,决策树,条件混合模型)...
    主讲人网神(新浪微博:豆角茄子麻酱凉面)网神(66707180)18:57:18大家好,今天我们讲一下第14章combiningmodel ... [详细]
  • 深度学习与神经网络——邱锡鹏
    深度学习与神经网络——邱锡鹏-一、绪论人工智能的一个子领域神经网络:一种以(人工))神经元为基本单元的模型深度学习:一类机器学习问题,主要解决贡献度分配问题知识结构:路线图:顶 ... [详细]
  • 阿里Treebased Deep Match(TDM) 学习笔记及技术发展回顾
    本文介绍了阿里Treebased Deep Match(TDM)的学习笔记,同时回顾了工业界技术发展的几代演进。从基于统计的启发式规则方法到基于内积模型的向量检索方法,再到引入复杂深度学习模型的下一代匹配技术。文章详细解释了基于统计的启发式规则方法和基于内积模型的向量检索方法的原理和应用,并介绍了TDM的背景和优势。最后,文章提到了向量距离和基于向量聚类的索引结构对于加速匹配效率的作用。本文对于理解TDM的学习过程和了解匹配技术的发展具有重要意义。 ... [详细]
  • 浏览器中的异常检测算法及其在深度学习中的应用
    本文介绍了在浏览器中进行异常检测的算法,包括统计学方法和机器学习方法,并探讨了异常检测在深度学习中的应用。异常检测在金融领域的信用卡欺诈、企业安全领域的非法入侵、IT运维中的设备维护时间点预测等方面具有广泛的应用。通过使用TensorFlow.js进行异常检测,可以实现对单变量和多变量异常的检测。统计学方法通过估计数据的分布概率来计算数据点的异常概率,而机器学习方法则通过训练数据来建立异常检测模型。 ... [详细]
  • 词袋模型的通俗介绍
    词,袋, ... [详细]
  • GPT-3发布,动动手指就能自动生成代码的神器来了!
    近日,OpenAI发布了最新的NLP模型GPT-3,该模型在GitHub趋势榜上名列前茅。GPT-3使用的数据集容量达到45TB,参数个数高达1750亿,训练好的模型需要700G的硬盘空间来存储。一位开发者根据GPT-3模型上线了一个名为debuid的网站,用户只需用英语描述需求,前端代码就能自动生成。这个神奇的功能让许多程序员感到惊讶。去年,OpenAI在与世界冠军OG战队的表演赛中展示了他们的强化学习模型,在限定条件下以2:0完胜人类冠军。 ... [详细]
  • 背景应用安全领域,各类攻击长久以来都危害着互联网上的应用,在web应用安全风险中,各类注入、跨站等攻击仍然占据着较前的位置。WAF(Web应用防火墙)正是为防御和阻断这类攻击而存在 ... [详细]
  • 本文总结了使用不同方式生成 Dataframe 的方法,包括通过CSV文件、Excel文件、python dictionary、List of tuples和List of dictionary。同时介绍了一些注意事项,如使用绝对路径引入文件和安装xlrd包来读取Excel文件。 ... [详细]
  • 本文介绍了贝叶斯垃圾邮件分类的机器学习代码,代码来源于https://www.cnblogs.com/huangyc/p/10327209.html,并对代码进行了简介。朴素贝叶斯分类器训练函数包括求p(Ci)和基于词汇表的p(w|Ci)。 ... [详细]
  • {moduleinfo:{card_count:[{count_phone:1,count:1}],search_count:[{count_phone:4 ... [详细]
  • 前言:拿到一个案例,去分析:它该是做分类还是做回归,哪部分该做分类,哪部分该做回归,哪部分该做优化,它们的目标值分别是什么。再挑影响因素,哪些和分类有关的影响因素,哪些和回归有关的 ... [详细]
  • 3年半巨亏242亿!商汤高估了深度学习,下错了棋?
    转自:新智元三年半研发开支近70亿,累计亏损242亿。AI这门生意好像越来越不好做了。近日,商汤科技已向港交所递交IPO申请。招股书显示& ... [详细]
  • 产教融合,共塑未来”,CIE 2018 中国 IT 教育博鳌论坛盛大落幕
    2018年11月10-11日,为期两天的“2018中国IT教育博鳌论坛”落下帷幕。2018年11月10-11日,为推动中国IT人才引进与培养࿰ ... [详细]
author-avatar
cool瀚_325
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有