Python实现Prophet时间序列数据建模与异常值检测(Prophet算法)项目实战

作者：bj_gqdy_342 | 来源：互联网 | 2023-07-15 13:26

说明：这是一个机器学习实战项目（附带数据代码文档视频讲解），如需数据代码文档视频讲解可以直接到文章最后获取。1.项目背景Pr

说明：这是一个机器学习实战项目（附带数据+代码+文档+视频讲解），如需数据+代码+文档+视频讲解可以直接到文章最后获取。

1.项目背景

Prophet由facebook开源的基于python和R语言的数据预测工具，基于时间和变量值结合时间序列分解和机器学习的拟合来做的；其强大的对于当变量的预测能力，可以解决大部分的实际场景中的对单项值的预测。在时间序列分析领域，一般会把时间序列拆分成几个部分，分别是S(t)季节项，趋势项T(t)，剩余项T(t)，一般我们算法模型有两种，加法模型和乘法模型；同时乘法模型我们发现取对后也可以分解成加法模型。

Prophet适用于具有明显的内在规律的商业行为数据,例如：有如下特征的业务问题：

1.有至少几个月（最好是一年）的每小时、每天或每周观察的历史数据；

2.有多种人类规模级别的较强的季节性趋势：每周的一些天和每年的一些时间；

3.有事先知道的以不定期的间隔发生的重要节假日（比如国庆节）；

4.缺失的历史数据或较大的异常数据的数量在合理范围内；

5.有历史趋势的变化（比如因为产品发布）；

6.对于数据中蕴含的非线性增长的趋势都有一个自然极限或饱和状态。

2.数据获取

本次建模数据来源于网络(本项目撰写人整理而成)，数据项统计如下：

数据详情如下(部分展示)：

3.数据预处理

3.1 用Pandas工具查看数据

使用Pandas工具的head()方法查看前五行数据：

从上图可以看到，总共有9个字段。

关键代码：

3.2缺失值统计

使用Pandas工具的info()方法统计每个特征缺失情况：

从上图可以看到，数据不存在缺失值，总数据量为355条。

关键代码：

3.3描述性统计分析

通过Pandas工具的describe()方法来来统计变量的平均值、标准差、最大值、最小值、分位数等信息：

关键代码如下：

4.探索性数据分析

4.1 PM2变量时间序列图

用Pandas工具的plot()方法进行统计绘图，如下：

从图中可以看到，变量PM2在2020年12月20日到2021年2月8日波动性最大；其它时间数值相对稳定。

4.2 PM2变量分布直方图

从图中可以看到，PM2变量成一定的偏态分布。

4.3 相关性分析

通过Pandas工具的corr()方法和seaborn工具的heatmap()方法绘制相关性热力图：

从图中可以看到，正数为正相关，负数为负相关，绝对值越大相关性越强。

5.特征工程

5.1 构建时间序列数据框

构建只包含PM2和DATE的数据框。关键代码如下：

6.构建Prophet时间序列模型

主要使用Prophet算法，用于时间序列预测与异常值检测。

6.1模型参数

7.模型预测

输出预测结果前5行：

其中yhat列为预测值，yhat_lower和yhat_upper为95%置信区间的下边界和上边界预测值。

8.异常值检测

输出异常值的前5行：

从上图可以看出，异常值的数量总共13个。

从上图可以看到，阴影部分为95%置信区间的上下边界区域，异常值主要分布在95%置信区间上边界上面。

9.结论与展望

综上所述，本文采用了Prophet时间序列模型，最终证明了我们提出的模型效果良好。

本次机器学习项目实战所需的资料，项目资源如下：

项目说明：
链接：https://pan.baidu.com/s/1dW3S1a6KGdUHK90W-lmA4w
提取码：bcbp

网盘如果失效，可以添加博主微信：zy10178083

推荐阅读

command
使用 Jupyter Notebook 实现 Markdown 编写与代码运行

Jupyter Notebook 是一个开源的基于网页的应用程序，允许用户在同一文档中编写 Markdown 文本和运行多种编程语言的代码，并实时查看运行结果。 ... [详细]

蜡笔小新 2024-11-15 14:50:50
search
Python基础：使用NLTK和Python构建机器学习应用

本文节选自《NLTK基础教程——用NLTK和Python库构建机器学习应用》一书的第1章第1.2节，作者Nitin Hardeniya。本文将带领读者快速了解Python的基础知识，为后续的机器学习应用打下坚实的基础。 ... [详细]

蜡笔小新 2024-11-13 21:23:34
search
Python 数据可视化实战指南

本文详细介绍如何使用 Python 进行数据可视化，涵盖从环境搭建到具体实例的全过程。 ... [详细]

蜡笔小新 2024-11-13 06:03:30
search
如何撰写数据分析师（包括转行者）的面试简历？

CDA数据分析师团队出品，作者：徐杨老师，编辑：Mika。本文将帮助您了解如何撰写一份高质量的数据分析师简历，特别是对于转行者。 ... [详细]

蜡笔小新 2024-11-12 18:20:52
php
从0到1搭建大数据平台

从0到1搭建大数据平台 ... [详细]

蜡笔小新 2024-11-12 15:26:03
php
非线性门控感知器算法的实现与应用分析

非线性门控感知器算法的实现与应用分析 ... [详细]

蜡笔小新 2024-11-11 12:19:17
php
深入解析监督学习的核心概念与应用

本文深入探讨了监督学习的基本原理及其广泛应用。监督学习作为机器学习的重要分支，通过利用带有标签的训练数据，能够有效构建预测模型。文章详细解析了监督学习的关键概念，如特征选择、模型评估和过拟合问题，并介绍了其在图像识别、自然语言处理等领域的实际应用。 ... [详细]

蜡笔小新 2024-11-09 21:07:22
php
【转】强大的矩阵奇异值分解(SVD)及其应用

在工程实践中，经常要对大矩阵进行计算，除了使用分布式处理方法以外，就是通过理论方法，对矩阵降维。一下文章，我在 ... [详细]

蜡笔小新 2024-11-16 12:44:31
search
EST：西湖大学鞠峰组污水厂病原菌与土著反硝化细菌是多重抗生素耐药基因的活跃表达者...

点击蓝字关注我们编译：祝新宇校稿：鞠峰、袁凌论文ID原名：PathogenicandIndigenousDenitrifyingBacte ... [详细]

蜡笔小新 2024-11-13 21:09:41
search
专业人士如何做自媒体

专业人士如何做自媒体 ... [详细]

蜡笔小新 2024-11-13 20:59:44
scala
浅析python实现布隆过滤器及Redis中的缓存穿透原理_python

本文带你了解了位图的实现，布隆过滤器的原理及Python中的使用，以及布隆过滤器如何应对Redis中的缓存穿透，相信你对布隆过滤 ... [详细]

蜡笔小新 2024-11-13 16:43:07
scala
利用OpenCV和线性SVM实现人脸识别

本文介绍如何使用OpenCV和线性支持向量机（SVM）模型来开发一个简单的人脸识别系统，特别关注在只有一个用户数据集时的处理方法。 ... [详细]

蜡笔小新 2024-11-13 14:50:37
scala
如何将Python与Excel高效结合：常用操作技巧解析

本文深入探讨了如何将Python与Excel高效结合，涵盖了一系列实用的操作技巧。文章内容详尽，步骤清晰，注重细节处理，旨在帮助读者掌握Python与Excel之间的无缝对接方法，提升数据处理效率。 ... [详细]

蜡笔小新 2024-11-11 15:18:30
scala
机器学习中的标准化缩放、最小-最大缩放及鲁棒缩放技术解析

机器学习中的标准化缩放、最小-最大缩放及鲁棒缩放技术解析 ... [详细]

蜡笔小新 2024-11-05 15:46:18
scala
REST API 时代落幕，GraphQL 持续引领未来

尽管REST API已广泛使用多年，但在深入了解GraphQL及其解决的核心问题后，我深感其将引领未来的API设计趋势。GraphQL不仅提高了数据查询的效率，还增强了灵活性和性能，有望成为API开发的新标准。 ... [详细]

蜡笔小新 2024-10-27 09:13:29

bj_gqdy_342

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章