热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

基于PyTorch+LSTM进行时间序列预测(附完整源码)

时间序列数据,顾名思义是一种随时间变化的数据类

时间序列数据,顾名思义是一种随时间变化的数据类型。

例如,24小时内的温度、一个月内各种产品的价格、某家公司一年内的股票价格等。深度学习模型如长短期记忆网络(LSTM)能够捕捉时间序列数据中的模式,因此可以用于预测未来趋势。

文章目录

    • 技术提升
    • 数据集和问题定义
    • 数据预处理
    • 创建LSTM模型
    • 训练模型
    • 进行预测
    • 结论

在本文中,您将看到如何使用 LSTM 算法利用时间序列数据进行未来预测,使用的是 PyTorch 库,这是最常用于深度学习的Python库之一。

在继续之前,确保已安装了 PyTorch 库。同时掌握基本机器学习和深度学习概念会有所帮助。如果尚未安装PyTorch,则可以使用以下pip命令进行安装:

$ pip install pytorch

技术提升

技术要学会分享、交流,不建议闭门造车。一个人走的很快、一堆人可以走的更远。

完整代码、数据、技术交流提升, 均可加知识星球交流群获取,群友已超过2000人,添加时切记的备注方式为:来源+兴趣方向,方便找到志同道合的朋友。

方式①、添加微信号:pythoner666,备注:来自 CSDN + python
方式②、微信搜索公众号:Python学习与数据挖掘,后台回复:加群


数据集和问题定义

我们将使用的数据集是Python Seaborn库中内置的。让我们首先导入所需的库,然后再导入数据集:

import torch
import torch.nn as nnimport seaborn as sns
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline

让我们打印出Seaborn库中内置的所有数据集列表:

sns.get_dataset_names()

输出

['anscombe','attention','brain_networks','car_crashes','diamonds','dots','exercise','flights','fmri','gammas','iris','mpg','planets','tips','titanic']

我们将使用的数据集是航班数据集。让我们将数据集加载到我们的应用程序中,看看它的样子:

flight_data = sns.load_dataset("flights")
flight_data.head()

数据集有三列:年份、月份和乘客数。乘客列包含指定月份旅行的总人数。让我们绘制数据集的形状:

flight_data.shape## (144, 3)

您可以看到数据集中有144行和3列,这意味着该数据集包含乘客12年的旅行记录。

任务是基于前132个月预测最近12个月旅行的乘客人数。请记住,我们有144个月的记录,这意味着来自前132个月的数据将用于训练我们的LSTM模型,而模型性能将使用最后12个月的值进行评估。

让我们绘制每月旅行乘客数量的频率。以下脚本增加了默认图形大小:

fig_size = plt.rcParams["figure.figsize"]
fig_size[0] = 15
fig_size[1] = 5
plt.rcParams["figure.figsize"] = fig_size

接下来的脚本绘制了乘客数量每月出现的频率:

plt.title('Month vs Passenger')
plt.ylabel('Total Passengers')
plt.xlabel('Months')
plt.grid(True)
plt.autoscale(axis='x',tight=True)
plt.plot(flight_data['passengers'])

输出结果显示,多年来乘坐飞机旅行的平均乘客人数增加了。一年内旅行的乘客数量波动,这是有道理的,因为在暑假或寒假期间,与其他时间相比旅行乘客数量会增加。

数据预处理

我们数据集中的列类型是对象,如下代码所示:

flight_data.columns
## output
Index(['year', 'month', 'passengers'], dtype='object')

第一个预处理步骤是将乘客列的类型更改为浮点数。

all_data = flight_data['passengers'].values.astype(float)

现在,如果您打印 all_data numpy数组,您应该会看到以下浮点类型值:

print(all_data)

[112. 118. 132. 129. 121. 135. 148. 148. 136. 119. 104. 118. 115. 126.141. 135. 125. 149. 170. 170. 158. 133. 114. 140. 145. 150. 178. 163.172. 178. 199. 199. 184. 162. 146. 166. 171. 180. 193. 181. 183. 218.230. 242. 209. 191. 172. 194. 196. 196. 236. 235. 229. 243. 264. 272.237. 211. 180. 201. 204. 188. 235. 227. 234. 264. 302. 293. 259. 229.203. 229. 242. 233. 267. 269. 270. 315. 364. 347. 312. 274. 237. 278.284. 277. 317. 313. 318. 374. 413. 405. 355. 306. 271. 306. 315. 301.356. 348. 355. 422. 465. 467. 404. 347. 305. 336. 340. 318. 362. 348.363. 435. 491. 505. 404. 359. 310. 337. 360. 342. 406. 396. 420. 472.548. 559. 463. 407. 362. 405. 417. 391. 419. 461. 472. 535. 622. 606.508. 461. 390. 432.]

接下来,我们将把数据集分成训练集和测试集。LSTM算法将在训练集上进行训练。然后,该模型将用于在测试集上进行预测。预测结果将与测试集中的实际值进行比较,以评估已训练模型的性能。

前132条记录将用于训练模型,而最后12条记录将用作测试集。以下脚本将数据分成训练集和测试集。

test_data_size = 12train_data = all_data[:-test_data_size]
test_data = all_data[-test_data_size:]

现在让我们打印测试集和训练集的长度:

print(len(train_data))
print(len(test_data))
##
132
12

如果您现在打印测试数据,您将看到它包含了all_data numpy数组中的最后12条记录:

我们的数据集目前尚未标准化。最初几年的乘客总数远远少于后来几年的乘客总数。对于时间序列预测,将数据进行标准化非常重要。我们将在数据集上执行 min/max 缩放,该方法可以使数据在一定范围内归一化到最小值和最大值之间。

我们将使用 sklearn.preprocessing 模块中的 MinMaxScaler 类来缩放我们的数据。

以下代码使用最小值为-1,最大值为1 的 min/max 缩放器对我们的数据进行了标准化处理:

from sklearn.preprocessing import MinMaxScalerscaler = MinMaxScaler(feature_range=(-1, 1))
train_data_normalized = scaler.fit_transform(train_data .reshape(-1, 1))

让我们现在打印出归一化训练数据的前5条和后5条记录。

print(train_data_normalized[:5])
print(train_data_normalized[-5:])## output
[[-0.96483516][-0.93846154][-0.87692308][-0.89010989][-0.92527473]]
[[1. ][0.57802198][0.33186813][0.13406593][0.32307692]]

你可以看到数据集的值现在在-1和1之间。

这里需要强调的是,数据归一化仅应用于训练数据,而不应用于测试数据。如果对测试数据进行归一化,则有可能会将某些信息从训练集泄漏到测试集中。

下一步是将我们的数据集转换为张量,因为 PyTorch 模型使用张量进行训练。要将数据集转换为张量,我们只需将其传递给FloatTensor对象的构造函数即可,如下所示:

train_data_normalized = torch.FloatTensor(train_data_normalized).view(-1)

最后的预处理步骤是将我们的训练数据转换为序列和相应的标签。

您可以使用任何序列长度,这取决于领域知识。然而,在我们的数据集中,由于我们有每月的数据且一年有12个月,因此使用序列长度为12是方便的。如果我们有每日数据,则更好的序列长度将是365,即一年中的天数。因此,我们将设置训练输入序列长度为12。

train_window = 12

接下来,我们将定义一个名为create_inout_sequences的函数。该函数将接受原始输入数据,并返回一个元组列表。在每个元组中,第一个元素将包含12个项目的列表,对应于12个月内旅行的乘客数量,第二个元素将包含一项即第13个月的乘客数量。

def create_inout_sequences(input_data, tw):inout_seq = []L = len(input_data)for i in range(L-tw):train_seq = input_data[i:i+tw]inout_seq.append((train_seq ,train_label))return inout_seq

执行以下脚本以创建用于训练的序列和相应标签:

train_inout_seq = create_inout_sequences(train_data_normalized, train_window)

如果您打印 train_inout_seq 列表的长度,您会发现它包含120个项目。这是因为尽管训练集包含132个元素,但序列长度为12,这意味着第一个序列由前12个项目组成,而第13个项目是第一个序列的标签。同样,第二个序列从第二项开始,并在第13项结束,而第14项是第二个序列的标签等等。

现在让我们打印 train_inout_seq 列表的前5项:

train_inout_seq[:5]
## output
[(tensor([-0.9648, -0.9385, -0.8769, -0.8901, -0.9253, -0.8637, -0.8066, -0.8066,-0.8593, -0.9341, -1.0000, -0.9385]), tensor([-0.9516])),(tensor([-0.9385, -0.8769, -0.8901, -0.9253, -0.8637, -0.8066, -0.8066, -0.8593,-0.9341, -1.0000, -0.9385, -0.9516]),tensor([-0.9033])),(tensor([-0.8769, -0.8901, -0.9253, -0.8637, -0.8066, -0.8066, -0.8593, -0.9341,-1.0000, -0.9385, -0.9516, -0.9033]), tensor([-0.8374])),(tensor([-0.8901, -0.9253, -0.8637, -0.8066, -0.8066, -0.8593, -0.9341, -1.0000,-0.9385, -0.9516, -0.9033, -0.8374]), tensor([-0.8637])),(tensor([-0.9253, -0.8637, -0.8066, -0.8066, -0.8593, -0.9341, -1.0000, -0.9385,-0.9516, -0.9033, -0.8374, -0.8637]), tensor([-0.9077]))]

你可以看到每个项目都是一个元组,其中第一个元素包含序列的12个项目,第二个元组元素包含相应的标签。

创建LSTM模型

我们已经预处理了数据,现在是训练模型的时候了。我们将定义一个类LSTM,它继承自PyTorch库的nn.Module类。

class LSTM(nn.Module):def __init__(self, input_size=1, hidden_layer_size=100, output_size=1):super().__init__()self.hidden_layer_size = hidden_layer_sizeself.lstm = nn.LSTM(input_size, hidden_layer_size)self.linear = nn.Linear(hidden_layer_size, output_size)def forward(self, input_seq):lstm_out, self.hidden_cell = self.lstm(input_seq.view(len(input_seq) ,1, -1), self.hidden_cell)predictions = self.linear(lstm_out.view(len(input_seq), -1))return predictions[-1]

让我总结一下上面代码中发生的事情。LSTM 类的构造函数接受三个参数:

  • input_size:对应于输入中特征的数量。虽然我们的序列长度为12,但每个月只有1个值,即乘客总数,因此输入大小将为1。
  • hidden_layer_size:指定隐藏层的数量以及每层神经元的数量。我们将有一个100个神经元的隐藏层。
  • output_size:输出中项目的数量,由于我们想要预测未来1个月内乘客人数,因此输出大小将为1。

接下来,在构造函数中创建变量 hidden_layer_size、lstm、linear 和 hidden_cell。

LSTM 算法接受三个输入:先前隐藏状态、先前单元格状态和当前输入。hidden_cell 变量包含先前隐藏和单元格状态。lstm和linear层变量用于创建LSTM和线性层。

在 forward 方法内部,input_seq 作为参数传递,并首先通过lstm层传递。 lstm 层的输出是当前时间步长处的隐藏和 单元状态 ,以及输出 。从 lstm 层得到的输出会被传递到linear层 。预测出来的乘客人数存储在 predictions 列表 中最后一个项目中,并返回给调用函数。

下一步是创建 LSTM() 类对象、定义损失函数和优化器。由于我们正在解决分类问题,所以使用交叉熵损失。对于优化器函数,我们将使用adam优化器。

model = LSTM()
loss_function = nn.MSELoss()
optimizer = torch.optim.Adam(model.parameters(), lr=0.001)

让我们打印我们的模型:

print(model)## output
LSTM((lstm): LSTM(1, 100)(linear): Linear(in_features=100, out_features=1, bias=True)
)

训练模型

我们将训练我们的模型150个epochs。如果您愿意,可以尝试更多的epochs。每25个epochs后会打印损失值。

epochs = 150for i in range(epochs):for seq, labels in train_inout_seq:optimizer.zero_grad()model.hidden_cell = (torch.zeros(1, 1, model.hidden_layer_size),torch.zeros(1, 1, model.hidden_layer_size))y_pred = model(seq)single_loss = loss_function(y_pred, labels)single_loss.backward()optimizer.step()if i%25 == 1:print(f'epoch: {i:3} loss: {single_loss.item():10.8f}')print(f'epoch: {i:3} loss: {single_loss.item():10.10f}')

输出

epoch: 1 loss: 0.00517058
epoch: 26 loss: 0.00390285
epoch: 51 loss: 0.00473305
epoch: 76 loss: 0.00187001
epoch: 101 loss: 0.00000075
epoch: 126 loss: 0.00608046
epoch: 149 loss: 0.0004329932

由于 PyTorch 神经网络默认情况下会随机初始化权重,因此您可能会得到不同的值。

进行预测

现在我们的模型已经训练好了,我们可以开始进行预测。由于测试集包含过去 12 个月的乘客数据,并且我们的模型是使用长度为 12 的序列来进行预测训练的。因此,我们将首先从训练集中筛选出最后 12 个值:

fut_pred = 12test_inputs = train_data_normalized[-train_window:].tolist()
print(test_inputs)output
[0.12527473270893097, 0.04615384712815285, 0.3274725377559662, 0.2835164964199066, 0.3890109956264496, 0.6175824403762817, 0.9516483545303345, 1.0, 0.5780220031738281, 0.33186814188957214, 0.13406594097614288, 0.32307693362236023]

您可以将上述值与train_data_normalized数据列表的最后12个值进行比较。

最初,test_inputs 项目将包含12个项目。在for循环内部,这些12个项目将用于对测试集中的第一个项目(即第133项)进行预测。然后,预测值将附加到test_inputs列表中。在第二次迭代中,再次使用最后12个项目作为输入,并进行新的预测,然后再次将其附加到test_inputs列表中。由于测试集中有12个元素,因此for循环将执行12次。在循环结束时,test_inputs列表将包含24个项目。最后12项是测试集的预测值。

以下脚本用于进行预测:

model.eval()for i in range(fut_pred):seq = torch.FloatTensor(test_inputs[-train_window:])with torch.no_grad():model.hidden = (torch.zeros(1, 1, model.hidden_layer_size),torch.zeros(1, 1, model.hidden_layer_size))test_inputs.append(model(seq).item())

如果您打印test_inputs列表的长度,您将看到它包含24个项目。最后12个预测项可以按如下方式打印:

test_inputs[fut_pred:]

[0.4574652910232544,0.9810629487037659,1.279405951499939,1.0621851682662964,1.5830546617507935,1.8899496793746948,1.323508620262146,1.8764172792434692,2.1249167919158936,1.7745600938796997,1.7952896356582642,1.977765679359436]

需要再次提到的是,根据用于训练 LSTM 的权重不同,您可能会得到不同的值。

由于我们对数据集进行了归一化处理以进行训练,因此预测值也被归一化。我们需要将归一化后的预测值转换为实际预测值。我们可以通过将归一化后的值传递给最小/最大缩放器对象的inverse_transform方法来实现这一点。

actual_predictions = scaler.inverse_transform(np.array(test_inputs[train_window:] ).reshape(-1, 1))
print(actual_predictions)## output
[[435.57335371][554.69182083][622.56485397][573.14712578][691.64493555][761.46355206][632.59821111][758.38493103][814.91857016][735.21242136][739.92839211][781.44169205]]

现在让我们将预测值与实际值绘制出来。请看以下代码:

x = np.arange(132, 144, 1)
print(x)## output
[132 133 134 135 136 137 138 139 140 141 142 143]

在上面的脚本中,我们创建了一个包含过去12个月数值的列表。第一个月的索引值为0,因此最后一个月将在索引143处。

在下面的脚本中,我们将绘制144个月的乘客总数以及最后12个月预测的乘客数量。

plt.title('Month vs Passenger')
plt.ylabel('Total Passengers')
plt.grid(True)
plt.autoscale(axis='x', tight=True)
plt.plot(flight_data['passengers'])
plt.plot(x,actual_predictions)
plt.show()

我们的LSTM所做出的预测由橙色线条表示。您可以看到,我们的算法并不是非常准确,但仍然能够捕捉到过去12个月旅客总数上升趋势以及偶发波动。您可以尝试增加训练轮数和LSTM层中神经元数量来提高性能。

为了更好地查看输出结果,我们可以按以下方式绘制过去12个月实际和预测乘客人数:

plt.title('Month vs Passenger')
plt.ylabel('Total Passengers')
plt.grid(True)
plt.autoscale(axis='x', tight=True)plt.plot(flight_data['passengers'][-train_window:])
plt.plot(x,actual_predictions)
plt.show()

结论

LSTM 是解决序列问题最广泛使用的算法之一。在本文中,我们看到了如何使用 LSTM 对时间序列数据进行未来预测。

您还学会了如何使用 PyTorch 库实现 LSTM,并将预测结果与实际值绘制在一起以查看训练好的算法表现如何。


推荐阅读
  • 在机器学习领域,深入探讨了概率论与数理统计的基础知识,特别是这些理论在数据挖掘中的应用。文章重点分析了偏差(Bias)与方差(Variance)之间的平衡问题,强调了方差反映了不同训练模型之间的差异,例如在K折交叉验证中,不同模型之间的性能差异显著。此外,还讨论了如何通过优化模型选择和参数调整来有效控制这一平衡,以提高模型的泛化能力。 ... [详细]
  • 本文介绍如何使用OpenCV和线性支持向量机(SVM)模型来开发一个简单的人脸识别系统,特别关注在只有一个用户数据集时的处理方法。 ... [详细]
  • 从0到1搭建大数据平台
    从0到1搭建大数据平台 ... [详细]
  • Python与R语言在功能和应用场景上各有优势。尽管R语言在统计分析和数据可视化方面具有更强的专业性,但Python作为一种通用编程语言,适用于更广泛的领域,包括Web开发、自动化脚本和机器学习等。对于初学者而言,Python的学习曲线更为平缓,上手更加容易。此外,Python拥有庞大的社区支持和丰富的第三方库,使其在实际应用中更具灵活性和扩展性。 ... [详细]
  • 当前,众多初创企业对全栈工程师的需求日益增长,但市场中却存在大量所谓的“伪全栈工程师”,尤其是那些仅掌握了Node.js技能的前端开发人员。本文旨在深入探讨全栈工程师在现代技术生态中的真实角色与价值,澄清对这一角色的误解,并强调真正的全栈工程师应具备全面的技术栈和综合解决问题的能力。 ... [详细]
  • 2019年斯坦福大学CS224n课程笔记:深度学习在自然语言处理中的应用——Word2Vec与GloVe模型解析
    本文详细解析了2019年斯坦福大学CS224n课程中关于深度学习在自然语言处理(NLP)领域的应用,重点探讨了Word2Vec和GloVe两种词嵌入模型的原理与实现方法。通过具体案例分析,深入阐述了这两种模型在提升NLP任务性能方面的优势与应用场景。 ... [详细]
  • 在第七天的深度学习课程中,我们将重点探讨DGL框架的高级应用,特别是在官方文档指导下进行数据集的下载与预处理。通过详细的步骤说明和实用技巧,帮助读者高效地构建和优化图神经网络的数据管道。此外,我们还将介绍如何利用DGL提供的模块化工具,实现数据的快速加载和预处理,以提升模型训练的效率和准确性。 ... [详细]
  • Python 3 Scrapy 框架执行流程详解
    本文详细介绍了如何在 Python 3 环境下安装和使用 Scrapy 框架,包括常用命令和执行流程。Scrapy 是一个强大的 Web 抓取框架,适用于数据挖掘、监控和自动化测试等多种场景。 ... [详细]
  • 在Windows系统中安装TensorFlow GPU版的详细指南与常见问题解决
    在Windows系统中安装TensorFlow GPU版是许多深度学习初学者面临的挑战。本文详细介绍了安装过程中的每一个步骤,并针对常见的问题提供了有效的解决方案。通过本文的指导,读者可以顺利地完成安装并避免常见的陷阱。 ... [详细]
  • 独家解析:深度学习泛化理论的破解之道与应用前景
    本文深入探讨了深度学习泛化理论的关键问题,通过分析现有研究和实践经验,揭示了泛化性能背后的核心机制。文章详细解析了泛化能力的影响因素,并提出了改进模型泛化性能的有效策略。此外,还展望了这些理论在实际应用中的广阔前景,为未来的研究和开发提供了宝贵的参考。 ... [详细]
  • 【图像分类实战】利用DenseNet在PyTorch中实现秃头识别
    本文详细介绍了如何使用DenseNet模型在PyTorch框架下实现秃头识别。首先,文章概述了项目所需的库和全局参数设置。接着,对图像进行预处理并读取数据集。随后,构建并配置DenseNet模型,设置训练和验证流程。最后,通过测试阶段验证模型性能,并提供了完整的代码实现。本文不仅涵盖了技术细节,还提供了实用的操作指南,适合初学者和有经验的研究人员参考。 ... [详细]
  • 通过使用CIFAR-10数据集,本文详细介绍了如何快速掌握Mixup数据增强技术,并展示了该方法在图像分类任务中的显著效果。实验结果表明,Mixup能够有效提高模型的泛化能力和分类精度,为图像识别领域的研究提供了有价值的参考。 ... [详细]
  • 如何高效启动大数据应用之旅?
    在前一篇文章中,我探讨了大数据的定义及其与数据挖掘的区别。本文将重点介绍如何高效启动大数据应用项目,涵盖关键步骤和最佳实践,帮助读者快速踏上大数据之旅。 ... [详细]
  • AI TIME联合2021世界人工智能大会,共探图神经网络与认知智能前沿话题
    AI TIME携手2021世界人工智能大会,共同探讨图神经网络与认知智能的最新进展。自2018年在上海首次举办以来,WAIC已成为全球AI领域的年度盛会,吸引了众多专家学者和行业领袖参与。本次大会将聚焦图神经网络在复杂系统建模、知识图谱构建及认知智能应用等方面的技术突破和未来趋势。 ... [详细]
  • 表面缺陷检测数据集综述及GitHub开源项目推荐
    本文综述了表面缺陷检测领域的数据集,并推荐了多个GitHub上的开源项目。通过对现有文献和数据集的系统整理,为研究人员提供了全面的资源参考,有助于推动该领域的发展和技术进步。 ... [详细]
author-avatar
手机用户2502870105
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有