Python——Pandas时间序列数据处理

作者：嘻嘻520000000 | 来源：互联网 | 2023-10-15 19:46

介绍Pandas是非常著名的开源数据处理库，我们可以通过它完成对数据集进行快速读取、转换、过滤、分析等一系列操作。同样，Pandas已经被证明为是非常强大的用于处理时间序列数据的工

介绍

Pandas 是非常著名的开源数据处理库，我们可以通过它完成对数据集进行快速读取、转换、过滤、分析等一系列操作。同样，Pandas 已经被证明为是非常强大的用于处理时间序列数据的工具。本节将介绍所有 Pandas 在时间序列数据上的处理方法。

知识点

创建时间对象
时间索引对象
时间算术方法

创建时间对象

在 Pandas 中关于时间序列的常见对象有 6 种，分别是 Timestamp（时间戳）、DatetimeIndex（时间戳索引）、Period（时间段）、PeriodIndex（时间段索引）、以时间为元素的 Series 和以及以时间索引的 DataFrame。本小节学习如何创建以上对象。

创建时间戳

Timestamp 时间戳表示时间轴上的某一点，以下不同代码都可以生成相同时间戳。

创建时间为 2018 年 10 月 1 日的时间戳。

import pandas as pd

pd.Timestamp(2018, 10, 1)

也可以使创建的时间精确到时分秒。

pd.Timestamp("2018-10-1 10:00:1")

from datetime import datetime

pd.Timestamp(datetime(2018, 10, 1))

创建时间段

Period 时间段表示时间轴上的某一区间，以下代码都可以生成相同时间段。

pd.Period(&＃39;2018-10&＃39;)

Period() 函数后面通常有两个参数，第二个 freq 参数决定时间段的分割长度。

创建频率为日的时间段。

pd.Period(&＃39;2018-10&＃39;, freq=&＃39;D&＃39;)

创建时间元素的 Series

Pandas 中常用 to_datetime() 函数可以创建以时间为元素的 Series。

创建一个 Series，以三个时间的字符串作为元素。

df = [&＃39;2018-08-01&＃39;, &＃39;2018-09-01&＃39;, &＃39;2018-10-01&＃39;]
pd.to_datetime(df)

可以使用多种方法创建时间元素的 Series。

df = pd.Series([&＃39;Sep 30, 2018&＃39;, &＃39;2018-10-1&＃39;, None])
pd.to_datetime(df)

df = pd.DataFrame({&＃39;year&＃39;: [2017, 2018],
                   &＃39;month&＃39;: [9, 10],
                   &＃39;day&＃39;: [30, 1],
                   &＃39;hour&＃39;: [23, 0]})
pd.to_datetime(df)

创建时间索引

要生成带有时间戳的索引，可以使用 DatetimeIndex() 构造函数，并传入列表或 Series 对象：

dates = [&＃39;2018-08-01&＃39;, &＃39;2018-09-01&＃39;, &＃39;2018-10-01&＃39;]
index = pd.DatetimeIndex(dates)
index

实际运用中我们经常需要大量的的时间戳的索引。可以使用 date_range() 和 bdate_range() 来批量创建相同时间间隔的时间戳索引。

创建以 2018 年 9 月 30 日为开始的 250 条时间索引，相邻索引间隔时间长度为一个月。

index = pd.date_range(&＃39;2018-9-30&＃39;, periods=250, freq=&＃39;M&＃39;)
index

创建以 2018 年 10 月 1 日为开始的 111 条时间索引，相邻索引间隔时间长度为一个工作日。

index = pd.bdate_range(&＃39;2018-10-1&＃39;, periods=111)
index

在 date_range() 和 bdate_range() 中可以巧妙使用 start，end， periods，freq 等参数的各种组合轻松批量创建时间索引。

在 2017 年 10 月 1 日到 2018 年 10 月 1 日间，每隔一周创建一条索引。

start = datetime(2017, 10, 1)
end = datetime(2018, 10, 1)
rng = pd.date_range(start, end, freq=&＃39;W&＃39;)
rng

从 2018 年 10 月 1 日向前每隔一个工作日创建一条索引，共 250 条。

pd.bdate_range(end=end, periods=250)

同理，时间段也能作为索引使用，需要用到 period_range()。

从 2018 年 9 月 30 日向后创建 666 条索引，相邻索引间隔时间长度为一天。

pi = pd.period_range(&＃39;2018-9-30&＃39;, periods=666)
pi

创建以时间为索引的 Series 对象

以时间为索引的 Series 对象指的是在该 Series 中，元素的索引不再是 1、2、3、4、5……这样的序号，而是有序的日期和时间。

import numpy as np

dates = [pd.Timestamp(&＃39;2018-08-01&＃39;), pd.Timestamp(&＃39;2018-09-01&＃39;),
         pd.Timestamp(&＃39;2018-10-01&＃39;)]  # 创建三个时间元素。
ts = pd.Series(np.random.randn(3), dates)   # 创建索引值为随机数的 Series 对象。
ts

同样，时间段也能作为索引。

periods = [pd.Period(&＃39;2018-08&＃39;), pd.Period(&＃39;2018-09&＃39;), pd.Period(&＃39;2018-10&＃39;)]
ts = pd.Series(np.random.randn(3), periods)
ts

我们可以批量创建索引后再创建以时间为索引的 Series 对象。创建索引值为随机数的 Series 对象，长度与 rng 长度相同。

ts = pd.Series(np.random.randn(len(rng)), index=rng)
ts

时间段也能作为索引创建 DataFrame 对象。在 2017 年第一季度和 2018 年第四季度之间每隔一个季度创建一条索引。

prng = pd.period_range(&＃39;2017Q1&＃39;, &＃39;2018Q4&＃39;, freq=&＃39;Q-NOV&＃39;)
# 行索引为时间段索引，列索引为 A。
ps = pd.DataFrame(np.random.rand(len(prng)), columns=[
                  &＃39;A&＃39;], index=prng)
ps

时间索引对象处理

以时间戳为索引的 Series、DataFrame 对象具有与普通列表近乎相同的操作，且更具智能化。

查找

简单查找。

ts

查找前 10 条索引记录。

ts[:10]

每隔 1 条记录查找 1 条索引记录。

ts[::2]

查找第 0、2、6 条索引记录。

ts[[0, 2, 6]]

基于时间索引的精确查找。查找索引为 2018 年 9 月 30 日的值。

ts["09/30/2018"]

ts[datetime(2018, 9, 30)]

基于索引的范围查找。查找索引时间在 2017 年内的所有记录。

ts["2017"]

查找索引时间在 2018 年 9 月内的所有记录。

ts["2018-9"]

以时间段为索引的 DataFrame 对象的查找规则与以时间戳的相同。

ps

2018 年的第一个季度规定为 2017 年的 12 月初到 2018 年的 2 月末。

查找 2017 年内的所有季度的记录。

ps["2017"]

查找 2017 年 12 月 31 日前的所有季度的记录。

ps[:datetime(2017, 12, 31)]

查找 2018 年 6 月内的所有季度的记录。

ps["2018-06"]

切片

使用 truncate() 切下 2017 年 11 月 26 日与 2018 年 4 月 29 日间的记录。

ts.truncate(before=&＃39;11/26/2017&＃39;, after=&＃39;4/29/2018&＃39;)

移动

将时间索引 Series 中的值向后和向前移动。其方法是 shift()。

ts = ts[:5]  # 取前 5 条数据方便观察。
ts

将元素列向下移动一条。

ts.shift(1)

除了元素可以被移动，索引本身也能被移动，需要加上 freq 参数。将索引列向上移动一条：

ts.shift(1, freq=&＃39;W&＃39;)

重采样

重采样可以通俗得理解为改变时间索引的个数，通过增大或减小相邻索引的时间间隔以达到减小或增加索引数量的效果，在 Pandas 中使用 resample() 函数。

下采样：增大时间间隔，减少记录的数量。创建从 2018 年 10 月 1 日开始的日间隔索引的 Series 。

rng = pd.date_range(&＃39;10/1/2018&＃39;, periods=10, freq=&＃39;D&＃39;)
ts = pd.Series(np.random.randint(0, 50, len(rng)), index=rng)
ts

原先索引的日间隔被扩大为周间隔，并以周末为索引采样点，采样点的索引值为所有未被索引值的和。

ts.resample(&＃39;W&＃39;).sum()

同样也能使采样点的索引值为所有未被索引值的平均值。

ts.resample(&＃39;W&＃39;).mean()

使用 ohlc() 函数对所用未被采样值进行统计。

ts.resample(&＃39;W&＃39;).ohlc()

上采样：减小时间间隔频率，增加记录的数量。

原来间隔为日的索引列，间隔被缩小成 12 小时，增加采样点的值为空值。

ts.resample(&＃39;12H&＃39;).asfreq()

ffill() 函数可以将新增的索引值以相邻的前一条索引值进行填充。

ts.resample(&＃39;12H&＃39;).ffill()

时间的算术方法

常用时间的算术规则

下表是 Pandas 内建的一些时间类，常用于时间索引的位移。

技术图片

首先要导入 pandas.tseries.offsets 模块，Pandas 所有常用时间类都在该模块中。

d = pd.Timestamp(2018, 10, 1, 10, 1, 1)
d

使用 DateOffset() 实现时间戳位移。

向后移动一个月零两天。

from pandas.tseries.offsets import DateOffset

d + DateOffset(mOnths=1, days=2)

也可以用时间戳加减常用时间类以实现时间戳位移。向前移动 10 个工作日。

from pandas.tseries.offsets import BDay

d - 10 * BDay()

向后移动一个月末。

from pandas.tseries.offsets import BMonthEnd

d + BMonthEnd()

个性化定制日期。虽然日历规定年末是 12 月，加入参数后相当于人为规定 2 月是年末。

向后移动到上两个年末。

from pandas.tseries.offsets import YearEnd

d + YearEnd(mOnth=2)

向前移动到上一个周四。

from pandas.tseries.offsets import Week

d - Week(weekday=4)

可以使用 rollforward() 将指定时间向前或向后移动到一个制定常用时间类的时间戳上。将时间移动到下一个月末：

offset = BMonthEnd()
offset.rollforward(d)

将时间移动到上一个月末。

offset.rollback(d)

偏移也同样适用于时间索引

rng

所有的时间索引向后移动两日。

rng + DateOffset(days=2)

所有的时间索引向后移动两个工作日。

rng + 2*BDay()

所有的时间索引向后移动 15 分钟。

from pandas.tseries.offsets import Minute

rng + Minute(15)

下列是常用时间系列频率参数，上面小节经常出现，现在以一个表格作详细说明。

参数名	说明
B	工作日频率
C	定制工作日频率
D	日历日频率
W	每周频率
M	月结束频率
SM	半月结束频率(15 个月和月末)
BM	业务月末频率
CBM	定制业务月末频率
MS	月起始频率
sMs	半月起始频率(第 1 和 15)
BMS	业务月开始频率
CBMS	定制商业月份开始频率
Q	四分频结束频率
BQ	业务四分之一频率
QS	四分频启动频率
BQS	业务季开始频率
A	年结束频率
BA	业务年结束频率
AS	年起始频率
BAS	业务年开始频率
BH	工作时间频率
H	每小时频率
T, min	分钟频率
S	次频
L, ms	毫秒
U, uS	微秒
N	纳秒

使用常用频率参数组合创建时间索引。

创建 10 条以 2018 年 10 月 1 日为开始，间隔为 1 天 1 小时 1 分钟 10 微秒的时间索引。

pd.date_range("2018-10-1", periods=10, freq=&＃39;1D1H1min10U&＃39;)

以下频率参数可以指定后缀以达到改变默认间隔点的效果。

技术图片

创建 10 条以 2018 年 10 月 1 日为开始，间隔为每周三的时间索引。

pd.date_range("2018-10-1", periods=10, freq=&＃39;W-WED&＃39;)

在使用特定频率（MonthEnd，MonthBegin，WeekEnd 等）的参数时，如果起始时间是刚好在频率点上，使用 n 参数可以决定是否让该点参与计算。

n=1 时参与计算。

from pandas.tseries.offsets import MonthBegin

pd.Timestamp(&＃39;2018-10-1&＃39;) + MonthBegin(n=1)

n=0 时不参与计算。

pd.Timestamp(&＃39;2018-10-1&＃39;) + MonthBegin(n=0)

下采样聚合

下采样中的聚合是指下采样后，对未被采样到的点进行的一系列计算。

创建 100 个日历日为时间索引的 DataFrame，将其以月频率下采样。

df = pd.DataFrame(np.random.rand(100, 3),
                  index=pd.date_range(&＃39;10/1/2018&＃39;, freq=&＃39;D&＃39;, periods=100),
                  columns=[&＃39;A&＃39;, &＃39;B&＃39;, &＃39;C&＃39;])
r = df.resample(&＃39;M&＃39;)
r

对未采样点求和，结果保存在采样点的值中。

r.sum()

在下采样后也能进行查找操作。选择 A、C 列后取均值计算。

r[[&＃39;A&＃39;, &＃39;C&＃39;]].mean()

使用 agg() 同时进行不同的计算。对采样结果进行取和与取均值计算。

r.agg([np.sum, np.mean])

选择 A 列，同时进行取和，取均值，取标准差计算。

r[&＃39;A&＃39;].agg([np.sum, np.mean, np.std]

对 A 列求和与标准差，对 B 列求均值与标准差。

r.agg({&＃39;A&＃39;: [&＃39;sum&＃39;, &＃39;std&＃39;], &＃39;B&＃39;: [&＃39;mean&＃39;, &＃39;std&＃39;]})

总结

本章节介绍了 Pandas 对时间序列数据的基本处理操作。重点演示了时间的创建、时间索引对象的处理、时间的相关计算。当然，文中对这些方法的介绍依然还不够详细。如果你需要在实际工作中进行更复杂的时间数据处理，还需要深刻理解文中的基本演示，改编或组合出更高级的功能，这样才能发挥出 Pandas 的强大作用。

Python——Pandas 时间序列数据处理

推荐阅读

php
如何在WPS Office for Mac中调整Word文档的文字排列方向

本文将详细介绍如何使用最新版WPS Office for Mac调整Word文档中的文字排列方向。通过这些步骤，用户可以轻松更改文本的水平或垂直排列方式，以满足不同的排版需求。 ... [详细]

蜡笔小新 2024-12-27 12:34:14
php
2018回顾与2019展望

本文总结了2018年的关键成就，包括职业变动、购车、考取驾照等重要事件，并分享了读书、工作、家庭和朋友方面的感悟。同时，展望2019年，制定了健康、软实力提升和技术学习的具体目标。 ... [详细]

蜡笔小新 2024-12-28 09:10:26
php
Vue 2 中解决页面刷新和按钮跳转导致导航栏样式失效的问题

本文介绍了如何通过配置路由的 meta 字段，确保 Vue 2 项目中的导航栏在页面刷新或内部按钮跳转时，始终保持正确的 active 样式。具体实现方法包括设置路由的 meta 属性，并在 HTML 模板中动态绑定类名。 ... [详细]

蜡笔小新 2024-12-28 13:45:20
php
次小生成树问题的高效求解

本文探讨了如何通过最小生成树（MST）来计算严格次小生成树。在处理过程中，需特别注意所有边权重相等的情况，以避免错误。我们首先构建最小生成树，然后枚举每条非树边，检查其是否能形成更优的次小生成树。 ... [详细]

蜡笔小新 2024-12-28 13:42:43
php
QUIC协议：快速UDP互联网连接

QUIC（Quick UDP Internet Connections）是谷歌开发的一种旨在提高网络性能和安全性的传输层协议。它基于UDP，并结合了TLS级别的安全性，提供了更高效、更可靠的互联网通信方式。 ... [详细]

蜡笔小新 2024-12-28 12:33:18
php
深入理解OAuth认证机制

本文介绍了OAuth认证协议的核心概念及其工作原理。OAuth是一种开放标准，旨在为第三方应用提供安全的用户资源访问授权，同时确保用户的账户信息（如用户名和密码）不会暴露给第三方。 ... [详细]

蜡笔小新 2024-12-28 12:07:46
php
2023 ARM嵌入式系统全国技术巡讲

2023 ARM嵌入式系统全国技术巡讲旨在分享ARM公司在半导体知识产权(IP)领域的最新进展。作为全球领先的IP提供商，ARM在嵌入式处理器市场占据主导地位，其产品广泛应用于90%以上的嵌入式设备中。此次巡讲将邀请来自ARM、飞思卡尔以及华清远见教育集团的行业专家，共同探讨当前嵌入式系统的前沿技术和应用。 ... [详细]

蜡笔小新 2024-12-28 11:58:48
php
几何画板展示电场线与等势面的交互关系

几何画板是一款功能强大的物理教学软件，具备丰富的绘图和度量工具。它不仅能够模拟物理实验过程，还能通过定量分析揭示物理现象背后的规律，尤其适用于难以在实际实验中展示的内容。本文将介绍如何使用几何画板演示电场线与等势面之间的关系。 ... [详细]

蜡笔小新 2024-12-27 10:46:07
php
使用Windows批处理脚本监控并重启Java应用程序

本文介绍如何通过Windows批处理脚本定期检查并重启Java应用程序，确保其持续稳定运行。脚本每30分钟检查一次，并在需要时重启Java程序。同时，它会将任务结果发送到Redis。 ... [详细]

蜡笔小新 2024-12-27 10:44:39
php
MySQL中枚举类型的所有可能值获取方法

本文介绍了一种在MySQL数据库中查询枚举（ENUM）类型字段所有可能取值的方法，帮助开发者更好地理解和利用这一数据类型。 ... [详细]

蜡笔小新 2024-12-27 10:36:44
php
实现密码输入框的掩码设置

本文介绍如何在应用程序中使用文本输入框创建密码输入框，并通过设置掩码来隐藏用户输入的内容。我们将详细解释代码实现，并提供专业的补充说明。 ... [详细]

蜡笔小新 2024-12-27 02:22:09
php
从JDE系统中提取完整字典数据

本文介绍如何通过SQL查询从JDE（JD Edwards）系统中提取所有字典数据，涵盖关键表的关联和字段选择。具体包括F0004和F0005系列表的数据提取方法。 ... [详细]

蜡笔小新 2024-12-26 21:04:46
php
启动MySQL服务的命令行步骤

本文详细介绍了如何通过命令行启动MySQL服务，包括打开命令提示符窗口、进入MySQL的bin目录、输入正确的连接命令以及注意事项。文中还提供了更多相关命令的资源链接。 ... [详细]

蜡笔小新 2024-12-26 20:16:36
php
使用 NSTimer 实现倒计时功能

本文介绍如何使用 NSTimer 实现倒计时功能，详细讲解了初始化方法、参数配置以及具体实现步骤。通过示例代码展示如何创建和管理定时器，确保在指定时间间隔内执行特定任务。 ... [详细]

蜡笔小新 2024-12-26 19:08:19
php
Python学习笔记：使用pydoc工具查询文档

本文介绍了在Windows环境下使用pydoc工具的方法，并详细解释了如何通过命令行和浏览器查看Python内置函数的文档。此外，还提供了关于raw_input和open函数的具体用法和功能说明。 ... [详细]

蜡笔小新 2024-12-26 17:05:56

嘻嘻520000000

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章