Datawhale组队Pandas（下）时序数据（打卡）

作者：洗吉精洗白菜_773 | 来源：互联网 | 2023-09-16 07:40

Pandas可以处理任何领域的时序数据（timeseries），使用Numpy的datetime64和timedelta64类型ÿ

Pandas可以处理任何领域的时序数据&＃xff08;time series&＃xff09;&＃xff0c;使用Numpy的datetime64 和timedelta64 类型&＃xff0c;Pandas整合了来自其他Python库的大量功能&＃xff0c;如Scikits.TimeSeries&＃xff0c;并为处理时间序列数据创建了大量新功能。

一、时序的创建

1.四类时间变量

名称	描述	元素类型	创建方式
Datetimes&＃xff08;时间点/时刻&＃xff09;	描述特定日期或时间点	Timestamp	to_datetime或date_range
Timespans&＃xff08;时间段/时期&＃xff09;	由时间点定义的一段时期	Period	Period或period_range
Dateoffsets&＃xff08;相对时间差&＃xff09;	一段时间的相对大小 &＃xff08;与夏/冬令时无关&＃xff09;	Dateoffset	DateOffset
Timedeltas&＃xff08;绝对时间差&＃xff09;	一段时间的绝对大小 &＃xff08;与夏/冬令时有关&＃xff09;	Timedelta	to_timedelta或 timedelta_range

对于时间序列数据&＃xff0c;传统的做法是在Series或DataFrame索引中表示时间分量&＃xff0c;这样就可以对时间元素执行操作。但是&＃xff0c;Series和DataFrame也可以直接支持作为数据本身的时间组件。当传递到这些构造函数时&＃xff0c;Series和DataFrame扩展了对日期时间、时间增量和期间数据的数据类型支持和功能。然而&＃xff0c;DateOffset数据将作为对象数据存储。

#在index加入时间成分&＃xff0c;dtype为int64 pd.Series(range(3), index&＃61;pd.date_range(&＃39;2000&＃39;, freq&＃61;&＃39;D&＃39;, periods&＃61;3)) #直接定义时间成分&＃xff0c;dtype为datetime64[ns] pd.Series(pd.date_range(&＃39;2000&＃39;, freq&＃61;&＃39;D&＃39;, periods&＃61;3))

2.时间点的创建

Timestamped是将值与时间点相关联的最基本的时间序列数据类型。对于pandas objects来说&＃xff0c;这意味着使用时间点。

&＃xff08;a&＃xff09;to_datetime方法

Pandas在时间点建立的输入格式规定上给了很大的自由度&＃xff0c;下面的语句都能正确建立同一时间点

print(pd.to_datetime(&＃39;2020.1.1&＃39;)) print(pd.to_datetime(&＃39;2020 1.1&＃39;)) print(pd.to_datetime(&＃39;2020 1 1&＃39;)) print(pd.to_datetime(&＃39;2020 1-1&＃39;)) print(pd.to_datetime(&＃39;2020-1 1&＃39;)) print(pd.to_datetime(&＃39;2020-1-1&＃39;)) print(pd.to_datetime(&＃39;2020/1/1&＃39;)) print(pd.to_datetime(&＃39;1.1.2020&＃39;)) print(pd.to_datetime(&＃39;1.1 2020&＃39;)) print(pd.to_datetime(&＃39;1 1 2020&＃39;)) print(pd.to_datetime(&＃39;1 1-2020&＃39;)) print(pd.to_datetime(&＃39;1-1 2020&＃39;)) print(pd.to_datetime(&＃39;1-1-2020&＃39;)) print(pd.to_datetime(&＃39;1/1/2020&＃39;)) print(pd.to_datetime(&＃39;20200101&＃39;)) print(pd.to_datetime(&＃39;2020.0101&＃39;))#pd.to_datetime(&＃39;2020\\1\\1&＃39;) #报错 #pd.to_datetime(&＃39;2020&＃96;1&＃96;1&＃39;) #报错 #pd.to_datetime(&＃39;2020.1 1&＃39;) #报错 #pd.to_datetime(&＃39;1 1.2020&＃39;) #报错

利用format参数强制匹配

print(pd.to_datetime(&＃39;2020\\1\\1&＃39;,format&＃61;&＃39;%Y\\%m\\%d&＃39;)) print(pd.to_datetime(&＃39;2020&＃96;1&＃96;1&＃39;,format&＃61;&＃39;%Y&＃96;%m&＃96;%d&＃39;)) print(pd.to_datetime(&＃39;2020.1 1&＃39;,format&＃61;&＃39;%Y.%m %d&＃39;)) print(pd.to_datetime(&＃39;1 1.2020&＃39;,format&＃61;&＃39;%d %m.%Y&＃39;))

也可使用列表将其转为时间点索引

pd.Series(range(2),index&＃61;pd.to_datetime([&＃39;2020/1/1&＃39;,&＃39;2020/1/2&＃39;]))

查看类型

type(pd.to_datetime([&＃39;2020/1/1&＃39;,&＃39;2020/1/2&＃39;]))

对于DataFrame&＃xff0c;如果列已经按照时间顺序排好&＃xff0c;则利用to_datetime可自动转换

df &＃61; pd.DataFrame({&＃39;year&＃39;: [2020, 2020],&＃39;month&＃39;: [1, 1], &＃39;day&＃39;: [1, 2]}) pd.to_datetime(df)

&＃xff08;b&＃xff09;时间精度与范围限制

Timestamp的精度远远不止day&＃xff0c;可以最小到纳秒ns&＃xff0c;同时它的范围为

pd.to_datetime(&＃39;2020/1/1 00:00:00.123456789&＃39;)#最小范围 print(pd.Timestamp.min) #output:Timestamp(&＃39;1677-09-21 00:12:43.145225&＃39;) #最大范围 print(pd.Timestamp.min) #output:Timestamp(&＃39;2262-04-11 23:47:16.854775807&＃39;)

&＃xff08;c&＃xff09;date_range方法

start/end/periods&＃xff08;时间点个数&＃xff09;/freq&＃xff08;间隔方法&＃xff09;是该方法最重要的参数&＃xff0c;给定了其中的3个&＃xff0c;剩下的一个就会被却sing

freq参数如下&＃xff1a;

符号	D/B	W	M/Q/Y	BM/BQ/BY	MS/QS/YS	BMS/BQS/BYS	H	T	S
描述	日/工作日	周	月末	月/季/年末日	月/季/年末工作日	月/季/年初日	时	分钟	秒

3.Dateoffset对象

&＃xff08;a&＃xff09;DateOffset与Timedelta的区别

Timedelta绝对时间差的特点指无论是冬令时还是夏令时&＃xff0c;增减1day都只计算24小时

DateOffset相对时间差指&＃xff0c;无论一天是23/24/25小时&＃xff0c;增减1day都与当天相同的时间保持一致

例如&＃xff0c;英国当地时间 2020年03月29日&＃xff0c;01:00:00 时钟向前调整 1 小时变为 2020年03月29日&＃xff0c;02:00:00&＃xff0c;开始夏令时

ts &＃61; pd.Timestamp(&＃39;2020-3-29 01:00:00&＃39;, tz&＃61;&＃39;Europe/Helsinki&＃39;) ts &＃43; pd.Timedelta(days&＃61;1)

ts &＃61; pd.Timestamp(&＃39;2020-3-29 01:00:00&＃39;, tz&＃61;&＃39;Europe/Helsinki&＃39;) ts &＃43; pd.DateOffset(days&＃61;1)

可去除tz属性&＃xff0c;就可使两者保持一致。

&＃xff08;b&＃xff09;增减一段时间

pd.Timestamp(&＃39;2020-01-01&＃39;) &＃43; pd.DateOffset(minutes&＃61;20) - pd.DateOffset(weeks&＃61;2)

&＃xff08;c&＃xff09;各类常用offset对象

pd.Timestamp(&＃39;2020-01-01&＃39;) &＃43; pd.offsets.Week(2) #增加两星期 pd.Timestamp(&＃39;2020-01-01&＃39;) &＃43; pd.offsets.BQuarterBegin(1) #营业季度开始

&＃xff08;d&＃xff09;序列的offset操作

利用apply函数

pd.Series(pd.offsets.BYearBegin(3).apply(i) for i in pd.date_range(&＃39;20200101&＃39;,periods&＃61;3,freq&＃61;&＃39;Y&＃39;))

直接使用对象加减

pd.date_range(&＃39;20200101&＃39;,periods&＃61;3,freq&＃61;&＃39;Y&＃39;) &＃43; pd.offsets.BYearBegin(3)

定制offset&＃xff0c;可以指定weekmask和holidays参数

pd.Series(pd.offsets.CDay(3,weekmask&＃61;&＃39;Wed Fri&＃39;,holidays&＃61;&＃39;2020010&＃39;).apply(i)for i in pd.date_range(&＃39;20200105&＃39;,periods&＃61;3,freq&＃61;&＃39;D&＃39;))

二、时序的索引及属性

1.索引切片

rng &＃61; pd.date_range(&＃39;2020&＃39;,&＃39;2021&＃39;, freq&＃61;&＃39;W&＃39;) ts &＃61; pd.Series(np.random.randn(len(rng)), index&＃61;rng) ts[&＃39;2020-01-26&＃39;:&＃39;20200726&＃39;].head() #日期从01-26&＃xff0c;到07-26&＃xff0c;字符自己转换成合理的

2.子集索引

#只取7月份数据 ts[&＃39;2020-7&＃39;].head() #支持混合形态索引 ts[&＃39;2011-1&＃39;:&＃39;20200726&＃39;].head()

3.时间点的属性

采用dt对象可以轻松获得关于时间的信息

#2020年有52个星期 pd.Series(ts.index).dt.week #每星期是在几号 pd.Series(ts.index).dt.day

利用strftime修改时间格式

pd.Series(ts.index).dt.strftime(&＃39;%Y-间隔1-%m-间隔2-%d&＃39;).head()

对于datetime对象可以直接通过属性获取信息

#每个星期所在的月份 pd.date_range(&＃39;2020&＃39;,&＃39;2021&＃39;, freq&＃61;&＃39;W&＃39;).month #每个星期所在的月份 pd.date_range(&＃39;2020&＃39;,&＃39;2021&＃39;, freq&＃61;&＃39;W&＃39;).weekday #The number of the day of the week with Monday&＃61;0, Sunday&＃61;6

三、重采样

重采样&＃xff0c;就是指resample函数&＃xff0c;它可以看做时序版本的groupby函数

1.resample对象的基本操作

采样频率一般设置为上面提到的offset字符

2.采样聚合

df_r &＃61; pd.DataFrame(np.random.randn(1000, 3),index&＃61;pd.date_range(&＃39;1/1/2020&＃39;, freq&＃61;&＃39;S&＃39;, periods&＃61;1000),columns&＃61;[&＃39;A&＃39;, &＃39;B&＃39;, &＃39;C&＃39;]) r &＃61; df_r.resample(&＃39;3T&＃39;)#只求一个值 r[&＃39;A&＃39;].mean() #表示多个 r[&＃39;A&＃39;].agg([np.sum, np.mean, np.std]) #使用lambda r.agg({&＃39;A&＃39;: np.sum,&＃39;B&＃39;: lambda x: max(x)-min(x)})

3.采样组的迭代

采样组的迭代和groupby迭代完全类似&＃xff0c;对于每一个组都可以分别做相应操作

small &＃61; pd.Series(range(6),index&＃61;pd.to_datetime([&＃39;2020-01-01 00:00:00&＃39;, &＃39;2020-01-01 00:30:00&＃39;, &＃39;2020-01-01 00:31:00&＃39;,&＃39;2020-01-01 01:00:00&＃39;,&＃39;2020-01-01 03:00:00&＃39;,&＃39;2020-01-01 03:05:00&＃39;])) resampled &＃61; small.resample(&＃39;H&＃39;) for name, group in resampled:print("Group: ", name)print("-" * 27)print(group, end&＃61;"\n\n")

四、窗口函数

1.Rolling

&＃xff08;a&＃xff09;常用聚合

s &＃61; pd.Series(np.random.randn(1000),index&＃61;pd.date_range(&＃39;1/1/2020&＃39;, periods&＃61;1000)) # s.rolling(window&＃61;50) # s.rolling(window&＃61;50).mean() #min_periods是指需要的非缺失数据点数量阈值 s.rolling(window&＃61;50,min_periods&＃61;3).mean()

此外&＃xff0c;还有count/sum/mean/median/min/max/std/var/skew/kurt/quantile/cov/corr都是常用的聚合函数

&＃xff08;b&＃xff09;rolling的apply聚合

使用apply聚合时&＃xff0c;只需记住传入的是window大小的Series&＃xff0c;输出的必须是标量即可&＃xff0c;

#计算变异系数 s.rolling(window&＃61;50,min_periods&＃61;3).apply(lambda x:x.std()/x.mean()).head()

&＃xff08;c&＃xff09;基于时间的Rolling

可选closed&＃61;&＃39;right&＃39;&＃xff08;默认&＃xff09;\&＃39;left&＃39;\&＃39;both&＃39;\&＃39;neither&＃39;参数&＃xff0c;决定端点的包含情况

s.rolling(&＃39;15D&＃39;).mean().head() #添加closed s.rolling(&＃39;15D&＃39;, closed&＃61;&＃39;right&＃39;).sum().head()

2.Expanding

&＃xff08;a&＃xff09;expanding函数

普通的expanding函数等价与rolling(window&＃61;len(s),min_periods&＃61;1),是对序列的累计计算&＃xff0c;apply也适用

#rolling s.rolling(window&＃61;len(s),min_periods&＃61;1).sum().head() #expanding s.expanding().sum().head() #apply s.expanding().apply(lambda x:sum(x)).head()

&＃xff08;b&＃xff09;几个特别的Expanding类型函数

cumsum/cumprod/cummax/cummin都是特殊expanding累计计算方法

shift/diff/pct_change都是涉及到了元素关系

①shift是指序列索引不变&＃xff0c;但值向后移动

②diff是指前后元素的差&＃xff0c;period参数表示间隔&＃xff0c;默认为1&＃xff0c;并且可以为负

③pct_change是值前后元素的变化百分比&＃xff0c;period参数与diff类似

推荐阅读

io
本地存储组件实现对IE低版本浏览器的兼容性支持

本地存储组件实现对IE低版本浏览器的兼容性支持 ... [详细]

蜡笔小新 2024-11-11 22:42:37
datetime
解决Bootstrap DataTable Ajax请求重复问题

在最近的一个项目中，我们使用了JQuery DataTable进行数据展示，虽然使用起来非常方便，但在测试过程中发现了一个问题：当查询条件改变时，有时查询结果的数据不正确。通过FireBug调试发现，点击搜索按钮时，会发送两次Ajax请求，一次是原条件的请求，一次是新条件的请求。 ... [详细]

蜡笔小新 2024-11-12 13:59:27
bit
《Linux高性能服务器编程》深入解析：3.2 TCP报头结构与功能

在《Linux高性能服务器编程》一书中，第3.2节深入探讨了TCP报头的结构与功能。TCP报头是每个TCP数据段中不可或缺的部分，它不仅包含了源端口和目的端口的信息，还负责管理TCP连接的状态和控制。本节内容详尽地解析了TCP报头的各项字段及其作用，为读者提供了深入理解TCP协议的基础。 ... [详细]

蜡笔小新 2024-11-10 14:18:44
数组
在范围[0..n-1]中产生m个不同的随机数 - Generating m distinct random numbers in the range [0..n-1]

Ihavetwomethodsofgeneratingmdistinctrandomnumbersintherange[0..n-1]我有两种方法在范围[0.n-1]中生 ... [详细]

蜡笔小新 2024-11-13 09:49:14
runtime
深入解析 Lifecycle 的实现原理

本文将详细介绍 Android Jetpack 中 Lifecycle 组件的实现原理，帮助开发者更好地理解和使用 Lifecycle，避免常见的内存泄漏问题。 ... [详细]

蜡笔小新 2024-11-12 14:05:19
数组
PHP 对象生命周期与内存管理

本文详细介绍了 PHP 中对象的生命周期、内存管理和魔术方法的使用，包括对象的自动销毁、析构函数的作用以及各种魔术方法的具体应用场景。 ... [详细]

蜡笔小新 2024-11-12 13:35:26
io
Delphi 7下最小化到系统托盘（主要是WM_TRAYMSG和WM_SYSCOMMAND消息）

在Delphi7下要制作系统托盘，只能制作一个比较简单的系统托盘，因为ShellAPI文件定义的TNotifyIconData结构体是比较早的版本。定义如下：1234 ... [详细]

蜡笔小新 2024-11-12 12:32:15
text
单元测试：使用mocha和should.js搭建nodejs的单元测试

2019独角兽企业重金招聘Python工程师标准BDD测试利器：mochashould.js众所周知对于任何一个项目来说，做好单元测试都是必不可少 ... [详细]

蜡笔小新 2024-11-12 11:08:57
text
使用纯JavaScript实现贪吃蛇游戏的开发技巧与解析

本文详细探讨了使用纯JavaScript开发经典贪吃蛇游戏的技术细节和实现方法。通过具体的代码示例，深入解析了游戏逻辑、动画效果及用户交互的实现过程，为开发者提供了宝贵的参考和实践经验。 ... [详细]

蜡笔小新 2024-11-08 13:56:09
perl
如何更有效地提升对支持部门的协助与支撑？ - Enhancing Support for the Support Department: Strategies and Best Practices

尽管我们尽最大努力，任何软件开发过程中都难免会出现缺陷。为了更有效地提升对支持部门的协助与支撑，本文探讨了多种策略和最佳实践，旨在通过改进沟通、增强培训和支持流程来减少这些缺陷的影响，并提高整体服务质量和客户满意度。 ... [详细]

蜡笔小新 2024-11-07 06:55:33
bit
使用JavaScript生成Java兼容的UUID代码实现与优化技巧

本文介绍了UUID（通用唯一标识符）的概念及其在JavaScript中生成Java兼容UUID的代码实现与优化技巧。UUID是一个128位的唯一标识符，广泛应用于分布式系统中以确保唯一性。文章详细探讨了如何利用JavaScript生成符合Java标准的UUID，并提供了多种优化方法，以提高生成效率和兼容性。 ... [详细]

蜡笔小新 2024-11-05 18:19:54
import
利用CIFAR10数据集快速掌握Mixup数据增强技术，显著提高图像分类精度

通过使用CIFAR-10数据集，本文详细介绍了如何快速掌握Mixup数据增强技术，并展示了该方法在图像分类任务中的显著效果。实验结果表明，Mixup能够有效提高模型的泛化能力和分类精度，为图像识别领域的研究提供了有价值的参考。 ... [详细]

蜡笔小新 2024-11-05 14:24:36
text
深入解析CGLIB BeanCopier的应用与优化技巧

本文深入探讨了CGLIB BeanCopier在Bean对象复制中的应用及其优化技巧。相较于Spring的BeanUtils和Apache的BeanUtils，CGLIB BeanCopier在性能上具有显著优势。通过详细分析其内部机制和使用场景，本文提供了多种优化方法，帮助开发者在实际项目中更高效地利用这一工具。此外，文章还讨论了CGLIB BeanCopier在复杂对象结构和大规模数据处理中的表现，为读者提供了实用的参考和建议。 ... [详细]

蜡笔小新 2024-11-04 19:31:32
text
探索聚类分析中的K-Means与DBSCAN算法及其应用

聚类分析是一种用于解决样本或特征分类问题的统计分析方法，也是数据挖掘领域的重要算法之一。本文主要探讨了K-Means和DBSCAN两种聚类算法的原理及其应用场景。K-Means算法通过迭代优化簇中心来实现数据点的划分，适用于球形分布的数据集；而DBSCAN算法则基于密度进行聚类，能够有效识别任意形状的簇，并且对噪声数据具有较好的鲁棒性。通过对这两种算法的对比分析，本文旨在为实际应用中选择合适的聚类方法提供参考。 ... [详细]

蜡笔小新 2024-11-04 13:20:39
import
Python AlphaShape：基于点集估算图像区域的Alpha形状算法解析

本文探讨了基于点集估算图像区域的Alpha形状算法在Python中的应用。通过改进传统的Delaunay三角剖分方法，该算法能够生成更加灵活和精确的形状轮廓，避免了单纯使用Delaunay三角剖分时可能出现的过大三角形问题。这种“模糊Delaunay三角剖分”技术不仅提高了形状的准确性，还增强了对复杂图像区域的适应能力。 ... [详细]

蜡笔小新 2024-11-03 17:11:41

洗吉精洗白菜_773

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章