当前位置: 开发笔记 > 编程语言 > 正文

python–MultiIndexDataFrames的PandasHDFStore：如何有效地获取所有索引

作者：烛光一米_530 | 来源：互联网 | 2023-08-26 18:01

在Pandas中,有没有办法以表格格式有效地提取HDFStore中存在的所有MultiIndex索引？我可以使用where=来有效地选择(),但我想要所有索引,而不是所有列.我也

在Pandas中,有没有办法以表格格式有效地提取HDFStore中存在的所有MultiIndex索引？

我可以使用where =来有效地选择(),但我想要所有索引,而不是所有列.我也可以选择()使用iterator = True来保存RAM,但这仍然意味着从磁盘读取几乎所有的表,所以它仍然很慢.

我一直在store.root..table.*东西打猎,希望我能得到一个索引值列表.我是在正确的轨道上吗？

计划B将保留一个较短的MultiIndex DataFrame,它只包含每次附加主数据时附加的空DataFrame.我可以检索它并使索引比主要索引便宜得多.虽然不太优雅.

解决方法:

创建一个多索引df

In [35]: df = DataFrame(randn(100000,3),columns=list('ABC')) In [36]: df['one'] = 'foo' In [37]: df['two'] = 'bar' In [38]: df.ix[50000:,'two'] = 'bah' In [40]: mi = df.set_index(['one','two']) In [41]: mi Out[41]: MultiIndex: 100000 entries, (foo, bar) to (foo, bah) Data columns (total 3 columns): A 100000 non-null values B 100000 non-null values C 100000 non-null values dtypes: float64(3)

将其存储为表格

In [42]: store = pd.HDFStore('test.h5',mode='w') In [43]: store.append('df',mi)

get_storer将返回存储的对象(但不检索数据)

In [44]: store.get_storer('df').levels Out[44]: ['one', 'two'] In [2]: store Out[2]: File path: test.h5 /df frame_table (typ->appendable_multi,nrows->100000,ncols->5,indexers->[index],dc->[two,one])

索引级别创建为data_columns,这意味着您可以在选择中使用它们
这是如何只选择索引

In [48]: store.select('df',columns=['one']) Out[48]: MultiIndex: 100000 entries, (foo, bar) to (foo, bah) Empty DataFrame

选择单个列并将其作为mi-frame返回

In [49]: store.select('df',columns=['A']) Out[49]: MultiIndex: 100000 entries, (foo, bar) to (foo, bah) Data columns (total 1 columns): A 100000 non-null values dtypes: float64(1)

要将单个列选择为Series(也可以是索引,因为它们存储为列).这将非常快.

In [2]: store.select_column('df','one') Out[2]:? 0 ? ? foo 1 ? ? foo 2 ? ? foo 3 ? ? foo 4 ? ? foo 5 ? ? foo 6 ? ? foo 7 ? ? foo 8 ? ? foo 9 ? ? foo 10 ? ?foo 11 ? ?foo 12 ? ?foo 13 ? ?foo 14 ? ?foo ... 99985 ? ?foo 99986 ? ?foo 99987 ? ?foo 99988 ? ?foo 99989 ? ?foo 99990 ? ?foo 99991 ? ?foo 99992 ? ?foo 99993 ? ?foo 99994 ? ?foo 99995 ? ?foo 99996 ? ?foo 99997 ? ?foo 99998 ? ?foo 99999 ? ?foo Length: 100000, dtype: object

如果你真的想要最快的选择只有索引

In [4]: %timeit store.select_column('df','one') 100 loops, best of 3: 8.71 ms per loop In [5]: %timeit store.select('df',columns=['one']) 10 loops, best of 3: 43 ms per loop

或者获得完整的索引

In [6]: def f(): ...: level_1 = store.select_column('df','one') ...: level_2 = store.select_column('df','two') ...: return MultiIndex.from_arrays([ level_1, level_2 ]) ...: In [17]: %timeit f() 10 loops, best of 3: 28.1 ms per loop

如果你想要每个级别的值,这是一种非常快速的方法

In [2]: store.select_column('df','one').unique() Out[2]: array(['foo'], dtype=object) In [3]: store.select_column('df','two').unique() Out[3]: array(['bar', 'bah'], dtype=object)

推荐阅读

io
JUnit下的测试和suite

nsitionalENhttp:www.w3.orgTRxhtml1DTDxhtml1-transitional.dtd ... [详细]

蜡笔小新 2024-11-21 16:03:49
triggers
深入解析JQuery Mobile特有的事件与方法

本文详细介绍了JQuery Mobile框架中特有的事件和方法，帮助开发者更好地理解和应用这些特性，提升移动Web开发的效率。 ... [详细]

蜡笔小新 2024-11-21 14:24:21
io
为何 TypeScript 如此流行而 Python 类型注解却鲜少使用？

本文探讨了Python类型注解使用率低下的原因，主要归结于历史背景和投资回报率（ROI）的考量。文章不仅分析了类型注解的实际效用，还回顾了Python类型注解的发展历程。 ... [详细]

蜡笔小新 2024-11-22 14:02:28
client
使用RxJS在AngularJS中区分单击与拖动操作

本文探讨了如何利用RxJS库在AngularJS应用中实现对用户单击和拖动操作的精确区分，特别是在调整区域大小的场景下。 ... [详细]

蜡笔小新 2024-11-22 11:56:41
text
Android 中的布局方式之线性布局

nsitionalENhttp:www.w3.orgTRxhtml1DTDxhtml1-transitional.dtd ... [详细]

蜡笔小新 2024-11-22 11:20:34
text
WPF验证机制详解与实践

本文深入探讨了WPF框架下的数据验证机制，包括内置验证规则的使用、自定义验证规则的实现方法、错误信息的有效展示策略以及验证时机的选择，旨在帮助开发者构建更加健壮和用户友好的应用程序。 ... [详细]

蜡笔小新 2024-11-22 09:44:38
text
Zabbix自定义监控与邮件告警配置实践

本文详细介绍了如何在Zabbix中添加自定义监控项目，配置邮件告警功能，并解决测试告警时遇到的邮件不发送问题。 ... [详细]

蜡笔小新 2024-11-22 08:33:19
char
PHP与MySQL实现高效分页查询

本文探讨了如何在PHP与MySQL环境中实现高效的分页查询，包括基本的分页实现、性能优化技巧以及高级的分页策略。 ... [详细]

蜡笔小新 2024-11-22 05:45:48
text
Delphi XE2 之 FireMonkey 入门(19) - TFmxObject 的子类们(表)

td{border:1pxsolid#808080;}参考:和FMX相关的类(表)TFmxObjectIFreeNotification ... [详细]

蜡笔小新 2024-11-21 22:35:24
settings
解决iOS应用推送通知错误：未找到有效aps-environment权限

在尝试加载支持推送通知的iOS应用程序的Ad Hoc构建时，遇到了‘no valid aps-environment entitlement found for application’的错误提示。本文将探讨此错误的原因及多种可能的解决方案。 ... [详细]

蜡笔小新 2024-11-21 19:26:31
text
Oracle VM VirtualBox 使用指南：创建静态网页及高级功能

本文详细介绍了如何在Oracle VM VirtualBox中实现主机与虚拟机之间的数据交换，包括安装Guest Additions增强功能，以及如何利用这些功能进行文件传输、屏幕调整等操作。 ... [详细]

蜡笔小新 2024-11-21 18:13:22
text
Struts2 + json+ jquery 实现三级联动action和jsp代码竟然有小红叉，提示缺双引号，检查了转义符号也没缺啊，求解

publicclassBindActionextendsActionSupport{privateStringproString;privateStringcitString; ... [详细]

蜡笔小新 2024-11-21 16:25:41
text
OBS Studio自动化实践：利用脚本批量生成录制场景

本文探讨了如何利用OBS Studio进行高效录屏，并通过脚本实现场景的自动生成。适合对自动化办公感兴趣的读者。 ... [详细]

蜡笔小新 2024-11-21 10:44:53
client
Spring 事件监听机制详解与应用

本文详细介绍了如何在Spring框架中设置事件发布器、定义事件监听器及响应事件的具体步骤。通过实现ApplicationEventPublisherAware接口来创建事件发布器，利用ApplicationEvent类定义自定义事件，并通过ApplicationListener接口来处理这些事件。 ... [详细]

蜡笔小新 2024-11-21 19:17:55
client
Windows环境下Nginx缓存优化配置指南

本文详细介绍了在Windows系统中如何配置Nginx以实现高效的缓存加速功能，包括关键的配置文件设置和示例代码。 ... [详细]

蜡笔小新 2024-11-21 16:19:57

烛光一米_530

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章