热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

Pandas优化加速小技巧

【场景】使用Pandas对DataFrame数据根据某个维度进行操作:如统计query列的所有取值,循环筛选这些取值的样本进行操作【问题1】循环筛

【场景】

使用Pandas对DataFrame数据根据某个维度进行操作:如统计query列的所有取值,循环筛选这些取值的样本进行操作


【问题1】

循环筛选符合条件的样本,使用df[df['query']=='query_1']非常耗时


【解决】、

使用了

index = df.query.isin(['query1'])
df.loc[index, :]

相比最开始的耗时降低了一半多,但所有循环加在一起还是慢,因此采用了如下方法:

使用词典结构,将同一query下的样本index放入list中,如query_idx = {"query_1":[1,3,10],...}
在筛选为query_1的样本时,直接使用df.iloc[query_idx['query_1'], :]进行筛选,由于使用哈希表的搜索操作,4700万数据的运行时长由300+小时降为2小时之内


【问题2】

dataframe使用append循环写入随着循环数增加而越来越耗时


【解决】

先把每个循环中的数据放入list,最后再append进DataFrame中
伪代码:

list_per_iter = []
res = pd.DataFrame()
每次循环:list_per_iter.append(每次的datafram结构数据)
res.append(df_per_iter)

最终4700万数据的运行时间:
在这里插入图片描述


参考链接

几个方法帮你加快Python运行速度
还在抱怨pandas运行速度慢?这几个方法会颠覆你的看法
提速千倍!Pandas性能优化方法,让你的pandas飞起来!


推荐阅读
  • 本文详细探讨了编程中的命名空间与作用域概念,包括其定义、类型以及在不同上下文中的应用。 ... [详细]
  • 一.数据基本类型之set集合set和dict类似,也是一组key的集合,但不存储value。由于key不能重复,所以,在se ... [详细]
  • 2023年1月28日网络安全热点
    涵盖最新的网络安全动态,包括OpenSSH和WordPress的安全更新、VirtualBox提权漏洞、以及谷歌推出的新证书验证机制等内容。 ... [详细]
  • selenium通过JS语法操作页面元素
    做过web测试的小伙伴们都知道,web元素现在很多是JS写的,那么既然是JS写的,可以通过JS语言去操作页面,来帮助我们操作一些selenium不能覆盖的功能。问题来了我们能否通过 ... [详细]
  • 在CentOS 7中部署Nginx并配置SSL证书
    本文详细介绍了如何在CentOS 7操作系统上安装Nginx服务器,并配置SSL证书以增强网站的安全性。适合初学者和中级用户参考。 ... [详细]
  • 本文探讨了在已知最终数组尺寸不会超过5000x10的情况下,如何利用预分配和调整大小的方法来优化Numpy数组的创建过程,以提高性能并减少内存消耗。 ... [详细]
  • 如何寻找程序员的兼职机会
    随着远程工作的兴起,越来越多的程序员开始寻找灵活的兼职工作机会。本文将介绍几个适合程序员、设计师、翻译等专业人士的在线平台,帮助他们找到合适的兼职项目。 ... [详细]
  • 本文介绍了如何使用 Python 的 Pyglet 库加载并显示图像。Pyglet 是一个用于开发图形用户界面应用的强大工具,特别适用于游戏和多媒体项目。 ... [详细]
  • 本文分享了作者在使用LaTeX过程中的几点心得,涵盖了从文档编辑、代码高亮、图形绘制到3D模型展示等多个方面的内容。适合希望深入了解LaTeX高级功能的用户。 ... [详细]
  • 本文探讨了使用Python实现监控信息收集的方法,涵盖从基础的日志记录到复杂的系统运维解决方案,旨在帮助开发者和运维人员提升工作效率。 ... [详细]
  • 本文详细介绍了Apache Spark 2.2.0版本中集群模式的基本概念和工作流程,包括如何通过集群管理器分配资源,以及Spark应用程序在集群中的运行机制。链接:http://spark.apache.org/docs/2.2.0/cluster-overview.html ... [详细]
  • 支付宝新功能:直接入口提升用户体验
    本文探讨支付宝最新推出的直接入口功能,旨在提升用户使用小程序的便捷性,并分析这一变化对支付宝及小程序开发者的影响。 ... [详细]
  • 本文提供了一个详尽的前端开发资源列表,涵盖了从基础入门到高级应用的各个方面,包括HTML5、CSS3、JavaScript框架及库、移动开发、API接口、工具与插件等。 ... [详细]
  • 笔记说明重学前端是程劭非(winter)【前手机淘宝前端负责人】在极客时间开的一个专栏,每天10分钟,重构你的前端知识体系& ... [详细]
  • 本文将详细介绍如何在Windows 10操作系统中轻松设置本地连接,包括基本步骤和常见问题的解决方案,帮助用户快速掌握操作技巧。 ... [详细]
author-avatar
linjiabin43
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有