随着累积计数器大小的增加,Python中累积计数器的计数变慢

作者：手机用户2602881441 | 来源：互联网 | 2023-06-25 11:41

我有一个collections.Counter()对象,该对象不断在循环中获取(累积)添加的Counter对象.随着循环的通过和累加计数器的增加(更多条目),累加()操作将变慢.一

我有一个collections.Counter()对象,该对象不断在循环中获取(累积)添加的Counter对象.随着循环的通过和累加计数器的增加(更多条目),累加(=)操作将变慢.

一种解决方法是分批使用Counter并累积部分计数器以最后添加(减少)它们.但是我想知道为什么会发生这种情况(也许底层实现使用哈希映射并且存储区大小不是动态的,因此冲突发生的频率越来越高？)

cnt = Counter() for i in range(len(list_files_txt)): t0 = time() f = list_files_txt[i] print('[{}/{}]'.format(i, len(list_files_txt))) with open(f, 'r') as txt_f: cnt += Counter(txt_f.read().lower().replace('\n', ' ').split(' ')) d_t = time() - t0 print('Time: ', d_t) with open('times.txt', 'a') as times_f: times_f.write(str(d_t)+'\n')

预期结果：在整个循环中,打印时间恒定不变

实际结果：随着循环的进行,打印时间增加

实际结果(代码执行)：

[0/185187] Time: 0.0009126663208007812 [1/185187] Time: 0.0011148452758789062 [2/185187] Time: 0.0006835460662841797 [3/185187] Time: 0.0009150505065917969 [4/185187] Time: 0.0005855560302734375 # A few thousand iterations later... [14268/185187] Time: 0.1499614715576172 [14269/185187] Time: 0.14177680015563965 [14270/185187] Time: 0.1480724811553955 [14271/185187] Time: 0.14731359481811523 [14272/185187] Time: 0.15594100952148438

这是说明趋势的图表：

Time cost per iteration

解决方法:

Counter .__ iadd__包括对self Counter的线性扫描,以删除具有非正数的项目.从cpython/blob/master/Lib/collections/__init__.py

def _keep_positive(self): '''Internal method to strip elements with a negative or zero count''' nOnpositive= [elem for elem, count in self.items() if not count > 0] for elem in nonpositive: del self[elem] return self def __iadd__(self, other): '''Inplace add from another counter, keeping only positive counts. >>> c = Counter('abbb') >>> c += Counter('bcc') >>> c Counter({'b': 4, 'c': 2, 'a': 1}) ''' for elem, count in other.items(): self[elem] += count return self._keep_positive()

当然,执行此操作所需的时间将随着结果Counter的大小线性增长.如果要避免这种行为,请使用update而不是=.像=(与dict.update不同)一样,Counter.update添加计数而不是替换条目.与=不同,它不会删除非正数.

# Instead of cnt += Counter(...) cnt.update(Counter(txt_f.read().lower().replace('\n', ' ').split(' ')))

实际上,您甚至不需要构建第二个Counter即可添加.您只需传递一个可迭代的元素即可直接更新,它将元素计数添加到Counter中的现有计数中：

cnt.update(txt_f.read().lower().replace('\n', ' ').split(' '))

推荐阅读

blob
开发笔记:python协程的理解

篇首语：本文由编程笔记#小编为大家整理，主要介绍了python协程的理解相关的知识，希望对你有一定的参考价值。一、介绍什么是并发?并发的本质就是 ... [详细]

蜡笔小新 2023-10-17 14:16:13
blob
词向量计算文本相似度,通过词向量求文本相似度

基于词向量计算文本相似度1.测试数据：链接：https:pan.baidu.coms1fXJjcujAmAwTfsuTg2CbWA提取码：f4vx2.实验代码：imp ... [详细]

蜡笔小新 2023-10-17 12:10:15
function
第 4 章数据类型

目录4.1.type数据类型检测 ... [详细]

蜡笔小新 2023-10-16 19:21:38
utf-8
用pandas库修改excel文件里的内容，并把excel文件格式存为csv格式，再将csv格式改为html格式

假设有Excel文件data.xlsx，其中内容为： ID age height sex weight张三 1 39 181 female 85李四 2 40 180 male 80王五 3 38 178 female 78赵六 4 59 1 ... [详细]

蜡笔小新 2023-10-16 17:56:35
request
Python瓦片图下载、合并、绘图、标记的代码示例

本文提供了Python瓦片图下载、合并、绘图、标记的代码示例，包括下载代码、多线程下载、图像处理等功能。通过参考geoserver，使用PIL、cv2、numpy、gdal、osr等库实现了瓦片图的下载、合并、绘图和标记功能。代码示例详细介绍了各个功能的实现方法，供读者参考使用。 ... [详细]

蜡笔小新 2023-12-13 12:14:55
object
Python爬虫技术基础篇面向对象高级编程（中）的多重继承

本文介绍了Python爬虫技术基础篇面向对象高级编程（中）中的多重继承概念。通过继承，子类可以扩展父类的功能。文章以动物类层次的设计为例，讨论了按照不同分类方式设计类层次的复杂性和多重继承的优势。最后给出了哺乳动物和鸟类的设计示例，以及能跑、能飞、宠物类和非宠物类的增加对类数量的影响。 ... [详细]

蜡笔小新 2023-12-12 16:19:02
function
MooTools和JQuery并排 - MooTools and JQuery Side by Side

IjustinheritedsomewebpageswhichusesMooTools.IneverusedMooTools.NowIneedtoaddsomef ... [详细]

蜡笔小新 2023-12-12 13:43:58
function
Python – 按地址在内存中引用对象

这是一个愚蠢的问题,但我只是对此感到好奇.假设我在Pythonshell,我有一些我查询的数据库对象.我做：db.query(的queryString)该查询在0xffdf842c ... [详细]

蜡笔小新 2023-12-12 13:28:00
function
求矩阵鞍点的个数

本文介绍了一个编程问题，要求求解一个给定n阶方阵的鞍点个数。通过输入格式的描述，可以了解到输入的是一个n阶方阵，每个元素都是整数。通过输出格式的描述，可以了解到输出的是鞍点的个数。通过题目集全集传送门，可以了解到提供了两个函数is_line_max和is_rank_min，用于判断一个元素是否为鞍点。本文还提供了三个样例，分别展示了不同情况下的输入和输出。 ... [详细]

蜡笔小新 2023-12-11 09:50:19
instance
十大经典排序算法动图演示+Python实现

本文介绍了十大经典排序算法的原理、演示和Python实现。排序算法分为内部排序和外部排序，常见的内部排序算法有插入排序、希尔排序、选择排序、冒泡排序、归并排序、快速排序、堆排序、基数排序等。文章还解释了时间复杂度和稳定性的概念，并提供了相关的名词解释。 ... [详细]

蜡笔小新 2023-12-10 19:28:59
php
【Python 爬虫】破解按照顺序点击验证码(非自动化浏览器)

#请求到验证码base64编码json_img_datajson_raw.get(Vimage)#获取到验证码编码 #保存验证码图片到本地defbase64_to_img(bstr ... [详细]

蜡笔小新 2023-10-17 11:36:05
php
批量重命名文件夹中的文件（python）

做实验需要重命名数据集的名字，有几个容易踩坑的地方和小技巧，总结一下importospathfilelistos.listdir(path)#文件夹路 ... [详细]

蜡笔小新 2023-10-17 08:42:05
php
mmcls多标签分类实战（二）：resnet多标签分类

上一章讲了如何制作数据集，接下来我们使用mmcls来实现多标签分类。 ... [详细]

蜡笔小新 2023-10-17 07:43:01
request
mapbox矢量切片标准_下载python3中的mapbox向量切片,矢量

python3下载mapbox矢量切片通过观察mapbox的页面开发者工具里的network可以发现，打开矢量切片和字体切片pbf和prite图标的链接， ... [详细]

蜡笔小新 2023-10-16 21:46:42
ascii
SQL 字符串处理函数用法

点此学习更多SQL相关函数与字符串处理函数mysql函数一、简明总结ASCII(char)　　　　　　　　返回字符的ASCII码值BIT_LENGTH(str)　　　　　　返回字 ... [详细]

蜡笔小新 2023-10-15 19:44:39

手机用户2602881441

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章