当前位置: 开发笔记 > 编程语言 > 正文

在另一个成对的bin数组中获取数据数组最小值的最快方法

作者：dsvsV | 来源：互联网 | 2023-09-05 08:35

我有三个一维数组：idxs:索引数据weights:中每个指标的权重

我有三个一维数组：

idxs: 索引数据

weights: 中每个指标的权重 idxs

bins：用于计算其中最小重量的 bin。

这是我当前使用的方法idxs来检查weights在哪个 bin 中调用的数据，然后计算 bin 权重的最小值/最大值：

获取slices显示每个垃圾箱idxs元素所属的。

排序slices和weights同时。

计算weights每个 bin（切片）中的最小值。

numpy 方法

import random import numpy as np # create example data out_size = int(10) bins = np.arange(3, out_size-3) idxs = np.arange(0, out_size) #random.shuffle(idxs) # set duplicated slice manually for test idxs[4] = idxs[3] idxs[6] = idxs[7] weights = idxs # get which bin idxs belong to slices = np.digitize(idxs, bins) # get index and weights in bins valid = (bins.max() >= idxs) & (idxs >= bins.min()) valid_slices = slices[valid] valid_weights = weights[valid] # sort slice and weights sort_index = valid_slices.argsort() valid_slices_sort = valid_slices[sort_index] valid_weights_sort = valid_weights[sort_index] # get index of each first unque slices unique_slices, unique_index = np.unique(valid_slices_sort, return_index=True) # calculate the minimum res_sub = np.minimum.reduceat(valid_weights_sort, unique_index) # save results res = np.full((out_size), np.nan) res[unique_slices-1] = res_sub print(res)

结果：

array([ 3., nan, 5., nan, nan, nan, nan, nan, nan, nan])

如果我增加到out_size1e7 并洗牌数据，速度（从 np.digitize 到最后）很慢：

13.5 s ± 136 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

而且，这是每个部分的消耗时间：

np.digitize: 10.8 s ± 12.6 ms per loop (mean ± std. dev. of 7 runs, 1 loop each) valid: 171 ms ± 3.78 ms per loop (mean ± std. dev. of 7 runs, 10 loops each) argsort and slice: 2.02 s ± 33.7 ms per loop (mean ± std. dev. of 7 runs, 1 loop each) unique: 9.9 ms ± 113 µs per loop (mean ± std. dev. of 7 runs, 100 loops each) np.minimum.reduceat: 5.11 ms ± 52.7 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)

np.digitize()花费大部分时间：10.8 秒。而且，接下来是argsort：2.02 秒。

我还检查计算所消耗的时间mean使用np.histogram：

counts, _ = np.histogram(idxs, bins=out_size, range=(0, out_size)) sums, _ = np.histogram(idxs, bins=out_size, range=(0, out_size), weights = weights, density=False) mean = sums / np.where(counts == 0, np.nan, counts) 33.2 s ± 3.47 s per loop (mean ± std. dev. of 7 runs, 1 loop each)

这类似于我计算最小值的方法。

scipy方法

from scipy.stats import binned_statistic statistics, _, _ = binned_statistic(idxs, weights, statistic='min', bins=bins) print(statistics)

结果有点不同，但对于较长的（1e7）混洗数据，速度要慢得多（x6）：

array([ 3., nan, 5.]) 1min 20s ± 6.93 s per loop (mean ± std. dev. of 7 runs, 1 loop each)

概括

我想找出一个更快的方法。如果该方法也适用于dask，那就太好了！

用户案例

这是我的真实数据 (1D) 的样子：

推荐阅读

main
Java 实现生成指定数量的不重复随机数

本文将详细介绍如何使用Java编程语言生成指定数量的不重复随机数，包括具体的实现方法和代码示例。适合初学者和有一定基础的开发者参考。 ... [详细]

蜡笔小新 2024-11-21 12:08:06
range
AI炼金术：KNN分类器的构建与应用

本文介绍了如何使用Python及其相关库（如NumPy、scikit-learn和matplotlib）构建KNN分类器模型。通过详细的数据准备、模型训练及新样本预测的过程，展示KNN算法的实际操作步骤。 ... [详细]

蜡笔小新 2024-11-21 11:40:55
range
Java集合框架深入解析：HashSet详解

本文详细介绍了HashSet类，它是Set接口的一个实现，底层使用哈希表（实际上是HashMap实例）。HashSet不保证元素的迭代顺序，并且是非线程安全的。 ... [详细]

蜡笔小新 2024-11-18 16:58:22
main
Java 中的十进制样式 getZeroDigit()方法，示例

Java 中的十进制样式 getZeroDigit()方法，示例 ... [详细]

蜡笔小新 2024-11-21 16:53:03
range
[OReilly_Learning_Perl_5th_Edition]_Chap06_Exercises

3.[15]Writeaprogramtolistallofthekeysandvaluesin%ENV.PrinttheresultsintwocolumnsinASCIIbet ... [详细]

蜡笔小新 2024-11-20 18:28:56
range
将图像平移到画布中心python_python – Tkinter画布缩放移动/平移

高级缩放示例.就像谷歌地图一样.它仅缩放图块,但不缩放整个图像.因此,缩放的瓷砖占据了恒定的记忆,并且不会为大型缩放图像调整大小的图像.对于简化的缩放示例lookhere.在Win ... [详细]

蜡笔小新 2024-11-20 15:47:04
range
c语言二元插值,二维线性插值c语言

c语言二元插值,二维线性插值c语言 ... [详细]

蜡笔小新 2024-11-20 12:20:16
range
机器学习（ML）三之多层感知机

深度学习主要关注多层模型，现在以多层感知机（multilayerperceptron，MLP）为例，介绍多层神经网络的概念。隐藏层多层感知机在单层神经网络的基础上引入了一到多个隐藏 ... [详细]

蜡笔小新 2024-11-19 19:02:28
range
深入理解RxJava操作符

根据官方定义，RxJava是一种用于异步编程和可观察数据流的API。其核心特性在于流式处理能力和丰富的操作符支持。 ... [详细]

蜡笔小新 2024-11-19 17:37:35
range
开发技巧: Effective Java第三版——优先选用Collection而非Stream作为方法返回类型

在Effective Java第三版中，建议在方法返回类型中优先考虑使用Collection而非Stream，以提高代码的灵活性和兼容性。 ... [详细]

蜡笔小新 2024-11-19 15:31:16
int
IC卡操作功能实现

本文介绍了如何通过C#语言调用动态链接库（DLL）中的函数来实现IC卡的基本操作，包括初始化设备、设置密码模式、获取设备状态等，并详细展示了将TextBox中的数据写入IC卡的具体实现方法。 ... [详细]

蜡笔小新 2024-11-21 11:02:19
main
spring boot使用jetty无法启动

spring boot使用jetty无法启动 ... [详细]

蜡笔小新 2024-11-21 10:15:52
main
Web动态服务器Python基本实现

Web动态服务器Python基本实现 ... [详细]

蜡笔小新 2024-11-21 08:01:30
shell
Android与JUnit集成测试实践

本文探讨了如何在Android项目中集成JUnit进行单元测试，并详细介绍了修改AndroidManifest.xml文件以支持测试的方法。 ... [详细]

蜡笔小新 2024-11-20 18:30:14
range
解决UIScrollView上Webview点击图片后无法立即滑动的问题

本文探讨了在UIScrollView上嵌入Webview时遇到的一个常见问题：点击图片放大并返回后，Webview无法立即滑动。我们将分析问题原因，并提供有效的解决方案。 ... [详细]

蜡笔小新 2024-11-18 21:13:13

dsvsV

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章