如何根据列的百分位数从DataFrame中采样？

作者：ksdhsiujfcek_732 | 来源：互联网 | 2023-09-01 07:01

给定这样的数据集：importpandasaspdrows=[{key:ABC,freq:100},{key:DEF

给定这样的数据集：

import pandas as pd rows = [{'key': 'ABC', 'freq': 100}, {'key': 'DEF', 'freq': 60}, {'key': 'GHI', 'freq': 50}, {'key': 'JKL', 'freq': 40}, {'key': 'MNO', 'freq': 13}, {'key': 'PQR', 'freq': 11}, {'key': 'STU', 'freq': 10}, {'key': 'VWX', 'freq': 10}, {'key': 'YZZ', 'freq': 3}, {'key': 'WHYQ', 'freq': 3}, {'key': 'HOWEE', 'freq': 2}, {'key': 'DUH', 'freq': 1}, {'key': 'HAHA', 'freq': 1}] df = pd.DataFrame(rows) df['percent'] = df['freq'] / sum(df['freq'])

[出去]：

key freq percent 0 ABC 100 0.328947 1 DEF 60 0.197368 2 GHI 50 0.164474 3 JKL 40 0.131579 4 MNO 13 0.042763 5 PQR 11 0.036184 6 STU 10 0.032895 7 VWX 10 0.032895 8 YZZ 3 0.009868 9 WHYQ 3 0.009868 10 HOWEE 2 0.006579 11 DUH 1 0.003289 12 HAHA 1 0.003289

目标是

从频率的前 50-100 个百分位数中选择 1 个示例

从 10-50 个百分位数中选择 2 个示例，然后

从 <10 个百分位数中选择 4 个示例

在这种情况下，合适的答案是：

从中选择 1 ['ABC', 'DEF']

从中选择 2 ['GHI', 'JKL', 'MNO', 'PQR']

从中选出 4 个 ['VWX', 'STU', 'YZZ', 'WHYQ', 'HOWEE', 'HAHA', 'DUH']

我试过这个：

import random import pandas as pd rows = [{'key': 'ABC', 'freq': 100}, {'key': 'DEF', 'freq': 60}, {'key': 'GHI', 'freq': 50}, {'key': 'JKL', 'freq': 40}, {'key': 'MNO', 'freq': 13}, {'key': 'PQR', 'freq': 11}, {'key': 'STU', 'freq': 10}, {'key': 'VWX', 'freq': 10}, {'key': 'YZZ', 'freq': 3}, {'key': 'WHYQ', 'freq': 3}, {'key': 'HOWEE', 'freq': 2}, {'key': 'DUH', 'freq': 1}, {'key': 'HAHA', 'freq': 1}] df = pd.DataFrame(rows) df['percent'] = df['freq'] / sum(df['freq']) bin_50_100 = [] bin_10_50 = [] bin_10 = [] total_percent = 1.0 for idx, row in df.sort_values(by=['freq', 'key'], ascending=False).iterrows(): if total_percent > 0.5: bin_50_100.append(row['key']) elif 0.1 bin_10_50.append(row['key']) else: bin_10.append(row['key']) total_percent -= row['percent'] print(random.sample(bin_50_100, 1)) print(random.sample(bin_10_50, 2)) print(random.sample(bin_10, 4))

[出去]：

['DEF'] ['MNO', 'PQR'] ['HOWEE', 'WHYQ', 'HAHA', 'DUH']

但是有没有更简单的方法来解决这个问题？

回答

咱们试试吧：

bins = [0, 0.1, 0.5, 1] samples = [3,3,1] df['sample'] = pd.cut(df.percent[::-1].cumsum(), # accumulate percentage bins=[0, 0.1, 0.5, 1], # bins labels=False # num samples ).astype(int) df.groupby('sample').apply(lambda x: x.sample(n=samples[x['sample'].iloc[0])] )

输出：

key freq percent sample sample 1 0 ABC 100 0.328947 1 2 2 GHI 50 0.164474 2 5 PQR 11 0.036184 2 4 7 VWX 10 0.032895 4 6 STU 10 0.032895 4 12 HAHA 1 0.003289 4 10 HOWEE 2 0.006579 4

推荐阅读

scala
Spark实现高斯朴素贝叶斯模型的低配版

本文介绍了使用Spark实现低配版高斯朴素贝叶斯模型的原因和原理。随着数据量的增大，单机上运行高斯朴素贝叶斯模型会变得很慢，因此考虑使用Spark来加速运行。然而，Spark的MLlib并没有实现高斯朴素贝叶斯模型，因此需要自己动手实现。文章还介绍了朴素贝叶斯的原理和公式，并对具有多个特征和类别的模型进行了讨论。最后，作者总结了实现低配版高斯朴素贝叶斯模型的步骤。 ... [详细]

蜡笔小新 2023-12-10 21:42:37
select
利用ARMA模型对平稳非白噪声序列进行建模的步骤及代码实现

本文介绍了利用ARMA模型对平稳非白噪声序列进行建模的步骤及代码实现。首先对观察值序列进行样本自相关系数和样本偏自相关系数的计算，然后根据这些系数的性质选择适当的ARMA模型进行拟合，并估计模型中的位置参数。接着进行模型的有效性检验，如果不通过则重新选择模型再拟合，如果通过则进行模型优化。最后利用拟合模型预测序列的未来走势。文章还介绍了绘制时序图、平稳性检验、白噪声检验、确定ARMA阶数和预测未来走势的代码实现。 ... [详细]

蜡笔小新 2023-12-09 08:30:08
select
sklearn数据集库中的常用数据集类型介绍

本文介绍了sklearn数据集库中常用的数据集类型，包括玩具数据集和样本生成器。其中详细介绍了波士顿房价数据集，包含了波士顿506处房屋的13种不同特征以及房屋价格，适用于回归任务。 ... [详细]

蜡笔小新 2023-12-13 17:45:15
php
也就是|小窗_卷积的特征提取与参数计算

篇首语：本文由编程笔记#小编为大家整理，主要介绍了卷积的特征提取与参数计算相关的知识，希望对你有一定的参考价值。Dense和Conv2D根本区别在于，Den ... [详细]

蜡笔小新 2023-12-13 12:59:48
string
第四章高阶函数（参数传递、高阶函数、lambda表达式）（python进阶）的讲解和应用

本文主要讲解了第四章高阶函数（参数传递、高阶函数、lambda表达式）的相关知识，包括函数参数传递机制和赋值机制、引用传递的概念和应用、默认参数的定义和使用等内容。同时介绍了高阶函数和lambda表达式的概念，并给出了一些实例代码进行演示。对于想要进一步提升python编程能力的读者来说，本文将是一个不错的学习资料。 ... [详细]

蜡笔小新 2023-12-12 15:52:48
input
Python 教学 016

Python教学练习二Python1-12练习二一、判断季节用户输入月份，判断这个月是哪个季节？3，4，5月----春 ... [详细]

蜡笔小新 2023-12-09 08:28:13
select
使用FLASK REST API的机器学习模型

在本教程中，我们将看到如何使用FLASK制作第一个用于机器学习模型的RESTAPI。我们将从创建机器学习模型开始。然后，我们将看到使用Flask创建AP ... [详细]

蜡笔小新 2023-10-17 19:13:12
select
YOLOv7基于自己的数据集从零构建模型完整训练、推理计算超详细教程

本文介绍了关于人工智能、神经网络和深度学习的知识点，并提供了YOLOv7基于自己的数据集从零构建模型完整训练、推理计算的详细教程。文章还提到了郑州最低生活保障的话题。对于从事目标检测任务的人来说，YOLO是一个熟悉的模型。文章还提到了yolov4和yolov6的相关内容，以及选择模型的优化思路。 ... [详细]

蜡笔小新 2023-12-14 18:28:01
shell
Linux服务器密码过期策略、登录次数限制、私钥登录等配置方法

本文介绍了在Linux服务器上进行密码过期策略、登录次数限制、私钥登录等配置的方法。通过修改配置文件中的参数，可以设置密码的有效期、最小间隔时间、最小长度，并在密码过期前进行提示。同时还介绍了如何进行公钥登录和修改默认账户用户名的操作。详细步骤和注意事项可参考本文内容。 ... [详细]

蜡笔小新 2023-12-14 17:57:01
string
Java猜拳小游戏代码

本文介绍了一个Java猜拳小游戏的代码，通过使用Scanner类获取用户输入的拳的数字，并随机生成计算机的拳，然后判断胜负。该游戏可以选择剪刀、石头、布三种拳，通过比较两者的拳来决定胜负。 ... [详细]

蜡笔小新 2023-12-14 15:39:08
string
[大整数乘法] java代码实现

本文介绍了使用java代码实现大整数乘法的过程，同时也涉及到大整数加法和大整数减法的计算方法。通过分治算法来提高计算效率，并对算法的时间复杂度进行了研究。详细代码实现请参考文章链接。 ... [详细]

蜡笔小新 2023-12-13 11:21:32
string
标题: C#随机生成中文姓名的方法及代码分享

摘要: 在测试数据中，生成中文姓名是一个常见的需求。本文介绍了使用C#编写的随机生成中文姓名的方法，并分享了相关代码。作者欢迎读者提出意见和建议。 ... [详细]

蜡笔小新 2023-12-12 20:40:34
process
【机器学习手册】日期和时区操作的重要性及应用

本文介绍了机器学习手册中关于日期和时区操作的重要性以及其在实际应用中的作用。文章以一个故事为背景，描述了学童们面对老先生的教导时的反应，以及上官如在这个过程中的表现。同时，文章也提到了顾慎为对上官如的恨意以及他们之间的矛盾源于早年的结局。最后，文章强调了日期和时区操作在机器学习中的重要性，并指出了其在实际应用中的作用和意义。 ... [详细]

蜡笔小新 2023-12-12 17:40:14
process
InnoDB存储引擎——内存

上图是InnoDB存储引擎的结构。1、缓冲池InnoDB存储引擎是基于磁盘存储的，并将其中的记录按照页的方式进行管理。因此可以看作是基于磁盘的数据库系统。在数据库系统中，由于CPU速度 ... [详细]

蜡笔小新 2023-12-10 19:47:18
php
包含vb.net同时运行的词条

vb.net不用多线程如何同时运行两个过程？不用多线程？即使用多线程，也不会是“同时”执行，题主只要略懂一些计算机编译原理就能明白了。不用多线程更不可能让两个过程同步执行了。不过可 ... [详细]

蜡笔小新 2023-10-17 18:18:35

ksdhsiujfcek_732

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章