pytorch随机采样操作SubsetRandomSampler()

作者：yovan | 来源：互联网 | 2022-02-27 22:29

这篇文章主要介绍了pytorch随机采样操作SubsetRandomSampler()，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧

这篇文章记录一个采样器都随机地从原始的数据集中抽样数据。抽样数据采用permutation。生成任意一个下标重排，从而利用下标来提取dataset中的数据的方法

需要的库

import torch

使用方法

这里以MNIST举例

train_dataset = dsets.MNIST(root='./data', #文件存放路径
              train=True,  #提取训练集
              transform=transforms.ToTensor(), #将图像转化为Tensor
              download=True)

sample_size = len(train_dataset)
sampler1 = torch.utils.data.sampler.SubsetRandomSampler(
  np.random.choice(range(len(train_dataset)), sample_size))

代码详解

np.random.choice()

#numpy.random.choice(a, size=None, replace=True, p=None)
#从a(只要是ndarray都可以，但必须是一维的)中随机抽取数字，并组成指定大小(size)的数组
#replace:True表示可以取相同数字，False表示不可以取相同数字
#数组p：与数组a相对应，表示取数组a中每个元素的概率，默认为选取每个元素的概率相同。

那么这里就相当于抽取了一个全排列

torch.utils.data.sampler.SubsetRandomSampler

# 会根据后面给的列表从数据集中按照下标取元素
# class torch.utils.data.SubsetRandomSampler(indices)：无放回地按照给定的索引列表采样样本元素。

所以就可以了。

补充知识：Pytorch学习之torch----随机抽样、序列化、并行化

1. torch.manual_seed(seed)

说明：设置生成随机数的种子，返回一个torch._C.Generator对象。使用随机数种子之后，生成的随机数是相同的。

参数：

seed(int or long) -- 种子

>>> import torch
>>> torch.manual_seed(1)

>>> a = torch.rand(2, 3)
>>> a
tensor([[0.7576, 0.2793, 0.4031],
    [0.7347, 0.0293, 0.7999]])
>>> torch.manual_seed(1)

>>> b = torch.rand(2, 3)
>>> b
tensor([[0.7576, 0.2793, 0.4031],
    [0.7347, 0.0293, 0.7999]])
>>> a == b
tensor([[1, 1, 1],
    [1, 1, 1]], dtype=torch.uint8)

2. torch.initial_seed()

说明：返回生成随机数的原始种子值

>>> torch.manual_seed(4)

>>> torch.initial_seed()
4

3. torch.get_rng_state()

说明：返回随机生成器状态(ByteTensor)

>>> torch.initial_seed()
4
>>> torch.get_rng_state()
tensor([4, 0, 0, ..., 0, 0, 0], dtype=torch.uint8)

4. torch.set_rng_state()

说明：设定随机生成器状态

参数：

new_state(ByteTensor) -- 期望的状态

5. torch.default_generator

说明：默认的随机生成器。等于

6. torch.bernoulli(input, out=None)

说明：从伯努利分布中抽取二元随机数(0或1)。输入张量包含用于抽取二元值的概率。因此，输入中的所有值都必须在[0,1]区间内。输出张量的第i个元素值，将会以输入张量的第i个概率值等于1。返回值将会是与输入相同大小的张量，每个值为0或者1.

参数：

input(Tensor) -- 输入为伯努利分布的概率值

out(Tensor,可选) -- 输出张量

>>> a = torch.Tensor(3, 3).uniform_(0, 1)
>>> a
tensor([[0.5596, 0.5591, 0.0915],
    [0.2100, 0.0072, 0.0390],
    [0.9929, 0.9131, 0.6186]])
>>> torch.bernoulli(a)
tensor([[0., 1., 0.],
    [0., 0., 0.],
    [1., 1., 1.]])

7. torch.multinomial(input, num_samples, replacement=False, out=None)

说明：返回一个张量，每行包含从input相应行中定义的多项分布中抽取的num_samples个样本。要求输入input每行的值不需要总和为1，但是必须非负且总和不能为0。当抽取样本时，依次从左到右排列(第一个样本对应第一列)。如果输入input是一个向量，输出out也是一个相同长度num_samples的向量。如果输入input是m行的矩阵，输出out是形如m x n的矩阵。并且如果参数replacement为True，则样本抽取可以重复。否则，一个样本在每行不能被重复。

参数：

input(Tensor) -- 包含概率的张量

num_samples(int) -- 抽取的样本数

replacement(bool) -- 布尔值，决定是否能重复抽取

out(Tensor) -- 结果张量

>>> weights = torch.Tensor([0, 10, 3, 0])
>>> weights
tensor([ 0., 10., 3., 0.])
>>> torch.multinomial(weights, 4, replacement=True)
tensor([1, 1, 1, 1])

8. torch.normal(means, std, out=None)

说明：返回一个张量，包含从给定参数means，std的离散正态分布中抽取随机数。均值means是一个张量，包含每个输出元素相关的正态分布的均值。std是一个张量。包含每个输出元素相关的正态分布的标准差。均值和标准差的形状不须匹配，但每个张量的元素个数必须想听。

参数：

means(Tensor) -- 均值

std(Tensor) -- 标准差

out(Tensor) -- 输出张量

>>> n_data = torch.ones(5, 2)
>>> n_data
tensor([[1., 1.],
    [1., 1.],
    [1., 1.],
    [1., 1.],
    [1., 1.]])
>>> x0 = torch.normal(2 * n_data, 1)
>>> x0
tensor([[1.6544, 0.9805],
    [2.1114, 2.7113],
    [1.0646, 1.9675],
    [2.7652, 3.2138],
    [1.1204, 2.0293]])

9. torch.save(obj, f, pickle_module=

说明：保存一个对象到一个硬盘文件上。

参数：

obj -- 保存对象

f -- 类文件对象或一个保存文件名的字符串

pickle_module -- 用于pickling源数据和对象的模块

pickle_protocol -- 指定pickle protocal可以覆盖默认参数

10. torch.load(f, map_location=None, pickle_module=

说明：从磁盘文件中读取一个通过torch.save()保存的对象。torch.load()可通过参数map_location动态地进行内存重映射，使其能从不动设备中读取文件。一般调用时，需两个参数：storage和location tag。返回不同地址中的storage，或者返回None。如果这个参数是字典的话，意味着从文件的地址标记到当前系统的地址标记的映射。

参数：

f -- l类文件对象或一个保存文件名的字符串

map_location -- 一个函数或字典规定如何remap存储位置

pickle_module -- 用于unpickling元数据和对象的模块

torch.load('tensors.pt') # 加载所有的张量到CPU torch.load('tensor.pt', map_location=lambda storage, loc:storage) # 加载张量到GPU torch.load('tensors.pt', map_location={'cuda:1':'cuda:0'})

11. torch.get_num_threads()

说明：获得用于并行化CPU操作的OpenMP线程数

12. torch.set_num_threads()

说明：设定用于并行化CPU操作的OpenMP线程数

以上这篇pytorch随机采样操作SubsetRandomSampler()就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持。

pytorch

写下你的评论吧 !

吐个槽吧,看都看了

会员登录 | 用户注册

推荐阅读

神经网络
如何用GPU服务器运行Python

如何用GPU服务器运行Python-目录前言一、服务器登录1.1下载安装putty1.2putty远程登录 1.3查看GPU、显卡常用命令1.4Linux常用命令二、 ... [详细]

蜡笔小新   2024-12-06 11:54:09

pytorch
Python与PyTorch中图像数据的互转换方法

本文详细介绍了如何在Python和PyTorch环境中实现Tensor与NumPy数组之间的转换，以及PIL图像对象与NumPy数组之间的相互转换。内容包括具体的转换函数及其使用示例。 ... [详细]

蜡笔小新   2024-12-05 11:16:09

pytorch
如何在Python中调用C++代码

本文介绍了一种方法，通过使用Python的ctypes库来调用C++代码。具体实例为实现一个简单的加法器，并详细说明了从编写C++代码到编译及最终在Python中调用的全过程。 ... [详细]

蜡笔小新   2024-11-20 16:35:59

tensorflow
解决Jupyter Notebook 中无法找到 TensorFlow 的问题

本文记录了解决 Jupyter Notebook 在特定环境中无法识别已安装的 TensorFlow 的方法。主要原因是 Jupyter 默认在 base 环境中运行，而 TensorFlow 可能在其他环境中。通过配置 Jupyter 使其能够访问目标环境中的 TensorFlow。 ... [详细]

蜡笔小新   2024-11-17 04:08:44

tensorflow
Google Colab 免费 GPU 使用指南（第一部分）

本文介绍了如何使用 Google Colab 的免费 GPU 资源进行深度学习应用开发。Google Colab 是一个无需配置即可使用的云端 Jupyter 笔记本环境，支持多种深度学习框架，并且提供免费的 GPU 计算资源。 ... [详细]

蜡笔小新   2024-11-14 13:42:03

神经网络
pytorch(一)：torch构建数据集并训练一个神经网络

目录预备知识导包构建数据集神经网络结构训练测试精度可视化计算模型精度损失可视化输出网络结构信息训练神经网络定义参数载入数据载入神经网络结构、损失及优化训练及测试损失、精度可视化qu ... [详细]

蜡笔小新   2024-11-14 13:06:38

pytorch
Python 中变量类型的确定与默认类型解析

本文详细探讨了 Python 中变量类型的确定方式及其默认类型，帮助初学者更好地理解变量类型的概念。 ... [详细]

蜡笔小新   2024-11-13 10:06:03

神经网络
Vision Transformer (ViT) 和 DETR 深度解析

本文详细介绍了 Vision Transformer (ViT) 和 DETR 的工作原理，并提供了相关的代码实现和参考资料。通过观看教学视频和阅读博客，对 ViT 的全流程进行了详细的笔记整理，包括代码详解和关键概念的解释。 ... [详细]

蜡笔小新   2024-11-12 20:32:38

pytorch
PyTorch实用技巧汇总（持续更新中）

空洞卷积（Dilated Convolutions）在卷积操作中通过在卷积核元素之间插入空格来扩大感受野，这一过程由超参数 dilation rate 控制。这种技术在保持参数数量不变的情况下，能够有效地捕捉更大范围的上下文信息，适用于多种视觉任务，如图像分割和目标检测。本文将详细介绍空洞卷积的计算原理及其应用场景。 ... [详细]

蜡笔小新   2024-11-11 12:16:55

tensorflow
如何在Conda环境中高效配置并安装PyTorch与TensorFlow GPU版

在Conda环境中高效配置并安装PyTorch和TensorFlow GPU版的方法如下：首先，创建一个新的Conda环境以避免与基础环境发生冲突，例如使用 `conda create -n pytorch_gpu python=3.7` 命令。接着，激活该环境，确保所有依赖项都正确安装。此外，建议在安装过程中指定CUDA版本，以确保与GPU兼容性。通过这些步骤，可以确保PyTorch和TensorFlow GPU版的顺利安装和运行。 ... [详细]

蜡笔小新   2024-11-10 10:49:24

pytorch
【图像分类实战】利用DenseNet在PyTorch中实现秃头识别

本文详细介绍了如何使用DenseNet模型在PyTorch框架下实现秃头识别。首先，文章概述了项目所需的库和全局参数设置。接着，对图像进行预处理并读取数据集。随后，构建并配置DenseNet模型，设置训练和验证流程。最后，通过测试阶段验证模型性能，并提供了完整的代码实现。本文不仅涵盖了技术细节，还提供了实用的操作指南，适合初学者和有经验的研究人员参考。 ... [详细]

蜡笔小新   2024-11-06 15:21:35

神经网络
利用CIFAR10数据集快速掌握Mixup数据增强技术，显著提高图像分类精度

通过使用CIFAR-10数据集，本文详细介绍了如何快速掌握Mixup数据增强技术，并展示了该方法在图像分类任务中的显著效果。实验结果表明，Mixup能够有效提高模型的泛化能力和分类精度，为图像识别领域的研究提供了有价值的参考。 ... [详细]

蜡笔小新   2024-11-05 14:24:36

pytorch
深入解析 PyTorch 中的交叉熵损失函数（CrossEntropyLoss）

在 PyTorch 的 `CrossEntropyLoss` 函数中，当目标标签 `target` 为类别 ID 时，实际上会进行 one-hot 编码处理。例如，假设总共有三个类别，其中一个类别的 ID 为 2，则该标签会被转换为 `[0, 0, 1]`。这一过程简化了多分类任务中的损失计算，使得模型能够更高效地进行训练和评估。此外，`CrossEntropyLoss` 还结合了 softmax 激活函数和负对数似然损失，进一步提高了模型的性能和稳定性。 ... [详细]

蜡笔小新   2024-11-03 13:53:35

pytorch
BERT模型的应用与实践

本文探讨了BERT模型在自然语言处理领域的应用与实践。详细介绍了Transformers库（曾用名pytorch-transformers和pytorch-pretrained-bert）的使用方法，涵盖了从模型加载到微调的各个环节。此外，还分析了BERT在文本分类、情感分析和命名实体识别等任务中的性能表现，并讨论了其在实际项目中的优势和局限性。 ... [详细]

蜡笔小新   2024-11-03 13:20:53

pytorch
在Windows环境下使用pip离线安装PyTorch GPU版的详细指南（不依赖Anaconda）

在Windows环境下离线安装PyTorch GPU版时，首先需确认系统配置，例如本文作者使用的是Win8、CUDA 8.0和Python 3.6.5。用户应根据自身Python和CUDA版本，在PyTorch官网查找并下载相应的.whl文件。此外，建议检查系统环境变量设置，确保CUDA路径正确配置，以避免安装过程中可能出现的兼容性问题。 ... [详细]

蜡笔小新   2024-11-03 12:55:35

yovan

这个家伙很懒，什么也没留下！

Tags | 热门标签

svm

数据挖掘

算法

机器学习

nlp

深度学习

机器人

自然语言处理

深度

人工智能

人脸识别

图像识别

pytorch

ocr

神经网络

自动驾驶

tensorflow

RankList | 热门文章

1微信小程序loading组件显示载入动画用法示例【附源码下载】

2微信小程序实现action-sheet弹出底部菜单功能【附源码下载】

3vue实现验证码输入框组件

4微信小程序使用form表单获取输入框数据的实例代码

5vuejs router history 配置到iis的方法

6微信小程序自定义导航栏

7详解微信小程序实现仿微信聊天界面(各种细节处理)

8微信小程序实现的绘制table表格功能示例

9详解微信小程序的不同函数调用的几种方法

10微信小程序利用Canvas绘制图片和竖排文字详解

11微信小程序如何获取用户头像和昵称

12微信小程序冒泡事件原理解析

13微信小程序全选多选效果实现代码解析

14微信小程序点击按钮动态切换input的disabled禁用/启用状态功能

15小程序双头slider选择器的实现示例