热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

12_TFRecord数据打包

12_TFRecord数据打包4.TensorFlow中的数据读取方式4.1直接将数据加载到内存中4.2TFRecord4.3数据操作实践cifar_10数据集4.3.1下载并解析


12_TFRecord数据打包

      • 4.TensorFlow中的数据读取方式
      • 4.1直接将数据加载到内存中
      • 4.2TFRecord
      • 4.3数据操作实践cifar_10数据集
        • 4.3.1下载并解析cifar10
        • 4.3.将解析后的cifar10打包成tfrecord文件。


4.TensorFlow中的数据读取方式


4.1直接将数据加载到内存中

在处理小规模数据,比如mnist的时候可以将数据直接存入内存。但是对于较大的数据集,这是很麻烦的。因此好的方法就是将数据存放在磁盘上,在需要的时候再加载进内存,比如训练时每次加载一个batchsize的数据。
但是这样的方法也是存在问题的,如下图,因为计算和加载数据是不同步的,若计算设备完成 计算时数据还未完成加载,这个时候就会造成计算训练处的延迟,导致资源浪费。
在这里插入图片描述
因此更好地办法是预取数据并且使用独立的线程进行加载和训练。


4.2TFRecord

TensorFlow提供了TFRecord:高效的TensorFlow文件格式来统一存储数据,TFRecord就是一个简单的包含序列化输入数据的二进制文件,序列化是基于协议缓冲区的,这样可以快速地实现数据的复制,移动,读取和存储。
如下图,TensorFlow数据读取机制(数据->文件名队列->内存队列->计算设备读取数据):
在这里插入图片描述
首先要理解EPOCH的概念,一个epoch就是把数据集里的所有图片都学习了一遍,比如一个数据集有100张图片,训练时batchsize为10,那么一个epoch就是把这100张图片都计算了一遍,而一个epoch就包含了10(总量100除以每批的数据量10)个batch的数据。文件名队列就构成了数据的队列,设定shuffle参数可以让数据乱序。
比如原来有A,B,C三张图片,若设定训练3个epoch,shuffle=false,则最终文件名队列中的结果就是[A,B,C,A,B,C,A,B,C]。
比如原来有A,B,C三张图片,若设定训练3个epoch,shuffle=true,则最终文件名队列中的结果可能是[A,C,B,B,C,A,C,A,B]。每个epoch内的ABC顺序不一定。


4.3数据操作实践cifar_10数据集


4.3.1下载并解析cifar10

首先下载cifar10数据集,由于官网下载可能很慢,我将数据集放在了百度网盘里(提取码o5yu):[Download cifar10]。

我的目录结构:

.
├── cifar10_bin_to_jpg.py
├── cifar10_jpg_to_tfrecord.py
├── test_data
│ └── data_batch_6
└── train_data├── batches.meta├── cifar10_jpgs├── data_batch_1├── data_batch_2├── data_batch_3├── data_batch_4└── data_batch_5

首先解析下载下来的二进制文件,将里面的数据解析并存放到每个数据到train_data/cifar10_jpgs目录中对应label的目录下。
cifar10_bin_to_jpg.py:

import os
import pickle
import numpy as np
import cv2classes= ['airplane','automobile','bird','cat','deer','dog','frog','horse','ship','truck']def unpickle(file):with open(file, 'rb') as fo:dict = pickle.load(fo, encoding='bytes')return dictdata = []
labels = []
for i in range(1,6):file_name = "train_data/data_batch_"+str(i)result = unpickle(file_name)data += list(result[b"data"])labels += list(result[b"labels"])print(file_name+" loaded.")imgs = np.reshape(data, [-1, 3, 32, 32])for i in range(imgs.shape[0]):im_data = imgs[i, ...]im_data = np.transpose(im_data, [1, 2, 0])im_data = cv2.cvtColor(im_data, cv2.COLOR_RGB2BGR)f = "{}/{}".format("train_data/cifar10_jpgs", classes[labels[i]])if not os.path.exists(f):os.mkdir(f)cv2.imwrite("{}/{}.jpg".format(f, str(i)), im_data)print("All Done.")

完成后可以在train_data/cifar10_jpgs目录下看到十个类别的数据里面的图片数据。
在这里插入图片描述


4.3.将解析后的cifar10打包成tfrecord文件。

涉及到的tf api:
数据读取:tf.train.string_input_producer
数据解析:tf.TFRecordReader tf.parse_single_example
数据写入:tf.python_io.TFRecordWriter

数据写入:
writer = tf.python_io.TFRecordWriter()
example = tf.train.example() Feature{图像数据,图像label等。。}
//序列化后写入
writer.write(example.SerializeToString())
writer.close()

import tensorflow as tf
import glob
import cv2
import numpy as np
classes = ['airplane','automobile','bird','cat','deer','dog','frog','horse','ship','truck']idx = 0
im_data = []
im_labels = []
for class_ in classes:path = "train_data/cifar10_jpgs/" + class_im_list = glob.glob(path + "/*")im_label = [idx for i in range(im_list.__len__())]idx += 1im_data += im_listim_labels += im_label#实例化一个TFRecordWriter对象
tfrecord_file = "train_data/train_data.tfrecord"
writer = tf.python_io.TFRecordWriter(tfrecord_file)index = [i for i in range(im_data.__len__())]
np.random.shuffle(index)print("strat make")
print("total:",im_data.__len__())for i in range(im_data.__len__()):if i%5000 is 0 :print(i)im_d = im_data[index[i]]im_l = im_labels[index[i]]data = cv2.imread(im_d)#tf.train.Example是一个存放数据的结构,一个example包含一个Features对象ex = tf.train.Example(features = tf.train.Features(feature = {"image":tf.train.Feature(bytes_list=tf.train.BytesList(value=[data.tobytes()])),"label": tf.train.Feature(int64_list=tf.train.Int64List(value=[im_l])),}))writer.write(ex.SerializeToString())writer.close()
print("make tfrecord_file done.")

推荐阅读
  • 本文介绍了Python高级网络编程及TCP/IP协议簇的OSI七层模型。首先简单介绍了七层模型的各层及其封装解封装过程。然后讨论了程序开发中涉及到的网络通信内容,主要包括TCP协议、UDP协议和IPV4协议。最后还介绍了socket编程、聊天socket实现、远程执行命令、上传文件、socketserver及其源码分析等相关内容。 ... [详细]
  • 向QTextEdit拖放文件的方法及实现步骤
    本文介绍了在使用QTextEdit时如何实现拖放文件的功能,包括相关的方法和实现步骤。通过重写dragEnterEvent和dropEvent函数,并结合QMimeData和QUrl等类,可以轻松实现向QTextEdit拖放文件的功能。详细的代码实现和说明可以参考本文提供的示例代码。 ... [详细]
  • 推荐系统遇上深度学习(十七)详解推荐系统中的常用评测指标
    原创:石晓文小小挖掘机2018-06-18笔者是一个痴迷于挖掘数据中的价值的学习人,希望在平日的工作学习中,挖掘数据的价值, ... [详细]
  • 计算机存储系统的层次结构及其优势
    本文介绍了计算机存储系统的层次结构,包括高速缓存、主存储器和辅助存储器三个层次。通过分层存储数据可以提高程序的执行效率。计算机存储系统的层次结构将各种不同存储容量、存取速度和价格的存储器有机组合成整体,形成可寻址存储空间比主存储器空间大得多的存储整体。由于辅助存储器容量大、价格低,使得整体存储系统的平均价格降低。同时,高速缓存的存取速度可以和CPU的工作速度相匹配,进一步提高程序执行效率。 ... [详细]
  • Python瓦片图下载、合并、绘图、标记的代码示例
    本文提供了Python瓦片图下载、合并、绘图、标记的代码示例,包括下载代码、多线程下载、图像处理等功能。通过参考geoserver,使用PIL、cv2、numpy、gdal、osr等库实现了瓦片图的下载、合并、绘图和标记功能。代码示例详细介绍了各个功能的实现方法,供读者参考使用。 ... [详细]
  • 006_Redis的List数据类型
    1.List类型是一个链表结构的集合,主要功能有push,pop,获取元素等。List类型是一个双端链表的结构,我们可以通过相关操作进行集合的头部或者尾部添加删除元素,List的设 ... [详细]
  • 本文介绍了Python爬虫技术基础篇面向对象高级编程(中)中的多重继承概念。通过继承,子类可以扩展父类的功能。文章以动物类层次的设计为例,讨论了按照不同分类方式设计类层次的复杂性和多重继承的优势。最后给出了哺乳动物和鸟类的设计示例,以及能跑、能飞、宠物类和非宠物类的增加对类数量的影响。 ... [详细]
  • 这是一个愚蠢的问题,但我只是对此感到好奇.假设我在Pythonshell,我有一些我查询的数据库对象.我做:db.query(的queryString)该查询在0xffdf842c ... [详细]
  • EPPlus绘制刻度线的方法及示例代码
    本文介绍了使用EPPlus绘制刻度线的方法,并提供了示例代码。通过ExcelPackage类和List对象,可以实现在Excel中绘制刻度线的功能。具体的方法和示例代码在文章中进行了详细的介绍和演示。 ... [详细]
  • 十大经典排序算法动图演示+Python实现
    本文介绍了十大经典排序算法的原理、演示和Python实现。排序算法分为内部排序和外部排序,常见的内部排序算法有插入排序、希尔排序、选择排序、冒泡排序、归并排序、快速排序、堆排序、基数排序等。文章还解释了时间复杂度和稳定性的概念,并提供了相关的名词解释。 ... [详细]
  • 展开全部下面的代码是创建一个立方体Thisexamplescreatesanddisplaysasimplebox.#Thefirstlineloadstheinit_disp ... [详细]
  • 不同优化算法的比较分析及实验验证
    本文介绍了神经网络优化中常用的优化方法,包括学习率调整和梯度估计修正,并通过实验验证了不同优化算法的效果。实验结果表明,Adam算法在综合考虑学习率调整和梯度估计修正方面表现较好。该研究对于优化神经网络的训练过程具有指导意义。 ... [详细]
  • 解决python matplotlib画水平直线的问题
    本文介绍了在使用python的matplotlib库画水平直线时可能遇到的问题,并提供了解决方法。通过导入numpy和matplotlib.pyplot模块,设置绘图对象的宽度和高度,以及使用plot函数绘制水平直线,可以解决该问题。 ... [详细]
  • 本文介绍了机器学习手册中关于日期和时区操作的重要性以及其在实际应用中的作用。文章以一个故事为背景,描述了学童们面对老先生的教导时的反应,以及上官如在这个过程中的表现。同时,文章也提到了顾慎为对上官如的恨意以及他们之间的矛盾源于早年的结局。最后,文章强调了日期和时区操作在机器学习中的重要性,并指出了其在实际应用中的作用和意义。 ... [详细]
  • OpenMap教程4 – 图层概述
    本文介绍了OpenMap教程4中关于地图图层的内容,包括将ShapeLayer添加到MapBean中的方法,OpenMap支持的图层类型以及使用BufferedLayer创建图像的MapBean。此外,还介绍了Layer背景标志的作用和OMGraphicHandlerLayer的基础层类。 ... [详细]
author-avatar
荷塘一只嫩藕
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有