热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

javadataset读取数据,TensorFlow读写数据

前言回顾前面:众所周知,要训练出一个模型,首先我们得有数据。我们第一个例子中,直接使用dataset的api去加载mnist

前言

回顾前面:

众所周知,要训练出一个模型,首先我们得有数据。我们第一个例子中,直接使用dataset的api去加载mnist的数据。(minst的数据要么我们是提前下载好,放在对应的目录上,要么就根据他给的url直接从网上下载)。

一般来说,我们使用TensorFlow是从TFRecord文件中读取数据的。

TFRecord 文件格式是一种面向记录的简单二进制格式,很多 TensorFlow 应用采用此格式来训练数据

所以,这篇文章来聊聊怎么读取TFRecord文件的数据。

一、入门对数据集的数据进行读和写

首先,我们来体验一下怎么造一个TFRecord文件,怎么从TFRecord文件中读取数据,遍历(消费)这些数据。

1.1 造一个TFRecord文件

现在,我们还没有TFRecord文件,我们可以自己简单写一个:

def write_sample_to_tfrecord():

gmv_values = np.arange(10)

click_values = np.arange(10)

label_values = np.arange(10)

with tf.python_io.TFRecordWriter("/Users/zhongfucheng/data/fashin/demo.tfrecord", options=None) as writer:

for _ in range(10):

feature_internal = {

"gmv": tf.train.Feature(float_list=tf.train.FloatList(value=[gmv_values[_]])),

"click": tf.train.Feature(int64_list=tf.train.Int64List(value=[click_values[_]])),

"label": tf.train.Feature(int64_list=tf.train.Int64List(value=[label_values[_]]))

}

features_extern = tf.train.Features(feature=feature_internal)

# 使用tf.train.Example将features编码数据封装成特定的PB协议格式

# example = tf.train.Example(features=tf.train.Features(feature=features_extern))

example = tf.train.Example(features=features_extern)

# 将example数据系列化为字符串

example_str = example.SerializeToString()

# 将系列化为字符串的example数据写入协议缓冲区

writer.write(example_str)

if __name__ == '__main__':

write_sample_to_tfrecord()

我相信大家代码应该是能够看得懂的,其实就是分了几步:

生成TFRecord Writer

tf.train.Feature生成协议信息

使用tf.train.Example将features编码数据封装成特定的PB协议格式

将example数据系列化为字符串

将系列化为字符串的example数据写入协议缓冲区

参考资料:

ok,现在我们就有了一个TFRecord文件啦。

1.2 读取TFRecord文件

其实就是通过tf.data.TFRecordDataset这个api来读取到TFRecord文件,生成处dataset对象

对dataset进行处理(shape处理,格式处理...等等)

使用迭代器对dataset进行消费(遍历)

demo代码如下:

import tensorflow as tf

def read_tensorflow_tfrecord_files():

# 定义消费缓冲区协议的parser,作为dataset.map()方法中传入的lambda:

def _parse_function(single_sample):

features = {

"gmv": tf.FixedLenFeature([1], tf.float32),

"click": tf.FixedLenFeature([1], tf.int64), # ()或者[]没啥影响

"label": tf.FixedLenFeature([1], tf.int64)

}

parsed_features = tf.parse_single_example(single_sample, features=features)

# 对parsed 之后的值进行cast.

gmv = tf.cast(parsed_features["gmv"], tf.float64)

click = tf.cast(parsed_features["click"], tf.float64)

label = tf.cast(parsed_features["label"], tf.float64)

return gmv, click, label

# 开始定义dataset以及解析tfrecord格式

filenames = tf.placeholder(tf.string, shape=[None])

# 定义dataset 和 一些列trasformation method

dataset = tf.data.TFRecordDataset(filenames)

parsed_dataset = dataset.map(_parse_function) # 消费缓冲区需要定义在dataset 的map 函数中

batchd_dataset = parsed_dataset.batch(3)

# 创建Iterator

sample_iter = batchd_dataset.make_initializable_iterator()

# 获取next_sample

gmv, click, label = sample_iter.get_next()

training_filenames = [

"/Users/zhongfucheng/data/fashin/demo.tfrecord"]

with tf.Session() as session:

# 初始化带参数的Iterator

session.run(sample_iter.initializer, feed_dict={filenames: training_filenames})

# 读取文件

print(session.run(gmv))

if __name__ == '__main__':

read_tensorflow_tfrecord_files()

无意外的话,我们可以输出这样的结果:

[[0.]

[1.]

[2.]]

ok,现在我们已经大概知道怎么写一个TFRecord文件,以及怎么读取TFRecord文件的数据,并且消费这些数据了。

二、epoch和batchSize术语解释

我在学习TensorFlow翻阅资料时,经常看到一些机器学习的术语,由于自己没啥机器学习的基础,所以很多时候看到一些专业名词就开始懵逼了。

2.1epoch

当一个完整的数据集通过了神经网络一次并且返回了一次,这个过程称为一个epoch。

这可能使我们跟dataset.repeat()方法联系起来,这个方法可以使当前数据集重复一遍。比如说,原有的数据集是[1,2,3,4,5],如果我调用dataset.repeat(2)的话,那么我们的数据集就变成了[1,2,3,4,5],[1,2,3,4,5]

所以会有个说法:假设原先的数据是一个epoch,使用repeat(5)就可以将之变成5个epoch

2.2batchSize

一般来说我们的数据集都是比较大的,无法一次性将整个数据集的数据喂进神经网络中,所以我们会将数据集分成好几个部分。每次喂多少条样本进神经网络,这个叫做batchSize。

在TensorFlow也提供了方法给我们设置:dataset.batch(),在API中是这样介绍batchSize的:

representing the number of consecutive elements of this dataset to combine in a single batch

我们一般在每次训练之前,会将整个数据集的顺序打乱,提高我们模型训练的效果。这里我们用到的api是:dataset.shffle();

三、再来聊聊dataset

我从官网的介绍中截了一个dataset的方法图(部分):

1460000018530101?w=332&h=988

dataset的功能主要有以下三种:

创建dataset实例

通过文件创建(比如TFRecord)

通过内存创建

对数据集的数据进行变换

比如上面的batch(),常见的map(),flat_map(),zip(),repeat()等等

文档中一般都有给出例子,跑一下一般就知道对应的意思了。

创建迭代器,遍历数据集的数据

3.1 聊聊迭代器

迭代器可以分为四种:

单次。对数据集进行一次迭代,不支持参数化

可初始化迭代

使用前需要进行初始化,支持传入参数。面向的是同一个DataSet

可重新初始化:同一个Iterator从不同的DataSet中读取数据

DataSet的对象具有相同的结构,可以使用tf.data.Iterator.from_structure来进行初始化

问题:每次 Iterator 切换时,数据都从头开始打印了

可馈送(也是通过对象相同的结果来创建的迭代器)

可让您在两个数据集之间切换的可馈送迭代器

通过一个string handler来实现。

可馈送的 Iterator 在不同的 Iterator 切换的时候,可以做到不从头开始。

简单总结:

1、 单次 Iterator ,它最简单,但无法重用,无法处理数据集参数化的要求。

2、 可以初始化的 Iterator ,它可以满足 Dataset 重复加载数据,满足了参数化要求。

3、可重新初始化的 Iterator,它可以对接不同的 Dataset,也就是可以从不同的 Dataset 中读取数据。

4、可馈送的 Iterator,它可以通过 feeding 的方式,让程序在运行时候选择正确的 Iterator,它和可重新初始化的 Iterator 不同的地方就是它的数据在不同的 Iterator 切换时,可以做到不重头开始读取数据。

string handler(可馈送的 Iterator)这种方式是最常使用的,我当时也写了一个Demo来使用了一下,代码如下:

def read_tensorflow_tfrecord_files():

# 开始定义dataset以及解析tfrecord格式.

train_filenames = tf.placeholder(tf.string, shape=[None])

vali_filenames = tf.placeholder(tf.string, shape=[None])

# 加载train_dataset batch_inputs这个方法每个人都不一样的,这个方法我就不给了。

train_dataset = batch_inputs([

train_filenames], batch_size=5, type=False,

num_epochs=2, num_preprocess_threads=3)

# 加载validation_dataset batch_inputs这个方法每个人都不一样的,这个方法我就不给了。

validation_dataset = batch_inputs([vali_filenames

], batch_size=5, type=False,

num_epochs=2, num_preprocess_threads=3)

# 创建出string_handler()的迭代器(通过相同数据结构的dataset来构建)

handle = tf.placeholder(tf.string, shape=[])

iterator = tf.data.Iterator.from_string_handle(

handle, train_dataset.output_types, train_dataset.output_shapes)

# 有了迭代器就可以调用next方法了。

itemid = iterator.get_next()

# 指定哪种具体的迭代器,有单次迭代的,有初始化的。

training_iterator = train_dataset.make_initializable_iterator()

validation_iterator = validation_dataset.make_initializable_iterator()

# 定义出placeholder的值

training_filenames = [

"/Users/zhongfucheng/tfrecord_test/data01aa"]

validation_filenames = ["/Users/zhongfucheng/tfrecord_validation/part-r-00766"]

with tf.Session() as sess:

# 初始化迭代器

training_handle = sess.run(training_iterator.string_handle())

validation_handle = sess.run(validation_iterator.string_handle())

for _ in range(2):

sess.run(training_iterator.initializer, feed_dict={train_filenames: training_filenames})

print("this is training iterator ----")

for _ in range(5):

print(sess.run(itemid, feed_dict={handle: training_handle}))

sess.run(validation_iterator.initializer,

feed_dict={vali_filenames: validation_filenames})

print("this is validation iterator ")

for _ in range(5):

print(sess.run(itemid, feed_dict={vali_filenames: validation_filenames, handle: validation_handle}))

if __name__ == '__main__':

read_tensorflow_tfrecord_files()

参考资料:

3.2 dataset参考资料

在翻阅资料时,发现写得不错的一些博客:

最后

乐于输出干货的Java技术公众号:Java3y。公众号内有200多篇原创技术文章、海量视频资源、精美脑图,不妨来关注一下!

下一篇文章打算讲讲如何理解axis~

1460000018530102?w=258&h=258

觉得我的文章写得不错,不妨点一下赞!



推荐阅读
  • 本文探讨了如何使用Scrapy框架构建高效的数据采集系统,以及如何通过异步处理技术提升数据存储的效率。同时,文章还介绍了针对不同网站采用的不同采集策略。 ... [详细]
  • 探索CNN的可视化技术
    神经网络的可视化在理论学习与实践应用中扮演着至关重要的角色。本文深入探讨了三种有效的CNN(卷积神经网络)可视化方法,旨在帮助读者更好地理解和优化模型。 ... [详细]
  • 本文探讨了在已知最终数组尺寸不会超过5000x10的情况下,如何利用预分配和调整大小的方法来优化Numpy数组的创建过程,以提高性能并减少内存消耗。 ... [详细]
  • Exploring issues and solutions when defining multiple Faust agents programmatically. ... [详细]
  • 使用R语言进行Foodmart数据的关联规则分析与可视化
    本文探讨了如何利用R语言中的arules和arulesViz包对Foodmart数据集进行关联规则的挖掘与可视化。文章首先介绍了数据集的基本情况,然后逐步展示了如何进行数据预处理、规则挖掘及结果的图形化呈现。 ... [详细]
  • 本文探讨了Android系统中联系人数据库的设计,特别是AbstractContactsProvider类的作用与实现。文章提供了对源代码的详细分析,并解释了该类如何支持跨数据库操作及事务处理。源代码可从官方Android网站下载。 ... [详细]
  • 本文探讨了在Python中多线程与多进程的性能差异,特别是在处理CPU密集型任务和I/O密集型任务时的表现。由于全局解释器锁(GIL)的存在,多线程在利用多核CPU方面表现不佳,而多进程则能有效利用多核资源。 ... [详细]
  • This article explores the process of integrating Promises into Ext Ajax calls for a more functional programming approach, along with detailed steps on testing these asynchronous operations. ... [详细]
  • 一.数据基本类型之set集合set和dict类似,也是一组key的集合,但不存储value。由于key不能重复,所以,在se ... [详细]
  • selenium通过JS语法操作页面元素
    做过web测试的小伙伴们都知道,web元素现在很多是JS写的,那么既然是JS写的,可以通过JS语言去操作页面,来帮助我们操作一些selenium不能覆盖的功能。问题来了我们能否通过 ... [详细]
  • iOS如何实现手势
    这篇文章主要为大家展示了“iOS如何实现手势”,内容简而易懂,条理清晰,希望能够帮助大家解决疑惑,下面让小编带领大家一起研究并学习一下“iOS ... [详细]
  • 本文详细介绍了如何在PyQt5中创建简易对话框,包括对话框的基本结构、布局管理以及源代码实现。通过实例代码,展示了如何设置窗口部件、布局方式及对话框的基本操作。 ... [详细]
  • 一、使用Microsoft.Office.Interop.Excel.DLL需要安装Office代码如下:2publicstaticboolExportExcel(S ... [详细]
  • 本文介绍了如何使用 Python 的 Pyglet 库加载并显示图像。Pyglet 是一个用于开发图形用户界面应用的强大工具,特别适用于游戏和多媒体项目。 ... [详细]
  • 本文介绍了使用Python和C语言编写程序来计算一个给定数值的平方根的方法。通过迭代算法,我们能够精确地得到所需的结果。 ... [详细]
author-avatar
手机用户2502905627_315
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有