javadataset读取数据,TensorFlow读写数据

作者：手机用户2502905627_315 | 来源：互联网 | 2023-10-13 07:48

前言回顾前面：众所周知，要训练出一个模型，首先我们得有数据。我们第一个例子中，直接使用dataset的api去加载mnist

前言

回顾前面&＃xff1a;

众所周知&＃xff0c;要训练出一个模型&＃xff0c;首先我们得有数据。我们第一个例子中&＃xff0c;直接使用dataset的api去加载mnist的数据。(minst的数据要么我们是提前下载好&＃xff0c;放在对应的目录上&＃xff0c;要么就根据他给的url直接从网上下载)。

一般来说&＃xff0c;我们使用TensorFlow是从TFRecord文件中读取数据的。

TFRecord 文件格式是一种面向记录的简单二进制格式&＃xff0c;很多 TensorFlow 应用采用此格式来训练数据

所以&＃xff0c;这篇文章来聊聊怎么读取TFRecord文件的数据。

一、入门对数据集的数据进行读和写

首先&＃xff0c;我们来体验一下怎么造一个TFRecord文件&＃xff0c;怎么从TFRecord文件中读取数据&＃xff0c;遍历(消费)这些数据。

1.1 造一个TFRecord文件

现在&＃xff0c;我们还没有TFRecord文件&＃xff0c;我们可以自己简单写一个&＃xff1a;

def write_sample_to_tfrecord():

gmv_values &＃61; np.arange(10)

click_values &＃61; np.arange(10)

label_values &＃61; np.arange(10)

with tf.python_io.TFRecordWriter("/Users/zhongfucheng/data/fashin/demo.tfrecord", options&＃61;None) as writer:

for _ in range(10):

feature_internal &＃61; {

"gmv": tf.train.Feature(float_list&＃61;tf.train.FloatList(value&＃61;[gmv_values[_]])),

"click": tf.train.Feature(int64_list&＃61;tf.train.Int64List(value&＃61;[click_values[_]])),

"label": tf.train.Feature(int64_list&＃61;tf.train.Int64List(value&＃61;[label_values[_]]))

}

features_extern &＃61; tf.train.Features(feature&＃61;feature_internal)

# 使用tf.train.Example将features编码数据封装成特定的PB协议格式

# example &＃61; tf.train.Example(features&＃61;tf.train.Features(feature&＃61;features_extern))

example &＃61; tf.train.Example(features&＃61;features_extern)

# 将example数据系列化为字符串

example_str &＃61; example.SerializeToString()

# 将系列化为字符串的example数据写入协议缓冲区

writer.write(example_str)

if __name__ &＃61;&＃61; &＃39;__main__&＃39;:

write_sample_to_tfrecord()

我相信大家代码应该是能够看得懂的&＃xff0c;其实就是分了几步&＃xff1a;

生成TFRecord Writer

tf.train.Feature生成协议信息

使用tf.train.Example将features编码数据封装成特定的PB协议格式

将example数据系列化为字符串

将系列化为字符串的example数据写入协议缓冲区

参考资料&＃xff1a;

ok&＃xff0c;现在我们就有了一个TFRecord文件啦。

1.2 读取TFRecord文件

其实就是通过tf.data.TFRecordDataset这个api来读取到TFRecord文件&＃xff0c;生成处dataset对象

对dataset进行处理(shape处理&＃xff0c;格式处理...等等)

使用迭代器对dataset进行消费(遍历)

demo代码如下&＃xff1a;

import tensorflow as tf

def read_tensorflow_tfrecord_files():

# 定义消费缓冲区协议的parser,作为dataset.map()方法中传入的lambda:

def _parse_function(single_sample):

features &＃61; {

"gmv": tf.FixedLenFeature([1], tf.float32),

"click": tf.FixedLenFeature([1], tf.int64), # ()或者[]没啥影响

"label": tf.FixedLenFeature([1], tf.int64)

}

parsed_features &＃61; tf.parse_single_example(single_sample, features&＃61;features)

# 对parsed 之后的值进行cast.

gmv &＃61; tf.cast(parsed_features["gmv"], tf.float64)

click &＃61; tf.cast(parsed_features["click"], tf.float64)

label &＃61; tf.cast(parsed_features["label"], tf.float64)

return gmv, click, label

# 开始定义dataset以及解析tfrecord格式

filenames &＃61; tf.placeholder(tf.string, shape&＃61;[None])

# 定义dataset 和一些列trasformation method

dataset &＃61; tf.data.TFRecordDataset(filenames)

parsed_dataset &＃61; dataset.map(_parse_function) # 消费缓冲区需要定义在dataset 的map 函数中

batchd_dataset &＃61; parsed_dataset.batch(3)

# 创建Iterator

sample_iter &＃61; batchd_dataset.make_initializable_iterator()

# 获取next_sample

gmv, click, label &＃61; sample_iter.get_next()

training_filenames &＃61; [

"/Users/zhongfucheng/data/fashin/demo.tfrecord"]

with tf.Session() as session:

# 初始化带参数的Iterator

session.run(sample_iter.initializer, feed_dict&＃61;{filenames: training_filenames})

# 读取文件

print(session.run(gmv))

if __name__ &＃61;&＃61; &＃39;__main__&＃39;:

read_tensorflow_tfrecord_files()

无意外的话&＃xff0c;我们可以输出这样的结果&＃xff1a;

[[0.]

[1.]

[2.]]

ok&＃xff0c;现在我们已经大概知道怎么写一个TFRecord文件&＃xff0c;以及怎么读取TFRecord文件的数据&＃xff0c;并且消费这些数据了。

二、epoch和batchSize术语解释

我在学习TensorFlow翻阅资料时&＃xff0c;经常看到一些机器学习的术语&＃xff0c;由于自己没啥机器学习的基础&＃xff0c;所以很多时候看到一些专业名词就开始懵逼了。

2.1epoch

当一个完整的数据集通过了神经网络一次并且返回了一次&＃xff0c;这个过程称为一个epoch。

这可能使我们跟dataset.repeat()方法联系起来&＃xff0c;这个方法可以使当前数据集重复一遍。比如说&＃xff0c;原有的数据集是[1,2,3,4,5]&＃xff0c;如果我调用dataset.repeat(2)的话&＃xff0c;那么我们的数据集就变成了[1,2,3,4,5],[1,2,3,4,5]

所以会有个说法&＃xff1a;假设原先的数据是一个epoch&＃xff0c;使用repeat(5)就可以将之变成5个epoch

2.2batchSize

一般来说我们的数据集都是比较大的&＃xff0c;无法一次性将整个数据集的数据喂进神经网络中&＃xff0c;所以我们会将数据集分成好几个部分。每次喂多少条样本进神经网络&＃xff0c;这个叫做batchSize。

在TensorFlow也提供了方法给我们设置&＃xff1a;dataset.batch()&＃xff0c;在API中是这样介绍batchSize的&＃xff1a;

representing the number of consecutive elements of this dataset to combine in a single batch

我们一般在每次训练之前&＃xff0c;会将整个数据集的顺序打乱&＃xff0c;提高我们模型训练的效果。这里我们用到的api是&＃xff1a;dataset.shffle();

三、再来聊聊dataset

我从官网的介绍中截了一个dataset的方法图(部分)&＃xff1a;

1460000018530101?w&＃61;332&h&＃61;988

dataset的功能主要有以下三种&＃xff1a;

创建dataset实例

通过文件创建(比如TFRecord)

通过内存创建

对数据集的数据进行变换

比如上面的batch()&＃xff0c;常见的map(),flat_map(),zip(),repeat()等等

文档中一般都有给出例子&＃xff0c;跑一下一般就知道对应的意思了。

创建迭代器&＃xff0c;遍历数据集的数据

3.1 聊聊迭代器

迭代器可以分为四种&＃xff1a;

单次。对数据集进行一次迭代&＃xff0c;不支持参数化

可初始化迭代

使用前需要进行初始化&＃xff0c;支持传入参数。面向的是同一个DataSet

可重新初始化&＃xff1a;同一个Iterator从不同的DataSet中读取数据

DataSet的对象具有相同的结构&＃xff0c;可以使用tf.data.Iterator.from_structure来进行初始化

问题&＃xff1a;每次 Iterator 切换时&＃xff0c;数据都从头开始打印了

可馈送(也是通过对象相同的结果来创建的迭代器)

可让您在两个数据集之间切换的可馈送迭代器

通过一个string handler来实现。

可馈送的 Iterator 在不同的 Iterator 切换的时候&＃xff0c;可以做到不从头开始。

简单总结&＃xff1a;

1、单次 Iterator &＃xff0c;它最简单&＃xff0c;但无法重用&＃xff0c;无法处理数据集参数化的要求。

2、可以初始化的 Iterator &＃xff0c;它可以满足 Dataset 重复加载数据&＃xff0c;满足了参数化要求。

3、可重新初始化的 Iterator&＃xff0c;它可以对接不同的 Dataset&＃xff0c;也就是可以从不同的 Dataset 中读取数据。

4、可馈送的 Iterator&＃xff0c;它可以通过 feeding 的方式&＃xff0c;让程序在运行时候选择正确的 Iterator,它和可重新初始化的 Iterator 不同的地方就是它的数据在不同的 Iterator 切换时&＃xff0c;可以做到不重头开始读取数据。

string handler(可馈送的 Iterator)这种方式是最常使用的&＃xff0c;我当时也写了一个Demo来使用了一下&＃xff0c;代码如下&＃xff1a;

def read_tensorflow_tfrecord_files():

# 开始定义dataset以及解析tfrecord格式.

train_filenames &＃61; tf.placeholder(tf.string, shape&＃61;[None])

vali_filenames &＃61; tf.placeholder(tf.string, shape&＃61;[None])

# 加载train_dataset batch_inputs这个方法每个人都不一样的&＃xff0c;这个方法我就不给了。

train_dataset &＃61; batch_inputs([

train_filenames], batch_size&＃61;5, type&＃61;False,

num_epochs&＃61;2, num_preprocess_threads&＃61;3)

# 加载validation_dataset batch_inputs这个方法每个人都不一样的&＃xff0c;这个方法我就不给了。

validation_dataset &＃61; batch_inputs([vali_filenames

], batch_size&＃61;5, type&＃61;False,

num_epochs&＃61;2, num_preprocess_threads&＃61;3)

# 创建出string_handler()的迭代器(通过相同数据结构的dataset来构建)

handle &＃61; tf.placeholder(tf.string, shape&＃61;[])

iterator &＃61; tf.data.Iterator.from_string_handle(

handle, train_dataset.output_types, train_dataset.output_shapes)

# 有了迭代器就可以调用next方法了。

itemid &＃61; iterator.get_next()

# 指定哪种具体的迭代器&＃xff0c;有单次迭代的&＃xff0c;有初始化的。

training_iterator &＃61; train_dataset.make_initializable_iterator()

validation_iterator &＃61; validation_dataset.make_initializable_iterator()

# 定义出placeholder的值

training_filenames &＃61; [

"/Users/zhongfucheng/tfrecord_test/data01aa"]

validation_filenames &＃61; ["/Users/zhongfucheng/tfrecord_validation/part-r-00766"]

with tf.Session() as sess:

# 初始化迭代器

training_handle &＃61; sess.run(training_iterator.string_handle())

validation_handle &＃61; sess.run(validation_iterator.string_handle())

for _ in range(2):

sess.run(training_iterator.initializer, feed_dict&＃61;{train_filenames: training_filenames})

print("this is training iterator ----")

for _ in range(5):

print(sess.run(itemid, feed_dict&＃61;{handle: training_handle}))

sess.run(validation_iterator.initializer,

feed_dict&＃61;{vali_filenames: validation_filenames})

print("this is validation iterator ")

for _ in range(5):

print(sess.run(itemid, feed_dict&＃61;{vali_filenames: validation_filenames, handle: validation_handle}))

if __name__ &＃61;&＃61; &＃39;__main__&＃39;:

read_tensorflow_tfrecord_files()

参考资料&＃xff1a;

3.2 dataset参考资料

在翻阅资料时&＃xff0c;发现写得不错的一些博客&＃xff1a;

最后

乐于输出干货的Java技术公众号&＃xff1a;Java3y。公众号内有200多篇原创技术文章、海量视频资源、精美脑图&＃xff0c;不妨来关注一下&＃xff01;

下一篇文章打算讲讲如何理解axis~

1460000018530102?w&＃61;258&h&＃61;258

觉得我的文章写得不错&＃xff0c;不妨点一下赞&＃xff01;

推荐阅读

java
java编写的简易计算器

主要用了2个类来实现的，话不多说，直接看运行结果，然后在奉上源代码1.Index.javaimportjava.awt.Color;im ... [详细]

蜡笔小新 2024-12-27 18:18:10
list
Transforming the Future of Virtual Worlds

Explore how Matterverse is redefining the metaverse experience, creating immersive and meaningful virtual environments that foster genuine connections and economic opportunities. ... [详细]

蜡笔小新 2024-12-28 09:44:49
java
深入理解org.neo4j.helpers.collection.Iterators.single()方法及其应用

本文详细介绍了Java中org.neo4j.helpers.collection.Iterators.single()方法的功能、使用场景及代码示例，帮助开发者更好地理解和应用该方法。 ... [详细]

蜡笔小新 2024-12-28 10:51:55
java
Handling Null Object Encoding in OAuth 1.0a API Implementation

Explore a common issue encountered when implementing an OAuth 1.0a API, specifically the inability to encode null objects and how to resolve it. ... [详细]

蜡笔小新 2024-12-28 08:54:34
js
技术分享：从动态网站提取站点密钥的解决方案

本文探讨了如何从动态网站中提取站点密钥，特别是针对验证码（reCAPTCHA）的处理方法。通过结合Selenium和requests库，提供了详细的代码示例和优化建议。 ... [详细]

蜡笔小新 2024-12-28 04:11:47
java
Java并发编程：LinkedBlockingQueue的实际应用

本文介绍了Java并发库中的阻塞队列（BlockingQueue）及其典型应用场景。通过具体实例，展示了如何利用LinkedBlockingQueue实现线程间高效、安全的数据传递，并结合线程池和原子类优化性能。 ... [详细]

蜡笔小新 2024-12-27 18:51:49
range
Python 的 10 个开发技巧！太实用了

1.如何在运行状态查看源代码？查看函数的源代码，我们通常会使用IDE来完成。比如在PyCharm中，你可以Ctrl+鼠标点击进入函数的源代码。那如果没有IDE呢？当我们想使用一个函 ... [详细]

蜡笔小新 2024-12-27 18:36:54
java
golang常用库：配置文件解析库/管理工具viper使用

golang常用库：配置文件解析库管理工具-viper使用-一、viper简介viper配置管理解析库，是由大神SteveFrancia开发，他在google领导着golang的 ... [详细]

蜡笔小新 2024-12-28 13:47:52
list
Android 模拟用户交互：点击与滑动操作的实现

本文介绍如何在 Android 中通过代码模拟用户的点击和滑动操作，包括参数说明、事件生成及处理逻辑。详细解析了视图（View）对象、坐标偏移量以及不同类型的滑动方式。 ... [详细]

蜡笔小新 2024-12-28 12:12:22
list
Python 异步编程：深入理解 asyncio 库（上）

本文介绍了 Python 3.4 版本引入的标准库 asyncio，该库为异步 IO 提供了强大的支持。我们将探讨为什么需要 asyncio，以及它如何简化并发编程的复杂性，并详细介绍其核心概念和使用方法。 ... [详细]

蜡笔小新 2024-12-28 11:52:00
java
优化ListView性能

本文深入探讨了如何通过多种技术手段优化ListView的性能，包括视图复用、ViewHolder模式、分批加载数据、图片优化及内存管理等。这些方法能够显著提升应用的响应速度和用户体验。 ... [详细]

蜡笔小新 2024-12-28 10:36:30
cmd
编写有趣的VBScript恶作剧脚本

本文将介绍如何编写一些有趣的VBScript脚本，这些脚本可以在朋友之间进行无害的恶作剧。通过简单的代码示例，帮助您了解VBScript的基本语法和功能。 ... [详细]

蜡笔小新 2024-12-28 09:46:23
post
深入理解Tornado模板系统

本文详细介绍了Tornado框架中模板系统的使用方法。Tornado自带的轻量级、高效且灵活的模板语言位于tornado.template模块，支持嵌入Python代码片段，帮助开发者快速构建动态网页。 ... [详细]

蜡笔小新 2024-12-27 19:22:16
java
深入解析ExpandableComposite.addExpansionListener()方法及其应用

本文详细介绍了Java中org.eclipse.ui.forms.widgets.ExpandableComposite类的addExpansionListener()方法，并提供了多个实际代码示例，帮助开发者更好地理解和使用该方法。这些示例来源于多个知名开源项目，具有很高的参考价值。 ... [详细]

蜡笔小新 2024-12-27 16:11:49
post
使用 Azure Service Principal 和 Microsoft Graph API 获取 AAD 用户列表

本文介绍了一段通用代码示例，该代码不仅能够操作 Azure Active Directory (AAD)，还可以通过 Azure Service Principal 的授权访问和管理 Azure 订阅资源。Azure 的架构可以分为两个层级：AAD 和 Subscription。 ... [详细]

蜡笔小新 2024-12-27 16:07:12

手机用户2502905627_315

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章