TensorFlow2.0中的Keras数据归一化实践

作者：dmcm0001 | 来源：互联网 | 2024-12-03 18:24

数据预处理是机器学习任务中的关键步骤，特别是在深度学习领域。通过将数据归一化至特定范围，可以在梯度下降过程中实现更快的收敛速度和更高的模型性能。本文探讨了如何使用TensorFlow2.0和Keras进行有效的数据归一化。

在机器学习项目中，数据预处理是确保模型能够有效学习的重要环节。特别是对于深度学习模型而言，数据的归一化处理尤为重要，因为它能帮助模型更快地收敛，并提高最终的预测准确性。本文将介绍如何使用 TensorFlow 2.0 和 Keras 来实现这一过程。

在深度学习中，数据归一化是指将不同量级的数据调整到同一尺度，从而避免某些特征因为数值较大而主导模型的学习过程。这种做法有助于保持所有特征在训练过程中的相对重要性，进而提升模型的整体表现。

数据归一化的数学表达式通常为：
数据归一化公式

实战演练：使用 TensorFlow 2.0 和 Keras 进行数据归一化

为了更好地理解数据归一化的过程，我们将通过一个具体的例子来演示如何在 TensorFlow 2.0 中使用 Keras 对 Fashion MNIST 数据集进行归一化处理。以下是详细的代码示例：

首先，我们需要导入必要的库：

import matplotlib as mpl
import matplotlib.pyplot as plt
import numpy as np
import sklearn
import pandas as pd
import os
import sys
import time
import tensorflow as tf
from tensorflow import keras

print(tf.__version__)
print(sys.version_info)

for module in mpl, np, pd, sklearn, tf, keras:
    print(module.__name__, module.__version__)

接下来，加载并分割数据集：

fashion_mnist = keras.datasets.fashion_mnist
(x_train_all, y_train_all), (x_test, y_test) = fashion_mnist.load_data()

x_valid, x_train = x_train_all[:5000], x_train_all[5000:]
y_valid, y_train = y_train_all[:5000], y_train_all[5000:]

print(x_valid.shape, y_valid.shape)
print(x_train.shape, y_train.shape)
print(x_test.shape, y_test.shape)

检查原始数据的最大值和最小值：

print(np.max(x_train), np.min(x_train))

输出结果显示，训练集中的像素值范围为 0 到 255。为了使这些值更适合神经网络的输入，我们对其进行归一化处理：

from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
x_train_scaled = scaler.fit_transform(
    x_train.astype(np.float32).reshape(-1, 1)).reshape(-1, 28, 28)
x_valid_scaled = scaler.transform(
    x_valid.astype(np.float32).reshape(-1, 1)).reshape(-1, 28, 28)
x_test_scaled = scaler.transform(
    x_test.astype(np.float32).reshape(-1, 1)).reshape(-1, 28, 28)

在这个过程中，StandardScaler 类用于计算训练数据的均值和标准差，并据此对数据进行缩放。值得注意的是，训练数据使用 fit_transform 方法，而验证和测试数据则仅使用 transform 方法，以确保模型不会受到未见数据的影响。

归一化后，再次检查数据的最大值和最小值：

print(np.max(x_train_scaled), np.min(x_train_scaled))

接下来，构建并训练一个简单的多层感知器模型：

model = keras.models.Sequential([
    keras.layers.Flatten(input_shape=[28, 28]),
    keras.layers.Dense(300, activation='relu'),
    keras.layers.Dense(100, activation='relu'),
    keras.layers.Dense(10, activation='softmax')
])

model.compile(loss='sparse_categorical_crossentropy',
              optimizer='sgd',
              metrics=['accuracy'])

history = model.fit(x_train_scaled, y_train, epochs=10,
                    validation_data=(x_valid_scaled, y_valid))

训练过程中的日志显示，随着训练的进行，模型的准确率逐渐提高，验证集上的表现也有所改善。这表明数据归一化确实有助于提升模型性能。

最后，可以通过绘制学习曲线来直观地观察模型的训练情况：

def plot_learning_curves(history):
    pd.DataFrame(history.history).plot(figsize=(8, 5))
    plt.grid(True)
    plt.gca().set_ylim(0, 1)
    plt.show()

plot_learning_curves(history)

此外，还可以对测试集进行评估，以了解模型在未见过的数据上的表现：

model.evaluate(x_test_scaled, y_test)

评估结果显示，模型在测试集上的准确率为 0.8825，进一步验证了数据归一化对模型性能的积极影响。

推荐阅读

io
TensorFlow 2.0 实战：多层感知机（MLP）网络入门

本教程详细介绍了如何使用 TensorFlow 2.0 构建和训练多层感知机（MLP）网络，涵盖回归和分类任务。通过具体示例和代码实现，帮助初学者快速掌握 TensorFlow 的核心概念和操作。 ... [详细]

蜡笔小新 2024-12-22 19:56:15
io
分页插件3指定到某一页

前言--页数多了以后需要指定到某一页（只做了功能，样式没有细调）html ... [详细]

蜡笔小新 2024-12-27 15:19:01
io
Logistic Regression 实现与解析

本文详细介绍了使用NumPy和TensorFlow实现的逻辑回归算法。通过具体代码示例，解释了数据加载、模型训练及分类预测的过程。 ... [详细]

蜡笔小新 2024-12-12 14:21:41
io
golang常用库：配置文件解析库/管理工具viper使用

golang常用库：配置文件解析库管理工具-viper使用-一、viper简介viper配置管理解析库，是由大神SteveFrancia开发，他在google领导着golang的 ... [详细]

蜡笔小新 2024-12-28 13:47:52
io
Transforming the Future of Virtual Worlds

Explore how Matterverse is redefining the metaverse experience, creating immersive and meaningful virtual environments that foster genuine connections and economic opportunities. ... [详细]

蜡笔小新 2024-12-28 09:44:49
io
技术分享：从动态网站提取站点密钥的解决方案

本文探讨了如何从动态网站中提取站点密钥，特别是针对验证码（reCAPTCHA）的处理方法。通过结合Selenium和requests库，提供了详细的代码示例和优化建议。 ... [详细]

蜡笔小新 2024-12-28 04:11:47
io
Python 的 10 个开发技巧！太实用了

1.如何在运行状态查看源代码？查看函数的源代码，我们通常会使用IDE来完成。比如在PyCharm中，你可以Ctrl+鼠标点击进入函数的源代码。那如果没有IDE呢？当我们想使用一个函 ... [详细]

蜡笔小新 2024-12-27 18:36:54
client
Python自动化处理：从Word文档提取内容并生成带水印的PDF

本文介绍如何利用Python实现从特定网站下载Word文档，去除水印并添加自定义水印，最终将文档转换为PDF格式。该方法适用于批量处理和自动化需求。 ... [详细]

蜡笔小新 2024-12-27 13:10:20
io
Objective-C 编程中的关键语法点

本文探讨了 Objective-C 中的一些重要语法特性，包括 goto 语句、块（block）的使用、访问修饰符以及属性管理等。通过实例代码和详细解释，帮助开发者更好地理解和应用这些特性。 ... [详细]

蜡笔小新 2024-12-26 19:42:38
io
从零构建递归神经网络：仅用NumPy实现

尽管使用TensorFlow和PyTorch等成熟框架可以显著降低实现递归神经网络（RNN）的门槛，但对于初学者来说，理解其底层原理至关重要。本文将引导您使用NumPy从头构建一个用于自然语言处理（NLP）的RNN模型。 ... [详细]

蜡笔小新 2024-12-26 11:29:15
io
基于目标检测结果的特定类别图像与XML文件快速分析方法

本文介绍了一种根据目标检测结果，从原始XML文件中提取并分析特定类别的方法。通过解析XML文件，筛选出特定类别的图像和标注信息，并保存到新的文件夹中，以便进一步分析和处理。 ... [详细]

蜡笔小新 2024-12-19 17:32:58
io
深入浅出TensorFlow数据读写机制

本文详细介绍TensorFlow中的数据读写操作，包括TFRecord文件的创建与读取，以及数据集（dataset）的相关概念和使用方法。 ... [详细]

蜡笔小新 2024-12-19 16:23:17
io
Keras 实战：自编码器入门指南

本文介绍了使用 Keras 框架实现自编码器的基本方法。自编码器是一种用于无监督学习的神经网络模型，主要功能包括数据降维、特征提取等。通过实际案例，我们将展示如何使用全连接层和卷积层来构建自编码器，并讨论不同维度对重建效果的影响。 ... [详细]

蜡笔小新 2024-12-18 17:30:35
io
资源推荐 | TensorFlow官方中文教程助力英语非母语者学习

来源：机器之心。本文详细介绍了TensorFlow官方提供的中文版教程和指南，帮助开发者更好地理解和应用这一强大的开源机器学习平台。 ... [详细]

蜡笔小新 2024-12-28 09:00:51
io
Java 中 Writer flush()方法，示例

Java 中 Writer flush()方法，示例 ... [详细]

蜡笔小新 2024-12-28 06:41:52

dmcm0001

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章