（数据科学学习手札36）tensorflow实现MLP

作者：AA一缕阳光 | 来源：互联网 | 2023-09-14 14:06

一、简介我们在前面的数据科学学习手札34中也介绍过，作为最典型的神经网络，多层感知机（MLP）结构简单且规则，并且在隐层设计的足够完善时，可以拟合任意连续函数，而除了利用前面介绍的sklear

一、简介

　　我们在前面的数据科学学习手札34中也介绍过，作为最典型的神经网络，多层感知机（MLP）结构简单且规则，并且在隐层设计的足够完善时，可以拟合任意连续函数，而除了利用前面介绍的sklearn.neural_network中的MLP来实现多层感知机之外，利用tensorflow来实现MLP更加形象，使得使用者对要搭建的神经网络的结构有一个更加清醒的认识，本文就将对tensorflow搭建MLP模型的方法进行一个简单的介绍，并实现MNIST数据集的分类任务；

二、MNIST分类

　　作为数据挖掘工作中处理的最多的任务，分类任务占据了机器学习的大半江山，而一个网络结构设计良好（即隐层层数和每个隐层神经元个数选择恰当）的多层感知机在分类任务上也有着非常优越的性能，依然以MNIST手写数字数据集作为演示，上一篇中我们利用一层输入层+softmax搭建的分类器在MNIST数据集的测试集上达到93%的精度，下面我们使用加上一层隐层的网络，以及一些tricks来看看能够提升多少精度；

网络结构：

　　这里我们搭建的多层前馈网络由784个输入层神经元——200个隐层神经元——10个输出层神经元组成，而为了减少梯度弥散现象，我们设置relu（非线性映射函数）为隐层的激活函数，如下图：

这种激活函数更接近生物神经元的工作机制，即在达到阈值之前持续抑制，在超越阈值之后开始兴奋；而对输出层，因为对数据做了one_hot处理，所以依然使用softmax进行处理；

Dropout：　　

　　过拟合是机器学习尤其是神经网络任务中经常发生的问题，即我们的学习器将训练集的独特性质当作全部数据集的普遍性质，使得学习器在训练集上的精度非常高，但在测试集上的精度却非常低（这里假设训练集与测试集数据分布一致），而除了随机梯度下降的一系列方法外（如上一篇中我们提到的在每轮训练中使用全体训练集中一个小尺寸的训练批来进行本轮的参数调整），我们可以使用类似的思想，将神经网络某一层的输出节点数据随机丢弃一部分，即令这部分被随机选中的节点输出值令为0，这样做等价于创造出很多新样本，通过增大样本量，减少特征数量来防止过拟合，dropout也算是一种bagging方法，可以将每次丢弃节点输出视为对特征的一次采样，相当于我们训练了一个ensemble的神经网络模型，对每个样本都做特征采样，并构成一个融合的神经网络

学习效率：

　　因为神经网络的训练通常不是一个凸优化问题，它充满了很多局部最优，因此我们通常不会采用标准的梯度下降算法，而是采用一些有更大可能跳出局部最优的算法，常用的如SGD，而SGD本身也不稳定，其结果也会在最优解附近波动，且设置不同的学习效率可能会导致我们的网络落入截然不同的局部最优之中，对于SGD，我们希望开始训练时学习率大一些，以加速收敛的过程，而后期学习率低一些，以更稳定地落入局部最优解，因此常使用Adagrad、Adam等自适应的优化方法，可以在其默认参数上取得较好的效果；

　　下面。就结合上述策略，利用tensorflow搭建我们的多层感知机来对MNIST手写数字数据集进行训练：

2.1 风格一

　　先使用朴素的风格来搭建网络，首先还是照例从tensorflow自带的数据集中提取出mnist数据集：

import tensorflow as tf
from tensorflow.examples.tutorials.mnist import input_data

'''导入MNIST手写数据'''
mnist = input_data.read_data_sets('MNIST_data/', one_hot = True)

　　接着使用交互环境下会话的方式，将生成的第一个会话作为默认会话：

'''注册默认的session，之后的运算都会在这个session中进行'''
sess = tf.InteractiveSession()

　　接着初始化输入层与隐层间的784x300个权值、隐层神经元的300个bias、隐层与输出层之间的300x10个权值、输出层的10个bias，其中为了避免隐层的relu激活时陷入0梯度的情况，对输入层和隐层间的权值初始化为均值为0，标准差为0.2的正态分布随机数，对其他参数初始化为0：

'''定义输入层神经元个数'''
in_units = 784

'''定义隐层神经元个数'''
h1_units = 300

'''为输入层与隐层神经元之间的连接权重初始化持久的正态分布随机数，这里权重为784乘300，300是隐层的尺寸'''
W1 = tf.Variable(tf.truncated_normal([in_units, h1_units],mean=0,stddev=0.2))

'''为隐层初始化bias，尺寸为300'''
b1 = tf.Variable(tf.zeros([h1_units]))

'''初始化隐层与输出层间的权重，尺寸为300X10'''
W2 = tf.Variable(tf.zeros([h1_units, 10]))

'''初始化输出层的bias'''
b2 = tf.Variable(tf.zeros([10]))

　　接着我们定义自变量、隐层神经元dropout中的保留比例keep_prob的输入部件：

'''定义自变量的输入部件，尺寸为 任意行X784列'''
x = tf.placeholder(tf.float32, [None, in_units])

'''为dropout中的保留比例设置输入部件'''
keep_prob = tf.placeholder(tf.float32)

　　接着定义隐层relu激活部分的计算部件、隐层dropout部分的操作部件、输出层softmax的计算部件：

'''定义隐层求解部件'''
hidden1 = tf.nn.relu(tf.matmul(x, W1) + b1)

'''定义隐层dropout操作部件'''
hidden1_drop = tf.nn.dropout(hidden1, keep_prob)

'''定义输出层softmax计算部件'''
y = tf.nn.softmax(tf.matmul(hidden1_drop, W2) + b2)

　　还有样本真实分类标签的输入部件以及loss_function部分的计算组件：

'''定义训练label的输入部件'''
y_ = tf.placeholder(tf.float32, [None, 10])

'''定义均方误差计算部件，这里注意要压成1维'''
loss_function = tf.reduce_mean(tf.reduce_sum((y_ - y)**2, reduction_indices=[1]))

　　这样我们的网络结构和计算部分全部搭建完成，接下来至关重要的一步就是定义优化器的组件，它会完成自动求导调整参数的工作，这里我们选择自适应的随机梯度下降算法Adagrad作为优化器，学习率尽量设置小一些，否则可能会导致网络的测试精度维持在一个很低的水平不变即在最优解附近来回震荡却难以接近最优解（亲测）：

'''定义优化器组件，这里采用AdagradOptimizer作为优化算法，这是种变种的随机梯度下降算法'''
train_step = tf.train.AdagradOptimizer(0.18).minimize(loss_function)

　　接下来就到了正式的训练过程了，我们激活当前会话中所有计算部件，并定义训练步数为15000步，每一轮迭代选择一个批量为100的训练批来进行训练，dropout的keep_prob设置为0.76，并在每50轮训练完成后将测试集输入到当前的网络中计算预测精度，注意在正式预测时dropout的keep_prob应设置为1.0，即不进行特征的丢弃：

'''激活当前session中的全部部件'''
tf.global_variables_initializer().run()

'''开始迭代训练过程，最大迭代次数为3001次'''
for i in range(15000):
    '''为每一轮训练选择一个尺寸为100的随机训练批'''
    batch_xs, batch_ys = mnist.train.next_batch(100)
    '''将当前轮迭代选择的训练批作为输入数据输入train_step中进行训练'''
    train_step.run({x: batch_xs, y_: batch_ys, keep_prob:0.76})
    '''每500轮打印一次当前网络在测试集上的训练结果'''
    if i % 50 == 0:
        print('第',i,'轮迭代后：')
        '''构造bool型变量用于判断所有测试样本与其真是类别的匹配情况'''
        correct_prediction = tf.equal(tf.argmax(y, 1), tf.argmax(y_, 1))
        '''将bool型变量转换为float型并计算均值'''
        accuracy = tf.reduce_mean(tf.cast(correct_prediction, tf.float32))
        '''激活accuracy计算组件并传入mnist的测试集自变量、标签及dropout保留比率，这里因为是预测所以设置为全部保留'''
        print(accuracy.eval({x: mnist.test.images,
                             y_: mnist.test.labels,
                             keep_prob: 1.0}))

　　经过全部迭代后，我们的多层感知机在测试集上达到了0.9802的精度表现如下图：

　　事实上在训练到10000轮左右的时候我们的多层感知机就已经到达这个精度了，说明此时的网络已经稳定在当前的最优解中，后面的训练过程只是在这个最优解附近微弱的震荡而已，所以实际上可以设置更小的迭代轮数；

2.2 风格二

　　除了上述的将网络结构部件的所有语句一条一条平铺直叙般编写的风格外，还有一种以自编函数来快捷定义网络结构的编程风格广受欢迎，如下：

　　在添加神经层的时候，我们可以事先编写自编函数如下：

'''自定义神经层添加函数'''
def add_layer(inputs, in_size, out_size, activation_function=None):

    '''定义权重项'''
    Weights = tf.Variable(tf.random_normal([in_size,out_size]))

    '''定义bias项'''
    biases = tf.Variable(tf.zeros([1,out_size]) + 0.1)

    '''权重与输入值的矩阵乘法+bias项'''
    Wx_plus_b = tf.matmul(inputs, Weights) + biases

    '''根据激活函数的设置来处理输出项'''
    if activation_function is None:
        outputs = Wx_plus_b
    else:
        outputs = activation_function(Wx_plus_b)
    return outputs

这样就可以用一个函数来代替数条语句，下面我们用这种风格来实现前面同样的功能：

import tensorflow as tf
from tensorflow.examples.tutorials.mnist import input_data


'''导入MNIST手写数据'''
mnist = input_data.read_data_sets('MNIST_data/', one_hot = True)

'''自定义神经层添加函数'''
def add_layer(inputs, in_size, out_size, activation_function=None):

    '''定义权重项'''
    Weights = tf.Variable(tf.truncated_normal([in_size,out_size],mean=0, stddev=0.2))

    '''定义bias项'''
    biases = tf.Variable(tf.zeros([1,out_size]) + 0.1)

    '''权重与输入值的矩阵乘法+bias项'''
    Wx_plus_b = tf.matmul(inputs, Weights) + biases

    '''根据激活函数的设置来处理输出项'''
    if activation_function is None:
        outputs = Wx_plus_b
    else:
        outputs = activation_function(Wx_plus_b)
    return outputs

'''创建样本数据和dropout参数的输入部件'''
x = tf.placeholder(tf.float32, [None, 784])
y = tf.placeholder(tf.float32, [None, 10])
keep_prob = tf.placeholder(tf.float32)

'''利用自编函数来生成隐层的计算部件，这里activation_function设置为relu'''
l1 = add_layer(x, 784,300, activation_function=tf.nn.relu)

'''对l1进行dropout处理'''
l1_dropout = tf.nn.dropout(l1,keep_prob)

'''利用自编函数对dropout后的隐层输出到输出层输出创建计算部件，这里将activation_function改成softmax'''
prediction = add_layer(l1_dropout, 300, 10, activation_function=tf.nn.softmax)

'''根据均方误差构造loss function计算部件'''
loss = tf.reduce_mean(tf.reduce_sum((prediction - y)**2, reduction_indices=[1]))

'''定义优化器部件'''
train_step = tf.train.AdagradOptimizer(0.3).minimize(loss)

'''激活所有部件'''
init = tf.global_variables_initializer()

'''创建新会话'''
sess = tf.Session()

'''在新会话中激活所有部件'''
sess.run(init)

'''10001次迭代训练，每200次输出一次当前网络在测试集上的精度'''
for i in range(10001):
    '''每次从训练集中抽出批量为200的训练批进行训练'''
    x_batch,y_batch = mnist.train.next_batch(200)
    '''激活sess中的train_step部件'''
    sess.run(train_step, feed_dict={x:x_batch, y:y_batch, keep_prob:0.75})
    '''每200次迭代打印一次当前精度'''
    if i %200 == 0:
        print('第',i,'轮迭代后：')
        '''创建精度计算部件'''
        whether_correct = tf.equal(tf.argmax(y, 1), tf.argmax(prediction, 1))
        accuracy = tf.reduce_mean(tf.cast(whether_correct, tf.float32))
        '''在sess中激活精度计算部件来计算当前网络的精度'''
        print(sess.run(accuracy, feed_dict={x:mnist.test.images,
                                            y:mnist.test.labels,
                                            keep_prob:1.0}))

同样的，在10000次迭代后，我们的单隐层前馈网络取得了0.98的精度：

　　以上就是关于tensorflow搭建MLP模型的基本内容，如有笔误，望指出。

推荐阅读

int
机器学习算法：SVM（支持向量机）

SVM算法（SupportVectorMachine，支持向量机）的核心思想有2点：1、如果数据线性可分，那么基于最大间隔的方式来确定超平面，以确保全局最优， ... [详细]

蜡笔小新 2024-11-14 04:33:58
int
MySQL Decimal 类型的最大值解析及其在数据处理中的应用艺术

在关系型数据库中，表的设计与SQL语句的编写对性能的影响至关重要，甚至可占到90%以上。本文将重点探讨MySQL中Decimal类型的最大值及其在数据处理中的应用技巧，通过实例分析和优化建议，帮助读者深入理解并掌握这一重要知识点。 ... [详细]

蜡笔小新 2024-11-11 19:36:19
int
pytorch(一)：torch构建数据集并训练一个神经网络

目录预备知识导包构建数据集神经网络结构训练测试精度可视化计算模型精度损失可视化输出网络结构信息训练神经网络定义参数载入数据载入神经网络结构、损失及优化训练及测试损失、精度可视化qu ... [详细]

蜡笔小新 2024-11-14 13:06:38
int
Python基础：使用NLTK和Python构建机器学习应用

本文节选自《NLTK基础教程——用NLTK和Python库构建机器学习应用》一书的第1章第1.2节，作者Nitin Hardeniya。本文将带领读者快速了解Python的基础知识，为后续的机器学习应用打下坚实的基础。 ... [详细]

蜡笔小新 2024-11-13 21:23:34
int
com.sun.javadoc.PackageDoc.exceptions()方法的使用及代码示例

com.sun.javadoc.PackageDoc.exceptions()方法的使用及代码示例 ... [详细]

蜡笔小新 2024-11-13 10:47:33
int
在范围[0..n-1]中产生m个不同的随机数 - Generating m distinct random numbers in the range [0..n-1]

Ihavetwomethodsofgeneratingmdistinctrandomnumbersintherange[0..n-1]我有两种方法在范围[0.n-1]中生 ... [详细]

蜡笔小新 2024-11-13 09:49:14
int
Java 并发编程：深入解析 AtomicInteger 和 CAS 无锁算法

在多线程并发环境中，普通变量的操作往往是线程不安全的。本文通过一个简单的例子，展示了如何使用 AtomicInteger 类及其核心的 CAS 无锁算法来保证线程安全。 ... [详细]

蜡笔小新 2024-11-12 16:40:04
int
Python 使用 DOM 和 SAX 解析 XML 的应用实例

本文介绍如何使用 Python 的 DOM 和 SAX 方法解析 XML 文件，并通过示例展示了如何动态创建数据库表和处理大量数据的实时插入。 ... [详细]

蜡笔小新 2024-11-12 16:10:39
int
javascript分页类支持页码格式

前端时间因为项目需要，要对一个产品下所有的附属图片进行分页显示，没考虑ajax一张张请求，所以干脆一次性全部把图片out，然 ... [详细]

蜡笔小新 2024-11-12 14:58:57
int
开机自启动的几种方式

0x01快速自启动目录快速启动目录自启动方式源于Windows中的一个目录，这个目录一般叫启动或者Startup。位于该目录下的PE文件会在开机后进行自启动 ... [详细]

蜡笔小新 2024-11-12 11:16:30
int
非线性门控感知器算法的实现与应用分析

非线性门控感知器算法的实现与应用分析 ... [详细]

蜡笔小新 2024-11-11 12:19:17
int
POJ 2482 星空中的星星：利用线段树与扫描线算法解决

在《POJ 2482 星空中的星星》问题中，通过运用线段树和扫描线算法，可以高效地解决星星在窗口内的计数问题。该方法不仅能够快速处理大规模数据，还能确保时间复杂度的最优性，适用于各种复杂的星空模拟场景。 ... [详细]

蜡笔小新 2024-11-09 12:09:08
int
深入解析Android静态广播场景及BroadcastReceiver组件的应用与实现

在Android开发中，BroadcastReceiver（广播接收器）是一个重要的组件，广泛应用于多种场景。本文将深入解析BroadcastReceiver的工作原理、应用场景及其具体实现方法，帮助开发者更好地理解和使用这一组件。通过实例分析，文章详细探讨了静态广播的注册方式、生命周期管理以及常见问题的解决策略，为开发者提供全面的技术指导。 ... [详细]

蜡笔小新 2024-11-08 09:36:53
int
SSH集成过程中常见问题及解决方案

在使用SSH框架进行项目开发时，经常会遇到一些常见的问题。例如，在Spring配置文件中配置AOP事务声明后，进行单元测试时可能会出现“No Hibernate Session bound to thread”的错误。本文将详细探讨这一问题的原因，并提供有效的解决方案，帮助开发者顺利解决此类问题。 ... [详细]

蜡笔小新 2024-11-07 03:17:49
int
深入解析Java 8并发编程：AtomicInteger源码详解与应用分析

本文深入解析了Java 8并发编程中的`AtomicInteger`类，详细探讨了其源码实现和应用场景。`AtomicInteger`通过硬件级别的原子操作，确保了整型变量在多线程环境下的安全性和高效性，避免了传统加锁方式带来的性能开销。文章不仅剖析了`AtomicInteger`的内部机制，还结合实际案例展示了其在并发编程中的优势和使用技巧。 ... [详细]

蜡笔小新 2024-11-06 19:11:47

AA一缕阳光

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章