生成对抗式网络GAN及其衍生CGAN、DCGAN、WGAN、LSGAN、BEGAN介绍

作者：你的拥吻像情歌一样凄美_207 | 来源：互联网 | 2023-12-14 11:39

一、GAN原理介绍学习GAN的第一篇论文当然由是IanGoodfellow于2014年发表的GenerativeAdversarialNetworks（论文下载链接arxiv：[h

一、GAN原理介绍

学习GAN的第一篇论文当然由是 Ian Goodfellow 于2014年发表的 Generative Adversarial Networks（论文下载链接arxiv：[https://arxiv.org/abs/1406.2661] )，这篇论文可谓这个领域的开山之作。

GAN的基本原理其实并不复杂，模型通过框架中两个模块：生成模型（Generative Model）和判别模型（Discriminative Model）的互相博弈学习产生相当好的输出。这里以生成图片为例进行说明。假设我们有两个网络，G（Generator）和D（Discriminator）。正如它的名字所暗示的那样，它们的功能分别是：

G是一个生成图片的网络，它接收一个随机的噪声z，通过这个噪声生成图片，记做G(z)。
D是一个判别网络，判别一张图片是不是“真实的”。它的输入参数是x，x代表一张图片，输出D（x）代表x为真实图片的概率，如果为1，就代表100%是真实的图片，而输出为0，就代表不可能是真实的图片。

在训练过程中，生成网络G的目标就是尽可能生成真实的图片去欺骗判别网络D。而D的目标就是尽量把G生成的图片和真实的图片分别开来。这样，G和D构成了一个动态的“博弈过程”。

最后博弈的结果，在最理想的状态下，G可以生成足以“以假乱真”的图片G(z)。对于D来说，它难以判定G生成的图片究竟是不是真实的，即达到了一个纳什均衡，因此D(G(z)) = 0.5。此时，模型的收敛目标是生成器能够从随机噪声生成真实数据。

这样我们的目的就达成了：我们得到了一个生成式的模型G，它可以用来生成图片。
以上只是大致说了一下GAN的核心原理，如何用数学语言描述呢？这里直接摘录论文里的公式：
生成对抗式网络 GAN及其衍生CGAN、DCGAN、WGAN、LSGAN、BEGAN介绍
简单分析一下这个公式：

整个式子由两项构成。x表示真实图片，z表示输入G网络的噪声，而G(z)表示G网络生成的图片。
D(x)表示D网络判断真实图片是否真实的概率（因为x就是真实的，所以对于D来说，这个值越接近1越好）。而D(G(z))是D网络判断G生成的图片的是否真实的概率。

G的目的：上面提到过，D(G(z))是D网络判断G生成的图片是否真实的概率，G应该希望自己生成的图片“越接近真实越好”。也就是说，G希望D(G(z))尽可能得大，这时V(D, G)会变小。因此我们看到式子的最前面的记号是min_G。

D的目的：D的能力越强，D(x)应该越大，D(G(x))应该越小。这时V(D,G)会变大。因此式子对于D来说是求最大(max_D)
下面这幅图片很好地描述了这个过程：
生成对抗式网络 GAN及其衍生CGAN、DCGAN、WGAN、LSGAN、BEGAN介绍

二、CGAN原理

在原始GAN中，目的是使得生成器能够从随机噪声中生成真实数据，而CGAN（论文下载链接arxiv：https://arxiv.org/pdf/1411.1784.pdf）则更近一层，即给GAN加上条件，指导数据的生成过程，使得生成具有特定性质的样本。以生成MNIST数据集的图像样本来说，原始GAN得到的生成器可以由随机向量生成一张含有数字的图像样本，其中数字可能是0~9中的任意一个，而CGAN则是在生成器输入时添加一个条件y，使得可以生成符合预期数字的图像样本，如生成含有数字1的图像。如图Figure1所示。价值函数变化如下：

生成对抗式网络 GAN及其衍生CGAN、DCGAN、WGAN、LSGAN、BEGAN介绍

三、DCGAN原理

DCGAN（论文下载链接arxiv：https://arxiv.org/abs/1511.06434 ）是应用比较广泛的改进结构，基本采用卷积层替代了原始的全连接层，其中在生成器中采用带步长的卷积代替了上采样，极大地提升了GAN训练时的稳定性及生成结果质量。如图所示
GAN的主要问题是训练过程不稳定，而DCGAN改进了其稳定性，原因在于：

几乎每层都使用batchnorm层，将特征层的输出归一化到一起，加速训练，提升训练的稳定性；
判别器中使用Leaky ReLU，防止梯度过度稀疏，生成器则仍然采用 ReLU，但最后输出层采用Tanh;
使用Adam优化器训练，且最佳学习率为0.0002；
使用带步长卷积替代上采样层，卷积在提取图像特征上有较好的作用，并且使用卷积代替全连接层。

四、WGAN原理

为了使得GAN的训练更加稳定，与DCGAN不同的是，WGAN（论文下载链接arxiv：https://arxiv.org/pdf/1701.07875.pdf）主要从损失函数的角度进行改进：

A)判别器最后一层去掉Sigmoid;
B)生成器和判别器的loss不取Log;
C)对更新后的权重强制clip，如[-0.01，0.01]，以满足连续性条件；
D)推荐SGD、RMSProp等优化器，不要采用含有动量的优化算法，如Adam。

原始的GAN存在的问题有：判别器越好，生成器梯度消失越严重，生成器loss降不下去；判别器不好，生成器梯度不准，训练不稳定，只有判别器训练得不好不坏才行，但这个尺度很难把握，甚至同一轮训练的不同阶段该尺度都不一样，所以GAN才难以训练。最小化生成器loss函数，会等价于最小化一个不合理的距离度量，使得最小化生成分布与真实分布的KL散度的同时又要最大化两者的JS散度，导致梯度不稳定，同时也会使得生成器宁可多生成一些重复但较为“安全”的样本，也不愿意生成多样性的样本，从而导致模式崩溃，即多样性不足。

下图所示为标准GAN与WGAN对真实样本分布和生成样本分布判别的差异，标注GAN会出现梯度消失的情况，而WGAN则有较好的线性梯度。
生成对抗式网络 GAN及其衍生CGAN、DCGAN、WGAN、LSGAN、BEGAN介绍
要在于从理论上给出了GAN训练不稳定的原因，即交叉熵不适合衡量具有不相交部分的数据之间的距离，转而使用Wassertein距离去衡量生成数据与真实数据之间的距离，理论上解决了训练不稳定的问题；解决了模式崩溃问题，生成结果更加多样；对GAN的训练提供了一个指标，可以采用此指标来衡量GAN训练的好坏，而不像之前那样盲目训练。

五、LSGAN原理

LSGAN（论文下载链接arxiv：https://arxiv.org/pdf/1611.04076.pdf）的主要目的也是采用最小二乘损失函数代替了GAN目标函数的交叉熵，从而解决了GAN训练不稳定和生成图像质量差、多样性不足的问题。
生成对抗式网络 GAN及其衍生CGAN、DCGAN、WGAN、LSGAN、BEGAN介绍
其中a,b,c属于超参数，a,b分别表示生成图片和真实图片的标记，c是生成器为了使判别器认为生成图片为真实样本而定的值，这里设定a=0,b=c=1。

论文主要回答了两个问题：为什么最小二乘损失可以提高生成图片质量；为什么最小二乘损失可以使得GAN训练更稳定。对于第一个问题，论文认为交叉熵作为损失函数，会使得生成器不再优化那些被判别器识别为真实图片的生成图片，即使这些生成图片距离判别器的决策边界仍较远。原因在于生成器只需要完成混淆判别器的目标生成图片即可，而最小二乘损失则在混淆判别器的前提下还得让生成器把距离决策边界较远的生成图片拉向决策边界。对于第二个问题，论文认为Sigmoid交叉熵损失容易达到饱和状态，即梯度为0，而最小二乘只在一个点达到饱和。

六、BEGAN原理

谷歌提出一种新的简单强大的GAN，这是一种新的评价生成器生成质量的方法，不需要太多的训练技巧即可实现快速稳定的训练。以往的GAN及其变体是希望生成器生成的数据分布尽可能地接近真实数据分布，因此研究者们设计了各种损失函数，而BEGAN则不采用这种估计概率分布的方法，即不直接去估计生成分布Pg和真实分布Pdata的差距，而是估计分布的误差分布差距，只要分布之间的误差分布相近，也可以认为这些分布是相近的。

BEGAN主要有3个贡献：

（1）提出了一种新的简单强大的GAN网络结构，使用标准的训练方式也能快速稳定的收敛。
（2）对于生成器和判别器的平衡提出了一种均衡的概念，提供了一个超参数，这个超参数用于平衡图像的多样性和生成质量。
（3）受WGAN启发，提出了一种收敛程度估计。

BEGAN采用自编码器作为判别器；在生成器的设计上，使用Wasserstein距离衍生出的损失去匹配自编码器的损失分布，这是通过传统的GAN目标加上一个用来平衡判别器和生成器的平衡项来实现的；还提出了一个衡量生成样本多样性的超参数Y：生成样本损失的期望与真实样本损失的期望值之比。Y值较低时会导致图像多样性较差，因为此时判别器过于关注对真实图像的自编码。

推荐阅读

split
中央电视台电影频道节目预告及优化分析

本文详细介绍了中央电视台电影频道的节目预告，并通过专业工具分析了其加载方式，确保用户能够获取最准确的电视节目信息。 ... [详细]

蜡笔小新 2024-12-25 21:01:14
shell
编写有趣的VBScript恶作剧脚本

本文将介绍如何编写一些有趣的VBScript脚本，这些脚本可以在朋友之间进行无害的恶作剧。通过简单的代码示例，帮助您了解VBScript的基本语法和功能。 ... [详细]

蜡笔小新 2024-12-28 09:46:23
string
优化局域网SSH连接延迟问题的解决方案

本文介绍了解决局域网内SSH连接到服务器时出现长时间等待问题的方法。通过调整配置和优化网络设置，可以显著缩短SSH连接的时间。 ... [详细]

蜡笔小新 2024-12-25 11:31:48
byte
JavaScript 基础语法指南

本文详细介绍了 JavaScript 的基础语法，包括变量、数据类型、运算符、语句和函数等内容，旨在为初学者提供全面的入门指导。 ... [详细]

蜡笔小新 2024-12-23 10:54:44
byte
采用IKE方式建立IPsec安全隧道

一、【组网和实验环境】按如上的接口ip先作配置，再作ipsec的相关配置，配置文本见文章最后本文实验采用的交换机是H3C模拟器，下载地址如 ... [详细]

蜡笔小新 2024-12-22 20:24:15
select
DNN Community 和 Professional 版本的主要差异

本文详细解析了 DotNetNuke (DNN) 的两种主要版本：Community 和 Professional。通过对比两者的功能和附加组件，帮助用户选择最适合其需求的版本。 ... [详细]

蜡笔小新 2024-12-27 13:14:08
python
Python自动化处理：从Word文档提取内容并生成带水印的PDF

本文介绍如何利用Python实现从特定网站下载Word文档，去除水印并添加自定义水印，最终将文档转换为PDF格式。该方法适用于批量处理和自动化需求。 ... [详细]

蜡笔小新 2024-12-27 13:10:20
python
网络攻防实战：从HTTP到HTTPS的演变

本文通过一系列日记记录了从发现漏洞到逐步加强安全措施的过程，探讨了如何应对网络攻击并最终实现全面的安全防护。 ... [详细]

蜡笔小新 2024-12-27 11:34:50
php
使用Windows批处理脚本监控并重启Java应用程序

本文介绍如何通过Windows批处理脚本定期检查并重启Java应用程序，确保其持续稳定运行。脚本每30分钟检查一次，并在需要时重启Java程序。同时，它会将任务结果发送到Redis。 ... [详细]

蜡笔小新 2024-12-27 10:44:39
web
移动 UI 设计基础：打造简洁高效的用户界面

本章将深入探讨移动 UI 设计的核心原则，帮助开发者构建简洁、高效且用户友好的界面。通过学习设计规则和用户体验优化技巧，您将能够创建出既美观又实用的移动应用。 ... [详细]

蜡笔小新 2024-12-27 08:43:40
bash
解决Hive启动时权限被拒问题

本文详细分析了Hive在启动过程中遇到的权限拒绝错误，并提供了多种解决方案，包括调整文件权限、用户组设置以及环境变量配置等。 ... [详细]

蜡笔小新 2024-12-26 19:14:29
install
MySQL 数据库迁移指南：从本地到远程及磁盘间迁移

本文详细介绍了如何在不同场景下进行 MySQL 数据库的迁移，包括从一个硬盘迁移到另一个硬盘、从一台计算机迁移到另一台计算机，以及解决迁移过程中可能遇到的问题。 ... [详细]

蜡笔小新 2024-12-26 13:21:38
spring
网易严选Java开发面试：MySQL索引深度解析

本文详细记录了网易严选Java开发岗位的面试经验，特别针对MySQL索引相关的技术问题进行了深入探讨。通过本文，读者可以了解面试官常问的索引问题及其背后的原理。 ... [详细]

蜡笔小新 2024-12-24 19:50:16
web
npm run dev后报错

npm run dev后报错 ... [详细]

蜡笔小新 2024-12-23 19:35:31
install
使用SSH密钥对实现Linux系统免密码登录

本文详细介绍如何在Linux系统中配置SSH密钥对，以实现从一台主机到另一台主机的无密码登录。内容涵盖密钥对生成、公钥分发及权限设置等关键步骤。 ... [详细]

蜡笔小新 2024-12-23 16:17:45

你的拥吻像情歌一样凄美_207

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章