生成对抗网络GAN原理思想及衍生模型

作者：罢脑货_246 | 来源：互联网 | 2023-08-29 13:47

前言本文会从头介绍生成对抗式网络的一些内容，从生成式模型开始说起，到GAN的基本原理，InfoGAN，AC-GAN的基本科

前言

本文会从头介绍生成对抗式网络的一些内容&＃xff0c;从生成式模型开始说起&＃xff0c;到GAN的基本原理&＃xff0c;InfoGAN&＃xff0c;AC-GAN的基本科普&＃xff0c;如果有任何有错误的地方&＃xff0c;请随时喷&＃xff0c;我刚开始研究GAN这块的内容&＃xff0c;希望和大家一起学习。

生成式模型

何为生成式模型&＃xff1f;在很多machine learning的教程或者公开课上&＃xff0c;通常会把machine learning的算法分为两类&＃xff1a; 生成式模型、判别式模型&＃xff1b;其区别在于&＃xff1a; 对于输入x&＃xff0c;类别标签y&＃xff0c;在生成式模型中估计其联合概率分布&＃xff0c;而判别式模型估计其属于某类的条件概率分布。常见的判别式模型包括&＃xff1a;LogisticRegression&＃xff0c; SVM, Neural Network等等&＃xff0c;生成式模型包括&＃xff1a;Naive Bayes&＃xff0c; GMM&＃xff0c; Bayesian Network&＃xff0c; MRF 等等

研究生成式模型的意义

生成式模型的特性主要包括以下几个方面&＃xff1a;

在应用数学和工程方面&＃xff0c;生成式模型能够有效地表征高维数据分布&＃xff1b;
生成式模型能够作为一种技术手段辅助强化学习&＃xff0c;能够有效表征强化学习模型中的state状态(这里不扩展&＃xff0c;后面会跟RL的学习笔记)&＃xff1b;
对semi-supervised learning也有比较好的效果&＃xff0c;能够在miss data下训练模型&＃xff0c;并在miss data下给出相应地输出&＃xff1b;
在对于一个输入伴随多个输出的场景下&＃xff0c;生成式模型也能够有效工作&＃xff0c;而传统的机器学习方法通过最小化模型输出和期望输出的某个object function的值无法训练单输入多输出的模型&＃xff0c;而生成式模型&＃xff0c;尤其是GAN能够hold住这种场景&＃xff0c;一个典型的应用是通过场景预测video的下一帧。

生成式模型一些典型的应用&＃xff1a;

图像的超分辨率
iGAN&＃xff1a;Generative Visual Manipulation on the Natural Image Manifold
图像转换

生成式模型族谱

上图涵盖了基本的生成式模型的方法&＃xff0c;主要按是否需要定义概率密度函数分为&＃xff1a;

Explicit density models

explicit density models 又分为tractable explicit models和逼近的explicit model&＃xff0c;怎么理解呢&＃xff0c;tractable explicit model通常可以直接通过数学方法来建模求解&＃xff0c;而基于逼近的explicit model通常无法直接对数据分布进行建模&＃xff0c;可以利用数学里的一些近似方法来做数据建模&＃xff0c; 通常基于逼近的explicit model分为确定性&＃xff08;变分方法&＃xff1a;如VAE的lower bound&＃xff09;和随机性的方法&＃xff08;马尔科夫链蒙特卡洛方法&＃xff09;。

VAE lower bound&＃xff1a;

GAN的理解与TensorFlow的实现

马尔科夫链蒙特卡洛方法&＃xff08;MCMC&＃xff09;&＃xff0c;一种经典的基于马尔科夫链的抽样方法&＃xff0c;通过多次来拟合分布。比较好的教程&＃xff1a;A Beginner’s Guide to Monte Carlo Markov Chain MCMC Analysis, An Introduction to MCMC for Machine Learning.

Implicit density models

无需定义明确的概率密度函数&＃xff0c;代表方法包括马尔科夫链、生成对抗式网络&＃xff08;GAN&＃xff09;&＃xff0c;该系列方法无需定义数据分布的描述函数。

生成对抗式网络与其他生成式网络对比

生成对抗式网络&＃xff08;GAN&＃xff09;能够有效地解决很多生成式方法的缺点&＃xff0c;主要包括&＃xff1a;

并行产生samples&＃xff1b;
生成式函数的限制少&＃xff0c;如无需合适马尔科夫采样的数据分布&＃xff08;Boltzmann machines&＃xff09;&＃xff0c;生成式函数无需可逆、latent code需与sample同维度&＃xff08;nonlinear ICA&＃xff09;&＃xff1b;
无需马尔科夫链的方法&＃xff08;Boltzmann machines&＃xff0c; GSNs&＃xff09;&＃xff1b;
相对于VAE的方法&＃xff0c;无需variational bound&＃xff1b;
GAN比其他方法一般来说性能更好。

GAN工作原理

GAN主要由两部分构成&＃xff1a;generator和discriminator&＃xff0c;generator主要是从训练数据中产生相同分布的samples&＃xff0c;而discriminator 则是判断输入是真实数据还是generator生成的数据&＃xff0c;discriminator采用传统的监督学习的方法。这里我们可以这样类比&＃xff0c;generator 是一个伪造假币的专业人士&＃xff0c;discriminator是警察&＃xff0c;generator的目的是制造出尽可能以假乱真的假钞&＃xff0c;而discriminator是为了能鉴别是否为假钞&＃xff0c;最终整个gan会达到所谓的纳什均衡&＃xff0c;Goodfellow在他的paperGAN的理解与TF的实现-小石头的码疯窝中有严格的数学证明&＃xff0c;当$p_G$&＃61;&＃61;$p_{data}$时达到全局最优&＃xff1a;

GAN的理解与TensorFlow的实现

另一个比较明显看得懂的图如下&＃xff1a;

GAN的理解与TensorFlow的实现

图中黑色点线为真实数据分布$p_{data}$&＃xff0c;绿色线为generator生成的数据分布$p_{G}$,而Discriminator就是蓝色点线&＃xff0c;其目的是为了将$p_{data}$和$p_{G}$ 区分&＃xff0c;(a)中是初始状态&＃xff0c;然后会更新Discriminator中的参数&＃xff0c;若干次step之后&＃xff0c;Discriminator有了较大的判断力即到了(b)的状态&＃xff0c;之后会更新G的模型使其生成的数据分布&＃xff08;绿色线&＃xff09;更加趋近与真实数据分布&＃xff0c; 若干次G和D的模型参数更新后&＃xff0c;理论上最终会达到(d)的状态即G能够产生和真实数据完全一致的分布(证明见上一张图)&＃xff0c;如从随机数据分布生成人脸像。

如何训练GAN

因为GAN结构的不同&＃xff0c;和常规训练一个dl model方法不同&＃xff0c; 这里采用simultaneous SGD&＃xff0c;每一个step中&＃xff0c;会有两个两个梯度优化的过程&＃xff0c;一个是更新discriminator的参数来最小化$J_{(D)}$&＃xff0c;一个是更新generator的参数来最小$J_{(G)}$&＃xff0c;通常会选用Adam来作为最优化的优化器&＃xff0c; 也有人建议可以不等次数地更新generator和discriminator&＃xff08;有相关工作提出&＃xff0c;1&＃xff1a;1的在实际中更有效&＃xff1a;Adam: A Method for Stochastic Optimization&＃xff09; 如何训练GAN&＃xff0c;在Goodfellow的GAN的tutorial还有一些代码中有更多的描述包括不同的cost function&＃xff0c; 这里我就不详细展开了。

DCGAN

GAN出来后很多相关的应用和方法都是基于DCGAN的结构&＃xff0c;DCGAN即”Deep Convolution GAN”&＃xff0c;通常会有一些约定俗成的规则&＃xff1a;

GAN的理解与TensorFlow的实现

在Discriminator和generator中大部分层都使用batch normalization&＃xff0c;而在最后一层时通常不会使用batch normalizaiton&＃xff0c;目的是为了保证模型能够学习到数据的正确的均值和方差&＃xff1b;
因为会从random的分布生成图像&＃xff0c;所以一般做需要增大图像的空间维度时如77->1414&＃xff0c; 一般会使用strdie为2的deconv&＃xff08;transposed convolution&＃xff09;&＃xff1b;
通常在DCGAN中会使用Adam优化算法而不是SGD。

各种GAN GAN的理解与TensorFlow的实现

这里有个大神把各种gan的paper都做了一个统计AdversarialNetsPapers

这里大家有更多的兴趣可以直接去看对应的paper&＃xff0c;我接下来会尽我所能描述下infogan和AC-GAN这两块的内容

InfoGAN

InfoGAN是一种能够学习disentangled representation的GAN&＃xff0c;何为disentangled representation&＃xff1f;比如人脸数据集中有各种不同的属性特点&＃xff0c;如脸部表情、是否带眼睛、头发的风格眼珠的颜色等等&＃xff0c;这些很明显的相关表示&＃xff0c; InfoGAN能够在完全无监督信息&＃xff08;是否带眼睛等等&＃xff09;下能够学习出这些disentangled representation&＃xff0c;而相对于传统的GAN&＃xff0c;只需修改loss来最大化GAN的input的noise&＃xff08;部分fixed的子集&＃xff09;和最终输出之间的互信息。

原理

为了达到上面提到的效果&＃xff0c;InfoGAN必须在input的noise来做一些文章&＃xff0c;将noise vector划分为两部分&＃xff1a;

z: 和原始的GAN input作用一致&＃xff1b;
c: latent code&＃xff0c;能够在之后表示数据分布中的disentangled representation

那么如何从latent code中学到相应的disentangled representation呢&＃xff1f; 在原始的GAN中&＃xff0c;忽略了c这部分的影响&＃xff0c;即GAN产生的数据分布满足$P_{G}(x|C)&＃61;P(x)$,为了保证能够利用c这部分信息&＃xff0c; 作者提出这样一个假设&＃xff1a;c与generator的输出相关程度应该很大&＃xff0c;而在信息论中&＃xff0c;两个数据分布的相关程度即互信息&＃xff0c; 即generator的输出和input的c的$I(c;G(z,c))$应该会大。所以&＃xff0c;InfoGAN就变成如下的优化问题&＃xff1a;

GAN的理解与TensorFlow的实现

因为互信息的计算需要后验概率的分布&＃xff08;下图红线部分&＃xff09;&＃xff0c;在实际中很难直接使用&＃xff0c;因此&＃xff0c;在实际训练中一般不会直接最大化$I(c;G(z,c))$

GAN的理解与TensorFlow的实现

这里作者采用和VAE类似的方法&＃xff0c;增加一个辅助的数据分布为后验概率的low bound&＃xff1a; 所以&＃xff0c;这里互信息的计算如下&＃xff1a;

GAN的理解与TensorFlow的实现

这里相关的证明就不深入了&＃xff0c;有兴趣的可以去看看paper。

实验

我写的一版基于TensorFlow的Info-GAN实现&＃xff1a;Info-GANburness/tensorflow-101 random的label信息&＃xff0c;和对应生成的图像&＃xff1a;

GAN的理解与TensorFlow的实现

不同random变量控制产生同一class下的不同输出&＃xff1a;

GAN的理解与TensorFlow的实现

AC-GAN

AC-GAN即auxiliary classifier GAN&＃xff0c;对应的paper&＃xff1a;[1610.09585] Conditional Image Synthesis With Auxiliary Classifier GANs, 如前面的示意图中所示&＃xff0c;AC-GAN的Discriminator中会输出相应的class label的概率&＃xff0c;然后更改loss fuction&＃xff0c;增加class预测正确的概率&＃xff0c; ac-gan是一个tensorflow相关的实现&＃xff0c;基于作者自己开发的sugartensor&＃xff0c;感觉和paper里面在loss函数的定义上差异&＃xff0c;看源码的时候注意下&＃xff0c;我这里有参考写了一个基于原生tensorflow的版本AC-GAN.

实验

各位有兴趣的可以拿代码在其他的数据集上也跑一跑&＃xff0c;AC-GAN能够有效利用class label的信息&＃xff0c;不仅可以在G时指定需要生成的image的label&＃xff0c;同事该class label也能在Discriminator用来扩展loss函数&＃xff0c;增加整个对抗网络的性能。 random的label信息&＃xff0c;和对应生成的图像&＃xff1a;

GAN的理解与TensorFlow的实现

不同random变量控制产生同一class下的不同输出&＃xff1a;

GAN的理解与TensorFlow的实现

总结

照例总结一下&＃xff0c;本文中&＃xff0c;我基本介绍了下生成式模型方法的各个族系派别&＃xff0c;到GAN的基本内容&＃xff0c;到InfoGAN、AC-GAN&＃xff0c;大部分的工作都来自于阅读相关的paper&＃xff0c;自己相关的工作就是 tensorflow下参考sugartensor的内容重现了InfoGAN、AC-GAN的相关内容。

当然&＃xff0c;本人菜鸟一枚&＃xff0c;难免有很多理解不到位的地方&＃xff0c;写出来更多的是作为分享&＃xff0c;让更多人了解GAN这块的内容&＃xff0c;如果任何错误或不合适的地方&＃xff0c;敬请在评论中指出&＃xff0c;我们一起讨论一起学习另外我的所有相关的代码都在github上:GAN,相信读一下无论是对TensorFlow的理解还是GAN的理解都会有一些帮助&＃xff0c;简单地参考mnist.py修改下可以很快的应用到你的数据集上&＃xff0c;如果有小伙伴在其他数据集上做出有意思的实验效果的&＃xff0c;欢迎分享。

原文地址&＃xff1a; http://www.leiphone.com/news/201702/GZsIbIb9V9AUGmb6.html

推荐阅读

grid
MATLAB常用的基本数学函数

一、MATLAB常用的基本数学函数abs(x)：纯量的绝对值或向量的长度angle(z)：复数z的相角(Phaseangle)sqrt(x)࿱ ... [详细]

蜡笔小新 2024-11-14 16:40:20
grid
【状压dp】hdu 4539 郑厂长系列故事——排兵布阵

hdu4539郑厂长系列故事——排兵布阵http:acm.hdu.edu.cnshowproblem.php?pid4539问题描述：给你一个n行m列的0-1矩阵，0表示不 ... [详细]

蜡笔小新 2024-11-15 16:46:08
replace
vue引入echarts地图的四种方式

一、vue中引入echart1、安装echarts:npminstallecharts--save2、在main.js文件中引入echarts实例: Vue.prototype.$echartsecharts3、在需要用到echart图形的vue文件中引入: importechartsfrom&quot;echarts&quot;;4、如果用到map（地图），还 ... [详细]

蜡笔小新 2024-11-15 13:07:46
char
嵌入式Linux工程师笔试题精选

本文整理了一份基础的嵌入式Linux工程师笔试题，涵盖填空题、编程题和简答题，旨在帮助考生更好地准备考试。 ... [详细]

蜡笔小新 2024-11-15 10:42:13
char
机器学习算法：SVM（支持向量机）

SVM算法（SupportVectorMachine，支持向量机）的核心思想有2点：1、如果数据线性可分，那么基于最大间隔的方式来确定超平面，以确保全局最优， ... [详细]

蜡笔小新 2024-11-14 04:33:58
replace
Python基础：使用NLTK和Python构建机器学习应用

本文节选自《NLTK基础教程——用NLTK和Python库构建机器学习应用》一书的第1章第1.2节，作者Nitin Hardeniya。本文将带领读者快速了解Python的基础知识，为后续的机器学习应用打下坚实的基础。 ... [详细]

蜡笔小新 2024-11-13 21:23:34
import
利用OpenCV和线性SVM实现人脸识别

本文介绍如何使用OpenCV和线性支持向量机（SVM）模型来开发一个简单的人脸识别系统，特别关注在只有一个用户数据集时的处理方法。 ... [详细]

蜡笔小新 2024-11-13 14:50:37
text
VB.net 进程通信中FindWindow、FindWindowEX、SendMessage函数的理解

目录一、代码背景二、主要工具三、函数解析1、FindWindow：2、FindWindowEx：3、SendMessage： ... [详细]

蜡笔小新 2024-11-13 14:28:28
text
c/c++常用代码doc,ppt,xls文件格式转PDF格式[转]

[转]doc,ppt,xls文件格式转PDF格式http:blog.csdn.netlee353086articledetails7920355确实好用。需要注意的是#import ... [详细]

蜡笔小新 2024-11-12 16:19:40
fetch
php更新数据库字段的函数是,php更新数据库字段的函数是

php更新数据库字段的函数是,php更新数据库字段的函数是 ... [详细]

蜡笔小新 2024-11-12 11:37:31
uri
poj 3352 Road Construction

poj 3352 Road Construction ... [详细]

蜡笔小新 2024-11-12 11:24:39
replace
Go语言中正则表达式的简易应用

本文介绍了Go语言中正则表达式的基本使用方法，并提供了一些实用的示例代码。 ... [详细]

蜡笔小新 2024-11-14 20:27:47
header
Cookie学习小结

Cookie学习小结 ... [详细]

蜡笔小新 2024-11-14 16:26:25
byte
面试中如何回答“零拷贝”技术问题？

零拷贝技术是提高I/O性能的重要手段，常用于Java NIO、Netty、Kafka等框架中。本文将详细解析零拷贝技术的原理及其应用。 ... [详细]

蜡笔小新 2024-11-13 02:03:52
text
如何在Webpack项目中集成ECharts

本文将详细介绍如何在Webpack项目中安装和使用ECharts，包括全量引入和按需引入的方法，并提供一个柱状图的示例。 ... [详细]

蜡笔小新 2024-11-12 09:49:07

罢脑货_246

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章