热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

翻车现场:我用pytorch和GAN做了一个生成神奇宝贝的失败模型

前言神奇宝贝已经是一个家喻户晓的动画了,我们今天来确认是否可以使用深度学习为他自动创建新的Pokemon。我最终成功地使用了生成对抗网络(GAN)生成了类似Pokemon的图像,但

前言

神奇宝贝已经是一个家喻户晓的动画了,我们今天来确认是否可以使用深度学习为他自动创建新的Pokemon。
技术图片
我最终成功地使用了生成对抗网络(GAN)生成了类似Pokemon的图像,但是这个图像看起来并不像神奇宝贝。
虽然这个尝试失败了,但是我认为其他人可能会喜欢这个过程,现在把他分享出来。

GAN生成对抗网络

技术图片
这里不想花很多时间讨论GAN是什么,但是上面的图片只是一个非常简单的解释过程。
训练了两个网络-鉴别器和生成器。 生成器学习如何吸收随机噪声并从训练数据生成看起来像图像的图像。 它通过将其生成的图像发送到鉴别器网络,鉴别器网络经过训练可以辨别真实图像和生成的图像。
生成器经过优化,可以更好地欺骗鉴别器,鉴别器经过优化,可以更好地检测生成的图像。因此,他们俩一起进步。

数据

因此,我的假设是,我可以使用真实的神奇宝贝图像作为训练集来训练GAN。 结果将是一个生成器,然后将能够创建新颖的神奇宝贝!
我的第一个挑战是找到神奇宝贝的图像。 幸运的是,Kaggle数据集得以抢救!
有人已经想过类似的想法,尽管听起来他在生成新的Pokemon图像方面没有很大的成功,但是由于他花了时间收集800幅图像,因此决定将它们上传到Kaggle数据集。这节省我很多时间。
我们看一下这个数据集:
技术图片
这是一张 蒜头王八 妙蛙种子 的图片,大小是256*256

现在,有了数据,下一步就是选择要使用的GAN类型。 可能存在数百种GAN的变体,但过去使用DCGAN可以看到良好的效果。
DCGAN从神经网络中消除了所有完全连接的层,使用转置卷积进行上采样,并用卷积跨度(除其他外)代替了最大池化。
我喜欢DCGAN,因为与其他我尝试过的GAN相比,它们似乎更健壮,因此无需进行超参数的重大调整即可更容易训练。
实际上,DCGAN非常受欢迎,以至于PyTorch的示例就很好地实现了。 同样重要的是,他们的示例可以直接从文件夹读取输入。 因此,使用以下命令,我能够开始训练我的GAN:

python main.py --dataset folder --dataroot /pokemon/  --cuda --niter 10000 --workers 8

该命令从文件夹中读取图像,在具有8个工作程序的GPU上运行以加载数据,并运行10,000次迭代。

事实证明,此问题需要进行10,000次迭代,但我想看看我能推多远。 让我们来看看!

结果

第一步始于一个一无所知的网络,因此产生的只是噪声:
技术图片
每个box都是一个64 x 64像素的图像,它是尝试从我们的生成器中生成神奇宝贝。 由于我们的网格为8 x 8,因此我们尝试生成64种不同的神奇宝贝。 我将图像缩小到64 x 64,因为在尝试生成更大的图像时这种算法会变得不稳定。

50次迭代以后,有点意思了
技术图片
150次迭代,图像变得清晰了
技术图片
3,700点之后,会有一些不错的图片出现了。 此后,它开始趋向于产生更差的结果:
技术图片

这些看起来根本都不像神奇宝贝!
但是请将浏览器缩小到25%左右,然后再次查看。 在远处,它们看起来惊人地类似于真正的神奇宝贝。
为什么呢?由于我们正在对64 x 64的图像进行训练,因此辨别器很容易被形状和颜色类似于口袋妖怪的图像所迷惑,因此生成器不需要改进。

下一步?

在我看来,显而易见的下一步就是训练更高分辨率的GAN。 实际上,我已经对此进行了一些尝试。
我的第一个尝试是重新编写PyTorch代码以缩放到256 x 256图像。 该代码有效,但是DCGAN崩溃了,我无法稳定新联。 我相信主要原因是因为我只有大约800张图像。 而且,尽管我进行了一些数据扩充,但还不足以训练更高分辨率的DCGAN。
然后,我尝试使用相对论的GAN,该GAN已成功针对具有较小数据集的高分辨率数据进行了成功的训练,但也无法使其正常工作。
目前来看,问题应该出现在数据上,数据量太小,还是满足不了训练的需求。但是我将继续尝试其他一些想法,以产生更高分辨率的Pokemon,如果我有工作的必要,我将发布我使用的技术。

技术图片

翻车现场:我用pytorch和GAN做了一个生成神奇宝贝的失败模型


推荐阅读
  • 本文提供了一个关于AC自动机(Aho-Corasick Algorithm)的详细解析与实现方法,特别针对P3796题目进行了深入探讨。文章不仅涵盖了AC自动机的基本概念,还重点讲解了如何通过构建失败指针(fail pointer)来提高字符串匹配效率。 ... [详细]
  • 本报告记录了嵌入式软件设计课程中的第二次实验,主要探讨了使用KEIL V5开发环境和ST固件库进行GPIO控制及按键响应编程的方法。通过实际操作,加深了对嵌入式系统硬件接口编程的理解。 ... [详细]
  • LeetCode 102 - 二叉树层次遍历详解
    本文详细解析了LeetCode第102题——二叉树的层次遍历问题,提供了C++语言的实现代码,并对算法的核心思想和具体步骤进行了深入讲解。 ... [详细]
  • JavaScript 中引号的多层嵌套使用技巧
    本文详细介绍了在 JavaScript 编程中如何处理引号的多级嵌套问题,包括双引号、单引号以及转义字符的正确使用方法。 ... [详细]
  • 解决UIScrollView自动偏移问题的方法
    本文介绍了一种有效的方法来解决在使用UIScrollView时出现的自动向下偏移的问题,通过调整特定的属性设置,可以确保滚动视图正常显示。 ... [详细]
  • 如何高效渲染JSON数据
    本文介绍了在控制器中返回JSON结果的方法,并详细说明了如何利用jQuery处理和展示这些数据,为Web开发提供了实用的技巧。 ... [详细]
  • Awk是一款功能强大的文本分析与处理工具,尤其在数据解析和报告生成方面表现突出。它通过读取由换行符分隔的记录,并按照指定的字段分隔符来划分和处理这些记录,从而实现复杂的数据操作。 ... [详细]
  • 深入解析Unity3D游戏开发中的音频播放技术
    在游戏开发中,音频播放是提升玩家沉浸感的关键因素之一。本文将探讨如何在Unity3D中高效地管理和播放不同类型的游戏音频,包括背景音乐和效果音效,并介绍实现这些功能的具体步骤。 ... [详细]
  • 本文探讨了一种常见的C++面试题目——实现自己的String类。通过此过程,不仅能够检验开发者对C++基础知识的掌握程度,还能加深对其高级特性的理解。文章详细介绍了如何实现基本的功能,如构造函数、析构函数、拷贝构造函数及赋值运算符重载等。 ... [详细]
  • 随着Linux操作系统的广泛使用,确保用户账户及系统安全变得尤为重要。用户密码的复杂性直接关系到系统的整体安全性。本文将详细介绍如何在CentOS服务器上自定义密码规则,以增强系统的安全性。 ... [详细]
  • JavaScript 页面卸载事件详解 (onunload)
    当用户从页面离开时(如关闭页面或刷新页面),会触发 onunload 事件,此时可以执行预设的脚本。需要注意的是,不同的浏览器对 onunload 事件的支持程度可能有所不同。 ... [详细]
  • 默认情况下,Git 使用 Nano 编辑器进行提交信息的编辑,但如果您更喜欢使用 Vim,可以通过简单的配置更改来实现这一变化。本文将指导您如何通过修改全局配置文件来设置 Vim 作为默认的 Git 提交编辑器。 ... [详细]
  • 利用无代码平台实现高效业务应用开发
    随着市场环境的变化加速,全球企业都在探索更为敏捷的应用开发模式,以便快速响应新兴的商业机遇。然而,传统的软件开发方式不仅成本高昂,而且耗时较长,这往往导致IT与业务部门之间的合作障碍,进而影响项目的成功。本文将探讨如何通过无代码开发平台解决这些问题。 ... [详细]
  • 为何Compose与Swarm之后仍有Kubernetes的诞生?
    探讨在已有Compose和Swarm的情况下,Kubernetes是如何以其独特的设计理念和技术优势脱颖而出,成为容器编排领域的领航者。 ... [详细]
  • 本文介绍了如何通过安装 sqlacodegen 和 pymysql 来根据现有的 MySQL 数据库自动生成 ORM 的模型文件(model.py)。此方法适用于需要快速搭建项目模型层的情况。 ... [详细]
author-avatar
帝薩克斯_271
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有