2022，AIGC元年？

作者：btbxin | 来源：互联网 | 2023-08-20 22:53

文｜世昕编｜石灿2022 年 12 月 16 日，Science 杂志发布了 2022 年度科学十大突破，韦伯望远镜当选为年度最大科学突破，可谓实至名归。而在其他入选的科学突破中，AIGC 也赫然在列

文｜世昕

编｜石灿

2022 年 12 月 16 日，Science 杂志发布了 2022 年度科学十大突破，韦伯望远镜当选为年度最大科学突破，可谓实至名归。而在其他入选的科学突破中，AIGC 也赫然在列。

这或许是当下最炙手可热的概念了。无论是火遍全网的 AI 绘画，还是震惊世人的 ChatGPT，都属于 AIGC 这一概念，即生成式 AI。凭借着诸多明星技术、产品的问世，谁也没有想到，在元宇宙、web3 等概念叱咤风云的 2022 年里，AI 凭借“创作”强势崛起了。

有人认为，AIGC 将会改变内容领域的生产方式，带来整个行业的变革，也有人认为 AIGC 将会取代大多数创作者，带来灾难性的影响。在各种言论甚嚣尘上之时，一个共识似乎悄然达成了，从 2022 年开始，AIGC 将迎来完全不同的发展时期。

2022 年，真的是 AIGC 的元年吗？

AIGC 编年史

首先明确一个定义，何为 AIGC？

跟 PGC、UGC、PUGC 等概念一样，AIGC 即是指利用人工智能技术生成内容，也就是说内容的制作者从实打实的人或机构变成了 AI。

AI 绘画最早要追溯 2014 年，GAN（生成式对抗网络）的诞生。据说人工智能专家 Ian Goodfellow 在一次酒后想到了这一深度模型概念，基于 CNN（深度卷积神经网络），GAN 创造性地将两个神经网络进行对抗，即生成器与鉴别器。生成器用于生成“造假数据”，鉴别器用于判断数据的真伪，在两者的对抗中，逐渐演化出强大的“造假能力”，而这种造假能力则用于图像的合成。

GAN 之父 Ian Goodfellow，图源网络

GAN 被称为 21 世纪最强大的算法模型之一，Ian Goodfellow 也一跃成为 AI 领域最知名的专家之一。2015 年开始，GAN 开始被投入实际运用中，相关的论文也爆发式增长，也成为 AI 生成图像、处理图像任务里最常见的存在。

在 GAN 大放异彩的 2015 年，一家公司在美国硅谷成立，其背后站着“钢铁侠”埃隆·马斯克、Y Combinator 总裁阿尔特曼、天使投资人彼得·泰尔等一众硅谷大佬，这家公司就是 ChatGPT 的缔造者——OpenAI。

OpenAI 创立的初衷是预防人工智能带来的灾难性影响，推动人工智能发挥积极作用，虽为公司，但 OpenAI 是一家非营利机构，是马斯克等大佬用爱发电的产物，在创立之初，大佬们投入了 10 亿美元用于 AI 的开发。2016 年，OpenAI 进一步明确了自己的目标，即向 AGI（通用人工智能）研究发力，致力于让 AI 成为改变人类生活的新技术。

OpenAI 最大的特点即是“Open”，即开放 AI 能力，全球研发者都可以通过其提供的开发与研究框架投入 AI 开发中，共同促进 AI 技术的发展。也是从 2016 年开始，OpenAI 推出了自己的 AI 平台 Universe。故事轰轰烈烈地开始了。

时间来到 2018 年，Transformer 架构的发展改变了 NLP（自然语言处理）技术的发展，预训练模型的引入改变了一切。GPT 系列正是 OpenAI 在 NLP（自然语言处理）领域打造的模型，其第一款产品 GPT-1 也是在 2018 年正式推出。GPT-1 的独特之处在于“半监督”，在此前的 NLP 模型中，AI 需要基于特定任务对大规模数据集进行学习，而这些数据是需要“监督”的，即人为地对数据进行标注。

GPT-1 则可以在开始进行无监督学习的预训练，通过对数据的学习增强语言能力，最后进行部分有监督的微调。简单来说，GPT-1 可以用更少的资源和数据进行更具效率的学习，但 GPT-1 仍旧是青涩的，一方面碍于训练数据的有限，AI 的“世界观”很有限，另一方面其性能仍旧不够好，远远达不到对话的能力。

自 2018 年开始 NLP 领域迎来了飞速发展，也从某种程度上改变了 AI 生成图像的未来，也就是 AI 绘画。

2020 年是翻天覆地的一年。彼时，OpenAI 推出了 GPT-3，相比前两代，这一次 GPT 实现了进化，GPT-3 的参数超过 1750 亿个，是人脑神经连结的十分之一，与此同时 GPT-3 的性能也更强，它能够识别更深层次的文本含义，并进行反馈。GPT-3 的推出是一场革新。

与此同时，在图像生成领域，一场革命也在发生。尽管 GAN 已经能生成较高质量的图片及内容，但相较来说，其效率较低，同时生成的图像始终难以令人满意。而 Transformer 架构的出现改变了一切，自此开始，图像合成领域告别了 GAN 时代，NLP 与计算机视觉技术搭配的新时代来临了。

随后便是我们熟知的故事了。2022 年 9 月，AI 绘画爆火，11 月 30 日，ChatGPT 横空出世，正式让全世界看到了 AIGC 的“强大”。

AIGC 国内玩家

在 OpenAI 等行业巨头的带领下，海外 AIGC 产业正处于一个高速发展时期，那么在国内，AIGC 发展到哪一步了？

首先我们需要认识到一个现实，相较于美国，国内 AIGC 领域的发展是相对滞后的，但近几年来，阿里巴巴、百度、腾讯等互联网巨头都注意到了 AIGC 这一未来的产业富矿。

国内 AI 领域，绕不开的一家公司即是百度。

在五个月前的百度世界大会上，百度 CEO 李彦宏就着重强调了 AIGC，他认为，AIGC 不仅能够提升内容生产小笼包，还能创造出有独特价值的独立视角的内容。在世界大会上，百度 AI 也展示出了自己的实力：在十分钟内复原了《富春山居图》的残卷，其背后依赖的深度学习模型，即是百度的当家模型——文心大模型。

百度 AI 复原的《富春山居图》，图源网络

文心大模型起源于 2019 年，是百度深耕预训练模型的产物，其核心特色在于“知识增强”，能够对海量数据进行深度学习，并为多种 AIGC 应用提供支持。目前为止文心大模型已经发布了超过十多个大模型，形成了一个大模型家族。

在世界大会两个月后的万象大会上，百度还发布了 AI 助理，根本上是多种 AIGC 应用的集合，包括文本生成、图片生成，图片转换视频等多种功能，最值得关注的一点是，其直接面向用户与内容创作者，也就是说，AIGC 技术的 C 端应用化正在实现。

AIGC 也不止图像生成、文本生成等领域，AI 创作同样是多元的，音乐、编程等领域同样在飞速发展。

就在不久前，昆仑万维高调宣布入局 AIGC 领域，并发布了“昆仑天工”模型。这一成立于 2008 年的公司早期以游戏代理起家，自 2016 年起，昆仑万维在海外建立起庞大业务，成为国内知名的出海巨头之一，近年来，昆仑万维更是发力元宇宙社交等领域，而这一进军 AIGC，也是早有准备。

自 2020 年起，昆仑万维便组建了超过 200 人的 AIGC 团队，训练集群 200 张卡，投入数千万元，并在 2021 年 4 月研发出了百亿参数的中文 GPT-3 模型。值得关注的是，在很多人忽略的音乐领域，昆仑万维也取得了不错的进展，于 2022 年 1 月启动的 SkyMusic 已经可以实现生成商用级别的音乐。

值得注意的是，昆仑天工选择开源，与百度一样，昆仑万维坚信开源能够给 AIGC 带来更长效的发展力，并致力于降低 AIGC 技术的使用门槛，让 AI 能够帮助更多内容创作者。

除了以上提到的这两家公司外，在国内 AIGC 领域，垂直赛道的初创公司也势头正劲，覆盖 AI 音乐、虚拟人、AI 音频语音、AI 游戏等领域。

但另一个事实也同时存在，相较于 OpenAI 等海外巨头，国内 AIGC 领域公司仍存在较大的差距，一方面在组织架构方面，国内基本都基于公司自身的科研团队，而 OpenAI 等组织更类似一个研究院，能够通过开放共享的模式吸纳全球顶尖科研人才。

另一方面，国内 AIGC 相关公司面对的营收压力客观存在，很难像 OpenAI 等平台不计成本的进行投入。但伴随着 AIGC 逐渐成熟的商业化以及更广泛的应用，或许国内 AIGC 领域即将迎来春天。

为何元年？

回到最开始的那个问题，2022 年为何会被看作 AIGC 的元年？

其实深入了解 AI 绘画与 ChatGPT 就能理解这一说法：

2022 年 8 月，人工智能公司 Stability AI 推出了 AI 文生图模型 Stable Diffusion（扩散模型），将 AI 图像生成的效率与精度提升到了前所未有的量级，在最基础的终端设备上，只需输入关键词，就能生成高质量的 AI 图像，几乎让整个世界为之疯狂。AI 绘画的爆发式发展也第一次让 C 端感受到了 AIGC 的强大魅力。

而 ChatGPT 的到来更令人震惊。作为基于 GPT-3.5 的对话式 AI，ChatGPT 最大的特点即是能够“理解”对话者的语义，能够进行更有效的反馈，并进行连续对话。基于对超大规模数据的深度学习，ChatGPT 在文本生成领域几乎能“以假乱真”，让你认为其真的拥有了意识。此外，ChatGPT 不仅能答疑解惑，还能写故事、作诗，甚至编程，生成内容的能力空前提高。

AIGC 元年的秘密就藏在这两个模型里。

第一，在性能上，AI 已经实现了“进化。相比以前的 GAN 图像生成模型，Stable Diffusion 最大的特点就在于精准，只要输入对关键词，其就能产生较为接近的图像结果，这是此前的图像生成很难做到的。ChatGPT 也同样是高性能的，有人几乎把它当做了谷歌一样的搜索引擎，正是在于其对于文本的深度分析并能够生成较为精确的反馈。而各种生成内容则进一步显示了其性能的强大。

第二则在于“理解”。这点在 ChatGPT 上体现的更加明显，相比此前的对话 AI，人们惊奇的发现，ChatGPT 似乎能够理解文本更深层次的含义，无论是连续流畅的对话，还是对于错误想法的纠正，都让人感觉到对面的 AI 似乎是有思想的，尽管其只是类似“中文屋”的深度学习的产物，但强化学习模型的加入会让其不断进化，对话任务也完成的更加出色。

最后则在于更大范围的应用。相比于此前的“圈内狂欢”，2022 年的 AIGC 真正做到了全民关注，这是技术飞速发展下的产物，以 Stable Diffusion 为例，其最大的特点即是低门槛，不需要多强大的显卡与服务器，最普通的 PC 就能完成任务。同时平台的封装也让 AIGC 更加“平易近人”，AI 绘画仅需要输入关键词，ChatGPT 也只需要网页和提问栏就能实现对话，这让普通人接触 AIGC 的机会大大增加了。

AIGC 在 2022 年的火爆，是技术积累与发展策略双重变革的产物，从某种角度来看，称之为元年也并不为过，只不过 2022 年更应该是 AIGC 的“应用元年”。

AIGC 也还有很长的路要走。一方面，在“创造”这一概念面前，基于深度学习的 AI 的创作是否真正是创造还难以定论，另一方面知识产权问题也像一把达摩克利斯之剑始终悬在 AIGC 头上，如何解决 AI 学习背后的伦理问题也是一大难题。

但在 AI 技术的发展问题面前，以上问题可能都是细枝末节了。正如 OpenAI 等平台所期望的那样，AIGC 并不是最终目的，真正实现通用人工智能才是最核心的目标。

中文推特：https://twitter.com/8BTC_OFFICIAL

英文推特：https://twitter.com/btcinchina

Discord 社区：https://discord.gg/defidao

电报频道：https://t.me/Mute_8btc

电报社区：https://t.me/news_8btc

推荐阅读

架构
【机器学习】生成式对抗网络模型综述

生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型，可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]

蜡笔小新 2023-12-14 17:51:18
架构
读手语图像识别论文笔记2

文章目录一、前言二、笔记1.名词解释2.流程分析上一篇快速门:读手语图像识别论文笔记1（手语识别背景和方法）一、前言一句：“做完了&#x ... [详细]

蜡笔小新 2023-10-17 20:45:15
架构
干货 | 携程AI推理性能的自动化优化实践

作者简介携程度假AI研发团队致力于为携程旅游事业部提供丰富的AI技术产品，其中性能优化组为AI模型提供全方位的优化方案，提升推理性能降低成本࿰ ... [详细]

蜡笔小新 2023-10-16 14:03:03
list
CSS3选择器的使用方法详解，提高Web开发效率和精准度

本文详细介绍了CSS3新增的选择器方法，包括属性选择器的使用。通过CSS3选择器，可以提高Web开发的效率和精准度，使得查找元素更加方便和快捷。同时，本文还对属性选择器的各种用法进行了详细解释，并给出了相应的代码示例。通过学习本文，读者可以更好地掌握CSS3选择器的使用方法，提升自己的Web开发能力。 ... [详细]

蜡笔小新 2023-12-14 14:37:52
list
GPT-3发布，动动手指就能自动生成代码的神器来了！

近日，OpenAI发布了最新的NLP模型GPT-3，该模型在GitHub趋势榜上名列前茅。GPT-3使用的数据集容量达到45TB，参数个数高达1750亿，训练好的模型需要700G的硬盘空间来存储。一位开发者根据GPT-3模型上线了一个名为debuid的网站，用户只需用英语描述需求，前端代码就能自动生成。这个神奇的功能让许多程序员感到惊讶。去年，OpenAI在与世界冠军OG战队的表演赛中展示了他们的强化学习模型，在限定条件下以2:0完胜人类冠军。 ... [详细]

蜡笔小新 2023-12-11 11:04:43
list
cs231n Lecture 3 线性分类笔记（一）

内容列表线性分类器简介线性评分函数阐明线性分类器损失函数多类SVMSoftmax分类器SVM和Softmax的比较基于Web的可交互线性分类器原型小结注：中文翻译 ... [详细]

蜡笔小新 2023-10-17 19:40:56
list
aw多模态融合,多模态话语分析

本博文基于《Amalgamationofproteinsequence,structureandtextualinformationforimprovingprote ... [详细]

蜡笔小新 2023-10-17 19:16:14
bit
【论文】ICLR 2020 九篇满分论文！！！

点击上方，选择星标或置顶，每天给你送干货！阅读大概需要11分钟跟随小博主，每天进步一丢丢来自：深度学习技术前沿 ... [详细]

蜡笔小新 2023-10-17 18:45:53
bit
【疑难杂症】allennlp安装报错：Installing build dependencies ... error

背景：配置PURE的算法环境，安装allennlp0.9.0（pipinstallallennlp0.9.0）报错ÿ ... [详细]

蜡笔小新 2023-10-17 16:20:30
bit
ICRA2019最佳论文 Making Sense of Vision and Touch: SelfSupervised Learning of Multimodal Representatio

文章目录摘要模型架构模态编码器自监督预测控制器设计策略学习控制器设计实验结论和展望会议：ICRA2019标题：《MakingSenseofVision ... [详细]

蜡笔小新 2023-10-17 12:49:25
bit
人工智能推理能力与假设检验

最近Google的Deepmind开始研究如何让AI做数学题。这个问题的提出非常有启发，逻辑推理，发现新知识的能力应该是强人工智能出现自我意识之前最需要发展的能力。深度学习目前可以 ... [详细]

蜡笔小新 2023-10-17 10:01:37
input
程度|也就是_论文精读：Neural Architecture Search without Training

篇首语：本文由编程笔记#小编为大家整理，主要介绍了论文精读：NeuralArchitectureSearchwithoutTraining相关的知识，希望对你有一定的参考价值。 ... [详细]

蜡笔小新 2023-10-16 16:33:20
input
fasttext整体介绍

Word2vec,Fasttext,Glove,Elmo,Bert,Flairpre-trainWordEmbedding源码数据Github网址:词向量预训练实现Githubf ... [详细]

蜡笔小新 2023-10-16 12:14:34
shell
软件测试工程师，需要达到什么水平才能顺利拿到 20k+ 无压力？

前言最近看到很多应届生晒offer,稍有名气点的公司给出的价格都是一年30多W或者月薪20几k,相比之下工作几年的自己薪资确实很寒酸.根据我自己找工作经历,二线城市一般小公司招聘 ... [详细]

蜡笔小新 2023-10-16 13:18:32
list
论文阅读：《Bag of Tricks for LongTailed Visual Recognition with Deep Convolutional Neural Networks》

基于深度卷积神经网络的长尾视觉识别技巧包摘要近年来，挑战性长尾分布上的视觉识别技术取得了很大的进展，主要基于各种复杂的范式(如元学习)。除了这些复杂 ... [详细]

蜡笔小新 2023-10-16 11:18:28

btbxin

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章