AI设计师“鹿班”核心技术公开：如何1秒设计8000张海报？

作者：秋忆道格 | 来源：互联网 | 2023-02-07 11:57

阿里妹导读：AI改变了围棋，现在也在改变海报设计。阿里有一位名为鹿班的AI设计师，平均1秒钟就能完成8000张海报设计，一天可以制作4000万张，单单去年双

阿里妹导读：AI 改变了围棋，现在也在改变海报设计。阿里有一位名为 "鹿班" 的 AI 设计师，平均 1 秒钟就能完成 8000 张海报设计，一天可以制作 4000 万张，单单去年双 11 就设计了高达 4 亿张 banner 海报。究竟其背后的技术原理是什么？今天让我们一起来细细探究。

本文介绍了视觉生成的现状，智能设计的框架和流程、应用案例及未来前景。通过本文的学习，可以对鹿班这个产品，以及视觉生成相关技术有基础性的认识、了解行业的现状以及未来的发展趋势。

演讲嘉宾简介：星瞳，阿里巴巴机器智能技术实验室资深算法专家，专注于视觉生成、智能医疗、图像搜索、信息抽取等方面技术研发和落地；阿里巴巴智能设计（鹿班）的创始成员和算法技术负责人，医疗影像智能诊断方向负责人，图像搜索拍立淘的早期创始成员。

本次分享主要分为以下几个部分：

定义、目标和愿景
设计行业现状
使用场景
技术框架和生产流程
关键算法
业务进展
案例展示
鹿班（新零售UED、淘宝技术部等共创的典型案例）
前景展望

一、定义、目标和愿景

视觉生成的定义：可控视觉内容设计和生成，聚焦满足用户、场景需求的数字视觉内容制造，包括针对图像、视频及图形的增强、编辑、渲染、生成、评估等视觉内容设计与制作。用技术赋能和改革设计、广告及数娱行业。

目标：可控视觉内容设计和生成，让AI做设计，使数字内容制造变得高质、高效、普惠、低成本；

愿景：所想，即所见。

视觉生成主要分成三个方向。第一，针对非结构化的图像。第二，针对结构化的图形。第三，针对序列化的视频。

二、设计行业现状

视觉生成较年轻，起初，基本都是通过人工方式完成。小到海报或毕业设计封面的设计这样的小需求，大到阿里巴巴中海量商家的投放渠道及效果这样的大型需求都与其相关。从业人员数量庞大，市场与广告、商家关系紧密，市场容量非常大。

从技术上说，近几年，大家常提到供给侧改革，以前的供给侧基本都是通过人或工具来形成图像、视频等，但这样有很大的局限性，包括：

效率低成本高

数据利用率低，比如去年双十一和今年双十一由于主题不同，需要全盘重做。

无法在线化，从提出需求到得到结果无法做到实时。

难以上下文相关，设计师不会结合用户的个性化需求，形成与上下文相关的结果。

而在消费端，对个性化、精准度、实时性有很高的需求。因此，在供给和需求之间还存在差距。在AI行业中，IN的多：识别、理解、搜索。OUT的少：生成、融合还限于学术圈，系统性落地工程、可商用的产品没有。

因此，“The best way to predict is to create”。

三、使用场景

视觉生成引擎的使用场景大致可抽象成下图。以显式输入而言，用户可以输入标签需要的风格、色彩、构图等，或者输入一个例子，或者进行一些交互的输入。除显式输入之外还可以有隐式输入，比如人群信息、场景信息、上下文信息等。总的来说，输入可以是千变万化的，但通过规范化之后就会减少变化，使得生成过程可控，输出质量可控。

对视觉生成引擎来说，它要求输入是规范化的。但在输入前，可以加入各种交互方式，如自然语言处理，语音识别等，将其转化成规范化输入。最后输出结构化信息或可视成图。

四、技术框架和生产流程

其技术框架如下图左侧。首先对视觉内容进行结构化理解，如分类、量化、特征化。其次通过一系列学习、决策变成满足用户需求的结构化信息即数据，最后将数据转化成可视的图像或视频。这一框架依赖于大量的现有数据。其核心是一个设计内核。同时，引入效用循环，利用使用后的反馈来不断迭代和改进系统。

其生产流程分成六个步骤，如下图右侧所示。首先用户提出需求，将需求特征化转变成系统可以理解的结构化信息。其次将信息进行规划得到草图。有了粗略的草图后再将其转变成相对更精确的图，然后调整细节，最后通过数据可视化形成最终的图。当然其中还有很多的trick，以及各部分的优化。

五、关键算法

下面介绍一些关键算法。我们希望基于下图最左的耐克鞋生成最右的图。先通过规划器得到草图，再通过强化学习获得相对细致的结果，再通过对抗学习及渲染算法得到图片，再通过评估器进行评估，最后形成业务闭环，其中还会有一些基础的能力，包含更强的联合特征（非普通 CNN特征）及多维度检索算法等。

基本上，处理的第一步是将图片中的信息结构化，这也是与现有的识别理解技术结合最紧密的地方。其中的难点和重点包括，对图像中多目标的识别、遮挡和互包含情况如何得到分割的信息等，下图只是个简单的示例。

有了结构化信息之后，需要对信息进行量化。可以量化成特征或量化图。量化过程中会包含很多信息，比如主题风格、布局配色、元素种类、量化空间等。有了这些信息后可以在主题、种类、风格、视觉特征大小位置上，量化成各种码，用相对有限的特征来表达无限的图。

下一步是通过用户的输入，得到一个相对粗略的结果即草图。目前主要使用的是深度序列学习。从图像角度，首先选定一个点的像素颜色再选择位置，再迭代进行操作，最后形成一张图。规划器模拟的就是这个过程。本质上预测过程是一棵树，当然也可以拆成一条条路径。为了简化，可以分成几步进行，比如空间序列，视觉序列。最后形成量化特征模型，主要应用的是LSTM模型。它把设计的过程转化成基于递归、循环的过程。

得到草图后，利用行动器将草图细化。如果将图中的每个元素看作一个Agent，那么它将有若干个可选的行动空间。

假设一张图中有20个元素，每个元素在视觉上有多种可选的行动空间，由其组合成的可选行动空间非常庞大。我们有很多trick可以解决这一问题，比如在空间上，只允许在有限范围内进行变动，且行动方向有序，即状态有序，行动有限。

下一步是如何衡量结果的好坏。图像的评估相对比较主观，主要可以从美学和效果两方面来评估。美学角度可以包括是否对齐、色系搭配是否合理、有无遮挡这些较低级别的判断标准，以及较高级的，比如风格是否一致，是否切合主题。从效果上，产品投放后是否会在点击率等方面实现提升。最后将多个指标形成对应权重并形成多个DeepLR联合模型。

但在衡量结果之前，需要形成像素级别可见的图。这里有以下几种构造器分类，包括临摹、迁移、创造、搭配与生成。

前面介绍了，如何通过用户的需求形成可见的图。后续还需要进行投放和反馈并进行优化，形成效用外循环。这样才能使得系统效用不断得到提升，形成一个在线闭环，这也是智能设计相对设计师的一大优势。

六、业务进展

下面是一些实际的例子。

在这个系统中也加入了大量的人的信息，知识图谱。设计师在进行设计时都会存在一些共性的东西，包括在色彩、复杂度、风格、结构上的应用，这与自然语言处理有些相似，但自然语言处理方面的知识图谱已经非常成熟，而设计上的还需要不断探索打磨。

在影响力方面，鹿班作为业界首创的AI设计系统，成为集团双十一的一个AI协同典型案例，获得了大量的报道。在其中，运用了对抗学习，该技术是MIT2018全球十大突破性技术之一。

七、案例展示

从多样性看，生成的图片可以是多主体、多主体、多配色和类型自适应的。

同时，也可以生成多种尺寸的图片。

八、前景展望

上面所说的基本都是平面设计层面的。但在视频和图形上是另一片蓝海。如果说人工做一张图片的成本比较高，而制作视频的成本则远高于图片。

下图是目前的行业市场空间展示。

下图是在视频中进行广告植入的案例。需要检测视频中哪个位置适合插入广告，对位置进行优化。

下图是网球赛中将阿里巴巴的品牌logo无缝投影到赛场中。

为了强调视频中的一部分，可以生成整体静止局部运动的可循环视频。

在游戏领域中，现在的游戏场景需要大量的美工、设计师等。如果希望生成的结果能满足多样性，那么纯靠人工进行需要大量的成本，并且由于游戏的生命周期通常较短，因此批量高效的场景制作是一个很有前景的应用。

九、结语

通过视觉生成引擎，我们希望能基于用户的所想，使得一切皆可生成。长远的目标就是：所想，即所见。

推荐阅读

深度
2023年京东Android面试真题解析与经验分享

本文由一位拥有6年Android开发经验的工程师撰写，详细解析了京东面试中常见的技术问题。涵盖引用传递、Handler机制、ListView优化、多线程控制及ANR处理等核心知识点。 ... [详细]

蜡笔小新 2024-12-26 17:45:48
深度
Python 的 10 个开发技巧！太实用了

1.如何在运行状态查看源代码？查看函数的源代码，我们通常会使用IDE来完成。比如在PyCharm中，你可以Ctrl+鼠标点击进入函数的源代码。那如果没有IDE呢？当我们想使用一个函 ... [详细]

蜡笔小新 2024-12-27 18:36:54
深度
macOS系统及其关键功能解析

本文详细介绍了macOS系统的核心组件，包括如何管理其安全特性——系统完整性保护（SIP），并探讨了不同版本的更新亮点。对于使用macOS系统的用户来说，了解这些信息有助于更好地管理和优化系统性能。 ... [详细]

蜡笔小新 2024-12-26 18:05:04
深度
自学编程与计算机专业背景者的差异分析

本文探讨了自学编程者和计算机专业毕业生在技能、知识结构及职业发展上的不同之处，结合实际案例分析两者的优势与劣势。 ... [详细]

蜡笔小新 2024-12-26 17:53:18
算法
从零开始构建完整手机站：Vue CLI 3 实战指南（第一部分）

本系列教程将引导您使用 Vue CLI 3 构建一个功能齐全的移动应用。我们将深入探讨项目中涉及的每一个知识点，并确保这些内容与实际工作中的需求紧密结合。 ... [详细]

蜡笔小新 2024-12-26 13:30:37
算法
帝国CMS多图上传插件详解及使用指南

本文介绍了一款用于帝国CMS的多图上传插件，该插件通过Flash技术实现批量图片上传功能，显著提升了多图上传效率。文章详细说明了插件的安装、配置和使用方法。 ... [详细]

蜡笔小新 2024-12-26 13:30:01
算法
百度服务再次遭遇技术问题，疑似DNS解析故障

近日晚间，百度多项在线服务出现加载异常，包括移动端搜索在内的多个功能受到影响。初步迹象表明，问题可能与DNS服务器解析有关。 ... [详细]

蜡笔小新 2024-12-26 12:52:25
算法
深入理解Java中的Collection接口与Collections工具类

本文详细解析了Java中Collection接口和Collections工具类的区别与联系，帮助开发者更好地理解和使用这两个核心组件。 ... [详细]

蜡笔小新 2024-12-25 19:00:15
算法
PHP Eloquent ORM 中的关联查询扩展

本文探讨了如何在 PHP 的 Eloquent ORM 中实现数据表之间的关联查询，并通过具体示例详细解释了如何将关联数据嵌入到查询结果中。这不仅提高了数据查询的效率，还简化了代码逻辑。 ... [详细]

蜡笔小新 2024-12-25 18:14:14
算法
深入解析网站流量统计中的PV、UV和IP

本文详细探讨了网站流量统计中常用的三个关键指标：页面浏览量（PV）、独立访客数（UV）和独立IP数（IP）。通过分析这些指标的定义、计算方法及其应用场景，帮助网站运营者更好地理解用户行为，优化网站内容与用户体验。 ... [详细]

蜡笔小新 2024-12-24 23:33:04
深度学习
卷积神经网络（CNN）基础理论与架构解析

本文介绍了卷积神经网络（CNN）的基本概念、常见结构及其各层的功能。重点讨论了LeNet-5、AlexNet、ZFNet、VGGNet和ResNet等经典模型，并详细解释了输入层、卷积层、激活层、池化层和全连接层的工作原理及优化方法。 ... [详细]

蜡笔小新 2024-12-24 18:58:11
深度
堆排序与数据结构中的堆

堆是一种常见的数据结构，广泛应用于计算机科学领域。它通常表示为一棵完全二叉树，并可通过数组实现。堆的主要特性是每个节点的值与其父节点的值之间存在特定的关系，这使得堆在优先队列和排序算法中非常有用。 ... [详细]

蜡笔小新 2024-12-24 15:41:01
深度
探索电路与系统的起源与发展

本文回顾了电路与系统的发展历程，从电的早期发现到现代电子器件的应用。文章不仅涵盖了基础理论和关键发明，还探讨了这一学科对计算机、人工智能及物联网等领域的深远影响。 ... [详细]

蜡笔小新 2024-12-24 13:57:05
深度
2018 区块链技术峰会：专家深度解析核心技术与应用前景

2018年3月31日，CSDN、火星财经联合中关村区块链产业联盟等机构举办的2018区块链技术及应用峰会（BTA）核心分会场圆满举行。多位业内顶尖专家深入探讨了区块链的核心技术原理及其在实际业务中的应用。 ... [详细]

蜡笔小新 2024-12-24 10:56:15
深度学习
优化深度神经网络在低性能硬件上的运行

尽管深度学习带来了广泛的应用前景，其训练通常需要强大的计算资源。然而，并非所有开发者都能负担得起高性能服务器或专用硬件。本文探讨了如何在有限的硬件条件下（如ARM CPU）高效运行深度神经网络，特别是通过选择合适的工具和框架来加速模型推理。 ... [详细]

蜡笔小新 2024-12-24 08:48:32

秋忆道格

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章