当前位置: 开发笔记 > 编程语言 > 正文

基于百度英伟达EasyDL公开课的学习笔记

作者：show窝_515 | 来源：互联网 | 2023-09-15 15:34

本文是基于智东西公开课《零算法基础的百度EasyDL定制化图像识别揭秘》整理的学习笔记本文非广告，标注单纯是出于尊重智东西和EasyDL的知识产权如若涉及侵权&#

本文是基于智东西公开课《零算法基础的百度EasyDL定制化图像识别揭秘》整理的学习笔记

本文非广告，标注单纯是出于尊重智东西和EasyDL的知识产权

如若涉及侵权，请联系本人

作者：李皮皮

谢绝任何不标注原出处的转载以及百度百家号抄袭

本次公开课为期一小时，涉及四个方面：

1. AI赋能行业的的痛点

2. EasyDL服务端和设备端技术解析

3. GPU集群加速EasyDL训练与推理

4. EasyDL赋能行业案例分享

AI赋能行业的痛点

在目前的AI行业中，需求大致可以分为两种：通用需求和定制需求。

对于通用需求，我们可以用通用模型解决。例如语音识别，图像识别，OCR，人脸识别等。

对于定制需求，则是一些通用模型解决不了的问题。例如辅助医药工作者对中草药进行鉴定，生物研究辅助研究员对生物品种进行分类……在本科阶段，北京邮电大学经管院的陈霞老师曾告诉过我们，电子商务做的就是抓用户的痛点，这一点也同样适用于互联网行业。根据百度AI技术生态部高级算法工程师赵鹏昊老师的介绍，AI定制需求的核心诉求大概有三个：

（1）客户往往需要使用自己的数据训练自己特有的模型

（2）客户通常对自己领域都有很强的专业知识，但是并不了解深度学习（以下简称DL），也不愿意去做复杂的模型训练、服务部署和运维

（3）客户的需求往往比较急切，希望快速验证模型效果（并直接获得可集成的定制化服务API和私有化部署能力）

根据这些痛点，百度的EasyDL应运而生，大致服务流程如下：

——图片摘自智东西公开课课件

这款产品的亮点是，它不仅提供云端的API服务，更提供了离线SDK的服务，能让用户在线下部署自己的私有化定制。

EasyDL服务端和设备端技术解析

在EasyDL的服务端，有下面几种核心技术：AI Workflow分布式引擎，百度自创PaddlePaddle深度学习框架，迁移学习，Auto Model Search机制， early stoopping机制，模型效果评估机制。下面来一一了解一下。

对于一个DL建模，大致工作流程如下：

（1）在数据仓库提取数据

（2）ETL*进行数据清洗，特征提取，验证集的切分

（3）分布式训练

（4）模型评估

（5）自动服务（auto serving）

* ETL（以下解释摘自百度百科《ETL》【1】）：

ETL，是英文 Extract-Transform-Load 的缩写，用来描述将数据从来源端经过抽取（extract）、交互转换（transform）、加载（load）至目的端的过程。ETL一词较常用在数据仓库，但其对象并不限于数据仓库。

ETL是构建数据仓库的重要一环，用户从数据源抽取出所需的数据，经过数据清洗,最终按照预先定义好的数据仓库模型，将数据加载到数据仓库中去。

信息是现代企业的重要资源，是企业运用科学管理、决策分析的基础。目前，大多数企业花费大量的资金和时间来构建联机事务处理OLTP的业务系统和办公自动化系统，用来记录事务处理的各种相关数据。据统计，数据量每2～3年时间就会成倍增长，这些数据蕴含着巨大的商业价值，而企业所关注的通常只占在总数据量的2%～4%左右。因此，企业仍然没有最大化地利用已存在的数据资源，以至于浪费了更多的时间和资金，也失去制定关键商业决策的最佳契机。于是，企业如何通过各种技术手段，并把数据转换为信息、知识，已经成了提高其核心竞争力的主要瓶颈。而ETL则是主要的一个技术手段。

这里需要注意，可能我们会有一个误区——AI训练集不需要太大。其实，AI的训练集往往都符合大数据的经典3V原则*，所以我们需要用MongoDB，Hadoop的DFS做数据存储、用spark集群做分布式预处理和模型评估、使用百度的PaddlePaddle调用框架建模，最后把训练好的模型通过Docker技术做AI平台服务。个人认为这是一个很好的学习指南，让大数据工程师能够很好查漏补缺。

大数据经典3V原则（摘自动点科技文章【2】）：

如果你问人们，大数据是什么？比较样板化的答案通常是三个 V：数量（volume），效率（velocity）和广阔性（variety）。接下来他们会开始讨论，他们的数据到底有多大才能被定义为“大数据”。当你开始看到实际技术的时候，事情开始变得比较复杂。这些主要的挑战使事情发展到，今天已经没有单一的一种科技可以一次性处理有关于大数据的三个 V 的所有问题——数量。效率和广阔性。

刚才提到了的核心技术除去AI workflow，还有百度自创PaddlePaddle深度学习框架。PaddlePaddle全名叫做PArallel Distributed Deep Learning, “是一个深度学习框架/语言”。在EasyDL中，Paddle有如下应用示例：

——摘自智东西公开课课件

可以看到，它可能是一个类TensorFlow的框架，具体我也没有了解过，就过了。

下面重点讲一下迁移学习（transfer learning）*。在我看来，迁移学习在百度这个产品中占据的是核心地位，为什么呢？因为普通的机器学习不能很好满足客户需求。一般来说有定制化需求的客户的标注数据都是很有限的，甚至其领域内的数据标注成本非常高。在这样的情况下，客户的需求确实通过较少的数据快速获得可用且准确率较高的模型。一般来说，从开头开始搭建神经网络显然不符合这样的客户需求。为了解决这个矛盾，百度使用了迁移学习。举个栗子，做中草药识别模型时，EasyDL会将已有的植物识别模型运用到中草药识别当中去：将百度大规模标注的数据集在深度神经网络上做预训练，将预训练参数加入神经网络中做调解（迁移学习），从而大大提高效率。这样可以将几十个小时的训练降低到几小时甚至几分钟量级。此外，EasyDL还支持多点预训练，持续闭环等机制，使得工作流实现配置化和自动化。

迁移学习（摘自知乎用户“刘诗昆”关于《什么是迁移学习（Transfer Learning）？这个领域历史发展前景如何？》的回答【3】）

迁移学习(Transfer learning) 顾名思义就是就是把已学训练好的模型参数迁移到新的模型来帮助新模型训练。考虑到大部分数据或任务是存在相关性的，所以通过迁移学习我们可以将已经学到的模型参数（也可理解为模型学到的知识）通过某种方式来分享给新模型从而加快并优化模型的学习效率不用像大多数网络那样从零学习（starting from scratch，tabula rasa）。

这里不禁想感叹一下当时学《电子商务概论》课程时，就觉得百度和腾讯是紧紧抓住了流量入口的。现在百度的搜索引擎产生的数据量真是奠定了其数据霸主的地位啊。

此外，EasyDL还使用了Auto Model Search 和 Early stopping机制，让少两样本就能有用高精度。Auto Model Search就是对模型结构和超参数做自动搜索，更好匹配不同类型数据，做最佳模型。而early stopping呢，能够降低过拟合风险。做过DL的同学应该都有体会，DL是能分分钟过拟合的，对于这种风险，early stopping能很好抑制过拟合和欠拟合。目前EasyDL的模型绝大多数准确率都在80%以上。

技术本身是一方面，学统计的同学肯定有体会，模型的评估也是至关重要的。在呈现评估结果时，EasyDL就非常好的利用了混淆矩阵的各个指标和F1-score，做了尽可能精细的结果展示。这里我觉得有一个亮点，就是bad case的展示。一般可能大家是不愿意把拟合的不好的结果放出来的，但是百度这里把badcase放出来，让客户对预测结果有了一个感性的认知。再结合其领域内专业知识，说不定可以很好解决错误分类的问题，而且也有利于他们专门对错误分类的数据做一个训练集的补充。

下面来学习一下EasyDL设备端计算（Edge Computing）。据赵鹏昊老师说，这个设备端的实现是谷歌目前都没有的。这个创意我觉得超级好，现在真的有一点资源浪费严重了，上云就是高大上，但是并不是所有开发都需要云端才能完成的，够用就可以了。EasyDL在自己的设备上就可以完成，如果算力不够，就会进入雾计算；如果雾计算也不能满足需求，才会启动云计算。这样的多层计算结构很好的抑制了浪费（就是不知道真实情况如何了）。然后放一个云计算和设备端计算的对比课件：

服务器集群训练的机器学习模型通常大小都在200MB-500MB，其本质原因是模型含有上千万的单精度浮点参数。显然对于手机这样的设备端是不可能给这么多内存来计算的。所以就需要对模型进行体积压缩，通常目标体积为20MB-30MB。采用的压缩技术有：参数剪枝（Pruning），将浮点数量化成8bit或者4bit的数值，轻量网络（SqueezeNet, MobileNet）。

除去压缩问题，还有设备加速问题，这里通过异构芯片实现加速。还有一个小知识点，对于IOS的游戏开发，MPS库是一个常用的加速手段，更好利用IOS上的GPU做加速。还有使用ARM芯片通过NEON技术加速。

GPU集群加速EasyDL训练与推理

这一趴老师主要讲了一下英伟达GPU*集群的构成。通常使用的是英伟达特斯拉系列搭建平台，有P4, P40, V100这三个版。P4显存8G, P40显存24G，所以通常用P4做部署，P40和V100做训练。结论就是GPU集群在做图像分类和物体检测时，性能远超CPU集群。EasyDL用户最快五分钟就可以使用小规模数据集训练，完成定制化模型并获得服务。并且GPU集群的分布式架构能够确保任何单节点的故障都不会影响整体的服务能力。

其实有一个细思极恐的问题，百度的EasyDL能够在短时间内完成如此快速的计算，一方面是算法等百度自身开发的功劳，但是有一个大功劳是英伟达的（“P4提升吞吐量高达30倍，同时延迟降低75%”）。不禁让人想起了中兴的惨案。核心的技术还是掌握在别人手里。

GPU与CPU的区别与联系（摘自CSDN用户“JackZhangNJU”的文章【4】）

从硬件来分析，CPU和GPU似乎很像，都有内存、cache、ALU、CU，都有着很多的核心，但是二者是有区别的。

但以核心为例，CPU的核心比较重，可以用来处理非常复杂的控制逻辑，预测分支、乱序执行、多级流水等等CPU做得非常好，这样对串行程序的优化做得非常好；

但是GPU的核心就是比较轻，用于优化具有简单控制逻辑的数据并行任务，注重并行程序的吞吐量。

简单来说就是CPU的核心擅长完成多重复杂任务，重在逻辑，重在串行程序；GPU的核心擅长完成具有简单的控制逻辑的任务，重在计算，重在并行。

另外，并行和并发的概念是不一样的，并行就是大家一起干，同时去做，并发就是多线程竞争资源

EasyDL赋能行业案例分享

这一部分是我觉得最有意思的了。目前EasyDL能解决的问题有三类，图像分类、物体检测和定制声音识别，还在开发别的功能（文字分类，情绪情感分析，视频监控）。给出了四个案例：

（1）蝶鱼科技：使用3000张图片训练，在制造和组装键盘流水线中，识别键盘组装后的合格性，将键盘图片分类。每条生产流水线每年节省12万人工检测员人力成本，准确率高达99%【科技是第一生产力啊。。。真是可怕】

（2）checkpoint零售安防：这是美国的一家连锁超市，用于识别购物车下层是否有未付款商品，需求是精准排除残疾人购物车和儿童购物车。之前该公司使用的是传感器，准确率极差，使用了DL后，准确率高达95%。据老师说，目前该公司计划全部更新店铺设备，使其能与百度EasyDL全面接轨。

（3）惠合科技e店佳：这个也非常有意思，是通过拍摄视频来识别超市的物品陈列是否符合要求。在以往，需要专人到店铺挨个检查，不但耗时耗力，还有很多作弊情况。使用DL后，审核效率提升了30%。这让我想到了除去法律和道德，科技也可以做到约束人性丑恶，减少作弊。

（4）CELLA（百度合作伙伴）：CELLA为圣象地板做木地板瑕疵检测木星，并且发布生成离线SDK.检测率高达95%，提高了产能——处理单片木板原料的单位时间仅为原来的四分之一。

当然EasyDL也存在很多问题，我能想到的一个就是目前的数据标注问题，老师也提到目前是用户自己标注，后面可能会有众包。

真是该好好关注一下各大互联网公司的AI部署了，感觉自己好落后~~

参考文献：

【1】https://baike.baidu.com/item/ETL/1251949?fr=aladdin

【2】https://cn.technode.com/post/2013-11-08/3v-big-data/

【3】https://www.zhihu.com/question/41979241

推荐阅读

runtime
利用PaddleSharp模块在C#中实现图像文字识别功能测试

PaddleSharp 是 PaddleInferenceCAPI 的 C# 封装库，适用于 Windows (x64)、NVIDIA GPU 和 Linux (Ubuntu 20.04) 等平台。本文详细介绍了如何使用 PaddleSharp 在 C# 环境中实现图像文字识别功能，并进行了全面的功能测试，验证了其在多种硬件配置下的稳定性和准确性。 ... [详细]

蜡笔小新 2024-10-30 15:53:37
bit
表面缺陷检测数据集综述及GitHub开源项目推荐

本文综述了表面缺陷检测领域的数据集，并推荐了多个GitHub上的开源项目。通过对现有文献和数据集的系统整理，为研究人员提供了全面的资源参考，有助于推动该领域的发展和技术进步。 ... [详细]

蜡笔小新 2024-10-29 08:22:46
bit
Git版本控制基础解析

本文探讨了Git作为版本控制工具的基本概念及其重要性，不仅限于代码管理，还包括文件的历史记录与版本切换功能。通过对比Git与SVN，进一步阐述了分布式版本控制系统的独特优势。 ... [详细]

蜡笔小新 2024-11-24 19:32:57
random
H5技术实现经典游戏《贪吃蛇》

本文将分享一个使用HTML5技术实现的经典小游戏——《贪吃蛇》。通过H5技术，我们将探讨如何构建这款游戏的两种主要玩法：积分闯关和无尽模式。 ... [详细]

蜡笔小新 2024-11-21 20:16:59
random
精选10款Python框架助力并行与分布式机器学习

随着神经网络模型的不断深化和复杂化，训练这些模型变得愈发具有挑战性，不仅需要处理大量的权重，还必须克服内存限制等问题。本文将介绍10款优秀的Python框架，帮助开发者高效地实现分布式和并行化的深度学习模型训练。 ... [详细]

蜡笔小新 2024-11-20 19:44:05
filter
从一维到三维的模型扩展

本文源自Coursera平台吴恩达教授的深度学习课程，重点探讨了卷积神经网络（ConvNets）从二维图像处理向一维信号及三维数据处理的拓展应用。 ... [详细]

蜡笔小新 2024-11-20 16:09:22
sum
【图像分类实战】利用DenseNet在PyTorch中实现秃头识别

本文详细介绍了如何使用DenseNet模型在PyTorch框架下实现秃头识别。首先，文章概述了项目所需的库和全局参数设置。接着，对图像进行预处理并读取数据集。随后，构建并配置DenseNet模型，设置训练和验证流程。最后，通过测试阶段验证模型性能，并提供了完整的代码实现。本文不仅涵盖了技术细节，还提供了实用的操作指南，适合初学者和有经验的研究人员参考。 ... [详细]

蜡笔小新 2024-11-06 15:21:35
sum
能够感知你情绪状态的智能机器人即将问世 | 科技前沿观察

本周科技前沿报道了多项重要进展，包括美国多所高校在机器人技术和自动驾驶领域的最新研究成果，以及硅谷大型企业在智能硬件和深度学习技术上的突破性进展。特别值得一提的是，一款能够感知用户情绪状态的智能机器人即将问世，为未来的人机交互带来了全新的可能性。 ... [详细]

蜡笔小新 2024-11-05 20:45:31
random
利用CIFAR10数据集快速掌握Mixup数据增强技术，显著提高图像分类精度

通过使用CIFAR-10数据集，本文详细介绍了如何快速掌握Mixup数据增强技术，并展示了该方法在图像分类任务中的显著效果。实验结果表明，Mixup能够有效提高模型的泛化能力和分类精度，为图像识别领域的研究提供了有价值的参考。 ... [详细]

蜡笔小新 2024-11-05 14:24:36
random
【API 进阶之路】做 OCR 文字识别，谁说必须要有 AI 工程师？

摘要：有些功能还真不能光凭自己的直觉和认识，来自一线的声音才是最真实的用户需求。比方说名片录 ... [详细]

蜡笔小新 2024-10-11 19:18:19
random
巨头_巨头纷纷押注的智能翻译机，会是第一款成功的消费级AI硬件吗？

到了今天，已经很少有人再提人工智能音箱了。使用率低、售价跳水、缺乏销售数据……我们不能武断地说智能音箱凉了，但的确不少所谓的AI企业的硬件梦碎了。相对于一 ... [详细]

蜡笔小新 2024-10-10 12:31:22
sum
我是如何快速拿下datacastle图像识别竞赛“猫狗大战”冠军的｜含全代码和详细说明...

接触数据挖掘快有一年了，早期在学生团队做过一些D3数据可视化方面的工作，今年上半年开始数据挖掘实践。想把这个爱好发展成事业。有在kaggle混迹 ... [详细]

蜡笔小新 2024-10-10 09:18:18
sum
Dell Latitude 5290 2-in-1 平板电脑黑苹果体验评测

本文基于notebookcheck的详细数据和个人实际使用体验，对Dell Latitude 5290 2-in-1平板电脑进行评测。评测内容包括外观设计、散热性能、基准测试、游戏表现和续航能力等方面，旨在为读者提供全面的参考。 ... [详细]

蜡笔小新 2024-11-12 17:24:30
sum
替换桌面快捷方式图标

给桌面快捷方式替换图标#include#includeboolChangeLinkIcon(constCString&strLnk ... [详细]

蜡笔小新 2024-10-18 16:36:01
sum
iPad 上最好用的画图 App 又更新了这些强大新功能

界面易上手同时又具有专业工具实力，68元买断无内购的售价，再加上持续多年免费更新，Procreate凭借上述优势已经成为iPad绘画App中最知名的一款平板画面设置 ... [详细]

蜡笔小新 2024-09-28 22:01:07

show窝_515

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章