不到现场,照样看最干货的学术报告!
嗨,大家好。这里是学术报告专栏,读芯术小编不定期挑选并亲自跑会,为大家奉献科技领域最优秀的学术报告,为同学们记录报告干货,并想方设法搞到一手的PPT和现场视频——足够干货,足够新鲜!话不多说,快快看过来,希望这些优秀的青年学者、专家杰青的学术报告 ,能让您在业余时间的知识阅读更有价值。
人工智能论坛如今浩如烟海,有硬货、有干货的讲座却百里挑一。“AI未来说·青年学术论坛”系列讲座由中国科学院大学主办,百度全力支持,读芯术、paperweekly作为合作自媒体。承办单位为中国科学院大学学生会,协办单位为中国科学院计算所研究生会、网络中心研究生会、人工智能学院学生会、化学工程学院学生会、公共政策与管理学院学生会、微电子学院学生会。2020年4月26日,第14期“AI未来说·青年学术论坛”深度学习线上专场论坛以“线上平台直播+微信社群图文直播”形式举行。百度邓凯鹏带来报告《飞桨视觉技术解析与应用》。
百度邓凯鹏的报告视频
邓凯鹏,2017年本硕毕业于上海交通大学电子信息与电气工程学院,现于百度深度学习技术平台部从事CV方向模型研究和优化工作。PaddleDetection目标检测库和PaddleVideo视频库的核心设计者和开发者,两个模型库均是在工业端到端落地的优秀实践,支撑了大量线上业务,其中基于Paddle开发并优化的YOLOv3目标检测模型,在精度和速度上达到业界最优,通过裁剪蒸馏等方法压缩的YOLOv3模型在移动端精度和速度大幅领先于当前最优的SSDLite-MobileNetV3。Paddle 3D视觉方向负责人,完成Paddle 3D视觉方向的建设和推广,建设的Paddle 3D模型库支撑百度研究院发表论文10余篇。
报告内容:介绍飞桨视觉技术的发展现状,分析飞桨开源的各视觉模型库的特色和优势,并结合图像分类,目标检测和模型压缩及部署上端到端优化及应用案例,解读飞桨在视觉模型完备性和领先性上的已有建设工作,介绍视觉模型精度和预测速度优化上的方法技巧和实用效果,并分享飞桨在视觉模型选择,性能优化和部署应用上的优秀实践,解析飞桨视觉模型在工业应用实践上的优越性。
飞桨视觉技术解析与应用
首先,邓凯鹏老师介绍了当前飞桨框架以及视觉模型库CV的整体建设情况。飞桨框架是源自产业实践深度学习框架,同时支持静态图和动态图搭建网络,支持高效大规模分布式训练,同时推出了像PaddleSlim模型压缩还有安全加密的工具,以及在服务端和移动端进行预测部署一些引擎。基于飞桨框架,百度开源了自然语言处理、计算机视觉、推荐系统以及语音处理等模型库,在基础模型库之上又开源了一系列端到端开发套件,在端到端开发套件之上开源了一键式迁移学习工具PaddleHub,还有自动进行网络结构设计的AutoDL,另外还开源了定制化训练服务平台EasyDL以及一站式开发训练平台AI Studio。
接下来邓凯鹏老师列举了飞桨框架几大优势:(1)飞桨框架同时支持静态图和动态图,动态图组网和调试方便,静态图运行速度快、部署方便,同时支持静态图和动态图使开发更为便捷。(2)飞桨是支持超大规模深度学习并行模型的,在海量数据和模型快速迭代的场景中有很大的优势。(3)不仅使用和训练方便,飞桨框架和多端多平台推理部署基本上是无缝对接,并且有领先底层加速库,还有模型压缩工具针对服务器端和移动端的部署引擎。(4)在应用方面,飞桨推出经过实践验证的丰富应用模型库,开源了多个国际竞赛的冠军算法。
之后,邓凯鹏老师对计算机视觉进行了简要介绍。飞桨推出了工业级计算机视觉模型库,百度构建了图像分类、目标检测、图像分割、视频处理、图像生成、文字识别、度量学习以及3D视觉相关方面视觉能力,同时也构建了PaddleClas图像分类、PaddleDetection目标检测以及PaddleSeg图像分割这些端到端的开发套件,接下来邓凯鹏老师就主要基于PaddleClas和PaddleDetection应用介绍了飞桨在实际技术中建设。
(1)PaddleClas图像分类。图像分类的任务目标形象地说就是给计算机一张猫的图片,通过计算机实现算法或者模型让计算机准确判断这是只猫。图像分类的应用是十分广泛的。
飞桨团队技术开源了PaddleClas图像分类套件,这是为工业界和学术界打造图像分类任务的工具集,PaddleClas包含23个系列,多达117种分类模型,这也是当前丰富度最高的图像分类代码仓库。同时PaddleClas对于模型优化提供了最前沿的支持,比如,将ResNet50_vd精度优化到82.4%的SSLD知识蒸馏方案,也随着PaddleClas一起开源了。另外基于PaddleClas开源了多个特色应用以及工业级部署工具,在工业应用场景有非常好端到端的落地能力。
下面邓凯鹏老师具体地介绍了PaddleClas的优势。PaddleClas图像分类库解析与应用提供了服务器端模型和端侧模型两个系列模型来支撑不同的运用场景。
图像分类模型有大有小,应用场景各不相同,如果在云端、服务器端上面部署模型时,一般认为算力是足够的,更倾向于追求模型精度;而手机端、嵌入式端移动端设备部署的时候,受限于设备算力和内存,对于模型大小、速度有更高的要求。
首先是服务器端模型,服务器端模型支持多个序列,最新的EfficientNet在PaddleClas已经支持了。邓凯鹏老师根据不同模型的预测实验曲线非常推荐大家使用ResNet_vd_SSLD系列模型,业界对于ResNeT支持和优化远比于EfficientNet要成熟,而ResNeT_vd是基于ResNeT的一个高效改进,同时百度自研SSLD知识蒸馏方案对其精度又进行了进一步提升。
然后是端侧模型MobileNet系列和ShuffleNet系列,邓凯鹏老师也根据端侧模型的精度以及在相应预测实验情况曲线推荐使用MobileNetV3_ssld系列,MobileNetV3本身精度和速度有很大优势,SSLD知识蒸馏又对它的精度进行了进一步提升。百度将MobileNetV3_large的精度提升79%,将small模型精度提升到71.3%。
(2)PaddleDetection目标检测库。目标检测也叫目标提取,即从图像中框出你感兴趣的目标,输出这个预测框的位置以及框中类别信息的任务。比如说在车辆检测中,目标检测需要在一个画面里框出车辆,并告知框里是什么类型的车,目标检测任务是计算机视觉主要方向之一,同时它也是实例分割、人员检测、关键点检测等任务的基础,目标检测任务在实际应用中也是非常广泛的。
PaddleDetection目标检测库基于飞桨核心框架,提供了多种模块化设计的检测器,并且提供了数据增强、损失函数等一系列的组件,还提供了丰富的模型库。同时PaddleDetection集成了模型压缩能力、跨平台部署能力,PaddleDetection检测部署方案目前支持工业质检、遥感图像检测、无人巡检等多个实际落地项目。
然后邓凯鹏老师列举了PaddleDetection一些特点,(1)模块化设计,这些模块可以轻松组合和扩展出你需要的目标检测器;(2)模型丰富,在模型库层面上百度支持了10余种主流算法,100多种目标检测模型,同时持续提升服务器端以及移动端优化改进模型,(3)高性能和工业级部署,PaddleDetection性能高,而且工业级部署上有一套全流程解决方案。
PaddleDetection在持续优化服务器端和端侧模型,其中服务器端的单阶段经典检测模型如YOLOv3。原作者的YOLOv3在COCO数据集上精度是33.0;而在PaddleDetection里YOLOv3版本实现过程中,使用了像大量图像增强等一系列的优化措施,精度达到了37.7%,是高于原作者4.7个百分点,同时推理速度也是领先于原作者的。
在此基础上百度对YOLOv3模型进行了进一步的优化,邓凯鹏老师详细介绍了一系列优化方法,比如IoU Loss。 YOLOv3的定位精度是相对较差的,那么如何提高定位精度呢?IoU是定位精度的评估方式,直接把IoU的赋值作为loss的分量,那么在学习过程中就一直在优化IoU,以提升IoU方式提升训练精度,类似于所见即所得的思想,通过一系列的优化方式将YOLOv3模型精度优化43.6,高于原作者10.6的百分点,同时推理速度大幅的提升,优于竞品40%以上,可以说是性价比很高的模型了。
百度对于二阶段FasterRCNN模型也进行了一系列的优化,首先减小了NMS proposal的数量,减少了FPN的通道数,这样的精度是略有降低的,但通过修改其速度提升非常快。百度更进一步优化精度,比如用了PaddleClas里面开源SSLD知识蒸馏模型作为预训练权重用到了CLoU Loss、可变形卷积和自动图像增强等一系列的优化方式,将精度最终优化了5.2个百分点,推理速度提升了38%,在TeslaV100上预测速度达到60帧/秒。上文提到的YOLOv3、FasterRCNN等一系列的优化方式在都在PaddleDetection里面,通过组件方式来提供的,也就是说如果想优化自己目标检测模型,可以通过组件配置的方式通过PaddleDetection优化自己的模型。
上面介绍了服务器端模型优化情况,然后邓凯鹏老师介绍了移动端、嵌入式端这些端侧应用。百度推出了端侧模型库,端侧设备一般算力比较低,内存比较小,所以对模型运算量和大小要求比较高,同时端侧设备种类比较多,比如早期低端CPU,还有近年来刚推出骁龙885、麒麟980,这些相对算力比较高的CPU以及嵌入式GPU、NPU等设备。
PaddleDetection为此推出三个系列的模型,首先是适用于低算力的SSDLite及其量化模型,SSDLite在骁龙855上的推理时延只有41毫秒。如果需要兼顾速度和精度,PaddleDetection推出的YOLOv3压缩模型通过剪裁+蒸馏的方式,将YOLOv3在骁龙845上的推理时延优化100毫秒左右的时间,精度差不多达到25左右。在端上GPU或者NPU等一些高端设备,对于精度有很高的要求,百度推出的Cascade Faster RCNN模型在COCO数据集上的精度最高达到30.2%。
同时PaddleDetection也内置集成了模型压缩的能力,提供一键式剪裁、蒸馏、量化这些脚本,通过一键式剪裁+蒸馏的方案,将YOLOv3—MobileNetv1的计算量裁剪将近70%左右,在COCO数据集精度基本是无损的,在VOC数据集精度还略有提升,这个裁剪模型在移动端有三倍,GPU也有60%的加速,可以说非常给力。YOLOv3—ResNet50 DCN这种模型,剪裁43%的计算量,精度提升0.6%,GPA加速20%,是更优的服务器端解决方案。
然后邓凯鹏老师介绍了基于PaddleDetection支持实际项目:输电线路网络可视化通道巡检。这个项目通过端侧智能设备的一个摄像头,通过部署在端侧智能设备的模型检测图片里是否存在安全隐患,如果存在隐患便将它上报系统。这个项目难点是需要进行复杂环境下多尺度、多目标的检测,而给端侧设备算力比较低,模型内存余量仅200M左右,但对于模型精度和速度的要求又比较高,它要求在很高准确率基础上检测速度达到秒级。
基于PaddleDetection解决方案是这样的:首先选择精度和预测速度性价比高YOLOv3—MobileNetV1模型,通过剪裁和量化,针对剪裁和量化减小了模型大小和计算量,通过使用精度更高YOLOv3—ResNet34模型作为teacher模型来蒸馏剪裁模型,提高模型精度,最后使用PaddleLite完成模型的部署,可以看到通过剪裁、蒸馏+量化一系列的措施在精度基本无损的情况下,将模型大小从360M压缩到112M,推理时延从3.5秒优化2.0秒,最后使用PaddleLite完成了3万余台监控设备的部署,这个项目成功落地解决。
最后邓凯鹏老师也简要介绍了在计算机视觉其他方向做的工作。比如飞桨语义分割库的主要模型、业界首个开源的视频分类工具集等。
AI未来说*青年学术论坛
第一期 数据挖掘专场
1. 李国杰院士:理性认识人工智能的“头雁”作用
2. 百度熊辉教授:大数据智能化人才管理
3. 清华唐杰教授:网络表示学习理论及应用
4. 瑞莱智慧刘强博士:深度学习时代的个性化推荐
5. 清华柴成亮博士:基于人机协作的数据管理
第二期 自然语言处理专场
1. 中科院张家俊:面向自然语言生成的同步双向推断模型
2. 北邮李蕾:关于自动文本摘要的分析与讨论
3. 百度孙珂:对话技术的产业化应用与问题探讨
4. 阿里谭继伟:基于序列到序列模型的文本摘要及淘宝的实践
5. 哈工大刘一佳:通过句法分析看上下文相关词向量
第三期 计算机视觉专场
1. 北大彭宇新:跨媒体智能分析与应用
2. 清华鲁继文:深度强化学习与视觉内容理解
3. 百度李颖超:百度增强现实技术及应⽤
4. 中科院张士峰:基于深度学习的通用物体检测算法对比探索
5. 港中文李弘扬 :物体检测最新进展
第四期 语音技术专场
1. 中科院陶建华:语音技术现状与未来
2. 清华大学吴及:音频信号的深度学习处理方法
3. 小米王育军:小爱背后的小米语音技术
4. 百度康永国:AI 时代的百度语音技术
5. 中科院刘斌:基于联合对抗增强训练的鲁棒性端到端语音识别
第五期 量子计算专场
1. 清华大学翟荟:Discovering Quantum Mechanics with Machine Learning
2. 南方科技大学鲁大为:量子计算与人工智能的碰撞
3. 荷兰国家数学和计算机科学中心(CWI)李绎楠:大数据时代下的量子计算
4. 苏黎世联邦理工学院(ETH)杨宇翔:量子精密测量
5. 百度段润尧:量子架构——机遇与挑战
第六期 机器学习专场
1. 中科院张文生:健康医疗大数据时代的认知计算
2. 中科院庄福振:基于知识共享的机器学习算法研究及应用
3. 百度胡晓光:飞桨(PaddlePaddle)核心技术与应用实践
4. 清华大学王奕森:Adversarial Machine Learning: Attack and Defence
5. 南京大学赵申宜:SCOPE - Scalable Composite Optimization for Learning
第七期 自动驾驶专场
1. 北京大学查红彬:基于数据流处理的SLAM技术
2. 清华大学邓志东:自动驾驶的“感”与“知” - 挑战与机遇
3. 百度朱帆:开放时代的自动驾驶 - 百度Apollo计划
4. 北理宋文杰:时空域下智能车辆未知区域自主导航技术
第八期 深度学习专场
1. 中科院文新:深度学习入门基础与学习资源
2. 中科院陈智能:计算机视觉经典——深度学习与目标检测
3. 中科院付鹏:深度学习与机器阅读
第九期 个性化内容推荐专场
1. 人民大学赵鑫:基于知识与推理的序列化推荐技术研究
2. 中科院赵军:知识图谱关键技术及其在推荐系统中的应用
第十期 视频理解与推荐专场
1. 北京大学袁晓如:智能数据可视分析
第十一期 信息检索与知识图谱专场
1. 北京邮电大学邵蓥侠:知识图谱高效嵌入方法
2. 人民大学徐君:智能搜索中的排序-突破概率排序准则
3. 百度周景博:POI知识图谱的构建及应用
4. 百度宋勋超:百度大规模知识图谱构建及智能应用
5. 百度冯知凡:基于知识图谱的多模认知技术及智能应用
第十二期 年度特别专场
1. 复旦大学桂韬:当NLP邂逅Social Media--构建计算机与网络语言的桥梁
2. 清华大学董胤蓬:Adversarial Robustness of Deep Learning
3. UIUC罗宇男:AI-assisted Scientific Discovery
4. 斯坦福应智韬:Graph Neural Network Applications
第十三期 AI助力疫情攻关线上专场
1. 清华大学吴及:信息技术助力新冠防控
2. 北京大学王亚沙:新冠肺炎传播预测模型
3. 百度黄际洲:时空大数据与AI助力抗击疫情——百度地图的实践与思考
4. 百度张传明:疫情下的“活”导航是如何炼成的
留言 点赞 发个朋友圈
我们一起分享AI学习与发展的干货
推荐文章阅读
ACL2018论文集50篇解读
EMNLP2017论文集28篇论文解读
2018年AI三大顶会中国学术成果全链接
ACL2017 论文集:34篇解读干货全在这里
10篇AAAI2017经典论文回顾
长按识别二维码可添加关注
读芯君爱你