超强实时人像抠图算法开源，随心所欲背景替换！

作者：破背包 | 来源：互联网 | 2023-06-09 15:24

谈到人像抠图想必大家都不陌生。在影视剪辑、直播娱乐、线上教学、视频会议等场景中都有人像分割的身影，它可以帮助用户实时、精准地将人物和背景精准识别出来，实

谈到人像抠图想必大家都不陌生。在影视剪辑、直播娱乐、线上教学、视频会议等场景中都有人像分割的身影&＃xff0c;它可以帮助用户实时、精准地将人物和背景精准识别出来&＃xff0c;实现更精细化的人物美颜、背景虚化替换、弹幕穿人等&＃xff0c;进一步提升视觉应用体验。

人像抠图的场景可谓无所不在&＃xff01;然而现实中用户使用的终端多种多样&＃xff0c;图片的输入组成也是千奇百怪&＃xff0c;那么有没有好的方案让能够使用户在多个平台都获得好的体验效果呢&＃xff1f;

小编遍历了Github&＃xff0c;终于为大家找到了一个高性能且支持多端部署的人像抠图技术的解决方案PP-Seg&＃xff0c;它不仅仅提供了多种精度的模型&＃xff0c;并针对服务端、移动端、Web端多种使用场景进行了不同的优化&＃xff0c;都获得超群的效果。

听了这么多的介绍&＃xff0c;大家是不是想尽快尝试一下呢&＃xff1f;小编赶紧贴上链接&＃xff0c;记得Star收藏一下防止走丢哦&＃xff1a;

https://github.com/PaddlePaddle/PaddleSeg/tree/release/2.2/contrib/PP-HumanSeg

那么&＃xff0c;这个PP-HumanSeg到底提供了什么呢&＃xff1f;

小编仔细研究了一下&＃xff0c;发现PP-HumanSegl开源了三个高质量的人像分割模型&＃xff1a;有应用于服务端GPU部署的PP-HumanSegl模型&＃xff0c;有适用于移动端的轻量PP-HumanSeg模型&＃xff0c;还有能够在浏览器部署的超轻量模型PP-HumanSegs模型。

同时&＃xff0c;为了用户能够在各种平台上部署&＃xff0c;提供了服务端部署、移动端、浏览器端的部署方式。

同时小编看到文档上写有“百度视频会议”上线的虚拟背景功能&＃xff0c;就是基于PP-HumanSeg中提供的PP-HumanSegs超轻量人像模型来实现的&＃xff0c;并且Github上也提供了全套的部署方式。

WOW&＃xff01;也就是说互联网企业使用的虚拟背景整套技术竟然被开源出来了&＃xff0c;这也太好了吧&＃xff01;&＃xff01;&＃xff01;&＃xff01;

小编赶紧前去体验了一下&＃xff0c;效果真不错&＃xff0c;也欢迎感兴趣的小伙伴前去百度首页体验。

看到这么好的技术&＃xff0c;有的小伙伴们会比较关注技术上是怎么实现的&＃xff0c;那么我们就一起来糠糠吧&＃xff01;

大规模数据合成和数据增强

在训练集里有各种比例的图片&＃xff0c;有横屏的&＃xff0c;有竖屏的。如果直接直接使用缩放变形等数据增强方式&＃xff0c;会直接导致形变失真&＃xff0c;反而不会提升精度。针对此类问题&＃xff0c;采用维持图像纵横比缩放、Padding补齐等方式缩放图像达到原图比例。通过这些方式处理后图像不会失真&＃xff0c;训练精度也得到了提升。

针对人像标注样本少的问题&＃xff0c;使用标注信息和背景图合成的方式进行数据生成&＃xff0c;数据量的扩充提升了模型的精度。

轻量级网络设计方式

对于移动端和网页端的人像分割&＃xff0c;一个高效的轻量级网络必不可少&＃xff0c;在这里为大家总结了一些轻量化关键设计方法。

关键一&＃xff1a;深度可分离卷积

深度可分离卷积是一种卷积分解方式&＃xff0c;将普通卷积分解为Depthwise Convolution和Pointwise Convolution&＃xff0c;主要的目的是减少计算量和参数量&＃xff0c;此方式已被广泛应用在轻量级卷积网络中。

关键二&＃xff1a;Channel Shuffle&＃xff08;通道洗牌&＃xff09;

在深度可分离卷积中用到的Depthwise Convolution会将所有的channel分组&＃xff0c;每个channel分为一组&＃xff0c;这就导致组与组之间无信息交换。Channel Shuffle通过对group convolution之后的特征图进行“重组”&＃xff0c;可以保证接下了采用的group convolution输入来自不同的组&＃xff0c;因此信息可以在不同组之间流转。

关键三&＃xff1a;Skip-connection&＃xff08;跳跃连接&＃xff09;

对于分割任务&＃xff0c;空间域信息非常重要。主流的分割网络均采用encoder-decoder结构。网络的encoder部分通过下采样层把特征图分辨率降得非常小&＃xff0c;这一点不利于精确的分割mask生成&＃xff0c;通过skip-connection跨层连接编码器和解码器&＃xff0c;更利于生成精细的mask。Skip-connection直接复用encoder的特征&＃xff0c;几乎不增加计算量&＃xff0c;性价比非常之高&＃xff01;

关键四&＃xff1a;上采样方法

Decoder的主要目的是将低分辨率信息的特征恢复到高分辨率。为了实现这个目的就需要上采样。常用的上采样方式有四类&＃xff1a;转置卷积、反池化、插值、亚像素卷积。

当使用转置卷积进行上采样的时候&＃xff0c;容易出现棋盘效应&＃xff08;左图肩膀处&＃xff09;。开发团队为平衡计算量、显存占用和效果&＃xff0c;最终采用深度可分离卷积&＃43;双线性插值&＃xff0c;在保持高效计算的同时解决了棋盘效应问题。

综合考虑上述四个关键&＃xff0c;开发团队设计了Web端超轻量级模型PP-HumanSegs。

优化损失函数解决类别不均衡

人像在整张图片中所占的比例往往较小&＃xff0c;存在前景背景类别占比不均衡的问题。常用的Cross Entropy Loss会公平处理正负样本&＃xff0c;当出现正样本占比较小时&＃xff0c;就会被更多的负样本淹没。通过改变损失函数&＃xff0c;使用Lovasz loss来降低正负样本不均衡的问题。

光流后处理优化

视频分割存在一个问题&＃xff1a;视频帧间不连贯&＃xff0c;边缘部分闪烁严重&＃xff0c;为此研发团队利用时序信息结合光流法&＃xff0c;对分割结果进行优化。采用光流解决方法&＃xff0c;将光流预测结果与分割结果进行融合&＃xff0c;这样就可以参考上一帧的运动信息&＃xff0c;使得前后帧变换相对更加稳定&＃xff0c;减少边缘的闪烁。

心动不如行动&＃xff0c;大家可以直接前往Github地址获得完整开源项目代码&＃xff0c;记得Star收藏支持一下哦&＃xff1a;https://github.com/PaddlePaddle/PaddleSeg

推荐阅读

main
表面缺陷检测数据集综述及GitHub开源项目推荐

本文综述了表面缺陷检测领域的数据集，并推荐了多个GitHub上的开源项目。通过对现有文献和数据集的系统整理，为研究人员提供了全面的资源参考，有助于推动该领域的发展和技术进步。 ... [详细]

蜡笔小新 2024-10-29 08:22:46
java
2019年后蚂蚁集团与拼多多面试经验详述与深度剖析

2019年后蚂蚁集团与拼多多面试经验详述与深度剖析 ... [详细]

蜡笔小新 2024-10-30 17:30:06
java
百度AI的2020

百度AI的2020-世界的2020，是充满不确定性的变局之年；中国的2020，是团结一心、共克时艰、于变局中开新局的希望之年；百度AI的2020，是坚定信念，拥抱变化，践行“科技为 ... [详细]

蜡笔小新 2023-10-10 21:47:29
java
深入解析经典卷积神经网络及其实现代码

深入解析经典卷积神经网络及其实现代码 ... [详细]

蜡笔小新 2024-11-01 11:16:09
scala
Twitter架构深度解析与学习心得

作为140字符的开创者，Twitter看似简单却异常复杂。其简洁之处在于仅用140个字符就能实现信息的高效传播，甚至在多次全球性事件中超越传统媒体的速度。然而，为了支持2亿用户的高效使用，其背后的技术架构和系统设计则极为复杂，涉及高并发处理、数据存储和实时传输等多个技术挑战。 ... [详细]

蜡笔小新 2024-10-31 17:58:20
main
稀疏直接法视觉里程计中的特征点优化：基于光度误差最小化的灰度图像线性插值技术

在稀疏直接法视觉里程计中，通过优化特征点并采用基于光度误差最小化的灰度图像线性插值技术，提高了定位精度。该方法通过对空间点的非齐次和齐次表示进行处理，利用RGB-D传感器获取的3D坐标信息，在两帧图像之间实现精确匹配，有效减少了光度误差，提升了系统的鲁棒性和稳定性。 ... [详细]

蜡笔小新 2024-10-31 13:24:59
search
语义、实例与全景分割的对比分析（Comparative Analysis of Semantic, Instance, and Panoptic Segmentation）

图像分割技术在人工智能领域中扮演着关键角色，其中语义分割、实例分割和全景分割是三种主要的方法。本文对这三种分割技术进行了详细的对比分析，探讨了它们在不同应用场景中的优缺点和适用范围，为研究人员和从业者提供了有价值的参考。 ... [详细]

蜡笔小新 2024-10-29 18:51:14
main
自回归与非自回归模型如何融合？预训练模型BANG提供可能解决方案

近年来，预训练技术的快速发展显著提升了自然语言生成的性能。然而，自回归模型和非自回归模型在生成质量和效率上各有优劣。微软研究院提出了一种新的预训练模型BANG，通过巧妙地结合两者的优点，提供了一种有效的解决方案。该模型不仅在生成质量上表现出色，还在推理速度上实现了显著提升，为自然语言生成任务带来了新的可能性。 ... [详细]

蜡笔小新 2024-10-27 15:09:41
main
华为200万年薪招聘AI应届生——有多少本事，给多少钱

据新浪科技报道，阿里AIlabs年薪百万美元引进两位科学家。除AI顶尖科学家外，华为也是为多位AI应届博士开出了200万的高价年薪。19年9月，各大互联招聘企业陆续发布2019年人 ... [详细]

蜡笔小新 2023-10-11 14:19:53
main
学习提醒 | 如何训练RNN？解决梯度消失与梯度爆炸问题！

点击左上方蓝字关注我们今天就要进入RNN的终章，每日一问：它们如何运行？应用在哪里？你学完了吗？????顾名思 ... [详细]

蜡笔小新 2023-10-10 00:11:56
express
基于Node.js的高性能实时消息推送系统：利用Socket.IO与Express实现高并发消息转发

基于Node.js的高性能实时消息推送系统通过集成Socket.IO和Express框架，实现了高效的高并发消息转发功能。该系统能够支持大量用户同时在线，并确保消息的实时性和可靠性，适用于需要即时通信的应用场景。 ... [详细]

蜡笔小新 2024-11-01 11:20:11
main
PyTorch常见预训练模型的下载链接及使用指南

本文提供了PyTorch框架中常用的预训练模型的下载链接及详细使用指南，涵盖ResNet、Inception、DenseNet、AlexNet、VGGNet等六大分类模型。每种模型的预训练参数均经过精心调优，适用于多种计算机视觉任务。文章不仅介绍了模型的下载方式，还详细说明了如何在实际项目中高效地加载和使用这些模型，为开发者提供全面的技术支持。 ... [详细]

蜡笔小新 2024-10-27 13:57:42
main
老电影和图片变清晰的秘密！分辨率提升400%的AI算法

老电影和图片变清晰的秘密！分辨率提升400%的AI算法-如上图，从100x133pix→400x532pix，除了肉眼可见的清晰，拥有可以将分辨率提升400%的技术到底意味着什么 ... [详细]

蜡笔小新 2023-10-13 13:06:20
main
直播提醒 | 电影精准推荐很难吗？搞定经典DSSM经典模型！

点击左上方蓝字关注我们自从小编安装了投影仪，看电影已经变成了日常刚需，而且系统总是可以推荐出令我惊喜的老电影，每一步推荐都“踩”在心头爱。 ... [详细]

蜡笔小新 2023-10-12 22:42:04
char
世界人工智能大赛OCR赛题方案！

Datawhale干货作者：阿水，北京航空航天大学，Datawhale成员本文以世界人工智能创新大赛（AIWIN）手写体OCR识别竞赛为实践背景，给出了OCR实践的常见思路和流 ... [详细]

蜡笔小新 2023-10-11 18:31:00

破背包

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章