热门标签 | HotTags
当前位置:  开发笔记 > 后端 > 正文

一步到位,自动批量过滤无人图片,智能园区管理事半功倍

在进行AI模型开发时,数据的数量与质量直接影响模型效果。在实地数据采集之后,企业往往需要从大量数据中筛选出符合训练要求的相关数据,剔除质量差或不相关的数据,这个步骤被称为数

在进行AI模型开发时,数据的数量与质量直接影响模型效果。在实地数据采集之后,企业往往需要从大量数据中筛选出符合训练要求的相关数据,剔除质量差或不相关的数据,这个步骤被称为数据清洗。

通常来讲,在清洗数据时主要会清理掉对训练任务没有用途的数据,例如在训练工厂工人佩戴安全帽识别模型时,希望在视频抽帧后的大量图片中仅保留有工人出现的图片进行标注训练。在这一步骤上,传统做法是进行人工筛选,人力投入较多且容易发生遗漏;随着人工智能发展,目前许多平台,如百度大脑AI开放平台,已经提供人脸检测、人体检测的通用接口,用户可以先调用接口处理数据,筛选出采集到人像的数据,再进入到具体的检测识别步骤。那么,是否有一个集成了各项数据处理能力,尽量减少人工干预,能够自动完成视频数据采集、抽帧、数据清洗、智能标注,从而高效提取高质量训练数据的解决方案呢?





关注到有越来越多的用户对数据处理有强烈需求,今年4月,百度全新推出智能数据服务平台EasyData,集数据采集、数据清洗、数据标注等功能于一身,完成上述数据处理工作之后,可以在EasyDL平台进行模型训练、模型部署。

针对数据清洗这一具体功能,EasyData目前上线了去相似、去模糊、旋转、裁剪和镜像这5种基础的数据清洗功能。那么除了常规能力之外,EasyData还有什么业内独家的终极秘技?

从应用出发,高级清洗功能

让数据处理事半功倍

在园区智能管理等场景下,需要监测工厂园区、林区中是否有人闯入,或检查工人是否佩戴安全帽。为了满足此类场景下的图片清洗需求,EasyData上线了高级清洗功能,将无人脸、无人体出现的数据进行过滤。EasyData联动百度大脑AI开放平台提供的前沿技术能力,用户仅需在百度智能云上开通相应的服务(人脸检测和人体检测都可以免费试用),就可以通过简单的配置,在EasyData平台上直接使用这些功能进行自动数据清洗。

1. 过滤无人脸图片

如果以前没有用过百度智能云的人脸检测服务,第一次使用高级清洗的功能会提示“申请免费试用”,点击链接会进入百度智能云人脸检测的页面,按照提示,开通服务后,再回到EasyData的页面就可以正常使用了。

和基础的数据清洗服务一样,过滤无人脸图片也是以数据集为单位的。在数据清洗页面选择过滤无人脸图片,点击保存,提交任务就可以进行清洗。如果勾选了“保留标签”,那么不仅会把没有人脸的图片过滤,还会将人脸画框同步至清洗后的数据集。

提交任务时勾选保留人脸画框

例如下图,清洗前的数据集除了人脸图片,还有一些风景照、车辆等其他物体的照片,人脸过滤会把这些没有人脸的图片过滤,保留下来包含人脸的图片,包括戴口罩、被遮挡的人脸也可以识别出来。

清洗前的数据集中有人脸照片、风景照、静物照

清洗后的数据集只有人脸照片被保存下来

戴口罩的人脸图片

2. 过滤无人体图片

过滤无人体图片同样会用到百度智能云的人体检测能力,在使用之前需要在百度智能云上开通相应的服务。过滤无人体图片会用到两个接口,人体检测和属性分析(

https://ai.baidu.com/tech/body/attr)和人像分割(

https://ai.baidu.com/tech/body/seg)。数据集模板为图像分类和物体检测的数据集会调用人体检测和属性分析接口,数据集模板为图像分割的数据集会调用人像分割接口。百度智能云上的人像分割接口返回的是人像图片对应的二值图片(人像为1,背景为0),在后端会执行相应的标签转换,返回的二值图片转换成对应的标签。

清洗前的数据集中有风景图、静物图和人体图

数据清洗过滤保留的5张人体图片

模板为图像检测的数据集清洗后的标签

模板为图像分割的数据集清洗后的标签

关注广泛需求,提供

多种基础数据清洗功能

1. 去相似图片

用摄像头自动采集图片的时候,由于长时间在同一个场景下,即使做了抽帧处理,还是会有大量的相似图片。大量的相似图片,数据价值低,而且占用了大量的存储空间,而人工筛选,耗时费力,容易出错。EasyData平台推出的去相似图片利用图片的相似检索特征,计算图片的两两相关性,可以自动地判断相似图片、保留不相似的图片,具体操作也十分简便。

如下图所示,去相似前的数据集里有8张图片,根据图片的相似度,图片可以分成3类。清洗完成后的数据集中有3张图片,分别是清洗前的3类图片中的一张。

去相似前的8张图片

去相似后保留下来3张图片

拖拽圆点可以修改相似度分值

2. 去模糊图片

相机抖动、物体快速移动都会造成拍出来的图片不清晰、产生低质图片。通过人工挑选的方法去除模糊图片缺乏统一的标准,容易漏删或多删。利用EasyData的去模糊图片,可以轻易地去除模糊图片。

以示例图片为例,清洗前有5张图片,画质不一,清洗后保留下来两张高质量的图片。此外,如果用户认为有部分模糊图片没有去除,或者高质量的图片没有保留下来,可以考虑调整清晰度的分值,重新清洗。

去模糊前的5张画质不一的图片

去模糊后保留下来清晰图片

拖拽圆点可以修改清晰度分值

对于普通清洗,可以在一个清洗任务中提交多个清洗操作,例如同时勾选去相似、去模糊功能,即可同时去除相似和模糊的图片。

目前的数据清洗服务所能支持的最大数据集大小是5万张图片。基于EasyData平台的大数据处理平台,对于基础清洗服务,2万张图片的数据集,仅需1小时可以完成清洗5万张图片的数据集,只需2小时即可完成清洗。对于高级清洗服务来说,清洗效率也可以通过配置QPS灵活调整清洗效率,更方便快捷。

考虑到智能园区管理等场景中,有对视频进行截帧、自动上传的需求,EasyData平台也免费提供SDK,供用户进行下载,可以将SDK接入业务现场的数据采集终端,在平台设置截帧时间与间隔,自动将原始视频数据截为图片数据并上传至EasyData平台进行后续处理。

EasyData是百度大脑推出的业内首个提供软硬一体、端云协同的智能数据采集与处理平台,支持图片、文本、音频和视频四类数据的处理,其中图片数据支持了采集、清洗、标注一站式处理,覆盖模型开发中的各类数据管理需求。EasyData处理后的数据可直接应用于EasyDL模型训练,通过EasyDL预训练模型和自动迁移学习机制,高效开发AI模型。

点击下方“阅读原文”,立即体验EasyData

↓↓↓



推荐阅读
  • Android中高级面试必知必会,积累总结
    本文介绍了Android中高级面试的必知必会内容,并总结了相关经验。文章指出,如今的Android市场对开发人员的要求更高,需要更专业的人才。同时,文章还给出了针对Android岗位的职责和要求,并提供了简历突出的建议。 ... [详细]
  • 生成对抗式网络GAN及其衍生CGAN、DCGAN、WGAN、LSGAN、BEGAN介绍
    一、GAN原理介绍学习GAN的第一篇论文当然由是IanGoodfellow于2014年发表的GenerativeAdversarialNetworks(论文下载链接arxiv:[h ... [详细]
  • [译]技术公司十年经验的职场生涯回顾
    本文是一位在技术公司工作十年的职场人士对自己职业生涯的总结回顾。她的职业规划与众不同,令人深思又有趣。其中涉及到的内容有机器学习、创新创业以及引用了女性主义者在TED演讲中的部分讲义。文章表达了对职业生涯的愿望和希望,认为人类有能力不断改善自己。 ... [详细]
  • 20211101CleverTap参与度和分析工具功能平台学习/实践
    1.应用场景主要用于学习CleverTap的使用,该平台主要用于客户保留与参与平台.为客户提供价值.这里接触到的原因,是目前公司用到该平台的服务~2.学习操作 ... [详细]
  • t-io 2.0.0发布-法网天眼第一版的回顾和更新说明
    本文回顾了t-io 1.x版本的工程结构和性能数据,并介绍了t-io在码云上的成绩和用户反馈。同时,还提到了@openSeLi同学发布的t-io 30W长连接并发压力测试报告。最后,详细介绍了t-io 2.0.0版本的更新内容,包括更简洁的使用方式和内置的httpsession功能。 ... [详细]
  • 本文介绍了一些好用的搜索引擎的替代品,包括网盘搜索工具、百度网盘搜索引擎等。同时还介绍了一些笑话大全、GIF笑话图片、动态图等资源的搜索引擎。此外,还推荐了一些迅雷快传搜索和360云盘资源搜索的网盘搜索引擎。 ... [详细]
  • 【MicroServices】【Arduino】装修甲醛检测,ArduinoDart甲醛、PM2.5、温湿度、光照传感器等,数据记录于SD卡,Python数据显示,UI5前台,微服务后台……
    这篇文章介绍了一个基于Arduino的装修甲醛检测项目,使用了ArduinoDart甲醛、PM2.5、温湿度、光照传感器等硬件,并将数据记录于SD卡,使用Python进行数据显示,使用UI5进行前台设计,使用微服务进行后台开发。该项目还在不断更新中,有兴趣的可以关注作者的博客和GitHub。 ... [详细]
  • 如何在服务器主机上实现文件共享的方法和工具
    本文介绍了在服务器主机上实现文件共享的方法和工具,包括Linux主机和Windows主机的文件传输方式,Web运维和FTP/SFTP客户端运维两种方式,以及使用WinSCP工具将文件上传至Linux云服务器的操作方法。此外,还介绍了在迁移过程中需要安装迁移Agent并输入目的端服务器所在华为云的AK/SK,以及主机迁移服务会收集的源端服务器信息。 ... [详细]
  • 在线教育平台的搭建及其优势
    在线教育平台的搭建对于教育发展来说是一次重大进步。未来在线教育市场前景广阔,但许多老师不知道如何入手。本文介绍了在线教育平台的搭建方法以及与传统教育相比的优势,包括时间、地点、空间的灵活性,改善教育不公平现象以及个性化教学的特点。在线教育平台的搭建将为学生提供更好的教育资源,解决教育不公平的问题。 ... [详细]
  • 本文介绍了一种处理AJAX操作授权过期的全局方式,以解决Asp.net MVC中Session过期异常的问题。同时还介绍了基于WebImage的图片上传工具类。详细内容请参考链接:https://www.cnblogs.com/starluck/p/8284949.html ... [详细]
  • 生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型,可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]
  • 本文介绍了在Python3中如何使用选择文件对话框的格式打开和保存图片的方法。通过使用tkinter库中的filedialog模块的asksaveasfilename和askopenfilename函数,可以方便地选择要打开或保存的图片文件,并进行相关操作。具体的代码示例和操作步骤也被提供。 ... [详细]
  • 树莓派语音控制的配置方法和步骤
    本文介绍了在树莓派上实现语音控制的配置方法和步骤。首先感谢博主Eoman的帮助,文章参考了他的内容。树莓派的配置需要通过sudo raspi-config进行,然后使用Eoman的控制方法,即安装wiringPi库并编写控制引脚的脚本。具体的安装步骤和脚本编写方法在文章中详细介绍。 ... [详细]
  • SpringMVC接收请求参数的方式总结
    本文总结了在SpringMVC开发中处理控制器参数的各种方式,包括处理使用@RequestParam注解的参数、MultipartFile类型参数和Simple类型参数的RequestParamMethodArgumentResolver,处理@RequestBody注解的参数的RequestResponseBodyMethodProcessor,以及PathVariableMapMethodArgumentResol等子类。 ... [详细]
  • 如何提高PHP编程技能及推荐高级教程
    本文介绍了如何提高PHP编程技能的方法,推荐了一些高级教程。学习任何一种编程语言都需要长期的坚持和不懈的努力,本文提醒读者要有足够的耐心和时间投入。通过实践操作学习,可以更好地理解和掌握PHP语言的特异性,特别是单引号和双引号的用法。同时,本文也指出了只走马观花看整体而不深入学习的学习方式无法真正掌握这门语言,建议读者要从整体来考虑局部,培养大局观。最后,本文提醒读者完成一个像模像样的网站需要付出更多的努力和实践。 ... [详细]
author-avatar
烂在心底
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有