热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

教程:使用TensorFlow对象检测接口标注数据集

在仅包含60个图像的小数据集上训练之后,检测赛车当为机器学习对象检测和识别模型构建数据集时,为数据集中的所有图像生成标注非常耗时。而这些标注是训练和测试模型所必需的,并且标注必须是

《教程:使用TensorFlow对象检测接口标注数据集》
《教程:使用TensorFlow对象检测接口标注数据集》 在仅包含60个图像的小数据集上训练之后,检测赛车

当为机器学习对象检测和识别模型构建数据集时,为数据集中的所有图像生成标注非常耗时。而这些标注是训练和测试模型所必需的,并且标注必须是准确的。因此,数据集中的所有图像都需要人为监督。不过,这并不意味着机器学习模型不能提供帮助。

因为,检查和纠正大多数标注都正确的图像通常比所有的标注都由人完成省时。在处理包含数千个图像的数据集时,即使每个图像节省几秒钟,也可以最终节省数小时的工作时间。

本文的目的是要证明,对于不需要高精度的物体识别和检测任务,小的数据集和“开箱即用”的模型就可以提供不错的结果。

以图像中的赛车检测为例,本文将通过以下步骤进行指导:

  1. 在小数据集中标注图像。
  2. 从这个数据集中训练一个简单的模型。
  3. 使用这个简单的模型来预测新数据集图像的标注。

代码和数据请访问下方链接。本文假设你已经安装了TensorFlow Object Detection API。

GitHub:https://github.com/AndrewCarterUK/tf-example-object-detection-api-race-cars

标注图像

PASCAL VOC文件格式是用于图像标注的格式。这是Image Net使用的XML文件格式。而LabelImg程序可以用来生成和修改这种格式的标注。

《教程:使用TensorFlow对象检测接口标注数据集》
《教程:使用TensorFlow对象检测接口标注数据集》

范例库中的数据目录显示了使用此方法生成的标注(如下链接)。这种标记的映射文件需要手动创建,因为它不是由LabelImg产生。

链接:https://github.com/AndrewCarterUK/tf-example-object-detection-api-race-cars/tree/master/data

训练模型

该TensorFlow目标检测接口提供了关于调整和利用现有模型的自定义数据集的详细文档。

训练模型的基本过程是:

  1. 将PASCAL VOC原始数据集转换为TFRecord文件。范例库提供了一个可用于执行此操作的Python脚本。
  2. 创建一个对象检测管道。该项目提供有关如何执行此操作的官方文档,并且在代码库中有一个示例。存储库中的示例基于ssd_mobilenet_v1_coco检查点,需要更多检查点可从官方文档下载。
  3. 训练模型。可以在本地或在Google云平台上完成。取得这篇文章中的结果大约迭代1万次。
  4. 将最后一个检查点导出到推理图(inference graph)。

这个过程的最终结果将是一个名为frozen_inference_graph.pb的文件。它可以用来预测标注的模型。

预测标注

可以使用pascal- vocwriter库生成在PASCAL VOC文件格式的标注。它有个非常好用的接口,下面的代码展示了向图像添加“cat”标注的示例:

1from pascal_voc_writerimport Writer

2

3writer= Writer('path/to/img.jpg',800,400)

4writer.addObject('cat',100,100,200,200)

5writer.save('path/to/img.xml')

范例库中的annotate.py文件使用这个库来调整官方文档中的推理示例,以创建PASCAL VOC标注文件而不是进行图像可视化。

可以根据数据集和操作符的需要优化生成注释的阈值。合适的阈值应该在错误率与错过率之间找到平衡点。如果删除错误标注对于操作员而言比标注遗漏容易,那么应该使用较低的阈值。

下面是来自简易模型的三个预测。尽管数据集非常小,训练次数也不多,但模型依然做出了不错的预测,可以节省标注这些图像的时间。

《教程:使用TensorFlow对象检测接口标注数据集》
《教程:使用TensorFlow对象检测接口标注数据集》 在这个例子中,两个标注正确,一个错过。在最远的车中建议标注的可能性数值稍有下降。
《教程:使用TensorFlow对象检测接口标注数据集》
《教程:使用TensorFlow对象检测接口标注数据集》 这些图像需要很长时间手动标注。模型在缩减大部分工作量方面做了不错的贡献。对于一些模糊的汽车来说,它也在努力辨认,但是这些模糊的汽车人类也很难辨别。
《教程:使用TensorFlow对象检测接口标注数据集》
《教程:使用TensorFlow对象检测接口标注数据集》 两辆车都被识别出来,但是红的那个边界框太宽了。

本文为atyun编译,转载请注明出处。更多内容关注微信公众号atyun_com 或访问网站http://www.atyun.com


推荐阅读
  • 云原生边缘计算之KubeEdge简介及功能特点
    本文介绍了云原生边缘计算中的KubeEdge系统,该系统是一个开源系统,用于将容器化应用程序编排功能扩展到Edge的主机。它基于Kubernetes构建,并为网络应用程序提供基础架构支持。同时,KubeEdge具有离线模式、基于Kubernetes的节点、群集、应用程序和设备管理、资源优化等特点。此外,KubeEdge还支持跨平台工作,在私有、公共和混合云中都可以运行。同时,KubeEdge还提供数据管理和数据分析管道引擎的支持。最后,本文还介绍了KubeEdge系统生成证书的方法。 ... [详细]
  • 微软头条实习生分享深度学习自学指南
    本文介绍了一位微软头条实习生自学深度学习的经验分享,包括学习资源推荐、重要基础知识的学习要点等。作者强调了学好Python和数学基础的重要性,并提供了一些建议。 ... [详细]
  • 推荐系统遇上深度学习(十七)详解推荐系统中的常用评测指标
    原创:石晓文小小挖掘机2018-06-18笔者是一个痴迷于挖掘数据中的价值的学习人,希望在平日的工作学习中,挖掘数据的价值, ... [详细]
  • CF:3D City Model(小思维)问题解析和代码实现
    本文通过解析CF:3D City Model问题,介绍了问题的背景和要求,并给出了相应的代码实现。该问题涉及到在一个矩形的网格上建造城市的情景,每个网格单元可以作为建筑的基础,建筑由多个立方体叠加而成。文章详细讲解了问题的解决思路,并给出了相应的代码实现供读者参考。 ... [详细]
  • 本文介绍了如何使用PHP向系统日历中添加事件的方法,通过使用PHP技术可以实现自动添加事件的功能,从而实现全局通知系统和迅速记录工具的自动化。同时还提到了系统exchange自带的日历具有同步感的特点,以及使用web技术实现自动添加事件的优势。 ... [详细]
  • EPICS Archiver Appliance存储waveform记录的尝试及资源需求分析
    本文介绍了EPICS Archiver Appliance存储waveform记录的尝试过程,并分析了其所需的资源容量。通过解决错误提示和调整内存大小,成功存储了波形数据。然后,讨论了储存环逐束团信号的意义,以及通过记录多圈的束团信号进行参数分析的可能性。波形数据的存储需求巨大,每天需要近250G,一年需要90T。然而,储存环逐束团信号具有重要意义,可以揭示出每个束团的纵向振荡频率和模式。 ... [详细]
  • 本文介绍了数据库的存储结构及其重要性,强调了关系数据库范例中将逻辑存储与物理存储分开的必要性。通过逻辑结构和物理结构的分离,可以实现对物理存储的重新组织和数据库的迁移,而应用程序不会察觉到任何更改。文章还展示了Oracle数据库的逻辑结构和物理结构,并介绍了表空间的概念和作用。 ... [详细]
  • Centos7.6安装Gitlab教程及注意事项
    本文介绍了在Centos7.6系统下安装Gitlab的详细教程,并提供了一些注意事项。教程包括查看系统版本、安装必要的软件包、配置防火墙等步骤。同时,还强调了使用阿里云服务器时的特殊配置需求,以及建议至少4GB的可用RAM来运行GitLab。 ... [详细]
  • [译]技术公司十年经验的职场生涯回顾
    本文是一位在技术公司工作十年的职场人士对自己职业生涯的总结回顾。她的职业规划与众不同,令人深思又有趣。其中涉及到的内容有机器学习、创新创业以及引用了女性主义者在TED演讲中的部分讲义。文章表达了对职业生涯的愿望和希望,认为人类有能力不断改善自己。 ... [详细]
  • 20211101CleverTap参与度和分析工具功能平台学习/实践
    1.应用场景主要用于学习CleverTap的使用,该平台主要用于客户保留与参与平台.为客户提供价值.这里接触到的原因,是目前公司用到该平台的服务~2.学习操作 ... [详细]
  • 使用在线工具jsonschema2pojo根据json生成java对象
    本文介绍了使用在线工具jsonschema2pojo根据json生成java对象的方法。通过该工具,用户只需将json字符串复制到输入框中,即可自动将其转换成java对象。该工具还能解析列表式的json数据,并将嵌套在内层的对象也解析出来。本文以请求github的api为例,展示了使用该工具的步骤和效果。 ... [详细]
  • sklearn数据集库中的常用数据集类型介绍
    本文介绍了sklearn数据集库中常用的数据集类型,包括玩具数据集和样本生成器。其中详细介绍了波士顿房价数据集,包含了波士顿506处房屋的13种不同特征以及房屋价格,适用于回归任务。 ... [详细]
  • Google Play推出全新的应用内评价API,帮助开发者获取更多优质用户反馈。用户每天在Google Play上发表数百万条评论,这有助于开发者了解用户喜好和改进需求。开发者可以选择在适当的时间请求用户撰写评论,以获得全面而有用的反馈。全新应用内评价功能让用户无需返回应用详情页面即可发表评论,提升用户体验。 ... [详细]
  • 本文介绍了Linux系统中正则表达式的基础知识,包括正则表达式的简介、字符分类、普通字符和元字符的区别,以及在学习过程中需要注意的事项。同时提醒读者要注意正则表达式与通配符的区别,并给出了使用正则表达式时的一些建议。本文适合初学者了解Linux系统中的正则表达式,并提供了学习的参考资料。 ... [详细]
  • FeatureRequestIsyourfeaturerequestrelatedtoaproblem?Please ... [详细]
author-avatar
隔壁小王
刚开始
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有