【Caffe】制作自己的训练数据集

作者：mc_yang | 来源：互联网 | 2023-07-31 21:08

1.标注这里怎么标注数据就不说了，labelme，labelImg等都可以标注。labelImg的标注可以参考博客【DeepLearning】标注工具labelImg的安装和使用。

1. 标注

这里怎么标注数据就不说了，labelme，labelImg等都可以标注。

labelImg的标注可以参考博客【DeepLearning】标注工具labelImg的安装和使用。

labelme一张图片对应一个json文件。labelImg一张图片对应一个xml文件。如果用labelme标注，标完之后用脚本将json文件转换成xml文件，因为后面的处理是基于xml文件的。

2. 文件组织

说一下数据怎么组织。因为用到weiliu89/caffe/data/VOC0712下的两个脚本create_list.sh和create_data.sh两个脚本，所以按照VOC2012数据集的格式组织自己的数据，新建Annotations、ImageSets、JPEGImages三个文件夹。

《【Caffe】制作自己的训练数据集》

3. 生成辅助文件

Annotations文件夹存放的是标注的xml文件，ImageSets内含Main文件夹，由下面的代码生成train.txt和val.txt，txt文件的内容是图片的名字（每行一个，不含后缀名）。

import os import random train_percent = 0.8 xmlfilepath = 'Annotations/' txtsavepath = 'ImageSets/Main' total_xml = os.listdir(xmlfilepath) num = len(total_xml) list = range(num) train_num = int(num*train_percent) val_num = num - train_num train = random.sample(list,train_num) ftrain = open(txtsavepath+'/train.txt', 'w') fval = open(txtsavepath+'/val.txt', 'w') for i in list: name = total_xml[i][:-4]+'\n' if i in train: ftrain.write(name) else: fval.write(name) ftrain.close() fval.close()

《【Caffe】制作自己的训练数据集》

JPEGImages文件夹下存放的是用于训练的图片。

下面要生成和上面新建的三个文件夹同级目录的四个txt文件train.txt、train_name_size.txt、val.txt、val_name_size.txt。

将weiliu89/caffe/data/VOC0712/create_list.sh修改一下以适配自己的数据集。

#!/bin/bash root_dir=$HOME/data/ name=mydataset sub_dir=ImageSets/Main bash_dir="$(cd "$(dirname "${BASH_SOURCE[0]}")" && pwd)" for dataset in train val do dst_file=$bash_dir/$dataset.txt if [ -f $dst_file ] then rm -f $dst_file fi echo "Create list for $name $dataset..." dataset_file=$root_dir/$name/$sub_dir/$dataset.txt img_file=$bash_dir/$dataset"_img.txt" cp $dataset_file $img_file sed -i "s/^/$name\/JPEGImages\//g" $img_file sed -i "s/$/.jpg/g" $img_file label_file=$bash_dir/$dataset"_label.txt" cp $dataset_file $label_file sed -i "s/^/$name\/Annotations\//g" $label_file sed -i "s/$/.xml/g" $label_file paste -d' ' $img_file $label_file >> $dst_file rm -f $label_file rm -f $img_file # Generate image name and size infomation. if [ $dataset == "test" ] then $bash_dir/../../build/tools/get_image_size $root_dir $dst_file $bash_dir/$dataset"_name_size.txt" fi # Shuffle trainval file. if [ $dataset == "train" ] then rand_file=$dst_file.random cat $dst_file | perl -MList::Util=shuffle -e 'print shuffle();' > $rand_file mv $rand_file $dst_file fi done

《【Caffe】制作自己的训练数据集》

train.txt里面每一行第一列是图片相对于数据集顶层目录的路径，第二列是标注文件相对于数据集顶层目录的路径。

val.txt同train.txt。

train_name_size.txt里面每一行第一列是图片的文件名（不含后缀名），第二列的图片的高，第三列是图片的宽。

4. 生成lmdb文件

仿造weiliu89/caffe/data/VOC0712/labelmap_voc.prototxt写一个自己数据集的xxx.prototxt文件，label 0是background，自己的数据从1开始。

item { name: "none_of_the_above" label: 0 display_name: "background" } item { name: "aeroplane" label: 1 display_name: "aeroplane" } item { name: "bicycle" label: 2 display_name: "bicycle" } item { name: "bird" label: 3 display_name: "bird" } item { name: "boat" label: 4 display_name: "boat" } item { name: "bottle" label: 5 display_name: "bottle" }

将weiliu89/caffe/data/VOC0712/create_data.sh修改一下以适配自己的数据集。

cur_dir=$(cd $( dirname ${BASH_SOURCE[0]} ) && pwd ) root_dir=$cur_dir/../.. cd $root_dir redo=1 data_root_dir="$HOME/data/" dataset_name="mydataset" mapfile="$root_dir/data/$dataset_name/labelmap_mydataset.prototxt" anno_type="detection" db="lmdb" min_dim=0 max_dim=0 --encode-type=jpg --encoded" if [ $redo ] then extra_cmd="$extra_cmd --redo" fi for subset in train val do python $root_dir/scripts/create_annoset.py --anno-type=$anno_type --label-map-file=$mapfile --min-dim=$min_dim --max-dim=$max_dim --resize-_"$subset"_"$db examples/$dataset_name done

生成了lmdb文件。

《【Caffe】制作自己的训练数据集》

另外会在weiliu89/caffe/examples/下生成train和val lmdb的超链接。

推荐阅读

int
Android Studio 使用BottomNavigationView 实现底部 tabs (一)

一、在androidStudio中实现tabs比较简单，新建项目就可以选择tabs模板进行创建，默认实现tabs功能：直接运行项目就可以看到效果：可以说非常简单，但是我们在实际开发 ... [详细]

蜡笔小新 2024-09-28 19:42:55
tree
TLB 缓存延迟刷新漏洞 CVE201818281 解析

TLB 缓存延迟刷新漏洞 CVE201818281 解析 ... [详细]

蜡笔小新 2024-09-27 17:53:48
int
File类递归

1.File类：文件和目录路径名的抽象表现形式2.创建对象：File(Stringpathname)通过给定的路径创建文件对象File(Stringpa ... [详细]

蜡笔小新 2024-10-01 01:24:53
range
flash代码_正点原子【STM32F407探索者】第三十九章 FLASH 模拟 EEPROM 实验

1)资料下载:点击资料即可下载2)对正点原子Linux感兴趣的同学可以加群讨论：9354467413）关注正点原子公众号，获取最新资料更新 ... [详细]

蜡笔小新 2024-09-30 15:58:28
range
以下不是python文件读写方法的是Python 文件I/O

Python文件IO本章只讲述所有基本的IO函数，更多函数请参考Python标准文档。打印到屏幕最简单的输出方法是用print语句，你可以给它传递 ... [详细]

蜡笔小新 2024-09-30 14:49:29
int
MyBatis模糊查询和多条件查询

MyBatis模糊查询和多条件查询一、ISmbmsUserDao层根据姓名模糊查询publicListgetUser();多条件查询publicList ... [详细]

蜡笔小新 2024-09-30 13:26:10
range
Mysql MySqlBulkLoader在.NET平台下的批量插入

批量导入publicboolTranBatchImpo ... [详细]

蜡笔小新 2024-09-30 10:20:25
range
java – 什么是notifyItemRangeChanged(0,this.data.size());在这个例子中,它是如何工作的？

我理解ViewHolder的onBindViewHolder如何工作,但是我不清楚notifyItemRangeChanged(0,this.data.size())如何;适用于此示例以及它的确 ... [详细]

蜡笔小新 2024-09-29 20:59:44
range
C++模板实现的单向链表

C模板实现的单向链表，实现了链表的初始化创建，元素插入，元素链表末尾添加，元素删除，链表清空Lists.h# ... [详细]

蜡笔小新 2024-09-29 17:51:47
utf-8
Flex中使用filter过滤数据

Flex中使用filter过滤数据 ... [详细]

蜡笔小新 2024-09-29 14:51:58
int
contentProvider的使用总结

一、使用ContentProvider（内容提供者）共享数据ContentProvider在android中的作用是对外共享数据，也就是说 ... [详细]

蜡笔小新 2024-09-29 13:49:00
int
在ROS中处理yaml文件

在ROS系统中，参数读写一般通过xml或者yaml格式的文件，其中yaml用得比较多。这是一种可读性高，轻量级的标记语言，简单好用。对于yaml文件，ros中用的较早版本的yaml- ... [详细]

蜡笔小新 2024-09-29 00:37:59
int
Java在PDF文档中添加或删除页面

当你编辑一个PDF文档时，有时需要删除文档中多余的页面或 ... [详细]

蜡笔小新 2024-09-27 14:29:44
range
iOS 获取变量属性：修改UIAlertController样式

iOS8之后系统把UIActionSheet和UIAlertView合并为了UIAlertController,使用就不比多说了,但在使用的过程中发现样式是固定的，点 ... [详细]

蜡笔小新 2024-09-26 10:11:40
int
Python之基础篇（三）

基础篇之三：一,数据类型之set.总结：set无序，不重复。1,创建set:s{1,2,3}print(s,type(s))list1[1,2,3]s1(list1)prin ... [详细]

蜡笔小新 2023-10-13 12:44:43

mc_yang

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章