图像语义分割_图像处理——路面语义分割

作者：玩在青岩堡欢乐长桌宴_840 | 来源：互联网 | 2023-09-12 07:28

检测坑洼，水坑，不同类型的地形等本期是关于路面语义分割方法的。因此，这里的重点是路面模式，例如：车辆行驶在哪种

检测坑洼&＃xff0c;水坑&＃xff0c;不同类型的地形等

本期是关于路面语义分割方法的。因此&＃xff0c;这里的重点是路面模式&＃xff0c;例如&＃xff1a;车辆行驶在哪种路面上或道路上是否有损坏&＃xff0c;还有道路标记和减速带等等。

0.1 简介

有时我们需要确定路面是青沥路面、鹅卵石路面亦或是未铺砌的路面&＃xff1f;出于对驾驶员的安全以及车内人员的舒适性的考虑我们需要提前知道路面情况。为了实现这些目标&＃xff0c;将使用卷积神经网络(CNN)进行路面的语义分割。CNN体系结构是U-NET [4]&＃xff0c;该体系结构旨在执行医学图像中的语义分割任务&＃xff0c;但已成功应用于许多问题当中。另外&＃xff0c;使用resnet34和resnet50完成此方法的实验。对于数据增强步骤&＃xff0c;使用来自fastai库的标准选项&＃xff0c;并进行了水平旋转和透视变形。

为了训练神经网络并测试和验证结果&＃xff0c;使用来自RTK数据集中的701张图像创建了以下路况(GT)&＃xff1a;

02. 实现步骤

第一步-初始设置

from fastai.vision import *from fastai.vision.interpret import *from fastai.callbacks.hooks import *from pathlib import Pathfrom fastai.utils.mem import *torch.backends.cudnn.benchmark&＃61;True

由于我们将使用Google驱动器中的数据集&＃xff0c;因此需要对其进行挂载&＃xff1a;

from google.colab import drivedrive.mount(&＃39;/content/gdrive&＃39;)

大家将看到类似下图的内容&＃xff0c;单击链接&＃xff0c;我们就获得授权码&＃xff0c;因此只需将授权码复制并粘贴到期望的字段中即可。

现在&＃xff0c;只需将我们的Google云端硬盘作为文件系统访问即可。接下来加载我们的数据。

第二步-准备数据

path &＃61; Path(&＃39;gdrive/My Drive/Colab Notebooks/data/&＃39;)path.ls()

其中“ image ”是包含原始图像的文件夹。“ labels ”是一个文件夹&＃xff0c;其中包含我们将用于训练和验证的图像&＃xff0c;这些图像是8位灰度图。在“ colorLabels ”中&＃xff0c;有原始的彩色图像&＃xff0c;可以将其用于视觉比较。“ valid.txt ”文件包含随机选择用于验证的图像名称列表。最后&＃xff0c;“ codes.txt ”文件包含带有类名称的列表。

codes &＃61; np.loadtxt(path/&＃39;codes.txt&＃39;, dtype&＃61;str); code

现在&＃xff0c;我们定义原始图像和GT图像的路径&＃xff0c;从而可以访问文件夹中的所有图像。

path_lbl &＃61; path/&＃39;labels&＃39;path_img &＃61; path/&＃39;images&＃39;fnames &＃61; get_image_files(path_img)fnames[:3]len(fnames)lbl_names &＃61; get_image_files(path_lbl)lbl_names[:3]len(lbl_names)img_f &＃61; fnames[139]img &＃61; open_image(img_f)img.show(figsize&＃61;(5,5))

我们可以看到一个示例&＃xff0c;数据集中的图像139。

接下来&＃xff0c;我们使用一个函数来从原始图像中推断文件名&＃xff0c;该文件名负责每个像素的颜色编码。

get_y_fn &＃61; lambda x: path_lbl/f&＃39;{x.stem}{x.suffix}&＃39;mask &＃61; open_mask(get_y_fn(img_f))mask.show(figsize&＃61;(5,5), alpha&＃61;1)src_size &＃61; np.array(mask.shape[1:])src_size,mask.data

第三步 —无权重检测

现在我们进入第3步。让我们创建一个DataBunch&＃xff0c;使用数据块API训练我们的第一个模型。定义图像来源&＃xff0c;将用于验证的图像与原始图像建立对应关系。对于数据扩充&＃xff0c;fastai库提供了很多选项&＃xff0c;但是在这里&＃xff0c;我们将仅使用带有的默认选项get_transforms()&＃xff0c;该选项由随机的水平旋转和透视变形组成。在transform调用时我们要令tfm_y&＃61;True&＃xff0c;以确保每个蒙版及其原始图像的数据集中数据扩充的转换都相同。想象一下&＃xff0c;如果我们旋转原始图像&＃xff0c;但是与该图像相对应的蒙版没有旋转&＃xff0c;那将是多么混乱&＃xff01;

size &＃61; src_sizefree &＃61; gpu_mem_get_free_no_cache()# the max size of bs depends on the available GPU RAMif free > 8200: bs&＃61;8else: bs&＃61;4print(f"using bs&＃61;{bs}, have {free}MB of GPU RAM free")src &＃61; (SegmentationItemList.from_folder(path_img) .split_by_fname_file(&＃39;../valid.txt&＃39;) .label_from_func(get_y_fn, classes&＃61;codes)) data &＃61; (src.transform(get_transforms(), size&＃61;size, tfm_y&＃61;True) .databunch(bs&＃61;bs) .normalize(imagenet_stats))

使用lesson3-camvid定义准确度度量和权衰减。我们使用resnet34模型&＃xff0c;定义学习率lr_find(learn)为1e-4。

name2id &＃61; {v:k for k,v in enumerate(codes)}def acc_rtk(input, target): target &＃61; target.squeeze(1) mask &＃61; target !&＃61; 0 return (input.argmax(dim&＃61;1)[mask]&＃61;&＃61;target[mask]).float().mean() metrics&＃61;acc_rtkwd&＃61;1e-2learn &＃61; unet_learner(data, models.resnet34, metrics&＃61;metrics, wd&＃61;wd)lr_find(learn)learn.recorder.plot()

接下来&＃xff0c;我们运行fit_one_cycle()10次以检查模型的运行情况。

lr&＃61;1e-4learn.fit_one_cycle(10, slice(lr), pct_start&＃61;0.9)

interp &＃61; SegmentationInterpretation.from_learner(learn)top_losses, top_idxs &＃61; interp.top_losses((288,352))mean_cm, single_img_cm &＃61; interp._generate_confusion()df &＃61; interp._plot_intersect_cm(mean_cm, "Mean of Ratio of Intersection given True Label")

别忘了保存我们到目前为止训练的模型。

learn.save(&＃39;stage-1&＃39;)

slice关键字用于获取起始值和终止值&＃xff0c;在第一层以起始值开始训练&＃xff0c;并且在到达终止值时结束。

learn.unfreeze()lrs &＃61; slice(lr/400,lr/4)learn.fit_one_cycle(100, lrs, pct_start&＃61;0.9)learn.save(&＃39;stage-2&＃39;)

这是我们的第一个没有权重的模型&＃xff0c;该模型在路面上可以正常使用&＃xff0c;但并不普适。

第四步-带有权重的模型

我们还要继续使用第一个模型。这部分与第3步几乎完全相同&＃xff0c;因为数据绑定&＃xff0c;我们只需要记住加载先前的模型即可。

learn.load(&＃39;stage-2&＃39;)

在我们开始培训过程之前&＃xff0c;我们需要加权重。我定义了这些权重&＃xff0c;以便尝试与每个类在数据集中出现的数量(像素数)成正比。

balanced_loss &＃61; CrossEntropyFlat(axis&＃61;1, weight&＃61;torch.tensor([1.0,5.0,6.0,7.0,75.0,1000.0,3100.0,3300.0,0.0,270.0,2200.0,1000.0,180.0]).cuda())learn &＃61; unet_learner(data, models.resnet34, metrics&＃61;metrics, loss_func&＃61;balanced_loss, wd&＃61;wd)

其余部分与前面介绍的第三步完全一样。得到的结果有什么变化。

现在&＃xff0c;对于所有类来说&＃xff0c;我们似乎都有一个更合理的结果。记住要保存&＃xff01;

learn.save(&＃39;stage-2-weights&＃39;)

结果

最后&＃xff0c;让我们看看我们的图像。首先&＃xff0c;最好保存我们的结果或测试图像。

img_f &＃61; fnames[655]img &＃61; open_image(img_f)img.show(figsize&＃61;(5,5))prediction &＃61; learn.predict(img)prediction[0].show(figsize&＃61;(5,5))results_save &＃61; &＃39;results&＃39;path_rst &＃61; path/results_savepath_rst.mkdir(exist_ok&＃61;True)def save_preds(names): i&＃61;0 #names &＃61; dl.dataset.items for b in names: img_s &＃61; fnames[i] img_toSave &＃61; open_image(img_s) img_split &＃61; f&＃39;{img_s}&＃39; img_split &＃61; img_split[44:] predictionSave &＃61; learn.predict(img_toSave) predictionSave[0].save(path_rst/img_split) #Save Image i &＃43;&＃61; 1 print(i) save_preds(fnames)

可是等等&＃xff01;图像全部看起来都是黑色的&＃xff0c;我们的结果在哪里&＃xff1f;&＃xff1f;&＃xff1f;冷静一下&＃xff0c;这些就是结果&＃xff0c;只是没有颜色图&＃xff0c;如果在整个屏幕上以高亮度打开这些图像之一&＃xff0c;则可以看到小的变化&＃xff0c;即“十一色灰色”。因此&＃xff0c;让我们对结果进行上色以使其更具表现力吗&＃xff1f;现在&＃xff0c;我们将使用OpenCV并创建一个新文件夹来保存彩色结果。

import osimport globimport base64import cv2 as cvcolored_results &＃61; &＃39;results_color&＃39;path_crst &＃61; path/colored_resultspath_crst.mkdir(exist_ok&＃61;True)

因此&＃xff0c;我们创建了一个函数来识别每个变化并为每个像素着色。

def colorfull(image): # grab the image dimensions #height &＃61; image.shape[0] #width &＃61; image.shape[1] width &＃61; 288 height &＃61; 352 # loop over the image, pixel by pixel for x in range(width): for y in range(height): b, g, r &＃61; frame[x, y] if (b, g, r) &＃61;&＃61; (0,0,0): #background frame[x, y] &＃61; (0,0,0) elif (b, g, r) &＃61;&＃61; (1,1,1): #roadAsphalt frame[x, y] &＃61; (85,85,255) elif (b, g, r) &＃61;&＃61; (2,2,2): #roadPaved frame[x, y] &＃61; (85,170,127) elif (b, g, r) &＃61;&＃61; (3,3,3): #roadUnpaved frame[x, y] &＃61; (255,170,127) elif (b, g, r) &＃61;&＃61; (4,4,4): #roadMarking frame[x, y] &＃61; (255,255,255) elif (b, g, r) &＃61;&＃61; (5,5,5): #speedBump frame[x, y] &＃61; (255,85,255) elif (b, g, r) &＃61;&＃61; (6,6,6): #catsEye frame[x, y] &＃61; (255,255,127) elif (b, g, r) &＃61;&＃61; (7,7,7): #stormDrain frame[x, y] &＃61; (170,0,127) elif (b, g, r) &＃61;&＃61; (8,8,8): #manholeCover frame[x, y] &＃61; (0,255,255) elif (b, g, r) &＃61;&＃61; (9,9,9): #patchs frame[x, y] &＃61; (0,0,127) elif (b, g, r) &＃61;&＃61; (10,10,10): #waterPuddle frame[x, y] &＃61; (170,0,0) elif (b, g, r) &＃61;&＃61; (11,11,11): #pothole frame[x, y] &＃61; (255,0,0) elif (b, g, r) &＃61;&＃61; (12,12,12): #cracks frame[x, y] &＃61; (255,85,0) # return the colored image return image

接下来&＃xff0c;我们读取每个图像&＃xff0c;调用函数并保存最终结果。

fqtd &＃61; 0filenames &＃61; [img for img in glob.glob(str(path_rst/"*.png"))]filenames.sort()for img in filenames: frame &＃61; cv.imread(img) frame &＃61; colorfull(frame) frame &＃61; cv.cvtColor(frame,cv.COLOR_BGR2RGB) name &＃61; "%09d.png"%fqtd cv.imwrite(os.path.join(path_crst, name), frame) fqtd &＃43;&＃61; 1 print(fqtd)print("Done!")

使用以下过程&＃xff0c;%timeit我们可以达到以下目的&＃xff0c;因此此过程可能会花费不必要的时间&＃xff1a;

03. 总结

在很多情况下&＃xff0c;识别路面状况都很重要&＃xff0c;基于此车辆或驾驶员可以做出调整&＃xff0c;使驾驶变的更加安全&＃xff0c;舒适和高效。这在可能存在更多道路维护问题或相当数量的未铺设道路的发展中国家中尤其重要。对于处理路面变化的环境&＃xff0c;对于高速公路分析和养护部门也很有用&＃xff0c;以便使他们在评估道路质量和确定需要维护的地方的工作自动化。

推荐阅读

go
毕业设计：基于机器学习与深度学习的垃圾邮件（短信）分类算法实现

本文详细介绍了如何使用机器学习和深度学习技术对垃圾邮件和短信进行分类。内容涵盖从数据集介绍、预处理、特征提取到模型训练与评估的完整流程，并提供了具体的代码示例和实验结果。 ... [详细]

蜡笔小新 2024-12-25 17:38:50
function
深入理解Python的os和sys模块

本文详细解析了Python中的os和sys模块，介绍了它们的功能、常用方法及其在实际编程中的应用。 ... [详细]

蜡笔小新 2024-12-26 22:04:19
function
MicroATX与MATX：主板规格详解

本文详细介绍了MicroATX（也称Mini ATX）和MATX主板规格，探讨了它们的结构特点、应用场景及对电脑系统成本和性能的影响。同时，文章还涵盖了相关操作系统的实用技巧，如蓝牙设备图标删除、磁盘管理等。 ... [详细]

蜡笔小新 2024-12-25 18:53:29
数组
VSCode 自定义代码片段配置：实现类似IDEA的快捷代码段（如sout或psvm）

本文详细介绍如何在VSCode中配置自定义代码片段，使其具备与IDEA相似的代码生成快捷键功能。通过具体的Java和HTML代码片段示例，展示配置步骤及效果。 ... [详细]

蜡笔小新 2024-12-25 17:10:13
yaml
Kubernetes 持久化存储与数据卷详解

本文深入探讨 Kubernetes 中持久化存储的使用场景、PV/PVC/StorageClass 的基本操作及其实现原理，旨在帮助读者理解如何高效管理容器化应用的数据持久化需求。 ... [详细]

蜡笔小新 2024-12-23 12:10:22
yaml
Java并发编程：LinkedBlockingQueue的实际应用

本文介绍了Java并发库中的阻塞队列（BlockingQueue）及其典型应用场景。通过具体实例，展示了如何利用LinkedBlockingQueue实现线程间高效、安全的数据传递，并结合线程池和原子类优化性能。 ... [详细]

蜡笔小新 2024-12-27 18:51:49
go
Python 的 10 个开发技巧！太实用了

1.如何在运行状态查看源代码？查看函数的源代码，我们通常会使用IDE来完成。比如在PyCharm中，你可以Ctrl+鼠标点击进入函数的源代码。那如果没有IDE呢？当我们想使用一个函 ... [详细]

蜡笔小新 2024-12-27 18:36:54
go
深入解析ExpandableComposite.addExpansionListener()方法及其应用

本文详细介绍了Java中org.eclipse.ui.forms.widgets.ExpandableComposite类的addExpansionListener()方法，并提供了多个实际代码示例，帮助开发者更好地理解和使用该方法。这些示例来源于多个知名开源项目，具有很高的参考价值。 ... [详细]

蜡笔小新 2024-12-27 16:11:49
go
Python自动化处理：从Word文档提取内容并生成带水印的PDF

本文介绍如何利用Python实现从特定网站下载Word文档，去除水印并添加自定义水印，最终将文档转换为PDF格式。该方法适用于批量处理和自动化需求。 ... [详细]

蜡笔小新 2024-12-27 13:10:20
command
掌握远程执行Linux脚本和命令的技巧

本文将详细介绍如何利用Python的Paramiko库实现远程执行Linux脚本和命令，帮助读者快速掌握这一实用技能。通过具体的示例和详尽的解释，让初学者也能轻松上手。 ... [详细]

蜡笔小新 2024-12-26 19:47:05
command
Python 提取和替换 Word 文档中的图片

本文介绍如何使用 Python 提取和替换 .docx 文件中的图片。.docx 文件本质上是压缩文件，通过解压可以访问其中的图片资源。此外，我们还将探讨使用第三方库 docx 的方法来简化这一过程。 ... [详细]

蜡笔小新 2024-12-26 18:52:14
runtime
从 .NET 转 Java 的自学之路：IO 流基础篇

本文详细介绍了 Java 中的 IO 流，包括字节流和字符流的基本概念及其操作方式。探讨了如何处理不同类型的文件数据，并结合编码机制确保字符数据的正确读写。同时，文中还涵盖了装饰设计模式的应用，以及多种常见的 IO 操作实例。 ... [详细]

蜡笔小新 2024-12-26 17:37:25
go
基因组浏览器中的Wig格式解析

本文详细介绍了Wiggle（Wig）格式及其在基因组浏览器中的应用，涵盖variableStep和fixedStep两种主要格式的特点、适用场景及具体使用方法。同时，还提供了关于数据值和自定义参数的补充信息。 ... [详细]

蜡笔小新 2024-12-26 11:21:09
go
深入理解网易NEC CSS框架：规范、应用与学习心得

本文将介绍网易NEC CSS框架的规范及其在实际项目中的应用。通过详细解析其分类和命名规则，探讨如何编写高效、可维护的CSS代码，并分享一些实用的学习心得。 ... [详细]

蜡笔小新 2024-12-24 18:08:51
go
Unity编辑器插件：NGUI资源引用检测工具

本文介绍了一款基于NGUI的资源引用检测工具，该工具能够帮助开发者快速查找和管理项目中的资源引用。其功能涵盖Atlas/Sprite、字库、UITexture及组件的引用检测，并提供了替换和修复功能。文末提供源码下载链接。 ... [详细]

蜡笔小新 2024-12-24 17:17:06

玩在青岩堡欢乐长桌宴_840

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章