ImageNet和CNN可以帮助医学图像的识别吗?

作者：尚庆湃 | 来源：互联网 | 2023-07-28 05:26

从ImageNet和CNN说起图像的分类和识别一直是计算机视觉的热门研究领域，在医学图像领域，很多方法也都是从计算机视觉领域借鉴过来的，而计算机视觉的许多方法又离不开机器学习和人工智能的基础

从ImageNet和CNN说起

图像的分类和识别一直是计算机视觉的热门研究领域，在医学图像领域，很多方法也都是从计算机视觉领域借鉴过来的，而计算机视觉的许多方法又离不开机器学习和人工智能的基础。

在典型的图像分类和识别问题中，通常有两个重要的步骤，一个是特征提取，常见的有GLCM, HOG, LBP, Haar Wavelet, 一个是分类器，例如SVM, Random Forest, Neuron Network等。特征提取过程中通常是人工选取某些特征，但是难以确定这些特征是否真正准确地描述了不同类别的差异，怎样才能得到最好的特征呢？

于是卷积神经网络应运而生。其思想是通过一些卷积层的参数来描述特征，这些参数的值不是人工设定，而是通过大量的训练数据通过训练自动得到。再配合传统的Neuron Network可以同时训练特征的参数和分类器的参数。这就是卷积神经网络（Convolution Neuron Network, CNN）。下图简要归纳了它的结构与传统Neuron Network的联系与区别。
这里写图片描述

CNN的成功主要起源于它在ImageNet大规模视觉识别挑战赛（ILSVRC）上的成就。ImageNet是一个斯坦福大学Fei-fei Li教授发起的图像数据库，包含120万以上的训练数据和1000种不同的类别，其识别一直比较困难，直到2012年AlexNet的提出，从此以后几乎每年ILSVRC的赢家都使用了CNN，相比以往的方法大幅提高了识别的准确率。
这里写图片描述

CNN在ImageNet上的成功源于三个主要因素：一是大规模的训练数据。二是更为复杂的模型（CNN）。网络结构更加复杂，更深，参数更多。三是GPU对计算的加速，使以往需要数周的训练过程只需一天甚至数小时以内就可以完成。

医学图像识别的问题

如果将CNN应用于医学图像，首要面对的问题是训练数据的缺乏。因为CNN的训练数据都需要有类别标号，这通常需要专家来手工标记。要是标记像ImageNet这样大规模的上百万张的训练图像，简直是不可想象的。

因为CNN的参数多，必须依靠大规模的训练数据才能防止过度拟合（Over Fitting）。在数据量少的情况下，有两种解决方案：一个叫Data Augmentation。就是依赖现有的图像，通过旋转，平移，变形等变化，产生更多的图像。二是使用转移学习(Transfer Learning)。其思想是通过在另一种大规模的数据集上面训练，得到CNN的参数作为初始值，再在目标数据集上训练对参数进行调优（Fine-tuning）。

转移训练的原理是某些特征在不同的训练数据集上是具有通用性的。对于CNN而言，其第一层是提取局部的特征，在后续层通过下采样扩大感知区域, 再往后的层感知区域更大，得到的特征也更加抽象。在前几层的特征通常并不与某一个具体的分类任务直接相关，而是类似于Gabor Filter, 边缘，与方向有关的特征等。这些特征都是比较通用的，因此可以在一个数据集上训练得到而应用在一个与之类似的数据集上。当然，如果训练出的特征对某个训练数据集或者识别任务具有特异性，用它做转移学习就未必有好的效果。

对于医学图像而言，得到大规模的训练数据是比较不容易的，那么可否使用Transfer Learning利用现成的ImageNet的图像来帮助医学图像的识别呢？ImageNet里面的图像（二维，彩色）没有医学图像，包含一些诸如鸟类、猫、狗、直升机等物体的识别，与医学图像（二维或三维，非彩色）相差很大。如果回答是肯定的话，是一件令人非常振奋的事情。

使用ImageNet做转移学习的效果

在NIH的Hoo-Chang Shin ; Holger R. Roth等人最近的一篇文章中研究了这个问题（下载链接）。其全名为：Deep Convolutional Neural Networks for Computer-Aided Detection: CNN Architectures, Dataset Characteristics and Transfer Learning。

该文章除了研究上述问题，还比较了CifarNet （2009年）, AlexNet(2012年)和GoogleNet(2014年)这三个一个比一个复杂的网络结构在不同的训练数据量的情况下的性能。这三个网络的结构简图如下：
这里写图片描述

该文章研究的医学图像应用为CT图像中胸腹部淋巴结（三维）的检测和肺部疾病的分类（二维）。如何让彩色二维图像与医学图像相结合呢？该文采用了两个小技巧：
这里写图片描述

对于三维CT图像，将通过某一点的冠状面、矢状面和横断面的三个二维图像组合在一起，作为RGB的三个通道，使之与彩色图像兼容。对二维CT图像，分别采用三种不同的CT灰度窗口，得到三张图像，组合成彩色图像。
这里写图片描述

实验的结果如上图。可以看出，在不使用Transfer Learning的情况下（Random Initialization, RI），AlexNet虽然比GoogleNet简单，但是效果比GoogleNet好，这是因为GoogleNet参数太多，训练数据不够导致过度拟合，使其泛化能力下降，从而分类精度降低。使用了Transfer Learning （TL）后，GoogleNet的性能提高很多，效果比AlexNet要好。

Random Initialization和Transfer Learning 在训练过程中的性能比较如下图：
这里写图片描述
可见Transfer Learning减少了测试数据上的误差，提高了分类的准确率。

再来看看Transfer Learning学到了那些特征：
这里写图片描述

上图显示了在CNN的第一层中学习到的特征。可以看出在不使用Transfer Learning的情况下，单从CT图像上学习到的特征都表现出比较模糊的样子，而使用Transfer Learning的CNN相应的特征中包含一些和边缘有关的特征，这些实际上是从ImageNet中学习过来的，但有助于CT图像的分类和识别。

推荐阅读

io
深度学习与神经网络——邱锡鹏

深度学习与神经网络——邱锡鹏-一、绪论人工智能的一个子领域神经网络：一种以（人工)）神经元为基本单元的模型深度学习：一类机器学习问题，主要解决贡献度分配问题知识结构：路线图：顶 ... [详细]

蜡笔小新 2023-10-16 05:57:42
io
人工智能推理能力与假设检验

最近Google的Deepmind开始研究如何让AI做数学题。这个问题的提出非常有启发，逻辑推理，发现新知识的能力应该是强人工智能出现自我意识之前最需要发展的能力。深度学习目前可以 ... [详细]

蜡笔小新 2023-10-17 10:01:37
io
微软头条实习生分享深度学习自学指南

本文介绍了一位微软头条实习生自学深度学习的经验分享，包括学习资源推荐、重要基础知识的学习要点等。作者强调了学好Python和数学基础的重要性，并提供了一些建议。 ... [详细]

蜡笔小新 2023-12-14 20:58:32
utf-8
YOLOv7基于自己的数据集从零构建模型完整训练、推理计算超详细教程

本文介绍了关于人工智能、神经网络和深度学习的知识点，并提供了YOLOv7基于自己的数据集从零构建模型完整训练、推理计算的详细教程。文章还提到了郑州最低生活保障的话题。对于从事目标检测任务的人来说，YOLO是一个熟悉的模型。文章还提到了yolov4和yolov6的相关内容，以及选择模型的优化思路。 ... [详细]

蜡笔小新 2023-12-14 18:28:01
rsa
【机器学习】生成式对抗网络模型综述

生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型，可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]

蜡笔小新 2023-12-14 17:51:18
io
sklearn数据集库中的常用数据集类型介绍

本文介绍了sklearn数据集库中常用的数据集类型，包括玩具数据集和样本生成器。其中详细介绍了波士顿房价数据集，包含了波士顿506处房屋的13种不同特征以及房屋价格，适用于回归任务。 ... [详细]

蜡笔小新 2023-12-13 17:45:15
regex
Python正则表达式学习记录及常用方法

本文记录了学习Python正则表达式的过程，介绍了re模块的常用方法re.search，并解释了rawstring的作用。正则表达式是一种方便检查字符串匹配模式的工具，通过本文的学习可以掌握Python中使用正则表达式的基本方法。 ... [详细]

蜡笔小新 2023-12-13 16:37:19
io
CF：3D City Model（小思维）问题解析和代码实现

本文通过解析CF：3D City Model问题，介绍了问题的背景和要求，并给出了相应的代码实现。该问题涉及到在一个矩形的网格上建造城市的情景，每个网格单元可以作为建筑的基础，建筑由多个立方体叠加而成。文章详细讲解了问题的解决思路，并给出了相应的代码实现供读者参考。 ... [详细]

蜡笔小新 2023-12-13 14:17:11
io
aw多模态融合,多模态话语分析

本博文基于《Amalgamationofproteinsequence,structureandtextualinformationforimprovingprote ... [详细]

蜡笔小新 2023-10-17 19:16:14
utf-8
Opencv Python版学习笔记（八）字符识别-分类器（SVM，KNearest，RTrees，Boost，MLP）

Opencv提供了几种分类器，例程里通过字符识别来进行说明的1、支持向量机（SVM）：给定训练样本，支持向量机建立一个超平面作为决策平面，使得正例和反例之间的隔离边缘被最大化。函数原型：训练原型cv ... [详细]

蜡笔小新 2023-10-17 17:02:44
io
2017亚马逊人工智能奖公布：他们的AI有什么不同？

事实上，在我们周围，“人工智能”让一切都变得更“智能”极具讽刺意味。随着人类与机器智能之间的界限变得模糊，我们的世界正在变成一个机器 ... [详细]

蜡笔小新 2023-10-16 19:50:15
io
navicat生成er图_实践案例丨ACL2020 KBQA 基于查询图生成回答多跳复杂问题

摘要：目前复杂问题包括两种：含约束的问题和多跳关系问题。本文对ACL2020KBQA基于查询图生成的方法来回答多跳复杂问题这一论文工作进行了解读 ... [详细]

蜡笔小新 2023-10-16 15:31:07
rsa
论文阅读：《Bag of Tricks for LongTailed Visual Recognition with Deep Convolutional Neural Networks》

基于深度卷积神经网络的长尾视觉识别技巧包摘要近年来，挑战性长尾分布上的视觉识别技术取得了很大的进展，主要基于各种复杂的范式(如元学习)。除了这些复杂 ... [详细]

蜡笔小新 2023-10-16 11:18:28
shell
Linux服务器密码过期策略、登录次数限制、私钥登录等配置方法

本文介绍了在Linux服务器上进行密码过期策略、登录次数限制、私钥登录等配置的方法。通过修改配置文件中的参数，可以设置密码的有效期、最小间隔时间、最小长度，并在密码过期前进行提示。同时还介绍了如何进行公钥登录和修改默认账户用户名的操作。详细步骤和注意事项可参考本文内容。 ... [详细]

蜡笔小新 2023-12-14 17:57:01
command
伊振华作品 | 沈阳市智慧城市运行管理中心的设计与建设

本文介绍了设计师伊振华受邀参与沈阳市智慧城市运行管理中心项目的整体设计，并以数字赋能和创新驱动高质量发展的理念，建设了集成、智慧、高效的一体化城市综合管理平台，促进了城市的数字化转型。该中心被称为当代城市的智能心脏，为沈阳市的智慧城市建设做出了重要贡献。 ... [详细]

蜡笔小新 2023-12-14 16:35:39

尚庆湃

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章