一文看懂深度学习与计算机视觉(上)

作者：allmon白_980 | 来源：互联网 | 2023-10-12 13:18

今年夏天，将在深圳举办“全球人工智能与机器人创新大会”（GAIR），在本次大会上，我们将发布“人工智能与机器人Top25创新企业榜“，慧眼科技是我们重点关注的公司之一。今天，我们邀请到慧眼科技研

今年夏天，将在深圳举办“全球人工智能与机器人创新大会”（GAIR），在本次大会上，我们将发布“人工智能与机器人Top25创新企业榜“，慧眼科技是我们重点关注的公司之一。今天，我们邀请到慧眼科技研发总监李汉曦，为我们带来深度学习与计算机视觉方面的内容分享。

嘉宾介绍：李汉曦，慧眼科技研发总监，澳大利亚国立大学博士；曾任澳大利亚国家信息通信公司(NICTA)任高级研究员；人脸识别，物体检测，物体跟踪、深度学习方面的专家，在TPAMI，TIP, TNNLS和Pattern Recognition等权威期刊，以及CVPR，ECCV，BMVC, ACCV等领域内重要会议发表过有影响力的论文；现为澳大利亚格里菲斯大学客座研究员，江西师范大学特聘教授。

人工智能是人类一个非常美好的梦想，跟星际漫游和长生不老一样。我们想制造出一种机器，使得它跟人一样具有一定的对外界事物感知能力，比如看见世界。

在上世纪50年代，数学家图灵提出判断机器是否具有人工智能的标准：图灵测试。即把机器放在一个房间，人类测试员在另一个房间，人跟机器聊天，测试员事先不知道另一房间里是人还是机器。经过聊天，如果测试员不能确定跟他聊天的是人还是机器的话，那么图灵测试就通过了，也就是说这个机器具有与人一样的感知能力。

但是从图灵测试提出来开始到本世纪初，50多年时间有无数科学家提出很多机器学习的算法，试图让计算机具有与人一样的智力水平，但直到2006年深度学习算法的成功，才带来了一丝解决的希望。

众星捧月的深度学习
深度学习在很多学术领域，比非深度学习算法往往有20-30%成绩的提高。很多大公司也逐渐开始出手投资这种算法，并成立自己的深度学习团队，其中投入最大的就是谷歌，2008年6月披露了谷歌脑项目。2014年1月谷歌收购DeepMind，然后2016年3月其开发的Alphago算法在围棋挑战赛中，战胜了韩国九段棋手李世石，证明深度学习设计出的算法可以战胜这个世界上最强的选手。

在硬件方面，Nvidia最开始做显示芯片，但从2006及2007年开始主推用GPU芯片进行通用计算，它特别适合深度学习中大量简单重复的计算量。目前很多人选择Nvidia的CUDA工具包进行深度学习软件的开发。

微软从2012年开始，利用深度学习进行机器翻译和中文语音合成工作，其人工智能小娜背后就是一套自然语言处理和语音识别的数据算法。

百度在2013年宣布成立百度研究院，其中最重要的就是百度深度学习研究所，当时招募了著名科学家余凯博士。不过后来余凯离开百度，创立了另一家从事深度学习算法开发的公司地平线。

Facebook和Twitter也都各自进行了深度学习研究，其中前者携手纽约大学教授Yann Lecun，建立了自己的深度学习算法实验室；2015年10月，Facebook宣布开源其深度学习算法框架，即Torch框架。Twitter在2014年7月收购了Madbits，为用户提供高精度的图像检索服务。

前深度学习时代的计算机视觉
互联网巨头看重深度学习当然不是为了学术，主要是它能带来巨大的市场。那为什么在深度学习出来之前，传统算法为什么没有达到深度学习的精度？

在深度学习算法出来之前，对于视觉算法来说，大致可以分为以下5个步骤：特征感知，图像预处理，特征提取，特征筛选，推理预测与识别。早期的机器学习中，占优势的统计机器学习群体中，对特征是不大关心的。

我认为，计算机视觉可以说是机器学习在视觉领域的应用，所以计算机视觉在采用这些机器学习方法的时候，不得不自己设计前面4个部分。

但对任何人来说这都是一个比较难的任务。传统的计算机识别方法把特征提取和分类器设计分开来做，然后在应用时再合在一起，比如如果输入是一个摩托车图像的话，首先要有一个特征表达或者特征提取的过程，然后把表达出来的特征放到学习算法中进行分类的学习。

过去20年中出现了不少优秀的特征算子，比如最著名的SIFT算子，即所谓的对尺度旋转保持不变的算子。它被广泛地应用在图像比对，特别是所谓的structure from motion这些应用中，有一些成功的应用例子。另一个是HoG算子，它可以提取物体，比较鲁棒的物体边缘，在物体检测中扮演着重要的角色。

这些算子还包括Textons，Spin image，RIFT和GLOH，都是在深度学习诞生之前或者深度学习真正的流行起来之前，占领视觉算法的主流。

几个（半）成功例子
这些特征和一些特定的分类器组合取得了一些成功或半成功的例子，基本达到了商业化的要求但还没有完全商业化。

一是八九十年代的指纹识别算法，它已经非常成熟，一般是在指纹的图案上面去寻找一些关键点，寻找具有特殊几何特征的点，然后把两个指纹的关键点进行比对，判断是否匹配。

然后是2001年基于Haar的人脸检测算法，在当时的硬件条件下已经能够达到实时人脸检测，我们现在所有手机相机里的人脸检测，都是基于它或者它的变种。

第三个是基于HoG特征的物体检测，它和所对应的SVM分类器组合起来的就是著名的DPM算法。DPM算法在物体检测上超过了所有的算法，取得了比较不错的成绩。

但这种成功例子太少了，因为手工设计特征需要大量的经验，需要你对这个领域和数据特别了解，然后设计出来特征还需要大量的调试工作。说白了就是需要一点运气。

另一个难点在于，你不只需要手工设计特征，还要在此基础上有一个比较合适的分类器算法。同时设计特征然后选择一个分类器，这两者合并达到最优的效果，几乎是不可能完成的任务。

仿生学角度看深度学习
如果不手动设计特征，不挑选分类器，有没有别的方案呢？能不能同时学习特征和分类器？即输入某一个模型的时候，输入只是图片，输出就是它自己的标签。比如输入一个明星的头像，出来的标签就是一个50维的向量（如果要在50个人里识别的话），其中对应明星的向量是1，其他的位置是0。

这种设定符合人类脑科学的研究成果。

1981年诺贝尔医学生理学奖颁发给了David Hubel，一位神经生物学家。他的主要研究成果是发现了视觉系统信息处理机制，证明大脑的可视皮层是分级的。他的贡献主要有两个，一是他认为人的视觉功能一个是抽象，一个是迭代。抽象就是把非常具体的形象的元素，即原始的光线像素等信息，抽象出来形成有意义的概念。这些有意义的概念又会往上迭代，变成更加抽象，人可以感知到的抽象概念。

像素是没有抽象意义的，但人脑可以把这些像素连接成边缘，边缘相对像素来说就变成了比较抽象的概念；边缘进而形成球形，球形然后到气球，又是一个抽象的过程，大脑最终就知道看到的是一个气球。

模拟人脑识别人脸，也是抽象迭代的过程，从最开始的像素到第二层的边缘，再到人脸的部分，然后到整张人脸，是一个抽象迭代的过程。

再比如看到图片中的摩托车，我们可能在脑子里就几微秒的时间，但是经过了大量的神经元抽象迭代。对计算机来说最开始看到的根本也不是摩托车，而是RGB图像三个通道上不同的数字。

所谓的特征或者视觉特征，就是把这些数值给综合起来用统计或非统计的形式，把摩托车的部件或者整辆摩托车表现出来。深度学习的流行之前，大部分的设计图像特征就是基于此，即把一个区域内的像素级别的信息综合表现出来，利于后面的分类学习。

如果要完全模拟人脑，我们也要模拟抽象和递归迭代的过程，把信息从最细琐的像素级别，抽象到“种类”的概念，让人能够接受。

卷积的概念
计算机视觉里经常使卷积神经网络，即CNN，是一种对人脑比较精准的模拟。

什么是卷积？卷积就是两个函数之间的相互关系，然后得出一个新的值，他是在连续空间做积分计算，然后在离散空间内求和的过程。实际上在计算机视觉里面，可以把卷积当做一个抽象的过程，就是把小区域内的信息统计抽象出来。

比如，对于一张爱因斯坦的照片，我可以学习n个不同的卷积和函数，然后对这个区域进行统计。可以用不同的方法统计，比如着重统计中央，也可以着重统计周围，这就导致统计的和函数的种类多种多样，为了达到可以同时学习多个统计的累积和。

上图中是，如何从输入图像怎么到最后的卷积，生成的响应map。首先用学习好的卷积和对图像进行扫描，然后每一个卷积和会生成一个扫描的响应图，我们叫response map，或者叫feature map。如果有多个卷积和，就有多个feature map。也就说从一个最开始的输入图像（RGB三个通道）可以得到256个通道的feature map，因为有256个卷积和，每个卷积和代表一种统计抽象的方式。

在卷积神经网络中，除了卷积层，还有一种叫池化的操作。池化操作在统计上的概念更明确，就是一个对一个小区域内求平均值或者求最大值的统计操作。

带来的结果是，如果之前我输入有两个通道的，或者256通道的卷积的响应feature map，每一个feature map都经过一个求最大的一个池化层，会得到一个比原来feature map更小的256的feature map。

在上面这个例子里，池化层对每一个2X2的区域求最大值，然后把最大值赋给生成的feature map的对应位置。如果输入图像是100×100的话，那输出图像就会变成50×50，feature map变成了一半。同时保留的信息是原来2X2区域里面最大的信息。

推荐阅读

自动驾驶
探索CNN的可视化技术

神经网络的可视化在理论学习与实践应用中扮演着至关重要的角色。本文深入探讨了三种有效的CNN（卷积神经网络）可视化方法，旨在帮助读者更好地理解和优化模型。 ... [详细]

蜡笔小新 2024-11-24 11:30:28
深度
计算机视觉初学者指南：如何顺利入门

本文旨在为计算机视觉领域的初学者提供一套全面的入门指南，涵盖基础知识、技术工具、学习资源等方面，帮助读者快速掌握计算机视觉的核心概念和技术。 ... [详细]

蜡笔小新 2024-11-27 13:38:50
深度
本周三大青年学术分享会即将开启

由雷锋网旗下的AI研习社主办，旨在促进AI领域的知识共享和技术交流。通过邀请来自学术界和工业界的专家进行在线分享，活动致力于搭建一个连接理论与实践的平台。 ... [详细]

蜡笔小新 2024-11-21 17:13:10
nlp
计算机学报精选论文概览（2020-2022）

本文汇总了2020年至2022年间《计算机学报》上发表的若干重要论文，旨在为即将投稿的研究者提供参考。 ... [详细]

蜡笔小新 2024-11-20 11:08:21
深度
利用神经网络破解数学难题：求解偏微分方程的新途径

一项来自Quantamagazine的最新研究揭示，借助人工智能的深度学习技术，特别是深度神经网络，科学家们能够在数学建模领域取得突破，显著提高了处理复杂系统中偏微分方程的速度与效率。 ... [详细]

蜡笔小新 2024-12-01 14:44:13
算法
ICML2020: 利用贝叶斯元学习在全局关系图上实现小样本关系抽取

本文介绍了加拿大蒙特利尔大学Mila研究所唐建教授团队在ICML2020上发布的一项研究，该研究探讨了如何利用全局关系图来探索句子间的新关系，并提出了一种创新的贝叶斯元学习方法。 ... [详细]

蜡笔小新 2024-12-01 14:34:30
自动驾驶
《计算机视觉：算法与应用》第二版初稿上线，全面更新迎接未来

经典计算机视觉教材《计算机视觉：算法与应用》迎来了其第二版，现已开放初稿下载。本书由Facebook研究科学家Richard Szeliski撰写，自2010年首版以来，一直是该领域的标准参考书。 ... [详细]

蜡笔小新 2024-11-30 20:56:47
人脸识别
利用Dlib进行高效的人脸特征提取与识别

本文介绍了Dlib库，一个集成了多种机器学习算法的C++工具包，特别适用于需要处理复杂任务的应用场景。Dlib不仅支持机器人技术、嵌入式系统开发、移动应用及高性能计算环境，还提供了强大的人脸检测与特征提取功能。 ... [详细]

蜡笔小新 2024-11-28 11:13:12
算法
深度学习与神经网络课程总结

本文档总结了神经网络和深度学习课程中的关键概念和理论，包括机器学习的基本要素、算法类型以及数据特征表示等。 ... [详细]

蜡笔小新 2024-11-26 11:31:09
深度
知识图谱与图神经网络在金融科技中的应用探讨

本文详细介绍了融慧金科AI Lab负责人张凯博士在2020爱分析·中国人工智能高峰论坛上的演讲，探讨了知识图谱与图神经网络模型如何在金融科技领域发挥重要作用。 ... [详细]

蜡笔小新 2024-11-21 15:02:52
机器学习
Python 领跑！2019年2月编程语言排名更新

根据最新的编程语言流行指数（PYPL）排行榜，Python 在2019年2月的份额达到了26.42%，稳坐榜首位置。 ... [详细]

蜡笔小新 2024-11-21 09:18:39
算法
5G时代的广域网革新：企业迈向万物智联的新起点

随着2020年初“新基建”概念的提出，以5G、AI、IoT等为核心的新型基础设施建设正逐步改变企业的运营模式。本文探讨了在这一背景下，企业广域网（WAN）如何通过5G与SD-WAN技术的融合实现转型升级，成为推动企业智能化、数字化发展的关键力量。 ... [详细]

蜡笔小新 2024-11-27 21:25:17
pytorch
尤洋：夸父AI系统——大规模并行训练的深度学习解决方案

自从AlexNet等模型在计算机视觉领域取得突破以来，深度学习技术迅速发展。近年来，随着BERT等大型模型的广泛应用，AI模型的规模持续扩大，对硬件提出了更高的要求。本文介绍了新加坡国立大学尤洋教授团队开发的夸父AI系统，旨在解决大规模模型训练中的并行计算挑战。 ... [详细]

蜡笔小新 2024-11-25 19:02:33
机器学习
41款高效LISP工具助力数据处理全流程

本文由公众号【数智物语】(ID: decision_engine)发布，关注获取更多干货。文章探讨了从数据收集到清洗、建模及可视化的全过程，介绍了41款实用工具，旨在帮助数据科学家和分析师提升工作效率。 ... [详细]

蜡笔小新 2024-11-24 00:11:50
人脸识别
从一维到三维的模型扩展

本文源自Coursera平台吴恩达教授的深度学习课程，重点探讨了卷积神经网络（ConvNets）从二维图像处理向一维信号及三维数据处理的拓展应用。 ... [详细]

蜡笔小新 2024-11-20 16:09:22

allmon白_980

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章