热门标签 | HotTags
当前位置:  开发笔记 > 后端 > 正文

影响网络模型性能的主要因素

在上一节中讲到,从AlexNet到VGG的过程可以看出,深度增加确实对模型的性能有较大的提升。但是,在其过程中VGG随着网络模型深度的增加

    在上一节中讲到,从AlexNet到VGG的过程可以看出,深度增加确实对模型的性能有较大的提升。但是,在其过程中VGG随着网络模型深度的增加准确度反而降低,这就说明,模型性能的影响因子不可能只来自于网络的深度。也就是说,并不是网络深度越深模型的性能就越好,当网络深度达到临界状态时,再盲目加大模型的深度,模型性能反而会降低。那影响模型性能的主要因素有哪些呢?主要有5个因素,如下所示:

  1. 网络深度;
  2. 学习率的设计策略;
  3. 最优化方法;
  4. 卷积核的设置;
  5. 其他因素;

1、网络深度

    网络深度上文已经讲过,不再赘述。

2、学习率的设计策略

    学习率主要是控制模型的学习进度或是速度。学习速率是指导我们该如何通过损失函数的梯度调整网络权重的超参数。学习率越高,损失函数的变化速度就越快,反之亦然。
    需要指出的是高学习率会使损失函数变化加快,但是往往得不到最优解,即在最优解附近来回震荡且震荡幅度较大。但是,使用低学习率可以确保我们不会错过任何局部极小值,同样也意味着我们将花费更长的时间来进行收敛,特别是在被困在高原区域的情况下。此时学习率的设计策略就变得尤为重要。
    学习率的主要策略有Step、Exp、Inv、Multistep、Poly、Sigmoid等,其中效果一般最好的是Step和Multistep,Inv效果比较差。学习率的大小一般设置在0.01 ~ 0.001。当然,不同的模型对学习率的策略与大小要求不同,这个需要开发者自己尝试。

3、最优化方法

    最优化问题在机器学习/深度学习中是经常遇到的问题,也是很重要的一个问题。学习算法的本质都是建立优化模型,通过最优化方法对目标函数(或损失函数)进行优化,从而训练出最好的模型。常见的最优化方法主要有Adam、RMS(均方根)prop、AdaDelta、Adagrad、Momentum、SGD等。最优化方法的选择可以注意以下几点:

  1. 对于稀疏数据,尽量使用学习率可自适应的优化方法,不用手动调节,而且最好采用默认值;
  2. SGD通常训练时间更长,但是在好的初始化和学习率调度方案的情况下,结果更可靠;
  3. 如果在意更快的收敛,并且需要训练较深较复杂的网络时,推荐使用学习率自适应的优化方法;
  4. Adadelta,RMSprop,Adam是比较相近的算法,在相似的情况下表现差不多;
  5. 在想使用带动量的RMSprop,或者Adam的地方,大多可以使用Nadam取得更好的效果。

4、卷积核的设置

    卷积核的大小、步长、padding等都会影响感受野的大小,也影响feature map的尺寸,这对特征的学习尤为重要。卷积核最常见的大小就是3x3和5x5,其他的相对应用较少。
    值得注意的是,选择卷积核大小的原则是小而深,这样其可以达到大的卷积核的效果,但参数会减少,而且会有更好的泛化能力。为了加快速度,常常把卷积核裁开,比如一个3x3的卷积核,可以裁成一个3x1和1x3的卷积核(通过矩阵乘法得知),分别对原有输入做卷积运算,这样可以大大提升运算的速度。

5、其他因素

    其他因素主要是正则化因子、BN层的设置、激活函数的设置、网络的宽度、数据的数量质量与均衡性、网络结构的设计等等。


推荐阅读
  • 2017年人工智能领域的十大里程碑事件回顾
    随着2018年的临近,我们一同回顾过去一年中人工智能领域的重要进展。这一年,无论是政策层面的支持,还是技术上的突破,都显示了人工智能发展的迅猛势头。以下是精选的2017年人工智能领域最具影响力的事件。 ... [详细]
  • 机器学习核心概念与技术
    本文系统梳理了机器学习的关键知识点,涵盖模型评估、正则化、线性模型、支持向量机、决策树及集成学习等内容,并深入探讨了各算法的原理和应用场景。 ... [详细]
  • 机器学习中的相似度度量与模型优化
    本文探讨了机器学习中常见的相似度度量方法,包括余弦相似度、欧氏距离和马氏距离,并详细介绍了如何通过选择合适的模型复杂度和正则化来提高模型的泛化能力。此外,文章还涵盖了模型评估的各种方法和指标,以及不同分类器的工作原理和应用场景。 ... [详细]
  • 毕业设计:基于机器学习与深度学习的垃圾邮件(短信)分类算法实现
    本文详细介绍了如何使用机器学习和深度学习技术对垃圾邮件和短信进行分类。内容涵盖从数据集介绍、预处理、特征提取到模型训练与评估的完整流程,并提供了具体的代码示例和实验结果。 ... [详细]
  • 探索电路与系统的起源与发展
    本文回顾了电路与系统的发展历程,从电的早期发现到现代电子器件的应用。文章不仅涵盖了基础理论和关键发明,还探讨了这一学科对计算机、人工智能及物联网等领域的深远影响。 ... [详细]
  • 2018年3月31日,CSDN、火星财经联合中关村区块链产业联盟等机构举办的2018区块链技术及应用峰会(BTA)核心分会场圆满举行。多位业内顶尖专家深入探讨了区块链的核心技术原理及其在实际业务中的应用。 ... [详细]
  • 尽管深度学习带来了广泛的应用前景,其训练通常需要强大的计算资源。然而,并非所有开发者都能负担得起高性能服务器或专用硬件。本文探讨了如何在有限的硬件条件下(如ARM CPU)高效运行深度神经网络,特别是通过选择合适的工具和框架来加速模型推理。 ... [详细]
  • Coursera ML 机器学习
    2019独角兽企业重金招聘Python工程师标准线性回归算法计算过程CostFunction梯度下降算法多变量回归![选择特征](https:static.oschina.n ... [详细]
  • 随着生活节奏的加快和压力的增加,越来越多的人感到不快乐。本文探讨了现代社会中导致人们幸福感下降的各种因素,并提供了一些改善建议。 ... [详细]
  • 程序员如何优雅应对35岁职业转型?这里有深度解析
    本文探讨了程序员在职业生涯中如何通过不断学习和技能提升,优雅地应对35岁左右的职业转型挑战。我们将深入分析当前热门技术趋势,并提供实用的学习路径。 ... [详细]
  • 机器学习公开课备忘录(三)机器学习算法的应用与大数据集
    机器学习公开课备忘录(三)机器学习算法的应用与大数据集对应机器学习公开课第六周和第10周机器学习算法模型的选择与评价1、对于一个data,可以将data划分为trainingset、t ... [详细]
  • 本文深入探讨了CART(分类与回归树)的基本原理及其在随机森林中的应用。重点介绍了CART的分裂准则、防止过拟合的方法、处理样本不平衡的策略以及其在回归问题中的应用。此外,还详细解释了随机森林的构建过程、样本均衡处理、OOB估计及特征重要性的计算。 ... [详细]
  • 浪潮AI服务器NF5488A5在MLPerf基准测试中刷新多项纪录
    近日,国际权威AI基准测试平台MLPerf发布了最新的推理测试结果,浪潮AI服务器NF5488A5在此次测试中创造了18项性能纪录,显著提升了数据中心AI推理性能。 ... [详细]
  • 图像分类算法的优化策略与实践
    本文探讨了《Bag of Tricks for Image Classification with Convolutional Neural Networks》论文中的多项技术,旨在通过具体实例和实验验证,提高卷积神经网络在图像分类任务中的性能。文章详细介绍了从模型训练加速、网络结构调整到训练参数优化等多个方面的改进方法。 ... [详细]
  • 随着5G、云计算、人工智能、大数据等新技术的广泛应用,人们的生活生产方式发生了深刻变化。从人际互联到万物互联,数据存储与处理需求激增,推动了数据与算力设施的发展。 ... [详细]
author-avatar
手机用户2502859707
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有