确定神经网络层数以及神经元个数

作者：721252060_96ee43 | 来源：互联网 | 2023-08-09 10:44

神经网络主要由输入层，隐藏层以及输出层构成，合理的选择神经网络的层数以及隐藏层神经元的个数，会在很大程度上影响模型的性能（不

神经网络主要由输入层&＃xff0c;隐藏层以及输出层构成&＃xff0c;合理的选择神经网络的层数以及隐藏层神经元的个数&＃xff0c;会在很大程度上影响模型的性能&＃xff08;不论是进行分类还是回归任务&＃xff09;。

输入层的节点数量以及输出层的节点数量是最容易获得的。

输入层的神经元数量等于数据的特征数量&＃xff08;feature个数&＃xff09;。

若为回归&＃xff0c;则输出层的神经元数量等于1&＃xff1b;若为分类&＃xff0c;则输出层的神经元数量为分类的类别个数&＃xff08;如区分猫狗&＃xff0c;则为2&＃xff1b;区分手写数字0-9&＃xff0c;则为10&＃xff09;。

1.确定隐藏层的层数

对于一些很简单的数据集&＃xff0c;一层甚至两层隐藏元都已经够了&＃xff0c;隐藏层的层数不一定设置的越好&＃xff0c;过多的隐藏层可能会导致数据过拟合。对于自然语言处理以及CV领域&＃xff0c;则建议增加网络层数。

隐藏层的层数与神经网络的结果如下表所示&＃xff1a;

如何确定隐藏层的层数
隐藏层层数	用途
无	仅能够表示线性可分函数或决策
1	可以拟合任何“从一个有限空间到另一个有限空间的连续映射”的函数
2	搭配适当的激活函数&＃xff08;比如Relu&＃xff09;可以表示任意精度的任意决策边界&＃xff0c;并且可以拟合任何精度的任何平滑映射
>2	多出来的隐藏层可以学习复杂的描述&＃xff08;某种自动特征工程&＃xff09;

层数越深&＃xff0c;理论上来说模型拟合函数的能力增强&＃xff0c;效果会更好&＃xff0c;但是实际上更深的层数可能会带来过拟合的问题&＃xff0c;同时也会增加训练难度&＃xff0c;使模型难以收敛。

因此这里给出的建议是&＃xff0c;在使用神经网络时&＃xff0c;最好可以参照已有的性能良好的模型。

如果自己手写的话&＃xff0c;若数据集很简单&＃xff0c;则最好从一两层开始尝试&＃xff0c;尽量不要使用太多的层数。在CV、NLP等特殊领域&＃xff0c;可以使用CNN、RNN、attention等特殊模型&＃xff0c;不能不考虑实际而直接无脑堆砌多层神经网络。

尝试迁移和微调已有的预训练模型&＃xff0c;能取得事半功倍的效果。

2.确定隐藏层中的神经元数量

在隐藏层中使用太少的神经元将导致欠拟合(underfitting)。

相反&＃xff0c;使用过多的神经元同样会导致一些问题。首先&＃xff0c;隐藏层中的神经元过多可能会导致过拟合(overfitting)。

当神经网络具有过多的节点时&＃xff0c;训练集中包含的有限信息量不足以训练隐藏层中的所有神经元&＃xff0c;因此就会导致过拟合。即使训练数据包含的信息量足够&＃xff0c;隐藏层中过多的神经元会增加训练时间&＃xff0c;从而难以达到预期的效果。显然&＃xff0c;选择一个合适的隐藏层神经元数量是至关重要的。

通常对于某些数据集&＃xff0c;拥有较大的第一层并在其后跟随较小的层将导致更好的性能&＃xff0c;因为第一层可以学习很多低阶的特征&＃xff0c;这些较低层的特征可以馈入后续层中&＃xff0c;提取出较高阶特征。

需要注意的是&＃xff0c;与在每一层中添加更多的神经元相比&＃xff0c;添加层层数将获得更大的性能提升。因此&＃xff0c;不要在一个隐藏层中加入过多的神经元。

按照经验来说&＃xff0c;神经元数量可以由以下规则来确定&＃xff1a;

还有另一种方法可供参考&＃xff0c;神经元数量通常可以由一下几个原则大致确定&＃xff1a;

隐藏神经元的数量应在输入层的大小和输出层的大小之间。
隐藏神经元的数量应为输入层大小的2/3加上输出层大小的2/3。
隐藏神经元的数量应小于输入层大小的两倍。

总而言之&＃xff0c;隐藏层神经元是最佳数量需要自己通过不断试验来进行微调&＃xff0c;建议从一个较小数值比如1到3层和1到100个神经元开始。

如果欠拟合然后慢慢添加更多的层和神经元&＃xff0c;如果过拟合就减小层数和神经元。此外&＃xff0c;在实际过程中还可以考虑引入Batch Normalization, Dropout, 正则化等降低过拟合的方法。

同时神经元的数量也可以参考以下公式来确定&＃xff1a;

其中&＃xff1a;

Nh是输入层神经元个数&＃xff1b;

No是输出层神经元个数&＃xff1b;

Ns是训练集的样本数&＃xff1b;

α是任意值变量&＃xff0c;通常取值范围为2-10。

推荐阅读

js
【机器学习】生成式对抗网络模型综述

生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型，可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]

蜡笔小新 2023-12-14 17:51:18
js
统一知识图谱学习和建议：更好地理解用户偏好

本文介绍了一种将知识图谱纳入推荐系统的方法，以提高推荐的准确性和可解释性。与现有方法不同的是，本方法考虑了知识图谱的不完整性，并在知识图谱中传输关系信息，以更好地理解用户的偏好。通过大量实验，验证了本方法在推荐任务和知识图谱完成任务上的优势。 ... [详细]

蜡笔小新 2023-12-11 11:11:02
format
aw多模态融合,多模态话语分析

本博文基于《Amalgamationofproteinsequence,structureandtextualinformationforimprovingprote ... [详细]

蜡笔小新 2023-10-17 19:16:14
format
「爆干7天7夜」入门AI人工智能学习路线一条龙，真的不能再透彻了

前言应广大粉丝要求，今天迪迦来和大家讲解一下如何去入门人工智能，也算是迪迦对自己学习人工智能这么多年的一个总结吧，本条学习路线并不会那么 ... [详细]

蜡笔小新 2023-10-16 12:17:31
format
深度学习与神经网络——邱锡鹏

深度学习与神经网络——邱锡鹏-一、绪论人工智能的一个子领域神经网络：一种以（人工)）神经元为基本单元的模型深度学习：一类机器学习问题，主要解决贡献度分配问题知识结构：路线图：顶 ... [详细]

蜡笔小新 2023-10-16 05:57:42
grid
不同优化算法的比较分析及实验验证

本文介绍了神经网络优化中常用的优化方法，包括学习率调整和梯度估计修正，并通过实验验证了不同优化算法的效果。实验结果表明，Adam算法在综合考虑学习率调整和梯度估计修正方面表现较好。该研究对于优化神经网络的训练过程具有指导意义。 ... [详细]

蜡笔小新 2023-12-13 16:05:14
split
深度学习中的Vision Transformer (ViT)详解

本文详细介绍了深度学习中的Vision Transformer (ViT)方法。首先介绍了相关工作和ViT的基本原理，包括图像块嵌入、可学习的嵌入、位置嵌入和Transformer编码器等。接着讨论了ViT的张量维度变化、归纳偏置与混合架构、微调及更高分辨率等方面。最后给出了实验结果和相关代码的链接。本文的研究表明，对于CV任务，直接应用纯Transformer架构于图像块序列是可行的，无需依赖于卷积网络。 ... [详细]

蜡笔小新 2023-12-12 15:26:38
split
GPT-3发布，动动手指就能自动生成代码的神器来了！

近日，OpenAI发布了最新的NLP模型GPT-3，该模型在GitHub趋势榜上名列前茅。GPT-3使用的数据集容量达到45TB，参数个数高达1750亿，训练好的模型需要700G的硬盘空间来存储。一位开发者根据GPT-3模型上线了一个名为debuid的网站，用户只需用英语描述需求，前端代码就能自动生成。这个神奇的功能让许多程序员感到惊讶。去年，OpenAI在与世界冠军OG战队的表演赛中展示了他们的强化学习模型，在限定条件下以2:0完胜人类冠军。 ... [详细]

蜡笔小新 2023-12-11 11:04:43
object
揭秘阿里云WAF背后神秘的AI智能防御体系

背景应用安全领域，各类攻击长久以来都危害着互联网上的应用，在web应用安全风险中，各类注入、跨站等攻击仍然占据着较前的位置。WAF(Web应用防火墙)正是为防御和阻断这类攻击而存在 ... [详细]

蜡笔小新 2023-12-11 01:30:52
object
推荐：以数据驱动的方式讲故事

直觉vs数据首先，你有思考过一个问题吗？当你的直觉与你所掌握的数据矛盾的时候，你是听从于直觉还是相信你所掌握的数据呢？201 ... [详细]

蜡笔小新 2023-10-16 17:51:26
object
干货 | 携程AI推理性能的自动化优化实践

作者简介携程度假AI研发团队致力于为携程旅游事业部提供丰富的AI技术产品，其中性能优化组为AI模型提供全方位的优化方案，提升推理性能降低成本࿰ ... [详细]

蜡笔小新 2023-10-16 14:03:03
match
深度学习下，中文分词是否还有必要？——ACL 2019论文阅读笔记

点击上方，选择星标或置顶，每天给你送干货！阅读大概需要4分钟跟随小博主，每天进步一丢丢来自：NLP太难了公众号 ... [详细]

蜡笔小新 2023-10-14 20:17:51
window
Word2vec from scratch (Skip-gram & CBOW)

在自然語言處理領域中，如何透過向量表達一個詞彙，是近幾年非常火熱的議題，在distributedrepresentation(densevector)尚未風行前，大多數的任務都以1-hotencoding作為詞彙的表示，其方法得到了高維度的稀疏向量，雖容易理解、簡單計算，但也帶來許多副作用；直至2013年，ThomasMikolov等人提出了word2vec，word2vec引用了一個概念，作者導 ... [详细]

蜡笔小新 2023-10-17 15:23:05
sum
oracle安装时找不到启动,Oracle没有开机自启是怎么回事？这一步骤很重要

重启Oracle数据库重启Oracle数据库包括启动Oracle数据库服务进程和启动Oracle数据库两步，大家继续往下看。按照《【Oracle】什么?作为DBA&# ... [详细]

蜡笔小新 2023-10-16 22:31:42
sum
软件测试工程师，需要达到什么水平才能顺利拿到 20k+ 无压力？

前言最近看到很多应届生晒offer,稍有名气点的公司给出的价格都是一年30多W或者月薪20几k,相比之下工作几年的自己薪资确实很寒酸.根据我自己找工作经历,二线城市一般小公司招聘 ... [详细]

蜡笔小新 2023-10-16 13:18:32

721252060_96ee43

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章