作者:荣星树 | 来源:互联网 | 2023-07-10 13:03
搜索过程是自动化的如何进行网络结构搜索搜索必有搜索空间搜索过程中必有反馈自动化搜索过程网络结构搜索示例——以卷积神经网络为例搜索空间搜索的反馈自动化搜索过程如何使用反馈分布式训练控
搜索过程是自动化的
如何进行网络结构搜索
网络结构搜索示例——以卷积神经网络为例
![](https://img8.php1.cn/3cdc5/156ea/807/df997e7acce72442.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2h4eGp4dw==,size_16,color_FFFFFF,t_70)
搜索空间
![](https://img8.php1.cn/3cdc5/156ea/807/fbe5c3f41baa1c7b.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2h4eGp4dw==,size_16,color_FFFFFF,t_70)
![](https://img8.php1.cn/3cdc5/156ea/807/ad2ad9a7de25e284.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2h4eGp4dw==,size_16,color_FFFFFF,t_70)
搜索的反馈
![](https://img8.php1.cn/3cdc5/156ea/807/7311738f10c44888.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2h4eGp4dw==,size_16,color_FFFFFF,t_70)
自动化搜索过程
![](https://img8.php1.cn/3cdc5/156ea/807/31cc76dbf71e6759.png)
![](https://img8.php1.cn/3cdc5/156ea/807/5ce79adcba15ec95.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2h4eGp4dw==,size_16,color_FFFFFF,t_70)
![](https://img8.php1.cn/3cdc5/156ea/807/c7073c8383a9ec44.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2h4eGp4dw==,size_16,color_FFFFFF,t_70)
如何使用反馈
![](https://img8.php1.cn/3cdc5/156ea/807/3bdf985d615517a4.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2h4eGp4dw==,size_16,color_FFFFFF,t_70)
![](https://img8.php1.cn/3cdc5/156ea/807/56cf8f0dbb0ee6b5.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2h4eGp4dw==,size_16,color_FFFFFF,t_70)
![](https://img8.php1.cn/3cdc5/156ea/807/3d60a280d8667042.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2h4eGp4dw==,size_16,color_FFFFFF,t_70)
分布式训练
- 控制器参数分布在parameter server中
- 将控制器复制k份
- 每个控制器随机生成若干个神经网络,进行训练
- 神经网络训练完后得到准确率
- 计算控制器梯度
- 梯度回传
![](https://img8.php1.cn/3cdc5/156ea/807/53ea1034f11016b4.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2h4eGp4dw==,size_16,color_FFFFFF,t_70)
把所有参数都存在一组服务器上,把所有的模型训练放在一组工作节点上
![](https://img8.php1.cn/3cdc5/156ea/807/1125bd97bbafb15f.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2h4eGp4dw==,size_16,color_FFFFFF,t_70)
同步和异步两种方式
![](https://img8.php1.cn/3cdc5/156ea/807/c8d32129065e14d6.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2h4eGp4dw==,size_16,color_FFFFFF,t_70)
一般会采用异步的
实现细节
- 两层LSTM,每层长度为35
- Adam优化器,learning_rate=0.0006
- PS=20, 控制器副本数目=100
- 控制器每次生成m个结构,m=8(即800个生成的网络结构同时在训练,同时使用800GPU)
缺点
- 每一层的参数都是独立的
- 学习整个网络,参数搜索空间很大
- 难于学习复杂的子结构
- 没有利用重复层的特点