当前位置: 开发笔记 > 编程语言 > 正文

跟我学算法吴恩达老师（超参数调试,batch归一化,softmax使用，tensorflow框架举例）...

作者：我叫梁家耀_312 | 来源：互联网 | 2023-09-23 19:07

1.在我们学习中，调试超参数是非常重要的。超参数的调试可以是a学习率，（β1和β2，ε）在Adam梯度下降中使

1. 在我们学习中&＃xff0c;调试超参数是非常重要的。

超参数的调试可以是a学习率&＃xff0c;&＃xff08;β1和β2&＃xff0c;ε&＃xff09;在Adam梯度下降中使用, layers层数, hidden units 隐藏层的数目,

learning_rate_dacay 学习率衰减, mini-batch size 每次迭代的样本数目

当需要调节的参数的数目较多时&＃xff0c;我们通常使用随机参数选择进行参数调节.

比如学习率的范围为0.0001 - 1 , 在0.0001-0.001之间&＃xff0c;样本随学习率的变化较大&＃xff0c;因此有必要增加这部分的权重&＃xff0c;我们使用log函数

a_1 &＃61; log10(0.0001) &＃61; -4

a_2 &＃61; log10(1) &＃61; 0

r &＃61; -4 * np.random.randn() (生成-4-0的数字)

a &＃61; 10^r 来决定学习率

还有β1的范围为0.9-0.999

1-β1&＃61; 0.0001-0.1

β_1 &＃61; log10(0.0001) &＃61; -4

β_2 &＃61; log10(0.1) &＃61; -1

r &＃61; -4*np,random.randn(0.25, 1)

β1 &＃61;1 - 10^r

2. batch归一化

μ &＃61; 1/mΣZ(i) #表示输入样本的所有均值

δ2 &＃61; 1/mΣ(Z(i) - μ) #表示方差

Z(i) &＃61; (Z(i) - μ) / (np.sqrt(δ2 &＃43; ε)) #进行归一化操作 ε防止分母出现0的出现

Z(i) &＃61; γ*Z(i) &＃43; β # 为了使得Z(i) 的取值范围更大&＃xff0c;在后续的激活函数中表现得更多样

此时的反向传播的训练参数为

w :&＃61; w - a * dw

γ :&＃61; γ - a * dγ

β :&＃61; β - a * dβ

由于进行了去均值的操作&＃xff0c;所以使得b就被消去了

batch归一化的作用&＃xff0c;使得前层数据不会变得那么多变&＃xff0c;使得当前层的训练变得更加独立和容易&＃xff0c;对前一层的依赖也就越少,

由于计算的均值和标准差&＃xff0c;使得一定的噪音信号产生&＃xff0c;有点类似dropout&＃xff0c;使得训练算法不过分依赖某些神经元&＃xff0c;起到了轻微的正则化的作用

下面是tensorflow实现的,使用的是RMS梯度下降

conv_bn &＃61; tf.contrib.layers.batch_norm(conv, momentum, scale&＃61;True, epsilon&＃61;1e-5,is_training &＃61; self.training, scope&＃61;names)
scale是指系数λ。
实际在搭建好包含BN层的网络之后&＃xff0c;进行训练时需要注意使用如下模式代码&＃xff1a;rmsprop &＃61; tf.train.RMSPropOptimizer(learning_rate&＃61; self.lr)
with tf.control_dependencies(self.update_ops):self.train_rmsprop &＃61; rmsprop.minimize(loss&＃xff09;

3.softmax使用

对于logistics回归&＃xff0c;是一个参数输入一个参数输出&＃xff0c;

对于softmax实现的是一个多分类问题&＃xff0c;输入是1*4&＃xff0c; 输出也是1*4

Z[l] &＃61; W[l] * a[l-1] &＃43; b[l]

t &＃61; e^(Z[l])

a(i)[l] &＃61; t(i) / Σ(t(i))

举例说明

z[l] &＃61; [5, 2, -1, 3]

t &＃61; [148.4, 7.4, 0.4, 20.1]

a &＃61; [0.842, 0.042, 0.002, 0.114]

我们在做这类标签时&＃xff0c;

y &＃61; [0, 1, 0, 0]

y_1 &＃61; [0.3, 0,2, 0.1, 0.4] #y_1表示softmax的输出值

loss(y_1, y) &＃61; - Σy*logy_1 &＃61; -logy_1(2) 即保证y_1的第二数越来越大

y &＃61; [y[1], y[2], y[m]] # m 表示样本的个数&＃xff0c; y的样本shape为&＃xff08;4&＃xff0c; m&＃xff09;

j &＃61; 1/mΣloss(y_1, y) # 总的损失函数

4. tensorflow 框架举例

import numpy as np
import tensorflow as tfcoffitent &＃61; np.array([[0.1], [0.2], [0.3]])
w &＃61; tf.Variable(0, dtype&＃61;tf.float32)
# cost &＃61; (tf.add(w**2, tf.multiply(-10, w)), 25)
# 表示迟点输入x
x &＃61; tf.placeholder(tf.float32, [3, 1])
# cost &＃61; w**2 - 10*w &＃43; 25
cost &＃61; x[0][0]*w**2 &＃43; x[1][0]*w &＃43; x[2][0]train &＃61; tf.train.GradientDescentOptimizer(0.001).minimize(cost)init &＃61; tf.global_variables_initializer()
session &＃61; tf.Session()
session.run(init)
print(session.run(w))session.run(train, feed_dict&＃61;{x:coffitent})
print(session.run(w))for i in range(1000):# feed_dict 表示需要输入的参数session.run(train, feed_dict&＃61;{x:coffitent})
print(session.run(w))

转:https://www.cnblogs.com/my-love-is-python/p/9720413.html

推荐阅读

post
技术日志：使用 Ruby 爬虫抓取拉勾网职位数据并生成词云分析报告

技术日志：使用 Ruby 爬虫抓取拉勾网职位数据并生成词云分析报告 ... [详细]

蜡笔小新 2024-11-07 14:33:19
int
三角测量计算三维坐标的代码_双目三维重建——层次化重建思考

双目三维重建——层次化重建思考FesianXu2020.7.22atANTFINANCIALintern前言本文是笔者阅读[1]第10章内容的笔记，本文从宏观的角度阐 ... [详细]

蜡笔小新 2024-11-13 19:31:37
blob
浅析python实现布隆过滤器及Redis中的缓存穿透原理_python

本文带你了解了位图的实现，布隆过滤器的原理及Python中的使用，以及布隆过滤器如何应对Redis中的缓存穿透，相信你对布隆过滤 ... [详细]

蜡笔小新 2024-11-13 16:43:07
request
在范围[0..n-1]中产生m个不同的随机数 - Generating m distinct random numbers in the range [0..n-1]

Ihavetwomethodsofgeneratingmdistinctrandomnumbersintherange[0..n-1]我有两种方法在范围[0.n-1]中生 ... [详细]

蜡笔小新 2024-11-13 09:49:14
int
最详尽的4K技术科普

什么是4K？4K是一个分辨率的范畴，即40962160的像素分辨率，一般用于专业设备居多，目前家庭用的设备，如 ... [详细]

蜡笔小新 2024-11-12 18:25:39
metadata
使用 Matplotlib 保存 Python 动态图像为视频文件的方法与技巧

本文介绍了如何利用 `matplotlib` 库中的 `FuncAnimation` 类将 Python 中的动态图像保存为视频文件。通过详细解释 `FuncAnimation` 类的参数和方法，文章提供了多种实用技巧，帮助用户高效地生成高质量的动态图像视频。此外，还探讨了不同视频编码器的选择及其对输出文件质量的影响，为读者提供了全面的技术指导。 ... [详细]

蜡笔小新 2024-11-11 22:11:30
int
2018 HDU 多校联合第五场 G题：Glad You Game（线段树优化解法）

题目链接：http://acm.hdu.edu.cn/showproblem.php?pid=6356在《Glad You Game》中，Steve 面临一个复杂的区间操作问题。该题可以通过线段树进行高效优化。具体来说，线段树能够快速处理区间更新和查询操作，从而大大提高了算法的效率。本文详细介绍了线段树的构建和维护方法，并给出了具体的代码实现，帮助读者更好地理解和应用这一数据结构。 ... [详细]

蜡笔小新 2024-11-08 19:17:23
int
如何使用Python去除字符串中的非中文字符[Python编程技巧]

在 Python 中，可以通过正则表达式来实现去除字符串中的非中文字符。具体方法是使用 `re` 模块中的 `re.sub()` 函数，配合正则表达式 `[^u4e00-u9fa5]` 来匹配并替换掉所有非中文字符，从而保留字符串中的中文部分。这种方法简洁高效，适用于多种文本处理场景。 ... [详细]

蜡笔小新 2024-11-07 15:30:50
int
Leetcode学习成长记：天池leetcode基础训练营Task01数组

前言这是本人第一次参加由Datawhale举办的组队学习活动，这个活动每月一次，之前也一直关注，但未亲身参与过，这次看到活动 ... [详细]

蜡笔小新 2024-11-14 18:01:31
split
剑指Offer 44. 反转字符串中的单词

题目描述：牛客网新员工Fish每天早上都会拿着一本英文杂志，在本子上写下一些句子。他的同事Cat对这些句子非常感兴趣，但发现这些句子的单词顺序被反转了。例如，“student. a am I”实际上是“I am a student.”。Cat请求你帮助他恢复这些句子的正常顺序。 ... [详细]

蜡笔小新 2024-11-13 19:40:26
int
Spring 3.0.5 中获取 MySQL 表的自增主键

本文介绍了如何在 Spring 3.0.5 中使用 JdbcTemplate 插入数据并获取 MySQL 表中的自增主键。 ... [详细]

蜡笔小新 2024-11-13 18:00:32
request
（7）Python爬虫——爬取豆瓣电影Top250

利用python爬取豆瓣电影Top250的相关信息，包括电影详情链接,图片链接,影片中文名,影片外国名,评分,评价数,概况,导演,主演,年份,地区,类别这12项内容，然后将爬取的信息写入Exce ... [详细]

蜡笔小新 2024-11-13 11:35:24
request
大类|电阻器_使用Requests、Etree、BeautifulSoup、Pandas和Path库进行数据抓取与处理 | 将指定区域内容保存为HTML和Excel格式

大类|电阻器_使用Requests、Etree、BeautifulSoup、Pandas和Path库进行数据抓取与处理 | 将指定区域内容保存为HTML和Excel格式 ... [详细]

蜡笔小新 2024-11-11 19:05:59
int
如何将Python与Excel高效结合：常用操作技巧解析

本文深入探讨了如何将Python与Excel高效结合，涵盖了一系列实用的操作技巧。文章内容详尽，步骤清晰，注重细节处理，旨在帮助读者掌握Python与Excel之间的无缝对接方法，提升数据处理效率。 ... [详细]

蜡笔小新 2024-11-11 15:18:30
int
如何将TS文件转换为M3U8直播流：HLS与M3U8格式详解

在视频传输领域，MP4虽然常见，但在直播场景中直接使用MP4格式存在诸多问题。例如，MP4文件的头部信息（如ftyp、moov）较大，导致初始加载时间较长，影响用户体验。相比之下，HLS（HTTP Live Streaming）协议及其M3U8格式更具优势。HLS通过将视频切分成多个小片段，并生成一个M3U8播放列表文件，实现低延迟和高稳定性。本文详细介绍了如何将TS文件转换为M3U8直播流，包括技术原理和具体操作步骤，帮助读者更好地理解和应用这一技术。 ... [详细]

蜡笔小新 2024-11-11 12:12:04

我叫梁家耀_312

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章