在上一节的优化器中有很多超参数,例如学习率和动量等,其中一个重要的参数是学习率,它控制着参数更新步伐的大小,在模型的训练过程中,学习率不是一成不变的,可以调整和变化。
一、为什么要调整学习率
在模型训练时,一般开始的时候会设置大一点的学习率,这样可以较快的达到最优点附近,然后降低学习率,缓慢的去收敛到最优值。举个栗子:
![在这里插入图片描述](https://img.php1.cn/3cd4a/1eebe/cd5/1e3db12dd78db092.webp)
参数更新公式:
wi+1=wi−LR∗grad(wi)w_{i+1}=w_{i}-LR*grad(w_{i})wi+1=wi−LR∗grad(wi)
如果设置过大的学习率,有可能会跳过最优值,或者在最优值附近震荡。所以设置学习率小一点,来达到最优值,这时就需要一个学习率调整策略来控制学习率。下面就来学习一下pytorch中学习率的调整策略。
二、pytorch中的学习率调整策略
1、StepLR
![在这里插入图片描述](https://img.php1.cn/3cd4a/1eebe/cd5/7494af3c1cda418d.webp)
功能:等间隔调整学习率
step_size表示调整间隔数,gamma表示调整系数,调整方式就是lr*gamma,gamma一般是0.1-0.5,last_epoch保证能够从断点处继续训练。pytorch中的实现为:
if (self.last_epoch == 0) or (self.last_epoch % self.step_size != 0):return [group['lr'] for group in self.optimizer.param_groups]
return [group['lr'] * self.gammafor group in self.optimizer.param_groups]
可以发现通过当前epoch是否能够被整除来调整学习率。例如设置step_size=50,那么就是每50个epoch调整一次学习率,调整方式是lr*gamma,下面从代码来看一下这种学习率的调整策略:
scheduler_lr = optim.lr_scheduler.StepLR(optimizer, step_size=50, gamma=0.1) lr_list, epoch_list = list(), list()
for epoch in range(max_epoch):lr_list.append(scheduler_lr.get_last_lr())epoch_list.append(epoch)for i in range(iteration):loss = torch.pow((weights - target), 2)loss.backward()optimizer.step()optimizer.zero_grad()scheduler_lr.step()plt.plot(epoch_list, lr_list, label="Step LR Scheduler")
plt.xlabel("Epoch")
plt.ylabel("Learning rate")
plt.legend()
plt.show()
运行结果:
![在这里插入图片描述](https://img.php1.cn/3cd4a/1eebe/cd5/e3aa5425383ba10d.png?x-oss-process=image/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBARGVhcl_mnpc=,size_20,color_FFFFFF,t_70,g_se,x_16)
2、MultiStepLR
![在这里插入图片描述](https://img.php1.cn/3cd4a/189d8/978/7dbdf0f38ad53545.jpeg)
功能:按给定间隔调整学习率
参数:
milestones:设定调整时刻数;
gamma:调整系数
调整方式:lr = lr * gamma
这个和上面的不同点在于,学习率调整的间隔可以自己设置,比如构建一个list,milestones=[50, 125, 150],意思是在第50个epoch、第125个epoch、第150个epoch调整一次学习率,学习率变为原来的 lr * gamma,在pytorch内部实现代码为:
if self.last_epoch not in self.milestones:return [group['lr'] for group in self.optimizer.param_groups]
return [group['lr'] * self.gamma ** self.milestones[self.last_epoch]for group in self.optimizer.param_groups]
下面用代码来演示一下:
milestones = [50, 125, 150]
scheduler_lr = optim.lr_scheduler.MultiStepLR(optimizer, milestones=milestones, gamma=0.1)lr_list, epoch_list = list(), list()
for epoch in range(max_epoch):lr_list.append(scheduler_lr.get_lr())epoch_list.append(epoch)for i in range(iteration):loss = torch.pow((weights - target), 2)loss.backward()optimizer.step()optimizer.zero_grad()scheduler_lr.step()plt.plot(epoch_list, lr_list, label="Multi Step LR Scheduler\nmilestones:{}".format(milestones))
plt.xlabel("Epoch")
plt.ylabel("Learning rate")
plt.legend()
plt.show()
输出结果:
![在这里插入图片描述](https://img.php1.cn/3cd4a/1eebe/cd5/0ef126b5295c089b.webp?x-oss-process=image/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBARGVhcl_mnpc=,size_20,color_FFFFFF,t_70,g_se,x_16)
3、ExponentialLR
![在这里插入图片描述](https://img.php1.cn/3cd4a/1eebe/cd5/99b88427bc9ce0dc.webp)
功能:调整学习率按指数衰减
参数:
gamma:指数的底
调整方式:lr = lr * gamma **epoch
gamma = 0.95
scheduler_lr = optim.lr_scheduler.ExponentialLR(optimizer, gamma=gamma)lr_list, epoch_list = list(), list()
for epoch in range(max_epoch):lr_list.append(scheduler_lr.get_lr())epoch_list.append(epoch)for i in range(iteration):loss = torch.pow((weights - target), 2)loss.backward()optimizer.step()optimizer.zero_grad()scheduler_lr.step()plt.plot(epoch_list, lr_list, label="Exponential LR Scheduler\ngamma:{}".format(gamma))
plt.xlabel("Epoch")
plt.ylabel("Learning rate")
plt.legend()
plt.show()
输出结果:
![在这里插入图片描述](https://img.php1.cn/3cd4a/1eebe/cd5/8373b1277127c518.webp?x-oss-process=image/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBARGVhcl_mnpc=,size_20,color_FFFFFF,t_70,g_se,x_16)
4、CosineAnnealingLR
![在这里插入图片描述](https://img.php1.cn/3cd4a/1eebe/cd5/5b97d3b808d031e2.webp)
功能:余弦周期调整学习率
主要参数:
T_max:下降周期
eta_min:学习率下限
调整方式:![在这里插入图片描述](https://img.php1.cn/3cd4a/1eebe/cd5/0a0ce631ec450943.webp)
t_max = 50
scheduler_lr = optim.lr_scheduler.CosineAnnealingLR(optimizer, T_max=t_max, eta_min=0.)lr_list, epoch_list = list(), list()
for epoch in range(max_epoch):lr_list.append(scheduler_lr.get_lr())epoch_list.append(epoch)for i in range(iteration):loss = torch.pow((weights - target), 2)loss.backward()optimizer.step()optimizer.zero_grad()scheduler_lr.step()plt.plot(epoch_list, lr_list, label="CosineAnnealingLR Scheduler\nT_max:{}".format(t_max))
plt.xlabel("Epoch")
plt.ylabel("Learning rate")
plt.legend()
plt.show()
![在这里插入图片描述](https://img.php1.cn/3cd4a/1eebe/cd5/7d7ef3f69d479716.webp?x-oss-process=image/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBARGVhcl_mnpc=,size_20,color_FFFFFF,t_70,g_se,x_16)
5、ReduceLRonPlateau
![在这里插入图片描述](https://img.php1.cn/3cd4a/1eebe/cd5/443b30bb45e66690.webp?x-oss-process=image/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBARGVhcl_mnpc=,size_20,color_FFFFFF,t_70,g_se,x_16)
功能:监控指标,当指标不再变化则调整
主要参数:
mode : min/max 两种模式,观察max/min值这一指标
factor:调整系数
patience:“耐心” 接受几次不变化
cooldown:“冷却时间”,停止监控一段时间
verbose:是否打印日志
min_lr:学习率下限
eps:学习率衰减最小值
loss_value = 0.5
accuray = 0.9factor = 0.1
mode = "min"
patience = 10
cooldown = 10
min_lr = 1e-4
verbose = True scheduler_lr = optim.lr_scheduler.ReduceLROnPlateau(optimizer, factor=factor, mode=mode, patience=patience, cooldown=cooldown, min_lr=min_lr, verbose=verbose)for epoch in range(max_epoch):for i in range(iteration):optimizer.step()optimizer.zero_grad()scheduler_lr.step(loss_value)
输出结果:
![在这里插入图片描述](https://img.php1.cn/3cd4a/189d8/978/7dbdf0f38ad53545.jpeg)
上面是在前10个epoch中损失函数值一直保持不变,如果在第5个epoch中更新一下loss值,在来观察一下输出结果:
![在这里插入图片描述](https://img.php1.cn/3cd4a/1e618/cd5/af17da15769ccb2e.jpeg)
所以在冷却10个epoch之后学习率才会更新。
6、LambdaLR
![在这里插入图片描述](https://img.php1.cn/3cd4a/1eebe/cd5/443b30bb45e66690.webp)
功能:自定义调整策略。可以自定义学习率的更新策略,针对不同的参数组设置不同的学习率。这里的lr_lambda表示function或者list,下面从代码中了解一下:
lr_init = 0.1weights_1 = torch.randn((6, 3, 5, 5))
weights_2 = torch.ones((5, 5))optimizer = optim.SGD([{'params': [weights_1]},{'params': [weights_2]}], lr=lr_init)lambda1 = lambda epoch: 0.1 ** (epoch // 20)
lambda2 = lambda epoch: 0.95 ** epochscheduler = torch.optim.lr_scheduler.LambdaLR(optimizer, lr_lambda=[lambda1, lambda2])lr_list, epoch_list = list(), list()
for epoch in range(max_epoch):for i in range(iteration):optimizer.step()optimizer.zero_grad()scheduler.step()lr_list.append(scheduler.get_lr())epoch_list.append(epoch)print('epoch:{:5d}, lr:{}'.format(epoch, scheduler.get_lr()))plt.plot(epoch_list, [i[0] for i in lr_list], label="lambda 1")
plt.plot(epoch_list, [i[1] for i in lr_list], label="lambda 2")
plt.xlabel("Epoch")
plt.ylabel("Learning Rate")
plt.title("LambdaLR")
plt.legend()
plt.show()
输出结果:
![在这里插入图片描述](https://img.php1.cn/3cd4a/1eebe/cd5/72fd2c126203a875.webp?x-oss-process=image/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBARGVhcl_mnpc=,size_20,color_FFFFFF,t_70,g_se,x_16)
【总结】
pytorch中的学习率调整策略
有序调整:Step、MultiStep、 Exponential和CosineAnnealing, 需要事先知道学习率大体需要在多少个epoch之后调整的时候用
自适应调整:ReduceLROnPleateau, 这个非常实用,可以监控某个参数,根据参数的变化情况自适应调整
自定义调整:Lambda, 这个在模型的迁移中或者多个参数组不同学习策略的时候实用
学习率初始化策略
1、设置较小数:0.01, 0.001, 0.0001
2、搜索最大学习率:论文《Cyclical Learning Rates for Training Neural Networks》, 先让学习率从0开始慢慢的增大,然后观察acc, 训练准确率开始下降了,就把初始学习率定为那个数。
![在这里插入图片描述](https://img.php1.cn/3cd4a/1e618/c5a/d5d40da532c3a782.png?x-oss-process=image/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBARGVhcl_mnpc=,size_20,color_FFFFFF,t_70,g_se,x_16)
![在这里插入图片描述](https://img.php1.cn/3cd4a/1eebe/cd5/bdd1ca32a69bc8b2.webp?x-oss-process=image/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBARGVhcl_mnpc=,size_20,color_FFFFFF,t_70,g_se,x_16)