热门标签 | HotTags
当前位置:  开发笔记 > 后端 > 正文

《百面》7.优化算法

1.有监督学习的损失函数问题1:有监督学习涉及的损失函数有哪些?请列举并简述他们的特点。答:1.二分类问题,Y{1,-1

1.有监督学习的损失函数


问题1:有监督学习涉及的损失函数有哪些?请列举并简述他们的特点。

答:1.二分类问题,Y={1,-1}

(1)0-1损失,非凸,非光滑,算法很难优化

L_{0-1}(f,y)=I_{P},I_{p}=fy\leq 0,当P为真时取值为1,否则为0.

(2)Hinge,凸上界,在fy=1出不可导

L_{hinge}(f,y)=max\begin{Bmatrix} 0, & 1-fy \end{Bmatrix},

(3)Logistic,凸上界,处处光滑,可以使用梯度下降,因为对所有样本点都有所惩罚,所以对异常点更敏感

L_{logistic}(f,y)=log_{2}(1+exp(-fy))

(4)Cross Entropy,光滑凸上界

L_{cross entropy}(f,y)=-log_{2}(\frac{1+fy}{2})

2.回归问题

(1)平方损失函数,光滑,可以使用梯度下降。当预测值与真实值差距大,惩罚力度越大。对异常点较为敏感

L_{square}(f,y)=(f-y)^{2}

(2)绝对损失函数,在f=y处无法求导。

L_{absolute}(f,y)=\left \| f-y \right \|

(3)Huber,在|f-y|较小的时候为平方损失,在|f-y|较大时为线性损失,处处可导,且对异常点鲁棒

L_{Huber}(f,y)=\left\{\begin{matrix} (f-y)^{2} &\left \| f-y \right \| \leq \delta \\ 2\delta \left \| f-y \right \|-\delta ^{2} & \left \| f-y \right \|>\delta \end{matrix}\right.


2.机器学习中的优化问题


问题1:机器学习中的优化问题,那些是凸优化问题,哪些是非凸优化问题?

答:凸函数:函数L是凸函数当且仅当对定义域中的任意两点x,y和任意实数\lambda\epsilon [0,1]总有

L(\lambda x+(1-\lambda )y)\leqslant \lambda L(x)+(1-\lambda )L(y)

凸优化:逻辑回顾、支持向量机、线性回归等线性模型。

非凸优化:低秩模型、深度神经网络、主成分分析


3.经典优化算法


问题1:无约束优化问题的优化方法有哪些?

min L(\theta )

答:直接法和迭代法

直接法,就是直接给出优化问题最优解的方法。需要目标函数满足两个条件,1,L是凸函数。梯度为0有解。

迭代法,就是迭代的修正对最优解的估计。分为一阶法和二阶法。

假设当前对最优解的估计值为\theta _{t},那么最优化问题就是min L(\theta_{t}+\delta )

那么对L做一阶泰勒展开,得到\delta =-\alpha L^{`}    \theta _{t+!}=\theta _{t}+\delta ,就是梯度下降法

对L二阶泰勒展开,得到\delta =-L^{``}L^{`}    \theta _{t+!}=\theta _{t}+\delta,就是牛顿法

牛顿法快于一阶法,但是高维情况下,矩阵计算复杂度很大。而且当目标是非凸时,二阶法很有可能收敛到鞍点。


4.梯度验证


问题1:如何验证求目标函数梯度功能的正确性?

\frac{\partial L(\theta )}{\partial \theta _{i}}=\lim_{h \mapsto 0 }\frac{L(\theta +he_{i})-L(\theta -he_{i})}{2h}

\frac{\partial L(\theta )}{\partial \theta _{i}}\approx \frac{L(\theta +he_{i})-L(\theta -he_{i})}{2h},利用泰勒展开来计算近似误差。

L(\theta +he_{i})泰勒展开,

\frac{L(\theta +he_{i})-L(\theta -he_{i})}{2h}=\frac{\partial L(\theta )}{\partial \theta _{i}}+\frac{1}{12}(L^{3}(p_{i})+L^{3}(q_{i}))h^{2}

当h充分小的时候,q、p都接近0,可以认为h前的系数是常数M,因此近似式的误差为

|\frac{L(\theta +he_{i})-L(\theta -he_{i})}{2h}-\frac{\partial L(\theta )}{\partial \theta _{i}}|\approx Mh^{2}

|\frac{L(\theta +he_{i})-L(\theta -he_{i})}{2h}-\frac{\partial L(\theta )}{\partial \theta _{i}}|\leq h

如果对于某个下表i,该不等式不成立,则有两种可能

(1)该下标对应M过大

(2)该梯度分量计算不正确


5.随机梯度下降法


问题1:当训练数据量特别大时,经典的梯度下降发存在什么问题,需要做如何改进?

答:随机梯度下降法:用单个训练样本的损失来近似平均损失

小批量梯度下降法:为了降低随机梯度的方差,从而使得迭代算法更稳定,同时处理若干个训练数据,假设需要同时处理m个训练数据

{(x_{i1},y_{i1})............(x_{im},y_{im})}

L(\theta )=\frac{1}{m}\sum_{j=1}^{m}L(f(x_{ij},y_{ij}),y_{ij})

\triangledown L(\theta )=\frac{1}{m}\sum_{j=1}^{m}\triangledown L(f(x_{ij},y_{ij}),y_{ij})

(1)如何选取参数m?

答:在不同的应用中,最优m通常不一样,需要调参选取。一般选择2的倍数,例如32、64、128、256

(2)如何挑选m个训练数据?

答:先对数据随机排序,然后按顺序挑选m个

(3)如何选取学习率?

答:通常采用衰减学习速率的方法,一开始较大,然后减小


6.随机梯度下降法的加速


问题1:随机梯度下降法失效的原因——摸着石头下山

答:随机梯度下降每次仅仅随机采样一个样本来估计当前梯度,计算速度快,内存小。但是每步接受的信息有限,造成目标函数曲线收敛的很不稳定,伴有剧烈波动。


问题2:解决之道——惯性保持和环境感知

答:

(1)动量方法

v_{t}=\gamma v_{t-1}+\eta g_{t}

\theta _{t+1}=\theta _{t}-v_{t}

前进步伐-v_{t} 有两部分组成 ,一个是学习速率乘以梯度\eta g_{t},而是带衰减速率的钱一次步伐v_{t-1}

(2)AdaGrad 方法

(3)Adam方法


7.L1正则化与稀疏性


问题1:L1正则化使得模型参数具有稀疏性的原理是什么?

答:在二维的情况下,黄色的部分是L2和L1正则项约束后的解空间,绿色的等高线是凸优化问题中目标函数的等高线,L2正则项约束后的解空间是圆形,而L1正则项约束的解空间是多边形。显然,多边形的解空间更容易在尖角处与等高线碰撞出稀疏解。


推荐阅读
  • 机器学习核心概念与技术
    本文系统梳理了机器学习的关键知识点,涵盖模型评估、正则化、线性模型、支持向量机、决策树及集成学习等内容,并深入探讨了各算法的原理和应用场景。 ... [详细]
  • 机器学习中的相似度度量与模型优化
    本文探讨了机器学习中常见的相似度度量方法,包括余弦相似度、欧氏距离和马氏距离,并详细介绍了如何通过选择合适的模型复杂度和正则化来提高模型的泛化能力。此外,文章还涵盖了模型评估的各种方法和指标,以及不同分类器的工作原理和应用场景。 ... [详细]
  • 探索电路与系统的起源与发展
    本文回顾了电路与系统的发展历程,从电的早期发现到现代电子器件的应用。文章不仅涵盖了基础理论和关键发明,还探讨了这一学科对计算机、人工智能及物联网等领域的深远影响。 ... [详细]
  • 2017年人工智能领域的十大里程碑事件回顾
    随着2018年的临近,我们一同回顾过去一年中人工智能领域的重要进展。这一年,无论是政策层面的支持,还是技术上的突破,都显示了人工智能发展的迅猛势头。以下是精选的2017年人工智能领域最具影响力的事件。 ... [详细]
  • 毕业设计:基于机器学习与深度学习的垃圾邮件(短信)分类算法实现
    本文详细介绍了如何使用机器学习和深度学习技术对垃圾邮件和短信进行分类。内容涵盖从数据集介绍、预处理、特征提取到模型训练与评估的完整流程,并提供了具体的代码示例和实验结果。 ... [详细]
  • 尽管深度学习带来了广泛的应用前景,其训练通常需要强大的计算资源。然而,并非所有开发者都能负担得起高性能服务器或专用硬件。本文探讨了如何在有限的硬件条件下(如ARM CPU)高效运行深度神经网络,特别是通过选择合适的工具和框架来加速模型推理。 ... [详细]
  • 智能车间调度研究进展
    本文综述了基于强化学习的智能车间调度策略,探讨了车间调度问题在资源有限条件下的优化方法。通过数学规划、智能算法和强化学习等手段,解决了作业车间、流水车间和加工车间中的静态与动态调度挑战。重点讨论了不同场景下的求解方法及其应用前景。 ... [详细]
  • Coursera ML 机器学习
    2019独角兽企业重金招聘Python工程师标准线性回归算法计算过程CostFunction梯度下降算法多变量回归![选择特征](https:static.oschina.n ... [详细]
  • 随着生活节奏的加快和压力的增加,越来越多的人感到不快乐。本文探讨了现代社会中导致人们幸福感下降的各种因素,并提供了一些改善建议。 ... [详细]
  • 机器学习公开课备忘录(三)机器学习算法的应用与大数据集
    机器学习公开课备忘录(三)机器学习算法的应用与大数据集对应机器学习公开课第六周和第10周机器学习算法模型的选择与评价1、对于一个data,可以将data划分为trainingset、t ... [详细]
  • 本文深入探讨了CART(分类与回归树)的基本原理及其在随机森林中的应用。重点介绍了CART的分裂准则、防止过拟合的方法、处理样本不平衡的策略以及其在回归问题中的应用。此外,还详细解释了随机森林的构建过程、样本均衡处理、OOB估计及特征重要性的计算。 ... [详细]
  • 本文探讨了卷积神经网络(CNN)中感受野的概念及其与锚框(anchor box)的关系。感受野定义了特征图上每个像素点对应的输入图像区域大小,而锚框则是在每个像素中心生成的多个不同尺寸和宽高比的边界框。两者在目标检测任务中起到关键作用。 ... [详细]
  • 2018年3月31日,CSDN、火星财经联合中关村区块链产业联盟等机构举办的2018区块链技术及应用峰会(BTA)核心分会场圆满举行。多位业内顶尖专家深入探讨了区块链的核心技术原理及其在实际业务中的应用。 ... [详细]
  • 深入浅出TensorFlow数据读写机制
    本文详细介绍TensorFlow中的数据读写操作,包括TFRecord文件的创建与读取,以及数据集(dataset)的相关概念和使用方法。 ... [详细]
  • 智慧城市建设现状及未来趋势
    随着新基建政策的推进及‘十四五’规划的实施,我国正步入以5G、人工智能等先进技术引领的智慧经济新时代。规划强调加速数字化转型,促进数字政府建设,新基建政策亦倡导城市基础设施的全面数字化。本文探讨了智慧城市的发展背景、全球及国内进展、市场规模、架构设计,以及百度、阿里、腾讯、华为等领军企业在该领域的布局策略。 ... [详细]
author-avatar
丁扣其
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有