热门标签 | HotTags
当前位置:  开发笔记 > 后端 > 正文

(斯坦福机器学习课程笔记)正则化和机器学习应用的建议

正则化记得在logistic回归那一节课中,当时我对取似然函数

===================================正则化=======================
记得在logistic回归那一节课中,当时我对取似然函数 L(θ)=P(yi|xI;θ) 这一步是不理解的。因为我觉得优化函数应该是这样的: maxθP(θ|x,y) ,即给定训练集合 {x,y} 时,可能性最大的 θ

很幸运的是,这一节课解答了我的疑问。
因为

P(θ|x,y)=P(x,y|θ)P(θ)P(x,y)=P(y|x,θ)P(x)P(θ)P(y|x)P(x)=P(y|x,θ)P(θ)P(y|x)

其中调整 θ 不会改变 P(y|x)
因此
argmaxθ   P(θ|x,y)=argmaxθ   i=1mP(yi|xi,θ)P(θ)

可以看到,与logistic回归相比,优化函数仅仅多了一项 P(θ)
为了计算方便,一般会对连乘的优化函数取对数,即
argmaxθ   i=1mlogP(yi|xi,θ)+logP(θ)

先验概率 P(θ) 一般取高斯分布或拉普拉斯分布
高斯分布: 12πσexp((xμ)22σ2)
拉普拉斯分布: 12σexp(2σ|x|)

使用 N(0,σ2) 高斯分布时,用e做对数的底, logP(θ)=log12πσθ22σ2 ,在优化时,只有后一项起作用,即 θ22σ2=λθ2 ,称为2范数正则化。

使用拉普拉斯分布时,同样用e做对数的底, logP(θ)=log12σ2σ|θ| ,同样,在优化时,只有后一项起作用,即 2σ|θ|=λ|θ| ,称为1范数正则化。

加入期望值为0的高斯分布或者拉普拉斯分布作为先验概率,正则化要求参数尽可能接近0,使得部分的特征效果减弱,降低过拟合的风险。特别的,1范数还有使特征稀疏的效果。

===========================机器学习应用的建议==================
当我们的机器学习算法出现问题时,解决的一般思路是:

1 先看偏差是否达到我们的要求,如果偏差过大,则说明可能(1)模型弱了(2)目标函数不能反映真实的需求(3)优化方法有问题,如过早结束训练等

2 如果偏差达到了我们的要求,再看方差是否和偏差相近。如果偏差距离方差远,则说明可能,对于训练样本,模型过强。解决办法是(1)降低模型复杂度,但这有可能增大偏差(2)应用正则化(3)提前结束训练等

======================误差分析和消蚀分析============================
误差分析和消蚀分析和前面笔记中的特征分析方法很相似,特征分析方法是判断某个特征对模型能力的影响力的大小,从而剔除无用的特征,而误差分析和消蚀分析是判断机器学习某个步骤或某个组成部分对模型能力的影响力的大小,从而剔除无用的步骤或组成部分。算法的思路相似。

值得注意的是,跟特征分析方法相同,因为各个步骤或组成部分相互影响,因此误差分析和消蚀分析对选取步骤或组成部分的顺序敏感,需要多次实验。

=========================机器学习通用方法=======================
两种方法:
1 精心设计,慢工出细活。这种方法适用于对项目从头到尾都了然于胸的老手。

2quick and dirty 方法。先快速建立模型,然后通过一步步修改,得到最终的模型。对于一个又挑战性的项目,这种方法比较合适。

吴恩达说,他个人比较喜欢第二种方法。


推荐阅读
  • 机器学习中的相似度度量与模型优化
    本文探讨了机器学习中常见的相似度度量方法,包括余弦相似度、欧氏距离和马氏距离,并详细介绍了如何通过选择合适的模型复杂度和正则化来提高模型的泛化能力。此外,文章还涵盖了模型评估的各种方法和指标,以及不同分类器的工作原理和应用场景。 ... [详细]
  • 机器学习核心概念与技术
    本文系统梳理了机器学习的关键知识点,涵盖模型评估、正则化、线性模型、支持向量机、决策树及集成学习等内容,并深入探讨了各算法的原理和应用场景。 ... [详细]
  • 深入理解C++中的KMP算法:高效字符串匹配的利器
    本文详细介绍C++中实现KMP算法的方法,探讨其在字符串匹配问题上的优势。通过对比暴力匹配(BF)算法,展示KMP算法如何利用前缀表优化匹配过程,显著提升效率。 ... [详细]
  • 本文详细介绍了Java编程语言中的核心概念和常见面试问题,包括集合类、数据结构、线程处理、Java虚拟机(JVM)、HTTP协议以及Git操作等方面的内容。通过深入分析每个主题,帮助读者更好地理解Java的关键特性和最佳实践。 ... [详细]
  • 深入解析:手把手教你构建决策树算法
    本文详细介绍了机器学习中广泛应用的决策树算法,通过天气数据集的实例演示了ID3和CART算法的手动推导过程。文章长度约2000字,建议阅读时间5分钟。 ... [详细]
  • 最近团队在部署DLP,作为一个技术人员对于黑盒看不到的地方还是充满了好奇心。多次咨询乙方人员DLP的算法原理是什么,他们都以商业秘密为由避而不谈,不得已只能自己查资料学习,于是有了下面的浅见。身为甲方,虽然不需要开发DLP产品,但是也有必要弄明白DLP基本的原理。俗话说工欲善其事必先利其器,只有在懂这个工具的原理之后才能更加灵活地使用这个工具,即使出现意外情况也能快速排错,越接近底层,越接近真相。根据DLP的实际用途,本文将DLP检测分为2部分,泄露关键字检测和近似重复文档检测。 ... [详细]
  • 毕业设计:基于机器学习与深度学习的垃圾邮件(短信)分类算法实现
    本文详细介绍了如何使用机器学习和深度学习技术对垃圾邮件和短信进行分类。内容涵盖从数据集介绍、预处理、特征提取到模型训练与评估的完整流程,并提供了具体的代码示例和实验结果。 ... [详细]
  •   上一篇博客中我们说到线性回归和逻辑回归之间隐隐约约好像有什么关系,到底是什么关系呢?我们就来探讨一下吧。(这一篇数学推导占了大多数,可能看起来会略有枯燥,但这本身就是一个把之前算法 ... [详细]
  • 探索电路与系统的起源与发展
    本文回顾了电路与系统的发展历程,从电的早期发现到现代电子器件的应用。文章不仅涵盖了基础理论和关键发明,还探讨了这一学科对计算机、人工智能及物联网等领域的深远影响。 ... [详细]
  • 深入理解K近邻分类算法:机器学习100天系列(26)
    本文详细介绍了K近邻分类算法的理论基础,探讨其工作原理、应用场景以及潜在的局限性。作为机器学习100天系列的一部分,旨在为读者提供全面且深入的理解。 ... [详细]
  • Coursera ML 机器学习
    2019独角兽企业重金招聘Python工程师标准线性回归算法计算过程CostFunction梯度下降算法多变量回归![选择特征](https:static.oschina.n ... [详细]
  • 随着生活节奏的加快和压力的增加,越来越多的人感到不快乐。本文探讨了现代社会中导致人们幸福感下降的各种因素,并提供了一些改善建议。 ... [详细]
  • Python中HOG图像特征提取与应用
    本文介绍如何在Python中使用HOG(Histogram of Oriented Gradients)算法进行图像特征提取,探讨其在目标检测中的应用,并详细解释实现步骤。 ... [详细]
  • Python 工具推荐 | PyHubWeekly 第二十一期:提升命令行体验的五大工具
    本期 PyHubWeekly 为大家精选了 GitHub 上五个优秀的 Python 工具,涵盖金融数据可视化、终端美化、国际化支持、图像增强和远程 Shell 环境配置。欢迎关注并参与项目。 ... [详细]
  • 在给定的数组中,除了一个数字外,其他所有数字都是相同的。任务是找到这个唯一的不同数字。例如,findUniq([1, 1, 1, 2, 1, 1]) 返回 2,findUniq([0, 0, 0.55, 0, 0]) 返回 0.55。 ... [详细]
author-avatar
PFwX代佳佳ZYYTHFQN
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有