深入解析斯坦福大学机器学习课程第二部分的学习心得与笔记

作者：杜甜甜Athena15 | 来源：互联网 | 2024-10-24 12:45

在本文中，我们将深入探讨斯坦福大学机器学习课程第二部分的核心内容与学习体会。文章不仅涵盖了正则化（Regularization）等关键概念，还结合实际案例分析了这些理论在实践中的应用，帮助读者更好地理解和掌握机器学习的高级技巧。此外，我们还将分享一些学习过程中遇到的挑战及解决方案，为后续学习者提供参考。

本系列其他部分&＃xff1a;

斯坦福机器学习教程学习笔记之1

斯坦福机器学习教程学习笔记之2

斯坦福机器学习教程学习笔记之3

斯坦福机器学习教程学习笔记之4

第七章正则化(Regularization)

1.过拟合的问题

正则化(regularization)的技术&＃xff0c;它可以改善或者减少过度拟合问题。

过拟合解决办法&＃xff1a;&＃xff08;1&＃xff09;减少特征数量&＃xff0c;人工选择或使用一些模型选择算法&＃xff0c;例如PCA&＃xff1b;&＃xff08;2&＃xff09;正则化&＃xff0c;保留所有特征&＃xff0c;但是减少参数的大小&＃xff08;magnitude&＃xff09;

2.代价函数

假如我们有非常多的特征&＃xff0c;我们并不知道其中哪些特征我们要惩罚&＃xff0c;我们将对所有的特征进行惩罚&＃xff0c;并且让代价函数最优化的软件来选择这些惩罚的程度。这样的结果是得到了一个较为简单的能防止过拟合问题的假设&＃xff1a;

其中λ又称为正则化参数&＃xff08;Regularization Parameter&＃xff09;。注&＃xff1a;根据惯例&＃xff0c;我们不对θ₀ 进行惩罚。经过正则化处理的模型与原模型的可能对比如下图所示&＃xff1a;

如果选择的正则化参数λ过大&＃xff0c;则会把所有的参数都最小化了&＃xff0c;导致模型变成 hθ(x)&＃61;θ₀&＃xff0c;也就是上图中红色直线所示的情况&＃xff0c;造成欠拟合。

3.正则化线性回归(RegularizedLinear Regression)

正则化线性回归的代价函数为&＃xff1a;

梯度下降算法&＃xff1a;

可以看出&＃xff0c;正则化线性回归的梯度下降算法的变化在于&＃xff0c;每次都在原有算法更新规则的基础上令θ值减少了一个额外的值。

正规方程&＃xff1a;

4.正则化逻辑回归(RegularizedLogistic Regression)

注意&＃xff1a;

1.虽然正则化的逻辑回归中的梯度下降和正则化的线性回归中的表达式看起来一样&＃xff0c;但由于两者的h(x)不同所以还是有很大差别。

2.θ₀不参与其中的任何一个正则化。

第八章神经网络&＃xff1a;表述(Neural Networks: Representation)

1.非线性假设(Non-linearHypotheses)

2.神经元和大脑(Neurons andthe Brain)

3.模型表示1 (ModelRepresentation I)

每一个a都是由上一层所有的x和每一个x所对应的决定的。&＃xff08;我们把这样从左到右的算法称为前向传播算法( FORWARD PROPAGATION )&＃xff09;。

4.模型表示2(ModelRepresentation II)

我们可以把a0,a1,a2,a3看成更为高级的特征值&＃xff0c;也就是x0,x1,x2,x3的进化体&＃xff0c;并且它们是由x与决定的&＃xff0c;因为是梯度下降的&＃xff0c;所以a是变化的&＃xff0c;并且变得越来越厉害&＃xff0c;所以这些更高级的特征值远比仅仅将x次方厉害&＃xff0c;也能更好的预测新数据。

5.举例和直观理解1(Examples andIntuitions I)

6.举例和直观理解2(Examples andIntuitions II)

7.多类分类(MulticlassClassification)

第九章神经网络的学习

1.代价函数

假设神经网络的训练样本有m个&＃xff0c;每个包含一组输入x和一组输出信号y&＃xff0c;L表示神经网络层数&＃xff0c;S_l表示每层的neuron个数(SL表示输出层神经元个数)&＃xff0c;S_L 代表最后一层中处理单元的个数。

将神经网络的分类定义为两种情况&＃xff1a;二类分类和多类分类&＃xff0c;

二类分类&＃xff1a;S_L&＃61;1, y&＃61;0 or 1表示哪一类&＃xff1b;

K类分类&＃xff1a;S_L&＃61;K,yi &＃61; 1表示分到第i类&＃xff1b;&＃xff08;K>2&＃xff09;

代价函数为&＃xff1a;

2.反向传播算法(BackpropagationAlgorithm)

重要的是清楚地知道上面式子中上下标的含义&＃xff1a;

l 代表目前所计算的是第几层

j 代表目前计算层中的激活单元的下标&＃xff0c;也将是下一层的第j个输入变量的下标。

i 代表下一层中误差单元的下标&＃xff0c;是受到权重矩阵中第i行影响的下一层中的误差单元的下标。

3.反向传播算法的直观理解

4.展开参数

5.梯度检验(GradientChecking)

6.随机初始化(RandomInitialization)

到目前为止我们都是初始所有参数为0&＃xff0c;这样的

初始方法对于逻辑回归来说是可行的&＃xff0c;但是对于神经网络来说是不可行的。如果我们令所有的初始参数都为0&＃xff0c;这将意味着我们第二层的所有激活单元都会有相同的值。同理&＃xff0c;如果我们初始所有的参数都为一个非0的数&＃xff0c;结果也是一样的。我们通常初始参数为正负ε之间的随机值。

7.综合起来

小结一下使用神经网络时的步骤&＃xff1a;

网络结构&＃xff1a;第一件要做的事是选择网络结构&＃xff0c;即决定选择多少层以及决定每层分别有多少个单元。第一层的单元数即我们训练集的特征数量。最后一层的单元数是我们训练集的结果的类的数量。如果隐藏层数大于1&＃xff0c;确保每个隐藏层的单元个数相同&＃xff0c;通常情况下隐藏层单元的个数越多越好。我们真正要决定的是隐藏层的层数和每个中间层的单元数。

训练神经网络&＃xff1a;

1. 参数的随机初始化

2. 利用正向传播方法计算所有的hθ(x)

3. 编写计算代价函数J的代码

4. 利用反向传播方法计算所有偏导数

5. 利用数值检验方法检验这些偏导数

6. 使用优化算法来最小化代价函数

推荐阅读

random
机器学习中的相似度度量与模型优化

本文探讨了机器学习中常见的相似度度量方法，包括余弦相似度、欧氏距离和马氏距离，并详细介绍了如何通过选择合适的模型复杂度和正则化来提高模型的泛化能力。此外，文章还涵盖了模型评估的各种方法和指标，以及不同分类器的工作原理和应用场景。 ... [详细]

蜡笔小新 2024-12-26 18:10:02
join
毕业设计：基于机器学习与深度学习的垃圾邮件（短信）分类算法实现

本文详细介绍了如何使用机器学习和深度学习技术对垃圾邮件和短信进行分类。内容涵盖从数据集介绍、预处理、特征提取到模型训练与评估的完整流程，并提供了具体的代码示例和实验结果。 ... [详细]

蜡笔小新 2024-12-25 17:38:50
perl
Coursera ML 机器学习

2019独角兽企业重金招聘Python工程师标准线性回归算法计算过程CostFunction梯度下降算法多变量回归![选择特征](https:static.oschina.n ... [详细]

蜡笔小新 2024-12-22 16:09:09
perl
机器学习核心概念与技术

本文系统梳理了机器学习的关键知识点，涵盖模型评估、正则化、线性模型、支持向量机、决策树及集成学习等内容，并深入探讨了各算法的原理和应用场景。 ... [详细]

蜡笔小新 2024-12-22 09:15:30
perl
探索电路与系统的起源与发展

本文回顾了电路与系统的发展历程，从电的早期发现到现代电子器件的应用。文章不仅涵盖了基础理论和关键发明，还探讨了这一学科对计算机、人工智能及物联网等领域的深远影响。 ... [详细]

蜡笔小新 2024-12-24 13:57:05
hash
优化ListView性能

本文深入探讨了如何通过多种技术手段优化ListView的性能，包括视图复用、ViewHolder模式、分批加载数据、图片优化及内存管理等。这些方法能够显著提升应用的响应速度和用户体验。 ... [详细]

蜡笔小新 2024-12-28 10:36:30
hash
资源推荐 | TensorFlow官方中文教程助力英语非母语者学习

来源：机器之心。本文详细介绍了TensorFlow官方提供的中文版教程和指南，帮助开发者更好地理解和应用这一强大的开源机器学习平台。 ... [详细]

蜡笔小新 2024-12-28 09:00:51
string
Java并发编程：LinkedBlockingQueue的实际应用

本文介绍了Java并发库中的阻塞队列（BlockingQueue）及其典型应用场景。通过具体实例，展示了如何利用LinkedBlockingQueue实现线程间高效、安全的数据传递，并结合线程池和原子类优化性能。 ... [详细]

蜡笔小新 2024-12-27 18:51:49
string
USACO 2014 Jan - Moolympics区间记录优化算法

题目描述：给定n个半开区间[a, b)，要求使用两个互不重叠的记录器，求最多可以记录多少个区间。解决方案采用贪心算法，通过排序和遍历实现最优解。 ... [详细]

蜡笔小新 2024-12-27 18:14:31
string
深入理解C++中的KMP算法：高效字符串匹配的利器

本文详细介绍C++中实现KMP算法的方法，探讨其在字符串匹配问题上的优势。通过对比暴力匹配（BF）算法，展示KMP算法如何利用前缀表优化匹配过程，显著提升效率。 ... [详细]

蜡笔小新 2024-12-27 14:45:30
hash
Java面试题解析

本文详细介绍了Java编程语言中的核心概念和常见面试问题，包括集合类、数据结构、线程处理、Java虚拟机（JVM）、HTTP协议以及Git操作等方面的内容。通过深入分析每个主题，帮助读者更好地理解Java的关键特性和最佳实践。 ... [详细]

蜡笔小新 2024-12-27 13:55:14
hash
Linux 网卡绑定的七种工作模式详解

本文深入探讨了Linux系统中网卡绑定（bonding）的七种工作模式。网卡绑定技术通过将多个物理网卡组合成一个逻辑网卡，实现网络冗余、带宽聚合和负载均衡，在生产环境中广泛应用。文章详细介绍了每种模式的特点、适用场景及配置方法。 ... [详细]

蜡笔小新 2024-12-27 10:18:13
join
DLP数据泄露检测原理浅析

最近团队在部署DLP，作为一个技术人员对于黑盒看不到的地方还是充满了好奇心。多次咨询乙方人员DLP的算法原理是什么，他们都以商业秘密为由避而不谈，不得已只能自己查资料学习，于是有了下面的浅见。身为甲方，虽然不需要开发DLP产品，但是也有必要弄明白DLP基本的原理。俗话说工欲善其事必先利其器，只有在懂这个工具的原理之后才能更加灵活地使用这个工具，即使出现意外情况也能快速排错，越接近底层，越接近真相。根据DLP的实际用途，本文将DLP检测分为2部分，泄露关键字检测和近似重复文档检测。 ... [详细]

蜡笔小新 2024-12-25 18:19:32
join
优化深度神经网络在低性能硬件上的运行

尽管深度学习带来了广泛的应用前景，其训练通常需要强大的计算资源。然而，并非所有开发者都能负担得起高性能服务器或专用硬件。本文探讨了如何在有限的硬件条件下（如ARM CPU）高效运行深度神经网络，特别是通过选择合适的工具和框架来加速模型推理。 ... [详细]

蜡笔小新 2024-12-24 08:48:32
join
在网站制作中随时可用的10个 HTML5 代码片段

HTML很容易写，但创建网页时，您经常需要重复做同样的任务，如创建表单。在这篇文章中，我收集了10个超有用的HTML代码片段，有HTML5启动模板、空白图片、打电话和发短信、自动完 ... [详细]

蜡笔小新 2024-12-23 15:26:50