《神经网络与深度学习》邱锡鹏学习笔记（二）：机器学习概述

作者：l沈佩玉iVf | 来源：互联网 | 2023-09-16 01:16

目录前言基本概念机器学习的三个基本要素1.模型2.学习准则几种常用的损失函数风险最小化准则3.优化算法参数与超参数梯度下降法前言机器学习就是让计算机从数据中进行自动学习，得到某种知

前言

机器学习就是让计算机从数据中进行自动学习，得到某种知识（或规律），并利用学习到的规律对未知的数据进行预测。整体思路是让计算机“看”大量的样本，并从中学习到一些经验，再用这些经验来识别新的样本。比如进行手写体数字识别的过程。

基本概念

以在市场上买芒果为例，介绍机器学习基本概念。随机挑选一些芒果，列出特征，比如颜色、大小、形状、产地。再列出要预测的标签，比如芒果的甜度、水分（连续值），也可以是离散值比如好、坏。一个标记好特征和标签的芒果就是一个样本，一组样本构成一个数据集，数据集一般分为训练集和测试集，训练集是用来训练模型的，测试集是用来检验模型好坏的。
用一个 $d d$ 维的向量表示一个芒果的所有特征构成的向量，称为特征向量，每一维表示一个特征。假设训练集有 $N$ 个样本，构成训练集 $D$ 。
《神经网络与深度学习》邱锡鹏学习笔记（二）：机器学习概述

希望让计算机自动学习一个函数来建立每个样本特征向量和标签之间的映射，对于一个未知样本可以通过此函数来预测标签的值。其中 $\theta$ 是可学习的参数。
《神经网络与深度学习》邱锡鹏学习笔记（二）：机器学习概述
通过一个学习算法，在训练集上找到一组参数 $\theta^*$ ,使得函数 $f$ 可以近似真实映射关系。这个过程称为学习或者训练过程，函数 $f$ 称为模型。然后对测试集中的样本使用学习到的模型来预测标签，计算预测结果的准确率。
如下图所示为机器学习系统示例：
《神经网络与深度学习》邱锡鹏学习笔记（二）：机器学习概述

机器学习的三个基本要素

1.模型

一个机器学习任务需要确定其输入空间和输出空间，不同的机器学习任务的区别主要在于输出空间不同，比如在两类分类问题中 $y = {+ 1, - 1} y=\lbrace+1,-1\rbrace$ ，在 $C$ 类分类问题中， $y=\lbrace1,2,3...C\rbrace$ ，在回归问题中 $y=R$ 。
输入空间和输入空间构成了一个样本空间，对于样本空间中的样本 $(x,y)$ ，要找到一个映射函数 $g:x->y$ ，使得 $y=g(x)$ 。

机器学习的目标是找到一个模型来近似真实映射函数 $g(x)$ 或者真实条件概率分布，于是根据经验确定一个假设函数集合 $F$ ，称为假设空间，然后观察其在训练集上的效果，选择一个理想的假设 $f^*∈F$ ，假设空间为一个参数化的函数族，如上式所示，其中， $f(x,\theta)$ 为假设空间的模型， $\theta$ 为可学习参数， $m$ 为参数数量。常见假设空间分为线性空间和非线性空间，对应的模型分别为线性模型和非线性模型。
线性模型： 线性模型的假设空间为一个参数化的线性函数族，参数 $\theta$ 包括了权重向量 $W$ 和偏置 $b$ 。

非线性模型： 广义的非线性模型可以理解为多个非线性基函数 $\phi(x)$ 的线性组合，即 $f(x; θ) = w^Tϕ(x) + b$ 。

2.学习准则

令训练集是由 $N N$ 个独立同分布的样本组成，要求样本分布必须是固定的，不会随时间变化，如果本身是可变的，则无法用这些数据学习。一个好的模型 $f(x, θ^∗)$ 应该在所有 $(x, y)$ 的可能取值上都与真实映射函数 $y = g(x)$ 一致，即满足下式。其中 $\epsilon$ 是一个很小的正数。

模型 $f(x; θ)$ 的好坏可以通过期望风险 $R(θ)$ 来衡量，其中 $p_r(x, y)$ 为真实的数据分布， $L(y, f(x; θ))$ 为损失函数，用来量化两个变量之间的差异。

几种常用的损失函数

0-1损失函数： 直观表示模型的错误率，但是数学性质不好，不连续且导数为0，难以优化。

平方损失函数： 一般用在预测标签为实数值的任务中，一般不适用于分类问题。

交叉熵损失函数： 一般用于分类问题，假设样本的标签 $y \in {1, \cdot \cdot \cdot C} y ∈ \lbrace1, · · ·C\rbrace$ 为离散的类别，模型 $f(x; θ) ∈ [0, 1]^C$ 的输出为类别标签的条件概率分布，即

并满足
用 $C$ 维的one-hot向量 $y$ 表示样本标签，假设样本标签为 $k$ ，那么只有第 $k$ 维的值为1，其他为0。可以理解向量 $y$ 为样本标签的真实概率分布，即样本类别为 $k$ ，其属于第 $k$ 类的概率为1，属于其他类的概率为0。对于标签真实分布 $y$ 和模型预测分布 $f(x,\theta)$ ，一般用交叉熵衡量差异，即

由于 $y$ 是one-hot向量，所以也可以将交叉熵函数写成如下式所示，其中， $f_y(x; θ)$ 可以看作真实类别y 的似然函数。因此，交叉熵损失函数也就是负对数似然损失函数。

风险最小化准则

一个好的模型应当有较小的期望错误，但是不知道真实的数据和映射函数，实际上无法计算期望风险 $R (θ; x, y) R(θ;x,y)$ ，只能是通过训练集计算经验风险，也就是训练集上的平均损失。

所以学习准则就是找到一组参数 $\theta^*$ 使得经验风险最小，这就是经验风险最小化准则。但是经验风险最小化准则很容易导致模型在训练集上错误率很低，但是在未知数据上错误率很高，这就是过拟合。过拟合问题一般是训练数据少、噪声以及模型能力强造成的。常通过正则化方法，减少参数空间，解决过拟合问题。和过拟合相反的一个概念是欠拟合，即模型不能很好的拟合训练数据，在训练集上错误率就比较高，一般是模型能力不足造成的。

3.优化算法

机器学习的训练过程其实就是一个最优化问题的求解过程。

参数与超参数

机器学习优化过程可以分为参数优化和超参数优化， $θ \theta$ 是模型的参数，可以通过优化算法学习，这是参数优化过程。还有一类用于定义模型结构或者优化策略的参数，叫做超参数，超参数优化一般根据人的经验来设定，常见的包括聚类算法中的类别个数、梯度下降法的步长、正则项的系数、神经网络的层数、支持向量机中的核函数等。

梯度下降法

明确如果一个函数为凸函数，则局部最小解也是全局最小解，目前的算法理论只能确保找到局部最优解，所以很多机器学习方法选择一个凸函数作为优化目标，但也有很多模型的优化目标（比如神经网络）是非凸的，这样只能求解局部最优解。
最常用的优化算法就是梯度下降法，通过迭代来计算风险函数的最小值。 $\alpha$ 称为学习率。详解： 对于单变量函数，梯度就是微分，代表某个定点的切线的斜率，是变化最快的地方；对于多变量函数，梯度就是各个方向上的微分，指出各个方向上变化最快的方向，也就是整体上函数在给定点上升最快的方向，是一个向量。而梯度下降法过程，就是朝着上升最快方向的反方向前进，直到收敛。

可以通过提前停止防止过拟合，即使用验证集（也叫开发集）进行模型选择，测试模型在验证集上是否最优，如果在验证集上错误率不再下降，就停止迭代。一般对于小数据量的数据集，训练集、验证集、测试集的数据比例为60%、20%、20%，大数据量的比例可以为98%、1%、1%。

传统梯度下降法目标函数是整个训练集，称为批量梯度下降（BGD），每一次迭代需要计算整个训练集样本，耗时长，空间复杂度高。为了减少每次计算复杂度，可以每次只采集一个样本，计算这个样本损失函数的梯度并进行参数更新，即随机梯度下降法（SGD），当经过足够次数的迭代后，也可以收敛到局部最优解。这一方法实现简单，收敛速度快，被广泛应用，相当于在BGD的梯度上引入了随机噪声。

但是SGD不能利用计算机的并行计算能力，效率较低，所以可以使用BGD和SGD的折中，即小批量梯度下降法（Mini-Batch Gradient Descent），每次迭代选取一小部分样本计算梯度并更新参数，提高了训练效率，相对于BGD也引入了少量噪声。
样本子集中包含 $K$ 个样本， $K$ 值的选择一般设置成2的幂次方，可以提高计算效率。

推荐阅读

正则
非计算机专业的朋友如何拿下多个Offer

大家好，我是归辰。秋招结束后，我已顺利入职，并应公子龙的邀请，分享一些秋招面试的心得体会，希望能帮助到学弟学妹们，让他们在未来的面试中更加顺利。 ... [详细]

蜡笔小新 2024-11-13 18:41:58
ip
Python 数据可视化实战指南

本文详细介绍如何使用 Python 进行数据可视化，涵盖从环境搭建到具体实例的全过程。 ... [详细]

蜡笔小新 2024-11-13 06:03:30
ip
机器学习的持续探索与进展

在机器学习领域，深入探讨了概率论与数理统计的基础知识，特别是这些理论在数据挖掘中的应用。文章重点分析了偏差（Bias）与方差（Variance）之间的平衡问题，强调了方差反映了不同训练模型之间的差异，例如在K折交叉验证中，不同模型之间的性能差异显著。此外，还讨论了如何通过优化模型选择和参数调整来有效控制这一平衡，以提高模型的泛化能力。 ... [详细]

蜡笔小新 2024-11-11 10:27:39
ip
Python基础：使用NLTK和Python构建机器学习应用

本文节选自《NLTK基础教程——用NLTK和Python库构建机器学习应用》一书的第1章第1.2节，作者Nitin Hardeniya。本文将带领读者快速了解Python的基础知识，为后续的机器学习应用打下坚实的基础。 ... [详细]

蜡笔小新 2024-11-13 21:23:34
post
从0到1搭建大数据平台

从0到1搭建大数据平台 ... [详细]

蜡笔小新 2024-11-12 15:26:03
ip
独家解析：深度学习泛化理论的破解之道与应用前景

本文深入探讨了深度学习泛化理论的关键问题，通过分析现有研究和实践经验，揭示了泛化性能背后的核心机制。文章详细解析了泛化能力的影响因素，并提出了改进模型泛化性能的有效策略。此外，还展望了这些理论在实际应用中的广阔前景，为未来的研究和开发提供了宝贵的参考。 ... [详细]

蜡笔小新 2024-11-09 19:29:56
ip
斯坦福大学公开课：利用神经网络技术实现自动驾驶的案例分析

斯坦福大学的公开课深入探讨了如何利用神经网络技术实现自动驾驶。课程中通过实例展示了汽车如何通过学习算法自主驾驶。具体而言，课程展示了一幅图解，其中左下角显示了汽车前方的实时路况图像，而左上角则呈现了一个水平的菜单栏，用于展示系统处理和决策的过程。这一案例详细解析了神经网络在自动驾驶中的应用，为学生提供了宝贵的实践参考。 ... [详细]

蜡笔小新 2024-11-08 15:58:28
ip
能够感知你情绪状态的智能机器人即将问世 | 科技前沿观察

本周科技前沿报道了多项重要进展，包括美国多所高校在机器人技术和自动驾驶领域的最新研究成果，以及硅谷大型企业在智能硬件和深度学习技术上的突破性进展。特别值得一提的是，一款能够感知用户情绪状态的智能机器人即将问世，为未来的人机交互带来了全新的可能性。 ... [详细]

蜡笔小新 2024-11-05 20:45:31
default
PHP 5.5.31 和 PHP 5.6.17 安全更新发布

PHP 5.5.31 和 PHP 5.6.17 已正式发布，主要包含多个安全修复。强烈建议所有用户尽快升级至最新版本以确保系统安全。 ... [详细]

蜡笔小新 2024-11-14 17:40:40
default
Spring 切面配置中的切点表达式详解

本文介绍了如何在Spring框架中使用AspectJ风格的切面配置，详细解释了切点表达式的语法和常见示例，帮助开发者更好地理解和应用Spring AOP。 ... [详细]

蜡笔小新 2024-11-13 14:07:16
merge
双指针法高效解决七道链表问题

双指针法在链表问题中应用广泛，能够高效解决多种经典问题，如合并两个有序链表、合并多个有序链表、查找倒数第k个节点等。本文将详细介绍这些应用场景及其解决方案。 ... [详细]

蜡笔小新 2024-11-13 13:16:55
merge
飞桨助力产业智能化：百度自研AI硬件深度融合

在2019中国国际智能产业博览会上，百度董事长兼CEO李彦宏强调，人工智能应务实推进其在各行业的应用。随后，在“ABC SUMMIT 2019百度云智峰会”上，百度展示了通过“云+AI”推动AI工业化和产业智能化的最新成果。 ... [详细]

蜡笔小新 2024-11-12 00:45:20
merge
深入解析监督学习的核心概念与应用

本文深入探讨了监督学习的基本原理及其广泛应用。监督学习作为机器学习的重要分支，通过利用带有标签的训练数据，能够有效构建预测模型。文章详细解析了监督学习的关键概念，如特征选择、模型评估和过拟合问题，并介绍了其在图像识别、自然语言处理等领域的实际应用。 ... [详细]

蜡笔小新 2024-11-09 21:07:22
default
Node.js 配置文件管理方法详解与最佳实践

本文详细介绍了 Node.js 中配置文件管理的方法与最佳实践，涵盖常见的配置文件格式及其优缺点，并提供了多种实用技巧和示例代码，帮助开发者高效地管理和维护项目配置，具有较高的参考价值。 ... [详细]

蜡笔小新 2024-11-05 06:40:19
default
基于OpenCV的图像拼接技术实践与示例代码解析

图像拼接技术在全景摄影中具有广泛应用，如手机全景拍摄功能，通过将多张照片根据其关联信息合成为一张完整图像。本文详细探讨了使用Python和OpenCV库实现图像拼接的具体方法，并提供了示例代码解析，帮助读者深入理解该技术的实现过程。 ... [详细]

蜡笔小新 2024-11-03 12:48:59

l沈佩玉iVf

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章