当前位置: 开发笔记 > 后端 > 正文

机器学习期末考试概念总结

作者：柿饼VIP | 来源：互联网 | 2023-07-29 17:44

机器学习模型的评估与选择评估方法：留出法、交叉验证法、自助法；偏差与方差k近邻学习支持向量机SVM朴素贝叶斯决策树逻辑回归集成学习与利用AdaBoost

机器学习

- 模型的评估与选择
- - 评估方法&＃xff1a;留出法、交叉验证法、自助法&＃xff1b;
  - 偏差与方差
- k近邻学习
- 支持向量机SVM
- 朴素贝叶斯
- 决策树
- 逻辑回归
- 集成学习与利用AdaBoost元算法提高分类性能
- Bagging与随机森林
- - 分类器结合的策略
  - 多样性-误差-分歧分解
- 聚类
- 神经网络
- - 感知机与多层网络
  - 误差逆传播算法BP
  - 其他常见神经网络
  - 深度学习

模型的评估与选择

概念&＃xff1a;在一定的数据集上通过学习得到用于某个任务的模型并考察此模型的泛化能力

错误率&＃xff1a;错分样本占比&＃xff1b;

误差&＃xff1a;样本真实输出与预测输出之间的差异&＃xff1b;&＃xff08;训练误差在训练集上&＃xff0c;测试误差在测试集上&＃xff0c;泛化误差在除训练集外的所有样本上&＃xff09;

过拟合&＃xff1a;是指训练器把样本本身的某些特点也当成了一般的性质&＃xff0c;欠拟合是指训练器没有完全学习完样本所具有的一般性质&＃xff1b;避免过拟合的普遍方法包括**“早停”、“添加正则项优化”**&＃xff0c;避免欠拟合就需要增加训练样本&＃xff0c;增加训练轮数等等。

评估指标&＃xff1a;学习器的泛化性能、时间开销、存储开销、可解释性&＃xff1b;

评估方法&＃xff1a;留出法、交叉验证法、自助法&＃xff1b;

留出法&＃xff1a;直接将数据集划分为两个互斥的部分&＃xff0c;若干次随机划分取平均值&＃xff1b;

交叉验证法&＃xff1a;将数据集划分为k个互斥的子集&＃xff0c;其中k-1个作为训练集&＃xff0c;1个作为测试集&＃xff0c;将k次实验结果取平均值&＃xff1b;

自助采样法&＃xff1a;将数据集D有放回的采样m次得到训练集S&＃xff0c;剩下的作为测试集T&＃xff08;仅在数据集较小时使用&＃xff09;&＃xff1b;

偏差与方差

偏差&＃xff1a;描述了期望预测与真实结果之间的差异&＃xff0c;刻画了训练器本身的泛化能力&＃xff1b;

方差&＃xff1a;描述了测试集的变化所带来的学习器性能的变化&＃xff0c;刻画了数据扰动带来的影响&＃xff1b;

噪声&＃xff1a;描述了对于一个具体的任务任何算法学习结果的下界&＃xff0c;刻画了一个具体问题本身的难度&＃xff1b;

k近邻学习

KNN属于“懒惰学习”

优点是精度高&＃xff0c;对异常值不敏感&＃xff0c;没有数据输入假定&＃xff0c;缺点是计算复杂度高&＃xff0c;空间复杂度高&＃xff0c;容易引起维数灾难&＃xff0c;这个时候必须进行低维嵌入&＃xff1b;

多维缩放&＃xff1a;原始空间中的距离在低维空间中得以保持&＃xff0c;

主成分分析的最近重构性与最大可分性&＃xff1a;最近重构性&＃xff08;样本点到超平面的距离足够近&＃xff09;&＃xff1a;、最大可分性&＃xff08;样本点在超平面的投影尽可能分开&＃xff09;&＃xff1a;

支持向量机SVM

优点是泛化错误率低&＃xff0c;计算开销不大&＃xff0c;缺点是对于参数调节和核函数的选择比较敏感&＃xff0c;原始分类器不修改的话只能处理二分类问题。

支持向量就是距离分隔超平面最近的那些点&＃xff0c;训练中需要最大化支持向量到超平面的距离&＃xff0c;另外&＃xff0c;支持向量具有稀疏性&＃xff0c;训练完成后&＃xff0c;大部分的训练样本都不需要保留&＃xff0c;最终模型仅与支持向量有关。

如果简单使用拉格朗日乘子法&＃xff0c;需要数据完全线性可分&＃xff0c;但是这一要求过于严苛&＃xff0c;所以引入松弛变量&＃xff08;软间隔&＃xff09;来允许某些数据点可以位于分隔面错误的一侧&＃xff0c;

SMO&＃xff08;序列最小优化&＃xff09;算法&＃xff1a;

核函数处理非线性可分数据&＃xff1a;核函数将数据集从一个特征空间映射到另一个特征空间&＃xff0c;把数据从低维线性不可分转化为高维的线性可分&＃xff0c;

核技巧&＃xff1a;将向量的内积替换成核函数的方式。

朴素贝叶斯

优点是可以在数据量比较小的情况下获得较高的泛化能力&＃xff0c;以及可以处理多分类问题&＃xff0c;但是缺点是对于输入数据的准备方式比较敏感&＃xff0c;如果利用极大似然估计的方法会受数据概率分布形式的影响。

朴素贝叶斯的基本假设是&＃xff1a;一&＃xff0c;样本集里每一个特征相互独立&＃xff1b;二&＃xff0c;每一个特征同等重要。

下溢出问题是朴素贝叶斯最主要的问题&＃xff0c;它可以通过对概率取对数来解决。

决策树

优点是计算的复杂度不高&＃xff0c;对中间值的缺失不敏感还可以处理不相关的特征数据&＃xff0c;但是天生的缺点就是会出现过拟合问题&＃xff1b;

决策树的关键在于如何选择最优划分属性&＃xff0c;使得节点的“纯度”最高&＃xff08;ID3信息增益越大&＃xff0c;C4.5增益率最大&＃xff0c;CART基尼指数越小&＃xff09;。一般包括信息增益、基尼指数两种方法。但是信息增益对于可取值较多的属性有所偏好&＃xff0c;选择增益率准则进行属性划分时却对可取值数目较少的属性有所偏好。&＃xff0c;所以C4.5算法较ID3算法改进了这一缺陷而且做了连续值的离散化处理和缺失值的处理。

利用剪枝处理来避免过拟合&＃xff0c;包括预剪枝和后剪枝&＃xff0c;预剪枝是指在划分节点之前对泛化性能进行估计&＃xff0c;若当前节点的划分可以带来泛化性能的提升&＃xff0c;则不进行剪枝&＃xff0c;否则进行剪枝&＃xff0c;预剪枝可以降低过拟合的风险&＃xff0c;提高计算速度与性能&＃xff0c;但是会增加欠拟合的风险&＃xff1b;后剪枝是指&＃xff0c;在整棵决策树生长完成后&＃xff0c;自底而上对节点进行考察&＃xff0c;若把该节点对应的子树替换成叶子节点能带来泛化性能的提高&＃xff0c;就将该子树替换为叶子节点&＃xff0c;后剪枝也显著降低了过拟合的风险&＃xff0c;带来泛化性能的提高而且由于预剪枝&＃xff0c;但是训练时间开销大于预剪枝。

对于连续值的处理&＃xff0c;可以进行连续值的离散化&＃xff0c;缺失值处理呢&＃xff1f;

逻辑回归

优点在于计算代价低&＃xff0c;易于逻辑实现&＃xff0c;但是缺点在于容易欠拟合&＃xff0c;分类精度低。

分类器的函数形式是sigmoid函数&＃xff0c;对于每一个特征&＃xff0c;乘以一个回归系数&＃xff0c;然后进行加和&＃xff0c;把加和结果带入sigmoid函数中得到一个范围在0~1之间的值&＃xff0c;我们把大于0.5的值归入1类&＃xff0c;把小于0.5的值归入0类。那么接下来主要就是我们应该怎么确定回归系数了。

梯度上升法&＃xff1a;使用梯度上升法来求函数的最大值&＃xff0c;将每个特征的初始回归系数赋值为1&＃xff0c;计算整个数据集的梯度&＃xff0c;计算梯度最大的方向更新回归系数的向量并迭代&＃xff0c;直到结果收敛或者到达人为设定的迭代次数为止。

集成学习与利用AdaBoost元算法提高分类性能

优点是泛化错误率低&＃xff0c;可以应用于大部分分类器上而无需参数调整&＃xff1b;缺点是对离群点敏感。

原理&＃xff1a;不同的分类器是串行训练获得的&＃xff0c;每个分类器都是根据之前分类器的性能进行训练&＃xff0c;关注的是之前分类器所错分的那些数据&＃xff0c;所以最终的结果是基于所有分类器的加权求和所得到的。

训练算法&＃xff1a;最开始训练每一个样本&＃xff0c;并赋予其一个权重值&＃xff0c;在刚刚开始时候&＃xff0c;权重值相等&＃xff0c;在一个弱分类器上进行训练并计算其错误率&＃xff0c;然后在另一个弱分类器上再次训练&＃xff0c;此时的每一个样本的权重值发生变化&＃xff0c;第一次分对的样本的权重值变小&＃xff0c;分错的样本的权重值变大。为了从所有的弱分类器上获得最终的分类结果&＃xff0c;每一个分类器都有一个权重值α&＃xff0c;这些α值基于每一个弱分类器的错误率进行计算。每一个样本的权重D与分类器的权重值之间存在对应的映射关系。

特点&＃xff1a;不同的分类器之间存在很强的依赖关系&＃xff0c;分类串行生成&＃xff0c;在每次分类之后都调整样本的权重&＃xff1b;

Bagging与随机森林

特点&＃xff1a;不同的分类器之间没有强依赖关系&＃xff0c;分类并行生成&＃xff0c;随机采样形成s个数据集应用于s个分类器上&＃xff1b;

分类器结合的策略

平均法、投票法、学习法

多样性-误差-分歧分解

个体学习器的精确性越高&＃xff0c;多样性越大&＃xff0c;则集成效果越好。

聚类

优点是容易实现&＃xff0c;缺点是可能收敛到一个局部最小值&＃xff0c;在大规模的数据上收敛较慢。

算法原理&＃xff1a;随机选取k个点作为起始中心&＃xff0c;计算中心与数据点之间的距离&＃xff0c;然后把数据点分配到距离它最近的那个簇中&＃xff0c;对每一个簇&＃xff0c;计算其中所有点的均值并将其更新为中心。

距离度量&＃xff1a;非负性、同一性、对称性、直递性&＃xff1b;常用距离为马科夫斯基距离、欧氏距离、曼哈顿距离

原型聚类&＃xff08;假设聚类的结构可以通过一组原型来描述&＃xff09;包括K均值算法、学习向量量化算法、高斯混合聚类算法&＃xff1b;&＃xff08;学习向量量化带有类别标签&＃xff0c;属于一种监督方法来辅助聚类&＃xff09;、&＃xff08;高斯就是用概率来刻画聚类原型结构了&＃xff09;

密度聚类&＃xff08;假设聚类的结构可以通过样本分布的密度来描述&＃xff09;比如密度聚类算法DBSCAN

层次聚类&＃xff08;在不同的层次对数据集进行划分&＃xff09;比如自底向上层次聚类算法AGNES&＃xff08;把每一个样本看作一个聚类簇&＃xff0c;迭代将距离最近的两个聚类簇合并直到最小聚类簇为止&＃xff09;

神经网络

感知机与多层网络

感知机由两层神经元组成&＃xff0c;输入层接受外界输入信号传递给输出层M-P神经元。每一个输入的神经元都有自己的权重值和阈值&＃xff0c;给定训练集&＃xff0c;权重w和阈值可以通过学习得到。

单层感知机只能解决两类模式线性可分时的问题&＃xff0c;这时学习过程最后一定收敛&＃xff0c;如果两类模式线性不可分&＃xff0c;就会出现震荡&＃xff0c;所以就需要用多层感知机求解。多层前馈神经网络是指每层神经元与下一层神经元完全互联&＃xff0c;层内神经元之间没有连接&＃xff0c;也没有跨层连接。

误差逆传播算法BP

首先初始化网络中所有神经元的连接权重与阈值&＃xff0c;然后进行迭代&＃xff0c;迭代过程为&＃xff1a;首先计算当前网络对样本的输出值&＃xff0c;然后计算输出层和隐层的梯度值&＃xff0c;根据梯度下降算法更新连接权值和阈值&＃xff0c;循环直到满足条件。

BP神经网络算法也使用梯度下降法&＃xff08;gradient descent&＃xff09;&＃xff0c;以单个样本的均方误差的负梯度方向对权重进行调节。可以看出&＃xff1a;BP算法首先将误差反向传播给隐层神经元&＃xff0c;调节隐层到输出层的连接权重与输出层神经元的阈值&＃xff1b;接着根据隐含层神经元的均方误差&＃xff0c;来调节输入层到隐含层的连接权值与隐含层神经元的阈值。

但是多层前馈神经网络常常会过拟合&＃xff0c;由于隐层的个数难以准确确定&＃xff0c;一般使用试错法进行调整&＃xff1a;&＃xff08;早停&＃xff1a;在训练过程中&＃xff0c;当训练误差降低&＃xff0c;测试误差明显升高时就停止训练&＃xff09;、&＃xff08;正则化&＃xff1a;在误差目标函数里加入一项描述网络复杂程度的值&＃xff0c;例如连接权重与阈值的平方和&＃xff09;

其他常见神经网络

RBF网络&＃xff08;单隐层前馈神经网络&＃xff0c;使用径向基函数作为隐层激活函数&＃xff09;

ART网络&＃xff08;自适应谐振网络&＃xff0c;是一种竞争学习网络&＃xff0c;包括比较层、识别层、识别阈值模块、重置模块&＃xff1b;具有可塑性与稳定性&＃xff09;

SOM网络&＃xff08;自组织映射网络&＃xff0c;可以将高维数据映射到低维空间中而不改变数据在高维空间中的拓扑结构&＃xff09;

级联相关网络&＃xff08;级联是指在训练数据过程中同时建立层级之间的连接关系&＃xff0c;相关是指最大化神经网络输出与误差之间的相关性&＃xff09;

Elman网络&＃xff08;递归神经网络&＃xff0c;允许网络中出现环形结构&＃xff0c;使得神经元的输出反馈回来作为输入&＃xff09;

Boltzmann网络&＃xff08;为网络定义一个能量&＃xff0c;训练过程就是在不断最小化能量函数&＃xff09;

深度学习

无监督预训练&＃43;BP微调&＃xff0c;相当于把大量参数分组&＃xff0c;每一组先找到局部最优结果&＃xff0c;再基于局部最优解进行全局寻优&＃xff0c;一组神经元使用相同的连接权值。

卷积神经网络CNN&＃xff1a;用于处理具有网格结构的数据&＃xff1b;包括&＃xff1a;卷积层&＃xff08;通过卷积滤波器来提取多个特征&＃xff09;、池化层&＃xff08;利用降采样来减少数据量并保留有用信息&＃xff09;、激活函数&＃xff08;增强了网络的非线性表达能力&＃xff09;、全连接层&＃xff08;每一个神经元全部连接到上一层的所有神经元中&＃xff0c;通过连接层与输出层的连接完成识别任务&＃xff09;
深度信念网络DBN&＃xff1a;通过组合原始特征来生成更加抽象的高级特征表达式&＃xff0c;能自动从数据中提取高层特征&＃xff1b;

自动编码器AE&＃xff1a;通过假设输入与输出相同&＃xff0c;训练得到神经元的权重参数&＃xff0c;用于数据的降维及特征的提取&＃xff1b;

生成式对抗网络GAN&＃xff1a;生成式部分基于原始数据的情况生成仿真数据&＃xff0c;判别式部分判断输入的是否是真实的数据&＃xff0c;最终目的在于使得网络生成判别式无法判别的仿真数据&＃xff1b;

深度森林DF&＃xff1a;利用集成的决策树来学习&＃xff1b;

思考一下&＃xff1a;
1&＃xff0c;贝叶斯决策&＃xff0c;基于最小风险和最小方差的决策的区别
2&＃xff0c;ID3和C4.5的区别&＃xff0c;预剪枝和后剪枝的基本思想和优缺点
3&＃xff0c;SVM的基本思想&＃xff0c;什么是支持向量&＃xff0c;模型表达式&＃xff0c;软间隔和硬间隔的物理含义&＃xff0c;如何用来解决非线性问题
4&＃xff0c;以混合高斯为例&＃xff0c;解释EM算法的基本思想和步骤
5&＃xff0c;什么是过拟合&＃xff0c;解决方法有哪些
6&＃xff0c;PCA算法基于最小均方误差的思想&＃xff0c;推导过程&＃xff0c;什么是第一主成分
7&＃xff0c;给出机器学习和深度学习的联系&＃xff0c;各有什么优缺点&＃xff0c;你认为未来深度学习会如何发展

推荐阅读

正则
机器学习核心概念与技术

本文系统梳理了机器学习的关键知识点，涵盖模型评估、正则化、线性模型、支持向量机、决策树及集成学习等内容，并深入探讨了各算法的原理和应用场景。 ... [详细]

蜡笔小新 2024-12-22 09:15:30
正则
机器学习中的相似度度量与模型优化

本文探讨了机器学习中常见的相似度度量方法，包括余弦相似度、欧氏距离和马氏距离，并详细介绍了如何通过选择合适的模型复杂度和正则化来提高模型的泛化能力。此外，文章还涵盖了模型评估的各种方法和指标，以及不同分类器的工作原理和应用场景。 ... [详细]

蜡笔小新 2024-12-26 18:10:02
python
机器学习的持续探索与进展

在机器学习领域，深入探讨了概率论与数理统计的基础知识，特别是这些理论在数据挖掘中的应用。文章重点分析了偏差（Bias）与方差（Variance）之间的平衡问题，强调了方差反映了不同训练模型之间的差异，例如在K折交叉验证中，不同模型之间的性能差异显著。此外，还讨论了如何通过优化模型选择和参数调整来有效控制这一平衡，以提高模型的泛化能力。 ... [详细]

蜡笔小新 2024-11-11 10:27:39
token
毕业设计：基于机器学习与深度学习的垃圾邮件（短信）分类算法实现

本文详细介绍了如何使用机器学习和深度学习技术对垃圾邮件和短信进行分类。内容涵盖从数据集介绍、预处理、特征提取到模型训练与评估的完整流程，并提供了具体的代码示例和实验结果。 ... [详细]

蜡笔小新 2024-12-25 17:38:50
token
2017年人工智能领域的十大里程碑事件回顾

随着2018年的临近，我们一同回顾过去一年中人工智能领域的重要进展。这一年，无论是政策层面的支持，还是技术上的突破，都显示了人工智能发展的迅猛势头。以下是精选的2017年人工智能领域最具影响力的事件。 ... [详细]

蜡笔小新 2024-12-16 17:59:16
python
吴恩达推出TensorFlow实践课程，Python基础即可入门，四个月掌握核心技能

量子位报道，deeplearning.ai最新发布了TensorFlow实践课程，适合希望使用TensorFlow开发AI应用的学习者。该课程涵盖机器学习模型构建、图像识别、自然语言处理及时间序列预测等多个方面。 ... [详细]

蜡笔小新 2024-12-08 17:26:10
分布式
强人工智能时代，区块链的角色与前景

随着强人工智能的崛起，区块链技术在新的技术生态中扮演着怎样的角色？本文探讨了区块链与强人工智能之间的互补关系及其在未来技术发展中的重要性。 ... [详细]

蜡笔小新 2024-12-07 14:46:21
lua
优化深度神经网络在低性能硬件上的运行

尽管深度学习带来了广泛的应用前景，其训练通常需要强大的计算资源。然而，并非所有开发者都能负担得起高性能服务器或专用硬件。本文探讨了如何在有限的硬件条件下（如ARM CPU）高效运行深度神经网络，特别是通过选择合适的工具和框架来加速模型推理。 ... [详细]

蜡笔小新 2024-12-24 08:48:32
python
Coursera ML 机器学习

2019独角兽企业重金招聘Python工程师标准线性回归算法计算过程CostFunction梯度下降算法多变量回归![选择特征](https:static.oschina.n ... [详细]

蜡笔小新 2024-12-22 16:09:09
python
图像标签与以图搜图技术的应用与实践

本文探讨了图像标签的多种分类场景及其在以图搜图技术中的应用，涵盖了从基础理论到实际项目实施的全面解析。 ... [详细]

蜡笔小新 2024-12-07 14:28:06
分布式
大数据时代的机器学习：人工特征工程与线性模型的局限

本文探讨了在大数据背景下，人工特征工程与线性模型的应用及其局限性。随着数据量的激增和技术的进步，传统的特征工程方法面临挑战，文章提出了未来发展的可能方向。 ... [详细]

蜡笔小新 2024-12-07 11:58:58
struct
TensorFlow 入门：MNIST 数据集实战

本文详细介绍了 TensorFlow 的入门实践，特别是使用 MNIST 数据集进行数字识别的项目。文章首先解析了项目文件结构，并解释了各部分的作用，随后逐步讲解了如何通过 TensorFlow 实现基本的神经网络模型。 ... [详细]

蜡笔小新 2024-12-05 13:06:15
struct
利用神经网络破解数学难题：求解偏微分方程的新途径

一项来自Quantamagazine的最新研究揭示，借助人工智能的深度学习技术，特别是深度神经网络，科学家们能够在数学建模领域取得突破，显著提高了处理复杂系统中偏微分方程的速度与效率。 ... [详细]

蜡笔小新 2024-12-01 14:44:13
port
利用OpenCV和线性SVM实现人脸识别

本文介绍如何使用OpenCV和线性支持向量机（SVM）模型来开发一个简单的人脸识别系统，特别关注在只有一个用户数据集时的处理方法。 ... [详细]

蜡笔小新 2024-11-13 14:50:37
port
资源推荐 | TensorFlow官方中文教程助力英语非母语者学习

来源：机器之心。本文详细介绍了TensorFlow官方提供的中文版教程和指南，帮助开发者更好地理解和应用这一强大的开源机器学习平台。 ... [详细]

蜡笔小新 2024-12-28 09:00:51

柿饼VIP

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章