作者:手机用户2502889851 | 来源:互联网 | 2024-12-22 09:15
第一章 绪论
介绍机器学习的基本概念、发展历程及其在现代科技中的重要性。
第二章 模型评估与选择
1. 评估方法
常见的模型评估方法包括留出法、交叉验证和自助法。留出法简单直接,但容易导致评估结果偏差;交叉验证通过多次划分数据集来提高评估的可靠性;自助法则适用于小样本情况。
2. 评估指标
常用的评估指标有查准率(Precision)、查全率(Recall)、F1分数、ROC曲线和AUC值等。这些指标帮助我们全面了解模型的性能。
3. 泛化误差分解
泛化误差可以分解为偏差(Bias)、方差(Variance)和噪声(Noise)。理解这三者的关系有助于优化模型,避免过拟合或欠拟合。
4. 归一化
归一化是将不同尺度的数据转换到同一范围的过程,常用的方法有Min-Max Scaling和Z-Score Normalization。对于基于梯度下降的模型,归一化能加速收敛。
5. 正则化
正则化是一种防止过拟合的技术,主要包括L1正则化和L2正则化。L1正则化倾向于产生稀疏解,而L2正则化则使参数分布更均匀。
L1 vs L2正则化
L1正则化通过引入绝对值惩罚项使得某些权重变为零,从而实现特征选择;L2正则化则通过平方惩罚项平滑参数,减少过拟合风险。
权重减小缓解过拟合
当模型过拟合时,其系数通常较大,导致函数波动剧烈。通过正则化限制权重大小,可以有效降低模型复杂度,减少过拟合的可能性。
6. 过拟合与欠拟合
过拟合指的是模型过于复杂以至于对训练数据过度拟合,而欠拟合则是模型过于简单无法捕捉数据特征。解决过拟合的方法包括增加数据量、简化模型结构、使用正则化等;解决欠拟合则可以通过增加特征或提升模型复杂度。
第三章 线性模型
1. 线性模型的优点
线性模型具有形式简单、易于解释和计算效率高等优点。它们广泛应用于回归分析和分类任务中。
2. 一元线性回归
一元线性回归是最基础的线性模型之一,用于预测单个自变量与因变量之间的关系。最小二乘法是最常用的求解方法。
3. 多元线性回归
多元线性回归扩展了一元线性回归,能够处理多个自变量的情况。当输入矩阵X为满秩或正定时,可以直接求解;否则需要引入正则化。
4. 对数几率回归(LR)
对数几率回归是一种广义线性模型,常用于二分类问题。它通过Sigmoid函数将线性组合映射到概率空间。
对数损失函数
对数损失函数是对数似然函数的负对数形式,广泛应用于逻辑回归中。极大似然估计是求解参数w和b的有效方法。
SVM vs LR
SVM和LR都是强大的分类器,但各有特点。SVM是非参数模型,利用Hinge Loss进行优化;LR则是参数模型,采用对数似然函数。
5. 最大熵模型
最大熵模型假设在所有可能的概率分布中,熵最大的分布是最优的。这种方法确保了模型的泛化能力。
6. 线性判别分析(LDA)
LDA通过投影将高维数据映射到低维空间,以最大化类间距离并最小化类内距离。尽管在非高斯分布下效果不佳,但在许多实际应用中表现出色。
第六章 支持向量机(SVM)
1. SVM优点
SVM具有全局最优解、支持核方法以及仅依赖于支持向量的特点。然而,它在处理大规模数据集时面临挑战。
2. SVM缺点
SVM的计算复杂度较高,尤其在面对大量样本时。此外,它对缺失数据敏感且稳定性较差。
3. 对偶问题的优势
将原始问题转化为对偶问题不仅便于求解,还能引入核函数扩展模型的能力。
4. SMO算法
SMO算法通过固定部分参数,迭代更新两个变量,逐步逼近最优解。
5. 高维映射
通过映射到高维空间,原本线性不可分的数据可能变得可分,这是SVM的核心思想之一。
6. 核函数
核函数如线性核、多项式核和RBF核等,允许我们在不显式计算高维特征的情况下进行分类。
第四章 决策树(DT)
1. CART、ID3与C4.5比较
CART使用基尼指数作为分裂标准,ID3基于信息增益,C4.5结合了信息增益率。每种算法都有其独特之处。
2. 信息熵与信息增益
信息熵衡量系统的不确定性,信息增益则表示通过某个属性分割后不确定性的减少量。
3. 基尼指数
基尼指数反映了数据的纯度,值越小说明数据越纯净。
4. 预剪枝与后剪枝
预剪枝是在构建过程中提前终止节点增长,而后剪枝则是先生成完整树再进行修剪。
5. 缺失值处理
C4.5通过概率分配的方式处理缺失值,提高了模型的鲁棒性。
第八章 集成学习
1. 弱学习器集成
根据霍夫丁不等式,多个弱学习器的集成可以显著降低错误率。
2. AdaBoost
AdaBoost通过调整样本权重,逐步关注难分类的样本,最终形成强分类器。
3. GBDT与XGBoost
GBDT通过逐层构建决策树来逼近目标函数,XGBoost在此基础上增加了二阶泰勒展开和正则化,提升了模型性能。
4. Bagging与随机森林
Bagging通过自助采样生成多个子模型,随机森林进一步引入了特征随机选择,增强了模型的多样性。
5. Boosting vs Bagging
Boosting侧重于减少偏差,而Bagging则致力于降低方差。两者结合可以在不同场景下发挥优势。