当前位置: 开发笔记 > 人工智能 > 正文

规则化和模型选择

作者：品格优良2003_645 | 来源：互联网 | 2023-02-12 10:59

一、交叉验证训练集S，模型集合M1、简单交叉验证：70%S训练M，训练出参数，求得假设函数h，在30%S上得到相应的经验错误，选择最小的最为最好的模型2、k折交叉验证：将交叉验证的测

一、交叉验证

训练集S，模型集合M

1、简单交叉验证：70%S训练M，训练出参数，求得假设函数h，在30%S上得到相应的经验错误，选择最小的最为最好的模型

2、k折交叉验证：将交叉验证的测试集/k，每个模型训练k次，测试k次，得到的错误率/k。一般k取10。

3、留一交叉验证：每次只留一个样例作为测试。（用于数据稀疏的情况）

二、特征选择

严格来讲也是模型选择的一种

1、为什么要做特征选择
在有限的样本数目下，用大量的特征来设计分类器计算开销太大而且分类性能差。
2、特征选择的确切含义
将高维空间的样本通过映射或者是变换的方式转换到低维空间，达到降维的目的，然后通过特征选取删选掉冗余和不相关的特征来进一步降维。
3、特征选取的原则

获取尽可能小的特征子集，不显著降低分类精度、不影响类分布以及特征子集应具有稳定适应性强等特点（戳）

特征选择常用算法综述

特征工程是什么

1、前向搜索：每次增量的从剩余未选中的特选出一个加入特征集中，待达到阈值或者n的时候，从所有的特征集中选出错诶率最小的。（错误率利用交叉验证来得到）

2、后向搜索：既然有增量增加，那么也会有增量减少，后者就成为后向搜索。

3、过滤特征选择：针对每一个特征，i从1到n，计算相对于类别标签y的信息量S(i)，得到n个结果，然后将n个S(i)从大到小排名，输出前k个特征。复杂度为O(n)。

（1）求S(i)

1)互信息公式

（注：log后面的三项概率都是由训练集上得到的）

若是离散值，非常适用，若不是离散值，那么用逻辑回归方法将连续值变成离散值。推广到多个也适用。

2）KL距离

由KL距离，MI衡量的是和y的独立性。如果和y独立（），那么KL距离为0，也就是说和y不相关，可以去除。相反，若和y关系密切，那么MI的值会很大。

（2）求k

用交叉验证的方法。

三、贝叶斯统计和规则化

目的：寻找更好的方法来减少过拟合情况的发生。

贝叶斯学派为随机变量，值未知最大后验概率估计

频率学派为未知常量最大似然估计

注：与ML相比，MAP就是将移进了条件概率中，并且多了一项p()。贝叶斯最大后验概率比最大似然估计更容易克服过拟合问题。原因大概是：过拟合一般是极大化造成的，因此公式有两项组成，极大化时，p()有可能比较下，这样就可以缓解过拟合情况。

我是补充的分割线

机器学习

推荐阅读

深度学习
毕业设计：基于机器学习与深度学习的垃圾邮件（短信）分类算法实现

本文详细介绍了如何使用机器学习和深度学习技术对垃圾邮件和短信进行分类。内容涵盖从数据集介绍、预处理、特征提取到模型训练与评估的完整流程，并提供了具体的代码示例和实验结果。 ... [详细]

蜡笔小新 2024-12-25 17:38:50
机器学习
广义线性模型（Generalized Linear Models, GLM）

　　上一篇博客中我们说到线性回归和逻辑回归之间隐隐约约好像有什么关系，到底是什么关系呢？我们就来探讨一下吧。（这一篇数学推导占了大多数，可能看起来会略有枯燥，但这本身就是一个把之前算法 ... [详细]

蜡笔小新 2024-12-24 19:32:12
机器学习
现代人幸福感缺失的原因探究

随着生活节奏的加快和压力的增加，越来越多的人感到不快乐。本文探讨了现代社会中导致人们幸福感下降的各种因素，并提供了一些改善建议。 ... [详细]

蜡笔小新 2024-12-21 16:09:25
svm
Python中HOG图像特征提取与应用

本文介绍如何在Python中使用HOG（Histogram of Oriented Gradients）算法进行图像特征提取，探讨其在目标检测中的应用，并详细解释实现步骤。 ... [详细]

蜡笔小新 2024-12-21 15:32:13
机器学习
Python 工具推荐 | PyHubWeekly 第二十一期：提升命令行体验的五大工具

本期 PyHubWeekly 为大家精选了 GitHub 上五个优秀的 Python 工具，涵盖金融数据可视化、终端美化、国际化支持、图像增强和远程 Shell 环境配置。欢迎关注并参与项目。 ... [详细]

蜡笔小新 2024-12-21 14:45:11
机器学习
基于决策树的性别分类分析

本文旨在探讨如何利用决策树算法实现对男女性别的分类。通过引入信息熵和信息增益的概念，结合具体的数据集，详细介绍了决策树的构建过程，并展示了其在实际应用中的效果。 ... [详细]

蜡笔小新 2024-12-20 11:57:25
tensorflow
深入浅出TensorFlow数据读写机制

本文详细介绍TensorFlow中的数据读写操作，包括TFRecord文件的创建与读取，以及数据集（dataset）的相关概念和使用方法。 ... [详细]

蜡笔小新 2024-12-19 16:23:17
深度学习
解决PyCharm中安装PyTorch深度学习d2l包的问题

本文详细介绍了如何在PyCharm中成功安装用于PyTorch深度学习的d2l包，包括环境配置、安装步骤及常见问题的解决方案。 ... [详细]

蜡笔小新 2024-12-19 14:19:22
机器学习
2017苹果全球开发者大会前瞻：iOS革新、Siri智能音箱与AI技术引领未来

2017年苹果全球开发者大会即将开幕，预计iOS将迎来重大更新，同时Siri智能音箱有望首次亮相，AI技术成为大会焦点。 ... [详细]

蜡笔小新 2024-12-18 18:02:27
机器学习
LambdaMART算法详解

本文详细介绍了LambdaMART算法的背景、原理及其在信息检索中的应用。首先回顾了LambdaMART的发展历程，包括其前身RankNet和LambdaRank，然后深入探讨了LambdaMART如何结合梯度提升决策树（GBDT）和LambdaRank来优化排序问题。 ... [详细]

蜡笔小新 2024-12-18 12:30:35
机器学习
SHAP图表中负号显示问题及其解决方案

本文探讨了在使用SHAP进行机器学习模型解释时遇到的一个常见问题——负号无法正确显示，并提供了一种有效的解决方法。 ... [详细]

蜡笔小新 2024-12-18 10:55:51
机器学习
美团推荐系统：机器学习优化重排序模型

在互联网信息爆炸的时代，当用户需求模糊或难以通过精确查询表达时，推荐系统成为解决信息过载的有效手段。美团作为国内领先的O2O平台，通过深入分析用户行为，运用先进的机器学习技术优化推荐算法，提升用户体验。 ... [详细]

蜡笔小新 2024-12-17 17:56:15
机器学习
机器学习公开课备忘录（三）机器学习算法的应用与大数据集

机器学习公开课备忘录（三）机器学习算法的应用与大数据集对应机器学习公开课第六周和第10周机器学习算法模型的选择与评价1、对于一个data，可以将data划分为trainingset、t ... [详细]

蜡笔小新 2024-12-17 15:54:47
svm
支持向量机（SVM）方法的扩展与优化

支持向量机（SVM）是一种基于统计学习理论的模型，主要在VC维和结构风险最小化的理论基础上发展而来。本文将探讨几种不同的SVM方法及其优化策略，旨在提高模型的效率和适用性。 ... [详细]

蜡笔小新 2024-12-17 14:27:48
机器学习
全能终端工具推荐：高效、免费、易用

介绍一款备受好评的全能型终端工具——MobaXterm，它不仅功能强大，而且完全免费，适合各类用户使用。 ... [详细]

蜡笔小新 2024-12-16 21:02:15

品格优良2003_645

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章