当前位置: 开发笔记 > 编程语言 > 正文

交叉验证

作者：晨心晨艺日记 | 来源：互联网 | 2023-09-23 12:45

在机器学习里，通常来说我们不能将全部用于数据训练模型，否则我们将没有数据集对该模型进行验证，从而评估我们的模型的预测效果。为了解决这一问题，有如下常用的方法：1.TheValida

在机器学习里，通常来说我们不能将全部用于数据训练模型，否则我们将没有数据集对该模型进行验证，从而评估我们的模型的预测效果。为了解决这一问题，有如下常用的方法：

1.The Validation Set Approach

第一种是最简单的，也是很容易就想到的。我们可以把整个数据集分成两部分，一部分用于训练，一部分用于验证，这也就是我们经常提到的训练集（training set）和测试集（test set）。

例如，如上图所示，我们可以将蓝色部分的数据作为训练集（包含7、22、13等数据），将右侧的数据作为测试集（包含91等），这样通过在蓝色的训练集上训练模型，在测试集上观察不同模型不同参数对应的MSE的大小，就可以合适选择模型和参数了。

不过，这个简单的方法存在两个弊端。

1.最终模型与参数的选取将极大程度依赖于你对训练集和测试集的划分方法。什么意思呢？我们再看一张图：

右边是十种不同的训练集和测试集划分方法得到的test MSE，可以看到，在不同的划分方法下，test MSE的变动是很大的，而且对应的最优degree也不一样。所以如果我们的训练集和测试集的划分方法不够好，很有可能无法选择到最好的模型与参数。

2.该方法只用了部分数据进行模型的训练

我们都知道，当用于模型训练的数据量越大时，训练出来的模型通常效果会越好。所以训练集和测试集的划分意味着我们无法充分利用我们手头已有的数据，所以得到的模型效果也会受到一定的影响。

基于这样的背景，有人就提出了Cross-Validation方法，也就是交叉验证。

2.Cross-Validation

2.1 LOOCV

首先，我们先介绍LOOCV方法，即（Leave-one-out cross-validation）。像Test set approach一样，LOOCV方法也包含将数据集分为训练集和测试集这一步骤。但是不同的是，我们现在只用一个数据作为测试集，其他的数据都作为训练集，并将此步骤重复N次（N为数据集的数据数量）。

如上图所示，假设我们现在有n个数据组成的数据集，那么LOOCV的方法就是每次取出一个数据作为测试集的唯一元素，而其他n-1个数据都作为训练集用于训练模型和调参。结果就是我们最终训练了n个模型，每次都能得到一个MSE。而计算最终test MSE则就是将这n个MSE取平均。

y_i 比起test set approach，LOOCV有很多优点。首先它不受测试集合训练集划分方法的影响，因为每一个数据都单独的做过测试集。同时，其用了n-1个数据训练模型，也几乎用到了所有的数据，保证了模型的bias更小。不过LOOCV的缺点也很明显，那就是计算量过于大，是test set approach耗时的n-1倍。

为了解决计算成本太大的弊端，又有人提供了下面的式子，使得LOOCV计算成本和只训练一个模型一样快。

其中 $\hat{y_i}$ 表示第i个拟合值，而 h_i 则表示leverage。关于 h_i 的计算方法详见线性回归的部分（以后会涉及）。

2.2 K-fold Cross Validation

另外一种折中的办法叫做K折交叉验证，和LOOCV的不同在于，我们每次的测试集将不再只包含一个数据，而是多个，具体数目将根据K的选取决定。比如，如果K=5，那么我们利用五折交叉验证的步骤就是：

1.将所有数据集分成5份

2.不重复地每次取其中一份做测试集，用其他四份做训练集训练模型，之后计算该模型在测试集上的 MSE_i

3.将5次的 MSE_i 取平均得到最后的MSE

不难理解，其实LOOCV是一种特殊的K-fold Cross Validation（K=N）。再来看一组图：

作者：文兄

链接：https://zhuanlan.zhihu.com/p/24825503

来源：知乎

著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

每一幅图种蓝色表示的真实的test MSE，而黑色虚线和橙线则分贝表示的是LOOCV方法和10-fold CV方法得到的test MSE。我们可以看到事实上LOOCV和10-fold CV对test MSE的估计是很相似的，但是相比LOOCV，10-fold CV的计算成本却小了很多，耗时更少。

2.3 Bias-Variance Trade-Off for k-Fold Cross-Validation

最后，我们要说说K的选取。事实上，和开头给出的文章里的部分内容一样，K的选取是一个Bias和Variance的trade-off。

K越大，每次投入的训练集的数据越多，模型的Bias越小。但是K越大，又意味着每一次选取的训练集之前的相关性越大（考虑最极端的例子，当k=N，也就是在LOOCV里，每次都训练数据几乎是一样的）。而这种大相关性会导致最终的test error具有更大的Variance。

一般来说，根据经验我们一般选择k=5或10。

2.4 Cross-Validation on Classification Problems

上面我们讲的都是回归问题，所以用MSE来衡量test error。如果是分类问题，那么我们可以用以下式子来衡量Cross-Validation的test error：

其中Erri表示的是第i个模型在第i组测试集上的分类错误的个数。

作者：文兄

链接：https://zhuanlan.zhihu.com/p/24825503

来源：知乎

著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

推荐阅读

instance
Vision Transformer (ViT) 和 DETR 深度解析

本文详细介绍了 Vision Transformer (ViT) 和 DETR 的工作原理，并提供了相关的代码实现和参考资料。通过观看教学视频和阅读博客，对 ViT 的全流程进行了详细的笔记整理，包括代码详解和关键概念的解释。 ... [详细]

蜡笔小新 2024-11-12 20:32:38
instance
独家解析：深度学习泛化理论的破解之道与应用前景

本文深入探讨了深度学习泛化理论的关键问题，通过分析现有研究和实践经验，揭示了泛化性能背后的核心机制。文章详细解析了泛化能力的影响因素，并提出了改进模型泛化性能的有效策略。此外，还展望了这些理论在实际应用中的广阔前景，为未来的研究和开发提供了宝贵的参考。 ... [详细]

蜡笔小新 2024-11-09 19:29:56
eval
Unable to Establish Connection with GitHub for Updating the CocoaPods/Specs Repository

在安装 iOS 开发所需的 CocoaPods 时，用户可能会遇到多种问题。其中一个常见问题是，在执行 `pod setup` 命令后，系统无法连接到 GitHub 以更新 CocoaPods/Specs 仓库。这可能是由于网络连接不稳定、GitHub 服务器暂时不可用或本地配置错误等原因导致。为解决此问题，建议检查网络连接、确保 GitHub API 限制未被触发，并验证本地配置文件是否正确。 ... [详细]

蜡笔小新 2024-11-09 11:44:58
eval
解决针织难题：R语言编程技巧与常见错误分析

解决针织难题：R语言编程技巧与常见错误分析 ... [详细]

蜡笔小新 2024-11-08 15:02:19
eval
计算机视觉领域介绍 | 自然语言驱动的跨模态行人重识别前沿技术综述（上篇）

本文介绍了计算机视觉领域的最新进展，特别是自然语言驱动的跨模态行人重识别技术。上篇内容详细探讨了该领域的基础理论、关键技术及当前的研究热点，为读者提供了全面的概述。 ... [详细]

蜡笔小新 2024-11-07 12:41:08
eval
在 Windows 系统上使用 Docker 构建 NGINX、PHP、MySQL、Redis 和 Elasticsearch 的集成开发环境

本文介绍了如何在 Windows 系统上利用 Docker 构建一个包含 NGINX、PHP、MySQL、Redis 和 Elasticsearch 的集成开发环境。通过详细的步骤说明，帮助开发者快速搭建和配置这一复杂的技术栈，提升开发效率和环境一致性。 ... [详细]

蜡笔小新 2024-11-07 06:06:15
eval
Flutter项目首次运行遭遇错误：Gradle任务assembleDebug执行失败，退出状态码为1。

今天我开始学习Flutter，并在Android Studio 3.5.3中创建了一个新的Flutter项目。然而，在首次尝试运行时遇到了问题，Gradle任务 `assembleDebug` 执行失败，退出状态码为1。经过初步排查，发现可能是由于依赖项配置不当或Gradle版本不兼容导致的。为了解决这个问题，我计划检查项目的 `build.gradle` 文件，确保所有依赖项和插件版本都符合要求，并尝试更新Gradle版本。此外，还将验证环境变量配置是否正确，以确保开发环境的稳定性。 ... [详细]

蜡笔小新 2024-11-06 20:30:44
eval
【图像分类实战】利用DenseNet在PyTorch中实现秃头识别

本文详细介绍了如何使用DenseNet模型在PyTorch框架下实现秃头识别。首先，文章概述了项目所需的库和全局参数设置。接着，对图像进行预处理并读取数据集。随后，构建并配置DenseNet模型，设置训练和验证流程。最后，通过测试阶段验证模型性能，并提供了完整的代码实现。本文不仅涵盖了技术细节，还提供了实用的操作指南，适合初学者和有经验的研究人员参考。 ... [详细]

蜡笔小新 2024-11-06 15:21:35
replace
JavaScript XML操作实用工具类：XmlUtilsJS技巧与应用

JavaScript XML操作实用工具类：XmlUtilsJS技巧与应用 ... [详细]

蜡笔小新 2024-11-06 15:15:26
eval
深入解析Spring AOP框架中的代理对象生成机制

在前文探讨了Spring如何为特定的bean选择合适的通知器后，本文将进一步深入分析Spring AOP框架中代理对象的生成机制。具体而言，我们将详细解析如何通过代理技术将通知器（Advisor）中包含的通知（Advice）应用到目标bean上，以实现切面编程的核心功能。 ... [详细]

蜡笔小新 2024-11-06 10:11:10
eval
能够感知你情绪状态的智能机器人即将问世 | 科技前沿观察

本周科技前沿报道了多项重要进展，包括美国多所高校在机器人技术和自动驾驶领域的最新研究成果，以及硅谷大型企业在智能硬件和深度学习技术上的突破性进展。特别值得一提的是，一款能够感知用户情绪状态的智能机器人即将问世，为未来的人机交互带来了全新的可能性。 ... [详细]

蜡笔小新 2024-11-05 20:45:31
eval
在VSCode中添加自定义外部命令

通过将常用的外部命令集成到VSCode中，可以提高开发效率。本文介绍如何在VSCode中配置和使用自定义的外部命令，从而简化命令执行过程。 ... [详细]

蜡笔小新 2024-11-13 16:57:15
replace
JavaScript核心知识点与实用技巧汇总

本文总结了JavaScript的核心知识点和实用技巧，涵盖了变量声明、DOM操作、事件处理等重要方面。例如，通过`event.srcElement`获取触发事件的元素，并使用`alert`显示其HTML结构；利用`innerText`和`innerHTML`属性分别设置和获取文本内容及HTML内容。此外，还介绍了如何在表单中动态生成和操作``元素，以便更好地处理用户输入。这些技巧对于提升前端开发效率和代码质量具有重要意义。 ... [详细]

蜡笔小新 2024-11-06 20:14:58
eval
DRF框架中Serializer反序列化验证机制详解：深入探讨Validators的应用与优化

在DRF框架的反序列化验证机制中，除了基本的字段类型和长度校验外，还常常需要进行更为复杂的条件限制校验。通过引入`validators`模块，可以实现自定义校验逻辑，如唯一字段校验等。本文将详细探讨`validators`的使用方法及其优化策略，帮助开发者更好地理解和应用这一重要功能。 ... [详细]

蜡笔小新 2024-11-06 19:05:31
eval
深入解析HTTP头部中的Expires与Cache-Control字段及其缓存机制

本文深入探讨了HTTP头部中的Expires与Cache-Control字段及其缓存机制。Cache-Control字段主要用于控制HTTP缓存行为，其在HTTP/1.1中得到了广泛应用，而HTTP/1.0中主要使用Pragma:no-cache来实现类似功能。Expires字段则定义了资源的过期时间，帮助浏览器决定是否从缓存中读取资源。文章详细解析了这两个字段的具体用法、相互关系以及在不同场景下的应用效果，为开发者提供了全面的缓存管理指南。 ... [详细]

蜡笔小新 2024-11-06 18:48:33

晨心晨艺日记

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章