当前位置: 开发笔记 > 后端 > 正文

训练集和测试集验证集比例,训练集验证及测试集的比例

作者：小宇宙 | 来源：互联网 | 2023-09-14 13:03

数据集一般分为以下3种。通常的方法就是先训练训练集，即最小化代价函数，然后再把测试集代入代价函数看看效果如何。1.训练集确定模型后，用于训练参数，注意训练的是普通参数而不是超参数（

关键字：常规参数、超级参数、训练集、验证集、测试集

许多机器学习过程实际上是选择模型，模型只是参数未知，因此需要得到最佳参数，以便模型更准确地描述自变量到变量的变化。模型的培训和测量需要已知的数据集。

数据集一般分为以下三类。如果已经有较大的标记数据集，则随机采样可以得到三种类型的数据集，三种比例为8:1:1。如果有标记，也可以只对训练集和验证集随机采样。如果没有注释，则将其用作培训集。 (这个部分写得不清楚，以后再更新)

通常的方法是训练训练集(即最小化成本函数)，然后将测试集代入成本函数以查看效果。

1 .训练套

确定模型后，用于训练参数。用于训练的是常规参数，而不是超级参数。超级参数选择和训练过程实际上是独立的，训练过程不会影响超级参数。但是，在训练结束后，可以根据训练结果考虑是否可以优化超级参数，如果可以优化，可以调整超级参数的值，开始下一次的训练)

2 .验证集(交叉验证集CV ) )。

在训练集中训练模型后，在验证集中测试模型，并测试模型是否准确，而不是训练模型的参数

3 .测试集

验证集并不影响模型中的参数，但根据验证集测试结果的精度调整参数()，因此即使模型在验证集中最佳化，验证集也会影响结果。在众多模型中，验证集选择了代价函数最小的模型。这个模型的成本很小，但其他数据的成本也不是很小。所以，为了提高最后测试模型的精度，需要一套完全未经训练的测试。

4 .高偏差和高方差

4.1定义

下图是培训集与验证集的误差比较

高偏差：拟合不足。在这种情况下，训练集和验证集之间的误差较大(如图中d=1的情况那样)。

高方差：拟合对训练集有好处，但对验证集没有好处(如d=4)

4.2和正则化

三个数据集的成本函数定义如下：

下图反映了随着高偏差时训练数据的增大，训练集和验证集误差的变化，最终均趋于平缓

因此，在偏差高的情况下，无论怎么增加训练集误差都不会变小。所以，一旦预感到模型有高偏差，最好的方法是停下来更换模型。

方差高时：有助于增加培训数据

5 .模型优化

在各种情况下应该做什么？ (从右向左看) )

参考： https://baike.baidu.com/item/超级参数/3101858

推荐阅读

https
ECharts线性渐变色应用实例

本文详细介绍了如何在ECharts中使用线性渐变色，通过echarts.graphic.LinearGradient方法实现。文章不仅提供了完整的代码示例，还解释了各个参数的具体含义及其应用场景。 ... [详细]

蜡笔小新 2024-12-26 08:13:53
php
使用npm脚本同时启动多个监听服务的技巧

本文介绍了如何利用npm脚本和concurrently工具，实现本地开发环境中多个监听服务的同时启动，包括HTTP服务、自动刷新、Sass和ES6支持。 ... [详细]

蜡笔小新 2024-12-25 18:10:18
ftp
VSCode 自定义代码片段配置：实现类似IDEA的快捷代码段（如sout或psvm）

本文详细介绍如何在VSCode中配置自定义代码片段，使其具备与IDEA相似的代码生成快捷键功能。通过具体的Java和HTML代码片段示例，展示配置步骤及效果。 ... [详细]

蜡笔小新 2024-12-25 17:10:13
php
深入解析JMeter中的JSON提取器及其应用

本文详细介绍了如何在JMeter中使用JSON提取器来获取和处理API响应中的数据。特别是在需要将一个接口返回的数据作为下一个接口的输入时，JSON提取器是一个非常有用的工具。 ... [详细]

蜡笔小新 2024-12-25 16:34:37
爬虫
Perl基础爬虫：从丁香园获取意大利新冠数据

本文介绍如何使用Perl编写一个简单的爬虫，从丁香园网站获取意大利的新冠病毒感染情况。通过LWP::UserAgent模块模拟浏览器访问并解析网页内容，最终提取所需数据。 ... [详细]

蜡笔小新 2024-12-25 12:06:26
爬虫
百度搜索结果链接提取工具 UrlGetter V1.43

该工具专为获取百度搜索引擎的结果页面中的网址链接而设计，能够解析并转换为原始URL。通过正则表达式匹配技术，精准提取网页链接，并提供详细的使用说明和下载资源。 ... [详细]

蜡笔小新 2024-12-24 18:46:35
php
基于jQuery的用户注册页面表单验证代码分享

本文介绍了一段使用jQuery实现的用户注册页面表单验证代码，适用于前端开发人员学习和参考。该示例结合了HTML、CSS和JavaScript，确保用户输入的数据格式正确。 ... [详细]

蜡笔小新 2024-12-24 14:37:46
php
利用公共数据启动数据驱动型项目

探索如何使用公共数据集为您的编程项目提供动力。无论您是编程新手还是有经验的开发者，本文将为您提供实用建议和资源，帮助您启动并运行一个创新的数据驱动型项目。 ... [详细]

蜡笔小新 2024-12-24 13:08:35
php
优化深度神经网络在低性能硬件上的运行

尽管深度学习带来了广泛的应用前景，其训练通常需要强大的计算资源。然而，并非所有开发者都能负担得起高性能服务器或专用硬件。本文探讨了如何在有限的硬件条件下（如ARM CPU）高效运行深度神经网络，特别是通过选择合适的工具和框架来加速模型推理。 ... [详细]

蜡笔小新 2024-12-24 08:48:32
php
PHP 过滤器详解

本文深入探讨了 PHP 中的过滤器机制，包括常见的 $_SERVER 变量、filter_has_var() 函数、filter_id() 函数、filter_input() 函数及其数组形式、filter_list() 函数以及 filter_var() 和其数组形式。同时，详细介绍了各种过滤器的用途和用法。 ... [详细]

蜡笔小新 2024-12-23 19:05:02
php
解决Python中 'NoneType' 对象无属性 'find_all' 错误

本文详细探讨了在Python编程中遇到的常见错误——'NoneType'对象没有属性'find_all'，并深入分析其原因及解决方案。通过理解find_all函数的工作原理和常见用法，帮助读者避免类似问题。 ... [详细]

蜡笔小新 2024-12-23 16:40:43
java
提升代码可读性的关键要素

本文总结了优化代码可读性的核心原则与技巧，通过合理的变量命名、函数和对象的结构化组织，以及遵循一致性等方法，帮助开发者编写更易读、维护性更高的代码。 ... [详细]

蜡笔小新 2024-12-22 02:51:51
java
如何在Kendo UI for jQuery中将行标题显示为可点击链接

本文详细介绍了如何在Kendo UI for jQuery的数据管理组件中，将行标题字段呈现为锚点（即可点击链接），帮助开发人员更高效地实现这一功能。通过具体的代码示例和解释，即使是新手也能轻松掌握。 ... [详细]

蜡笔小新 2024-12-21 17:07:41
php
Vue 开发与调试工具指南

本文介绍了如何使用 Vue 调试工具，包括克隆仓库、安装依赖包、构建项目以及在 Chrome 浏览器中加载扩展的详细步骤。 ... [详细]

蜡笔小新 2024-12-20 16:28:04
php
基于决策树的性别分类分析

本文旨在探讨如何利用决策树算法实现对男女性别的分类。通过引入信息熵和信息增益的概念，结合具体的数据集，详细介绍了决策树的构建过程，并展示了其在实际应用中的效果。 ... [详细]

蜡笔小新 2024-12-20 11:57:25

小宇宙

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章