热门标签 | HotTags
当前位置:  开发笔记 > 后端 > 正文

训练集和测试集验证集比例,训练集验证及测试集的比例

数据集一般分为以下3种。通常的方法就是先训练训练集,即最小化代价函数,然后再把测试集代入代价函数看看效果如何。1.训练集确定模型后,用于训练参数,注意训练的是普通参数而不是超参数(


关键字:常规参数、超级参数、训练集、验证集、测试集


许多机器学习过程实际上是选择模型,模型只是参数未知,因此需要得到最佳参数,以便模型更准确地描述自变量到变量的变化。 模型的培训和测量需要已知的数据集。


数据集一般分为以下三类。 如果已经有较大的标记数据集,则随机采样可以得到三种类型的数据集,三种比例为8:1:1。 如果有标记,也可以只对训练集和验证集随机采样。 如果没有注释,则将其用作培训集。 (这个部分写得不清楚,以后再更新)


通常的方法是训练训练集(即最小化成本函数),然后将测试集代入成本函数以查看效果。


1 .训练套


确定模型后,用于训练参数。 用于训练的是常规参数,而不是超级参数。 超级参数选择和训练过程实际上是独立的,训练过程不会影响超级参数。 但是,在训练结束后,可以根据训练结果考虑是否可以优化超级参数,如果可以优化,可以调整超级参数的值,开始下一次的训练)


2 .验证集(交叉验证集CV ) )。


在训练集中训练模型后,在验证集中测试模型,并测试模型是否准确,而不是训练模型的参数


3 .测试集


验证集并不影响模型中的参数,但根据验证集测试结果的精度调整参数(),因此即使模型在验证集中最佳化,验证集也会影响结果。 在众多模型中,验证集选择了代价函数最小的模型。 这个模型的成本很小,但其他数据的成本也不是很小。 所以,为了提高最后测试模型的精度,需要一套完全未经训练的测试。


4 .高偏差和高方差


4.1定义


下图是培训集与验证集的误差比较


高偏差:拟合不足。 在这种情况下,训练集和验证集之间的误差较大(如图中d=1的情况那样)。


高方差:拟合对训练集有好处,但对验证集没有好处(如d=4)


4.2和正则化


三个数据集的成本函数定义如下:


下图反映了随着高偏差时训练数据的增大,训练集和验证集误差的变化,最终均趋于平缓


因此,在偏差高的情况下,无论怎么增加训练集误差都不会变小。 所以,一旦预感到模型有高偏差,最好的方法是停下来更换模型。


方差高时:有助于增加培训数据


5 .模型优化


在各种情况下应该做什么? (从右向左看) )


参考: https://baike.baidu.com/item/超级参数/3101858


推荐阅读
  • 本文详细介绍了如何在ECharts中使用线性渐变色,通过echarts.graphic.LinearGradient方法实现。文章不仅提供了完整的代码示例,还解释了各个参数的具体含义及其应用场景。 ... [详细]
  • 本文介绍了如何利用npm脚本和concurrently工具,实现本地开发环境中多个监听服务的同时启动,包括HTTP服务、自动刷新、Sass和ES6支持。 ... [详细]
  • 本文详细介绍如何在VSCode中配置自定义代码片段,使其具备与IDEA相似的代码生成快捷键功能。通过具体的Java和HTML代码片段示例,展示配置步骤及效果。 ... [详细]
  • 深入解析JMeter中的JSON提取器及其应用
    本文详细介绍了如何在JMeter中使用JSON提取器来获取和处理API响应中的数据。特别是在需要将一个接口返回的数据作为下一个接口的输入时,JSON提取器是一个非常有用的工具。 ... [详细]
  • 本文介绍如何使用Perl编写一个简单的爬虫,从丁香园网站获取意大利的新冠病毒感染情况。通过LWP::UserAgent模块模拟浏览器访问并解析网页内容,最终提取所需数据。 ... [详细]
  • 百度搜索结果链接提取工具 UrlGetter V1.43
    该工具专为获取百度搜索引擎的结果页面中的网址链接而设计,能够解析并转换为原始URL。通过正则表达式匹配技术,精准提取网页链接,并提供详细的使用说明和下载资源。 ... [详细]
  • 本文介绍了一段使用jQuery实现的用户注册页面表单验证代码,适用于前端开发人员学习和参考。该示例结合了HTML、CSS和JavaScript,确保用户输入的数据格式正确。 ... [详细]
  • 探索如何使用公共数据集为您的编程项目提供动力。无论您是编程新手还是有经验的开发者,本文将为您提供实用建议和资源,帮助您启动并运行一个创新的数据驱动型项目。 ... [详细]
  • 尽管深度学习带来了广泛的应用前景,其训练通常需要强大的计算资源。然而,并非所有开发者都能负担得起高性能服务器或专用硬件。本文探讨了如何在有限的硬件条件下(如ARM CPU)高效运行深度神经网络,特别是通过选择合适的工具和框架来加速模型推理。 ... [详细]
  • PHP 过滤器详解
    本文深入探讨了 PHP 中的过滤器机制,包括常见的 $_SERVER 变量、filter_has_var() 函数、filter_id() 函数、filter_input() 函数及其数组形式、filter_list() 函数以及 filter_var() 和其数组形式。同时,详细介绍了各种过滤器的用途和用法。 ... [详细]
  • 解决Python中 'NoneType' 对象无属性 'find_all' 错误
    本文详细探讨了在Python编程中遇到的常见错误——'NoneType'对象没有属性'find_all',并深入分析其原因及解决方案。通过理解find_all函数的工作原理和常见用法,帮助读者避免类似问题。 ... [详细]
  • 本文总结了优化代码可读性的核心原则与技巧,通过合理的变量命名、函数和对象的结构化组织,以及遵循一致性等方法,帮助开发者编写更易读、维护性更高的代码。 ... [详细]
  • 本文详细介绍了如何在Kendo UI for jQuery的数据管理组件中,将行标题字段呈现为锚点(即可点击链接),帮助开发人员更高效地实现这一功能。通过具体的代码示例和解释,即使是新手也能轻松掌握。 ... [详细]
  • Vue 开发与调试工具指南
    本文介绍了如何使用 Vue 调试工具,包括克隆仓库、安装依赖包、构建项目以及在 Chrome 浏览器中加载扩展的详细步骤。 ... [详细]
  • 本文旨在探讨如何利用决策树算法实现对男女性别的分类。通过引入信息熵和信息增益的概念,结合具体的数据集,详细介绍了决策树的构建过程,并展示了其在实际应用中的效果。 ... [详细]
author-avatar
小宇宙
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有