热门标签 | HotTags
当前位置:  开发笔记 > 后端 > 正文

训练集和测试集验证集比例,训练集验证及测试集的比例

数据集一般分为以下3种。通常的方法就是先训练训练集,即最小化代价函数,然后再把测试集代入代价函数看看效果如何。1.训练集确定模型后,用于训练参数,注意训练的是普通参数而不是超参数(


关键字:常规参数、超级参数、训练集、验证集、测试集


许多机器学习过程实际上是选择模型,模型只是参数未知,因此需要得到最佳参数,以便模型更准确地描述自变量到变量的变化。 模型的培训和测量需要已知的数据集。


数据集一般分为以下三类。 如果已经有较大的标记数据集,则随机采样可以得到三种类型的数据集,三种比例为8:1:1。 如果有标记,也可以只对训练集和验证集随机采样。 如果没有注释,则将其用作培训集。 (这个部分写得不清楚,以后再更新)


通常的方法是训练训练集(即最小化成本函数),然后将测试集代入成本函数以查看效果。


1 .训练套


确定模型后,用于训练参数。 用于训练的是常规参数,而不是超级参数。 超级参数选择和训练过程实际上是独立的,训练过程不会影响超级参数。 但是,在训练结束后,可以根据训练结果考虑是否可以优化超级参数,如果可以优化,可以调整超级参数的值,开始下一次的训练)


2 .验证集(交叉验证集CV ) )。


在训练集中训练模型后,在验证集中测试模型,并测试模型是否准确,而不是训练模型的参数


3 .测试集


验证集并不影响模型中的参数,但根据验证集测试结果的精度调整参数(),因此即使模型在验证集中最佳化,验证集也会影响结果。 在众多模型中,验证集选择了代价函数最小的模型。 这个模型的成本很小,但其他数据的成本也不是很小。 所以,为了提高最后测试模型的精度,需要一套完全未经训练的测试。


4 .高偏差和高方差


4.1定义


下图是培训集与验证集的误差比较


高偏差:拟合不足。 在这种情况下,训练集和验证集之间的误差较大(如图中d=1的情况那样)。


高方差:拟合对训练集有好处,但对验证集没有好处(如d=4)


4.2和正则化


三个数据集的成本函数定义如下:


下图反映了随着高偏差时训练数据的增大,训练集和验证集误差的变化,最终均趋于平缓


因此,在偏差高的情况下,无论怎么增加训练集误差都不会变小。 所以,一旦预感到模型有高偏差,最好的方法是停下来更换模型。


方差高时:有助于增加培训数据


5 .模型优化


在各种情况下应该做什么? (从右向左看) )


参考: https://baike.baidu.com/item/超级参数/3101858


推荐阅读
  • 本文由「Vue虚拟实验室」的成员effort撰写,深入探讨了Vue CLI 3.0创建项目后的配置细节,特别是如何通过配置代理解决开发环境中的跨域问题。 ... [详细]
  • Python库在GIS与三维可视化中的应用
    Python库极大地扩展了GIS的能力,使其能够执行复杂的数据科学任务。本文探讨了几个关键的Python库,这些库不仅增强了GIS的核心功能,还推动了地理信息系统向更高层次的应用发展。 ... [详细]
  • 实用正则表达式有哪些
    小编给大家分享一下实用正则表达式有哪些,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下 ... [详细]
  • 机器学习核心概念与技术
    本文系统梳理了机器学习的关键知识点,涵盖模型评估、正则化、线性模型、支持向量机、决策树及集成学习等内容,并深入探讨了各算法的原理和应用场景。 ... [详细]
  • 本文探讨了如何在Hive(基于Hadoop)环境中编写类似SQL的语句,以去除字段中的空格。特别是在处理邮政编码等数据时,去除特定位置的空格是常见的需求。 ... [详细]
  • Vue 开发与调试工具指南
    本文介绍了如何使用 Vue 调试工具,包括克隆仓库、安装依赖包、构建项目以及在 Chrome 浏览器中加载扩展的详细步骤。 ... [详细]
  • 深入浅出TensorFlow数据读写机制
    本文详细介绍TensorFlow中的数据读写操作,包括TFRecord文件的创建与读取,以及数据集(dataset)的相关概念和使用方法。 ... [详细]
  • Vuetify 是一款基于 Vue.js 的开源 UI 框架,以其精致的 Material Design 风格组件库在全球范围内受到广泛欢迎。 ... [详细]
  • LambdaMART算法详解
    本文详细介绍了LambdaMART算法的背景、原理及其在信息检索中的应用。首先回顾了LambdaMART的发展历程,包括其前身RankNet和LambdaRank,然后深入探讨了LambdaMART如何结合梯度提升决策树(GBDT)和LambdaRank来优化排序问题。 ... [详细]
  • 全能终端工具推荐:高效、免费、易用
    介绍一款备受好评的全能型终端工具——MobaXterm,它不仅功能强大,而且完全免费,适合各类用户使用。 ... [详细]
  • Flowable系列教程:运用ProcessEngineConfigurator实现高级流程引擎配置
    本文探讨了通过ProcessEngineConfigurator接口实现对Flowable流程引擎的高级配置方法。这种方法允许开发者通过自定义配置器来增强或修改流程引擎的行为。 ... [详细]
  • Vue 项目构建与部署指南
    本文将指导您完成Vue项目的构建和部署过程,包括环境搭建、项目初始化及配置、以及最终的部署步骤。 ... [详细]
  • Vue项目中应用骨架屏实践
    在当前开发的项目中,由于登录过程涉及多次重定向,导致用户体验不佳。为了改善这一状况,本文介绍了如何使用vue-skeleton-webpack-plugin插件在Vue项目中实现骨架屏,以减少用户感受到的白屏时间。 ... [详细]
  • 解决Vue项目离线创建问题
    当使用vue-cli工具通过命令`vue init webpack demo`创建Vue项目时,可能会遇到连接超时错误,这通常是因为网络问题导致无法访问远程服务器。本文将介绍如何通过离线方式成功创建Vue项目。 ... [详细]
  • 在Ubuntu 16.04中使用Anaconda安装TensorFlow
    本文详细介绍了如何在Ubuntu 16.04系统上通过Anaconda环境管理工具安装TensorFlow。首先,需要下载并安装Anaconda,然后配置环境变量以确保系统能够识别Anaconda命令。接着,创建一个特定的Python环境用于安装TensorFlow,并通过指定的镜像源加速安装过程。最后,通过一个简单的线性回归示例验证TensorFlow的安装是否成功。 ... [详细]
author-avatar
小宇宙
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有