热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

数据挖掘小白系列!机器学习中调参的基本思想

本文章只用于学习交流不用于任何商业行为,所有知识点资料来源于网络,如有任何不当之处请私信联系,作者会及时改正

本文中总结自文档所有标注的页码都是附件参考文档中的页码

由于markdown不支持附件下载,附件链接如下

http://note.youdao.com/noteshare?id=c0fdd78d4a7d79165f4406402caca630

1大家都不说调参的原因

=============================

其一是因为,调参的方式总是根据数据的状况而定,所
以没有办法一概而论;其二是因为,其实大家也都没有特别好的办法。

2常规调参路线

=============================

画学习曲线,或者网格搜索,我们能够探索到调参边缘(代价可能是训练一次模型要跑三天三夜)

3高手的调参思想

=============================

1)非常正确的调参思路和方法
2)对模型评估指标的理解
3)对数据的感觉和经验
4)用洪荒之力去不断地尝试。

1)非常正确的调参思路和方法

=============================

第一步是要找准目标:我们要做什么?
一般来说,这个目标是提升某个模型评估指标,找准了这个目标,我们就需要思考:模型在未知数据上的指标受什么因素影响?
对模型效果来说:分类->准确率,回归->MSE; 对模型整体来说:泛化性+效果
而衡量模型在未知数据上的准确率的指标叫做泛化误差
总结:一般调的就是泛化误差,让模型在泛化误差最低点
PS:小数据可以直接做这个图出来,大数据就要根据对模型的理解,判断在图形的哪里.比如随机森林树模型容易过拟合,那一般就是在最低点的右边.需要在保持准确率的同时把复杂度降下来
数据挖掘小白系列!机器学习中调参的基本思想
泛化误差详见:https://www.cnblogs.com/juanjiang/p/10774616.html

2)对模型评估指标的理解

=============================

这个是太重要的了,打比赛的都知道.在不同需求下,挑选正确能让模型实际效果提升一大截,这个要自己慢慢学习,没得办法
常见各种损失函数1

常见各种损失函数2

3)对数据的感觉和经验

=============================

个人觉得就是对数据集/业务的了解程度.典型的例子就是信用卡用户.1个失信用户99个守约用户,那直接蒙全是守约用户那模型的准确率都有99%,然后这明显会让我们血亏,这是都对数据集调整或者模型权重调整就很重要了.

4)用洪荒之力去不断地尝试。

=============================

买个***配置,让电表转起来!

4个人对调参的一点想法

=============================

调参实际情况是很复杂.
从手段上来说:AUTOML+传统
从数据上来说:如果是分类的我可能会百分比抽出来,在小数据跑个大概的范围出来.大数据上应用


推荐阅读
  • 本文分享了一个关于在C#中使用异步代码的问题,作者在控制台中运行时代码正常工作,但在Windows窗体中却无法正常工作。作者尝试搜索局域网上的主机,但在窗体中计数器没有减少。文章提供了相关的代码和解决思路。 ... [详细]
  • 如何实现织梦DedeCms全站伪静态
    本文介绍了如何通过修改织梦DedeCms源代码来实现全站伪静态,以提高管理和SEO效果。全站伪静态可以避免重复URL的问题,同时通过使用mod_rewrite伪静态模块和.htaccess正则表达式,可以更好地适应搜索引擎的需求。文章还提到了一些相关的技术和工具,如Ubuntu、qt编程、tomcat端口、爬虫、php request根目录等。 ... [详细]
  • 本文介绍了贝叶斯垃圾邮件分类的机器学习代码,代码来源于https://www.cnblogs.com/huangyc/p/10327209.html,并对代码进行了简介。朴素贝叶斯分类器训练函数包括求p(Ci)和基于词汇表的p(w|Ci)。 ... [详细]
  • Python入门后,想要从事自由职业可以做哪方面工作?1.爬虫很多人入门Python的必修课之一就是web开发和爬虫。但是这两项想要赚钱的话 ... [详细]
  • Monkey《大话移动——Android与iOS应用测试指南》的预购信息发布啦!
    Monkey《大话移动——Android与iOS应用测试指南》的预购信息已经发布,可以在京东和当当网进行预购。感谢几位大牛给出的书评,并呼吁大家的支持。明天京东的链接也将发布。 ... [详细]
  • 本文详细介绍了SQL日志收缩的方法,包括截断日志和删除不需要的旧日志记录。通过备份日志和使用DBCC SHRINKFILE命令可以实现日志的收缩。同时,还介绍了截断日志的原理和注意事项,包括不能截断事务日志的活动部分和MinLSN的确定方法。通过本文的方法,可以有效减小逻辑日志的大小,提高数据库的性能。 ... [详细]
  • 本文介绍了在Python3中如何使用选择文件对话框的格式打开和保存图片的方法。通过使用tkinter库中的filedialog模块的asksaveasfilename和askopenfilename函数,可以方便地选择要打开或保存的图片文件,并进行相关操作。具体的代码示例和操作步骤也被提供。 ... [详细]
  • EPICS Archiver Appliance存储waveform记录的尝试及资源需求分析
    本文介绍了EPICS Archiver Appliance存储waveform记录的尝试过程,并分析了其所需的资源容量。通过解决错误提示和调整内存大小,成功存储了波形数据。然后,讨论了储存环逐束团信号的意义,以及通过记录多圈的束团信号进行参数分析的可能性。波形数据的存储需求巨大,每天需要近250G,一年需要90T。然而,储存环逐束团信号具有重要意义,可以揭示出每个束团的纵向振荡频率和模式。 ... [详细]
  • 本文介绍了数据库的存储结构及其重要性,强调了关系数据库范例中将逻辑存储与物理存储分开的必要性。通过逻辑结构和物理结构的分离,可以实现对物理存储的重新组织和数据库的迁移,而应用程序不会察觉到任何更改。文章还展示了Oracle数据库的逻辑结构和物理结构,并介绍了表空间的概念和作用。 ... [详细]
  • Windows下配置PHP5.6的方法及注意事项
    本文介绍了在Windows系统下配置PHP5.6的步骤及注意事项,包括下载PHP5.6、解压并配置IIS、添加模块映射、测试等。同时提供了一些常见问题的解决方法,如下载缺失的msvcr110.dll文件等。通过本文的指导,读者可以轻松地在Windows系统下配置PHP5.6,并解决一些常见的配置问题。 ... [详细]
  • 本文介绍了在Mac上搭建php环境后无法使用localhost连接mysql的问题,并通过将localhost替换为127.0.0.1或本机IP解决了该问题。文章解释了localhost和127.0.0.1的区别,指出了使用socket方式连接导致连接失败的原因。此外,还提供了相关链接供读者深入了解。 ... [详细]
  • 本文介绍了绕过WAF的XSS检测机制的方法,包括确定payload结构、测试和混淆。同时提出了一种构建XSS payload的方法,该payload与安全机制使用的正则表达式不匹配。通过清理用户输入、转义输出、使用文档对象模型(DOM)接收器和源、实施适当的跨域资源共享(CORS)策略和其他安全策略,可以有效阻止XSS漏洞。但是,WAF或自定义过滤器仍然被广泛使用来增加安全性。本文的方法可以绕过这种安全机制,构建与正则表达式不匹配的XSS payload。 ... [详细]
  • 数据结构与算法的重要性及基本概念、存储结构和算法分析
    数据结构与算法在编程领域中的重要性不可忽视,无论从事何种岗位,都需要掌握数据结构和算法。本文介绍了数据结构与算法的基本概念、存储结构和算法分析。其中包括线性结构、树结构、图结构、栈、队列、串、查找、排序等内容。此外,还介绍了图论算法、贪婪算法、分治算法、动态规划、随机化算法和回溯算法等高级数据结构和算法。掌握这些知识对于提高编程能力、解决问题具有重要意义。 ... [详细]
  • 美DARPA利用人工智能技术识别敌国在“灰色地带”的意图
    C4ISRNET网站报道称,近日,美国国防部高级研究计划局(DARPA)启动“通过规划活动态势场景收集和监测(COMPASS)”项目,意欲利用人工智能技术打入敌人内部,在战争“灰色 ... [详细]
  • 【Python学习】基于 KNN 模型的葡萄酒种类预测
    算法原理K最近邻(KNN,k-NearestNeighbor)分类算法是数据挖掘分类技术中最简单的方法之一。给定测试样本,基于某种距离度量找出训练集中与其最靠近的K个训练样本,然后 ... [详细]
author-avatar
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有