机器学习（周志华）学习笔记调参和最终模型

作者：诚仔儿 | 来源：互联网 | 2023-05-18 05:54

1.大多数学习算法都有参数需要设定，参数的配置不同，学得的模型的性能不同。2.对每种参数配置都训练出模型，然后把对应最好模型的参数作为结

1.大多数学习算法都有参数需要设定，参数的配置不同，学得的模型的性能不同。

2.对每种参数配置都训练出模型，然后把对应最好模型的参数作为结果，这样的考虑基本是正确的

有些参数是实数范围内取值，不能穷举。因此对每种参数都训练出来是不可能的，现实中常用的做法，是对每个参数选定一个范围和变化的步长 -- 如在实数范围[0,0.2] 步长选0.05 则有 0 0.05 0.1 0.15 0.2 这5中可能的参数取值。

进行这样的折中以后调参数依旧很困难，当有3个参数的时候所有的情况就是 5^3 = 125 ，即有125个模型需要训练。

3. 为什么要调参，又要将数据集D 划分为训练集S 和测试集T 由测试误差估计泛化误差？

为了选择合适的算法，和合适的参数配置，选择完成后用数据集D重新训练模型，然后提交给用户。（得到最终模型）

推荐阅读

算法
美团推荐系统：机器学习优化重排序模型

在互联网信息爆炸的时代，当用户需求模糊或难以通过精确查询表达时，推荐系统成为解决信息过载的有效手段。美团作为国内领先的O2O平台，通过深入分析用户行为，运用先进的机器学习技术优化推荐算法，提升用户体验。 ... [详细]

蜡笔小新 2024-12-17 17:56:15
算法
机器学习公开课备忘录（三）机器学习算法的应用与大数据集

机器学习公开课备忘录（三）机器学习算法的应用与大数据集对应机器学习公开课第六周和第10周机器学习算法模型的选择与评价1、对于一个data，可以将data划分为trainingset、t ... [详细]

蜡笔小新 2024-12-17 15:54:47
算法
支持向量机（SVM）方法的扩展与优化

支持向量机（SVM）是一种基于统计学习理论的模型，主要在VC维和结构风险最小化的理论基础上发展而来。本文将探讨几种不同的SVM方法及其优化策略，旨在提高模型的效率和适用性。 ... [详细]

蜡笔小新 2024-12-17 14:27:48
图像识别
2017年人工智能领域的十大里程碑事件回顾

随着2018年的临近，我们一同回顾过去一年中人工智能领域的重要进展。这一年，无论是政策层面的支持，还是技术上的突破，都显示了人工智能发展的迅猛势头。以下是精选的2017年人工智能领域最具影响力的事件。 ... [详细]

蜡笔小新 2024-12-16 17:59:16
算法
CART决策树与随机森林详解

本文深入探讨了CART（分类与回归树）的基本原理及其在随机森林中的应用。重点介绍了CART的分裂准则、防止过拟合的方法、处理样本不平衡的策略以及其在回归问题中的应用。此外，还详细解释了随机森林的构建过程、样本均衡处理、OOB估计及特征重要性的计算。 ... [详细]

蜡笔小新 2024-12-16 16:54:15
算法
智慧城市建设现状及未来趋势

随着新基建政策的推进及‘十四五’规划的实施，我国正步入以5G、人工智能等先进技术引领的智慧经济新时代。规划强调加速数字化转型，促进数字政府建设，新基建政策亦倡导城市基础设施的全面数字化。本文探讨了智慧城市的发展背景、全球及国内进展、市场规模、架构设计，以及百度、阿里、腾讯、华为等领军企业在该领域的布局策略。 ... [详细]

蜡笔小新 2024-12-16 16:43:21
tensorflow
在Ubuntu 16.04中使用Anaconda安装TensorFlow

本文详细介绍了如何在Ubuntu 16.04系统上通过Anaconda环境管理工具安装TensorFlow。首先，需要下载并安装Anaconda，然后配置环境变量以确保系统能够识别Anaconda命令。接着，创建一个特定的Python环境用于安装TensorFlow，并通过指定的镜像源加速安装过程。最后，通过一个简单的线性回归示例验证TensorFlow的安装是否成功。 ... [详细]

蜡笔小新 2024-12-11 19:07:39
算法
深入探讨机器学习中的查准率、查全率及F1分数

本文详细解析了机器学习领域中常用的性能评估指标——查准率、查全率及其综合评价指标F1分数，通过具体案例分析这些指标在实际应用中的重要性和差异。 ... [详细]

蜡笔小新 2024-12-11 18:55:10
数据挖掘
机器学习与数据挖掘：基于Filter的特征选择——聚焦法

聚焦法是一种采用穷尽搜索策略的Filter型特征选择方法，其核心在于寻找能有效区分不同样本的最小特征集合。此方法的评估标准主要依赖于一致性测量。 ... [详细]

蜡笔小新 2024-12-11 15:12:58
算法
初探K近邻算法与Scikit-learn API

本文介绍了Scikit-learn这一强大的机器学习库，重点探讨了其最新稳定版本及其安装方法，并通过一个简单的K近邻算法实例展示了如何使用Scikit-learn进行模型训练和预测。 ... [详细]

蜡笔小新 2024-12-10 11:27:51
算法
《MySQL DBA修炼之道》正式上架

我的新书已正式上市，可在当当和京东购买。如果您喜欢本书，欢迎留下宝贵评价。本书历时3至4年完成，内容涵盖MySQL的安装、配置、开发、测试、监控和运维等方面，旨在帮助读者系统地学习MySQL。 ... [详细]

蜡笔小新 2024-12-08 20:49:40
算法
李宏毅机器学习笔记：无监督学习之线性方法

无监督学习主要涵盖两大类别：一是聚类与降维，旨在简化数据结构；二是生成模型，用于从编码生成新的数据样本。本文深入探讨了这些技术的具体应用和理论基础。 ... [详细]

蜡笔小新 2024-12-08 18:11:04
图像识别
吴恩达推出TensorFlow实践课程，Python基础即可入门，四个月掌握核心技能

量子位报道，deeplearning.ai最新发布了TensorFlow实践课程，适合希望使用TensorFlow开发AI应用的学习者。该课程涵盖机器学习模型构建、图像识别、自然语言处理及时间序列预测等多个方面。 ... [详细]

蜡笔小新 2024-12-08 17:26:10
算法
机器学习算法（五）—— 最优化方法：梯度下降

一、什么是梯度下降梯度下降是迭代法的一种,可以用于求解最小二乘问题(线性和非线性都可以)。在求解机器学习算法的模型参数，即无约束优化问题时，梯度下降（GradientDescent ... [详细]

蜡笔小新 2024-12-07 19:53:54
数据挖掘
数据挖掘领域的十大重要算法解析

本文深入探讨了数据挖掘领域内的十个经典算法，包括但不限于C4.5决策树、K-Means聚类、支持向量机等。这些算法不仅在理论上有深厚的数学基础，也在实践中展现出强大的应用价值。 ... [详细]

蜡笔小新 2024-12-07 18:26:46

诚仔儿

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章