当前位置: 开发笔记 > 后端 > 正文

sklearnsvm调参_网舟科技|使用SVM模型进行分类预测时的参数调整技巧

作者：LST---诗ting | 来源：互联网 | 2023-08-17 13:05

原标题：网舟科技|使用SVM模型进行分类预测时的参数调整技巧SVM是一种在小样本低维度下比较适用的非线性建模方法，相对比其他常用的算法(比如决策树)&#

原标题：网舟科技 | 使用SVM模型进行分类预测时的参数调整技巧

SVM是一种在小样本低维度下比较适用的非线性建模方法，相对比其他常用的算法(比如决策树)，模型根据调参的好坏所表现的性能波动非常大。当我们决定使用SVM模型，模型的效果非常差，甚至还不如传统的线性模型的时候，很有可能使我们设置的参数范围不合理。

以下是一些个人的调参经验：

一：如果判断调参范围是否合理。

正常来说，当我们参数在合理范围时，模型在训练集和测试集的准确率都比较高；当模型在训练集上准确率比较高，而测试集上的准确率比较低时，模型处于过拟合状态；当模型训练集和测试集上准确率都比较低，模型处于欠拟合状态。正常来说测试集上的准确率都会比训练集要低。

二：如何确定参数的调节方向。

当使用线性支持向量机时，我们只需调节正则化参数C的范围即可。

这里我们以rbf作为核的SVM为例，这时候我们需要调节的参数是正则化参数C和核函数参数gamma。为了保证调参的精确度，一般我们都使用网格搜索法来确定参数。

网格搜索法就是给出各个参数的调节范围和调节步长，计算出每个参数的可能取值，然后遍历所有的组合情况，返回最佳的参数值。

C和gamma的有效范围是~。C表示模型对误差的惩罚系数；gamma反映了了数据映射到高维特征空间后的分布，gamma越大，支持向量越多，gamma值越小，支持向量越少。C越大，模型越容易过拟合；C越小，模型越容易欠拟合。gamma越小，模型的泛化性变好，但过小，模型实际上会退化为线性模型；gamma越大，理论上SVM可以拟合任何非线性数据。为维持模型在过拟合和欠拟合之间的平衡，往往最佳的参数范围是C比较大，gamma比较小；或者C比较小，gamma比较大。也就是说当模型欠拟合时，我们需要增大C或者增大gamma，不能同时增加，调节后如果模型过拟合，我们又很难判断是C过大了，还是gamma过大了；同理，模型欠拟合的时候，我们需要减小C或者减小gamma。

当然我们也可以可视化模型在各个参数下的表现来帮助我们确定下一步的调节方向。

图：可视化SVM调参的一个例子

三：设置合理的调参起始点。

因为SVM本身是一个非线性模型，调参的时候根据项目的不同，每一次都是从头开始的。如果想把上一个项目调好的参数套用到下一个项目上，往往没什么效果。正常情况下，我们都会先设置C和gamma的值在0.1~10之间，然后在根据模型的表现，每次乘以0.1或者10作为一个步长，当确定大致范围后，再细化搜索区间。

四：代码示例。

使用sklearn库。

SVM分类：

SVR回归：

作者：网舟科技——龚林返回搜狐，查看更多

责任编辑：

推荐阅读

正则
弱监督目标检测之一最小熵隐变量模型

目标检测是计算机视觉一个非常重要的子任务。目标检测需要发现并准确定位自然图片中的物体。在2012年之前，目标检测主要基于手工设计的特征以及传统分类器。2012年以后，出现了 ... [详细]

蜡笔小新 2024-10-20 17:50:44
正则
Java面试题解析

本文详细介绍了Java编程语言中的核心概念和常见面试问题，包括集合类、数据结构、线程处理、Java虚拟机（JVM）、HTTP协议以及Git操作等方面的内容。通过深入分析每个主题，帮助读者更好地理解Java的关键特性和最佳实践。 ... [详细]

蜡笔小新 2024-12-27 13:55:14
正则
机器学习中的相似度度量与模型优化

本文探讨了机器学习中常见的相似度度量方法，包括余弦相似度、欧氏距离和马氏距离，并详细介绍了如何通过选择合适的模型复杂度和正则化来提高模型的泛化能力。此外，文章还涵盖了模型评估的各种方法和指标，以及不同分类器的工作原理和应用场景。 ... [详细]

蜡笔小新 2024-12-26 18:10:02
正则
DLP数据泄露检测原理浅析

最近团队在部署DLP，作为一个技术人员对于黑盒看不到的地方还是充满了好奇心。多次咨询乙方人员DLP的算法原理是什么，他们都以商业秘密为由避而不谈，不得已只能自己查资料学习，于是有了下面的浅见。身为甲方，虽然不需要开发DLP产品，但是也有必要弄明白DLP基本的原理。俗话说工欲善其事必先利其器，只有在懂这个工具的原理之后才能更加灵活地使用这个工具，即使出现意外情况也能快速排错，越接近底层，越接近真相。根据DLP的实际用途，本文将DLP检测分为2部分，泄露关键字检测和近似重复文档检测。 ... [详细]

蜡笔小新 2024-12-25 18:19:32
正则
机器学习核心概念与技术

本文系统梳理了机器学习的关键知识点，涵盖模型评估、正则化、线性模型、支持向量机、决策树及集成学习等内容，并深入探讨了各算法的原理和应用场景。 ... [详细]

蜡笔小新 2024-12-22 09:15:30
gcc
大数据时代的机器学习：人工特征工程与线性模型的局限

本文探讨了在大数据背景下，人工特征工程与线性模型的应用及其局限性。随着数据量的激增和技术的进步，传统的特征工程方法面临挑战，文章提出了未来发展的可能方向。 ... [详细]

蜡笔小新 2024-12-07 11:58:58
gcc
机器学习的持续探索与进展

在机器学习领域，深入探讨了概率论与数理统计的基础知识，特别是这些理论在数据挖掘中的应用。文章重点分析了偏差（Bias）与方差（Variance）之间的平衡问题，强调了方差反映了不同训练模型之间的差异，例如在K折交叉验证中，不同模型之间的性能差异显著。此外，还讨论了如何通过优化模型选择和参数调整来有效控制这一平衡，以提高模型的泛化能力。 ... [详细]

蜡笔小新 2024-11-11 10:27:39
正则
深度学习: 目标函数

Introduction目标函数是深度学习之心，是模型训练的发动机。目标函数(objectfunction)损失函数(lossfunction)代价函数(costfunction) ... [详细]

蜡笔小新 2024-10-18 18:45:28
正则
深入理解 H5C3 和 JavaScript 核心问题

本文详细探讨了 H5C3 和 JavaScript 中的一些核心编程问题，通过实例解析和代码示例，帮助开发者更好地理解和应用这些技术。 ... [详细]

蜡笔小新 2024-12-26 18:28:05
正则
百度搜索结果链接提取工具 UrlGetter V1.43

该工具专为获取百度搜索引擎的结果页面中的网址链接而设计，能够解析并转换为原始URL。通过正则表达式匹配技术，精准提取网页链接，并提供详细的使用说明和下载资源。 ... [详细]

蜡笔小新 2024-12-24 18:46:35
正则
探索电路与系统的起源与发展

本文回顾了电路与系统的发展历程，从电的早期发现到现代电子器件的应用。文章不仅涵盖了基础理论和关键发明，还探讨了这一学科对计算机、人工智能及物联网等领域的深远影响。 ... [详细]

蜡笔小新 2024-12-24 13:57:05
正则
解决Python中 'NoneType' 对象无属性 'find_all' 错误

本文详细探讨了在Python编程中遇到的常见错误——'NoneType'对象没有属性'find_all'，并深入分析其原因及解决方案。通过理解find_all函数的工作原理和常见用法，帮助读者避免类似问题。 ... [详细]

蜡笔小新 2024-12-23 16:40:43
正则
实用正则表达式有哪些

小编给大家分享一下实用正则表达式有哪些，相信大部分人都还不怎么了解，因此分享这篇文章给大家参考一下，希望大家阅读完这篇文章后大有收获，下 ... [详细]

蜡笔小新 2024-12-22 13:59:04
正则
Java中罗马数字计算器的字符验证与循环输入处理

本文介绍如何在Java中实现一个罗马数字计算器，重点在于如何通过循环和字符验证确保用户输入合法。我们将探讨创建一个方法来检查字符串中的非法字符，并使用循环不断提示用户输入，直到输入符合要求。 ... [详细]

蜡笔小新 2024-12-20 16:02:02
正则
支持向量机（SVM）方法的扩展与优化

支持向量机（SVM）是一种基于统计学习理论的模型，主要在VC维和结构风险最小化的理论基础上发展而来。本文将探讨几种不同的SVM方法及其优化策略，旨在提高模型的效率和适用性。 ... [详细]

蜡笔小新 2024-12-17 14:27:48

LST---诗ting

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章