当前位置: 开发笔记 > 后端 > 正文

基于scikit-learn的SVM实战

作者：1098502132_027279 | 来源：互联网 | 2023-07-25 23:04

写在前面支持向量机（SupportVectorMachine）是一种二类分类模型。他的基本模型是定义在特征空间上的间隔最大的线性分类器，此外如果使用了核技巧之后还可以称为非线性分类器

写在前面

支持向量机（Support Vector Machine）是一种二类分类模型。他的基本模型是定义在特征空间上的间隔最大的线性分类器，此外如果使用了核技巧之后还可以称为非线性分类器。最近时间比较紧张，就先不整理SVM相关的理论知识点，等以后有时间了再整理（也可以当做复习）。今天这篇主要是以SVM算法的实战（scikit-learn）为主，同时也会提炼几点SVM算法重点知识。

参考：scikit-learn 支持向量机算法库使用小结

1.scikit-learn SVM库简介

scikit-learn中SVM的算法库分为两类，一类是分类的算法库，包括 SVC， NuSVC，和LinearSVC 3个类。另一类是回归算法库，包括 SVR， NuSVR，和LinearSVR 3个类。相关的类都包裹在sklearn.svm模块之中。
对于SVC， NuSVC，和LinearSVC 3个分类的类，SVC和 NuSVC差不多，区别仅仅在于对损失的度量方式不同，而LinearSVC从名字就可以看出，他是线性分类，也就是不支持各种低维到高维的核函数，仅仅支持线性核函数，对线性不可分的数据不能使用。
同样的，对于SVR， NuSVR，和LinearSVR 3个回归的类， SVR和NuSVR差不多，区别也仅仅在于对损失的度量方式不同。LinearSVR是线性回归，只能使用线性核函数。
我们使用这些类的时候，如果有经验知道数据是线性可以拟合的，那么使用LinearSVC去分类或者LinearSVR去回归，它们不需要我们去慢慢的调参去选择各种核函数以及对应参数，速度也快。如果我们对数据分布没有什么经验，一般使用SVC去分类或者SVR去回归，这就需要我们选择核函数以及对核函数调参了。

什么特殊场景需要使用NuSVC分类和 NuSVR 回归呢？如果我们对训练集训练的错误率或者说支持向量的百分比有要求的时候，可以选择NuSVC分类和 NuSVR 。它们有一个参数来控制这个百分比。

2. SVM大类算法回顾

2.1 SVM分类算法

原始形式：

其中m为样本个数；w，b为分离超平面的系数；ξi为第i个样本的松弛系数； C为惩罚系数。ϕ(xi)为低维到高维的映射函数。

对偶形式：

对偶形式是通过拉格朗日函数将原始形式表达式对偶化得到的，其中α为拉格朗日系数向量，K(xi,xj)为我们要使用的核函数。

2.2 SVM回归算法

原始形式：

其中m为样本个数；w,b是回归超平面的w∙xi+b=0系数； ξ∨i，ξ∧i为第i个样本的松弛系数； C为惩罚系数；ϵ为损失边界，到超平面距离小于ϵ的训练集的点没有损失。ϕ(xi)为低维到高维的映射函数。

对偶形式：

其中和原始形式不同的α∨，α∧为拉格朗日系数向量。K(xi,xj)为我们要使用的核函数。

3.SVM分类算法库参数小结

4.SVM回归算法库参数小结

5.SVM算法库其他调参要点

上面已经对scikit-learn中类库的参数做了总结，这里对其他的调参要点做一个小结。
　　　　1）一般推荐在做训练之前对数据进行归一化，当然测试集中的数据也需要归一化。。
　　　　2）在特征数非常多的情况下，或者样本数远小于特征数的时候，使用线性核，效果已经很好，并且只需要选择惩罚系数C即可。
　　　　3）在选择核函数时，如果线性拟合不好，一般推荐使用默认的高斯核'rbf'。这时我们主要需要对惩罚系数C和核函数参数γ进行艰苦的调参，通过多轮的交叉验证选择合适的惩罚系数C和核函数参数γ。
　　　　4）理论上高斯核不会比线性核差，但是这个理论却建立在要花费更多的时间来调参上。所以实际上能用线性核解决问题我们尽量使用线性核。

以上~

推荐阅读

python
利用OpenCV和线性SVM实现人脸识别

本文介绍如何使用OpenCV和线性支持向量机（SVM）模型来开发一个简单的人脸识别系统，特别关注在只有一个用户数据集时的处理方法。 ... [详细]

蜡笔小新 2024-11-13 14:50:37
python
scikitlearn学习之SVM算法

分隔超平面：将数据集分割开来的直线叫做分隔超平面。超平面：如果数据集是N维的，那么就需要N-1维的某对象来对数据进行分割。该对象叫做超平面，也就是分类的决策边界。间隔：一个点 ... [详细]

蜡笔小新 2024-10-14 22:47:51
多线程
机器学习核心概念与技术

本文系统梳理了机器学习的关键知识点，涵盖模型评估、正则化、线性模型、支持向量机、决策树及集成学习等内容，并深入探讨了各算法的原理和应用场景。 ... [详细]

蜡笔小新 2024-12-22 09:15:30
多线程
支持向量机（SVM）算法综述

支持向量机（Support Vector Machine, SVM）是由Cortes和Vapnik于1995年首次提出的一种机器学习算法。SVM在处理小样本、非线性及高维模式识别问题上表现出显著的优势，并广泛应用于函数拟合等其他机器学习任务中。 ... [详细]

蜡笔小新 2024-12-01 15:25:08
python
AI炼金术：KNN分类器的构建与应用

本文介绍了如何使用Python及其相关库（如NumPy、scikit-learn和matplotlib）构建KNN分类器模型。通过详细的数据准备、模型训练及新样本预测的过程，展示KNN算法的实际操作步骤。 ... [详细]

蜡笔小新 2024-11-21 11:40:55
http
机器学习算法：SVM（支持向量机）

SVM算法（SupportVectorMachine，支持向量机）的核心思想有2点：1、如果数据线性可分，那么基于最大间隔的方式来确定超平面，以确保全局最优， ... [详细]

蜡笔小新 2024-11-14 04:33:58
python
机器学习的持续探索与进展

在机器学习领域，深入探讨了概率论与数理统计的基础知识，特别是这些理论在数据挖掘中的应用。文章重点分析了偏差（Bias）与方差（Variance）之间的平衡问题，强调了方差反映了不同训练模型之间的差异，例如在K折交叉验证中，不同模型之间的性能差异显著。此外，还讨论了如何通过优化模型选择和参数调整来有效控制这一平衡，以提高模型的泛化能力。 ... [详细]

蜡笔小新 2024-11-11 10:27:39
http
数据分析(4)sklearn入门

如何选择机器学习方法http:scikit-learn.orgstabletutorialmachine_learning_mapindex.html通用学习模式只需要先定义 ... [详细]

蜡笔小新 2024-10-21 03:54:07
http
广义线性模型（Generalized Linear Models, GLM）

　　上一篇博客中我们说到线性回归和逻辑回归之间隐隐约约好像有什么关系，到底是什么关系呢？我们就来探讨一下吧。（这一篇数学推导占了大多数，可能看起来会略有枯燥，但这本身就是一个把之前算法 ... [详细]

蜡笔小新 2024-12-24 19:32:12
http
Coursera ML 机器学习

2019独角兽企业重金招聘Python工程师标准线性回归算法计算过程CostFunction梯度下降算法多变量回归![选择特征](https:static.oschina.n ... [详细]

蜡笔小新 2024-12-22 16:09:09
python
Python中HOG图像特征提取与应用

本文介绍如何在Python中使用HOG（Histogram of Oriented Gradients）算法进行图像特征提取，探讨其在目标检测中的应用，并详细解释实现步骤。 ... [详细]

蜡笔小新 2024-12-21 15:32:13
python
LambdaMART算法详解

本文详细介绍了LambdaMART算法的背景、原理及其在信息检索中的应用。首先回顾了LambdaMART的发展历程，包括其前身RankNet和LambdaRank，然后深入探讨了LambdaMART如何结合梯度提升决策树（GBDT）和LambdaRank来优化排序问题。 ... [详细]

蜡笔小新 2024-12-18 12:30:35
python
CART决策树与随机森林详解

本文深入探讨了CART（分类与回归树）的基本原理及其在随机森林中的应用。重点介绍了CART的分裂准则、防止过拟合的方法、处理样本不平衡的策略以及其在回归问题中的应用。此外，还详细解释了随机森林的构建过程、样本均衡处理、OOB估计及特征重要性的计算。 ... [详细]

蜡笔小新 2024-12-16 16:54:15
python
智慧城市建设现状及未来趋势

随着新基建政策的推进及‘十四五’规划的实施，我国正步入以5G、人工智能等先进技术引领的智慧经济新时代。规划强调加速数字化转型，促进数字政府建设，新基建政策亦倡导城市基础设施的全面数字化。本文探讨了智慧城市的发展背景、全球及国内进展、市场规模、架构设计，以及百度、阿里、腾讯、华为等领军企业在该领域的布局策略。 ... [详细]

蜡笔小新 2024-12-16 16:43:21
python
山东大学机器学习复习

这是我在复习时整理的笔记，过一遍就稳了，建议还是把PPT过一遍，老师考的都是基础题，大部分都在PPT上，特别是 ... [详细]

蜡笔小新 2024-10-11 22:31:15

1098502132_027279

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章