当前位置: 开发笔记 > 后端 > 正文

四个小项目完全解读支持向量机|文末附代码下载方法

作者：台湾金门高粱酒业集团股份公司 | 来源：互联网 | 2023-09-13 12:17

来源：https:medium.com翻译：小马支持向量机算法的基础是最大间隔分类器，最大间隔分类器虽然很简单，但不能应用于

来源&＃xff1a;https://medium.com/
翻译&＃xff1a;小马

支持向量机算法的基础是最大间隔分类器&＃xff0c;最大间隔分类器虽然很简单&＃xff0c;但不能应用于大部分数据&＃xff0c;因为大部分属是非线性数据&＃xff0c;无法用线性分类器进行分类&＃xff0c;解决方案是对特征空间进行核函数映射&＃xff0c;然后再运行最大间隔分类器。

本文跳过枯燥乏味的算法推导过程&＃xff0c;循序渐进的介绍支持向量机分类原理&＃xff0c;并通过四个小项目快速的理解支持向量机的线性分类&＃xff0c;非线性分类和参数调参过程。

文末附代码和数据下载方法&＃xff0c;可直接运行

1.最大间隔分类器

最大间隔分类器使用超平面进行分类。

什么是超平面&＃xff1f;

假如特征空间是 p 维&＃xff0c;超平面就是 p-1维&＃xff0c;为了可视化超平面&＃xff0c;假设特征空间是3个维度的&＃xff0c;那么超平面是2维的。

超平面表达式如下&＃xff1a;

如果数据的特征满足上式&＃xff0c;那么该点落在超平面上&＃xff0c;若不满足&＃xff0c;则该点处于超平面的两侧。

超平面如下图&＃xff1a;

一般来说&＃xff0c;如果数据可以用超平面完美地进行分离&＃xff0c;那么超平面的数量是无限的&＃xff0c;因为它可以向上移动、向下移动&＃xff0c;或者对该超平面进行小角度的选择而不与观测数据接触。

超平面是无限的&＃xff0c;如何选择最优超平面&＃xff1f;

最优超平面是离观测点最远的分离超平面&＃xff0c;在给定超平面的情况下&＃xff0c;我们计算每个训练数据到超平面的距离&＃xff0c;这就是所谓的间隔&＃xff0c;最优超平面也就是间隔最大的分类器。如下图&＃xff1a;

正如你所看到的&＃xff0c;有三个观测点到超平面的距离相等&＃xff0c;这三个观测点就是支持向量&＃xff0c;若这三个观测点的位置改变了&＃xff0c;超平面也会相应的改变。最大间隔分类器的性能只与这三个点相关&＃xff0c;与其他数据不相关&＃xff0c;看到这里&＃xff0c;是不是对支持向量机算法有了新的收获了&＃xff1f;

如果数据分布是非线性的&＃xff0c;不能用超平面进行分类&＃xff0c;如下图&＃xff1a;

对于这样的数据分布&＃xff0c;我们将使用核函数映射为新的特征空间&＃xff0c;再运行最大间隔分类器进行分类&＃xff0c;这种方法称为支持向量机。

2.支持向量机

支持向量机的核函数映射是一种扩展特征空间的方法&＃xff0c;核函数的核心思想是计算两个数据点的相似度。核函数的度没有限制&＃xff0c;使用度大于1的内核可以得到更灵活的决策边界&＃xff0c;如下图所示&＃xff1a;

为了更好的理解核函数的选择是如何影响SVM算法&＃xff0c;我们在四个不同的场景实现它。

项目1——线性核支持向量机

在开始之前&＃xff0c;让我们导入一些有用的库&＃xff1a;

导入需要训练和测试的数据路径&＃xff1a;

定义可多次调用的画图函数&＃xff1a;

散点图可视化数据&＃xff1a;

散点图如下&＃xff1a;

线性核支持向量机对该数据进行分类&＃xff0c;其中正则化参数C&＃61;1&＃xff0c;并使用预测值绘制超平面&＃xff08;hyperplane&＃xff09;&＃xff0c;如下图&＃xff1a;

由上图的分类结果可知&＃xff0c;当正则化参数等于1时&＃xff0c;模型对异常值不敏感。因此&＃xff0c;低的正则化参数往往泛化能力更好&＃xff0c;测试误差率大于验证误差率。

若增加正则化参数C等于100&＃xff0c;那么模型对异常点异常敏感&＃xff0c;分类结果如下图&＃xff1a;

由上图结果可知&＃xff1a;C&＃61;100时&＃xff0c;异常值能够正确分类&＃xff0c;但是分类超平面与样本点的距离非常近&＃xff0c;可以推断该模型处于过拟合状态&＃xff0c;泛化能力差。

项目2——高斯核支持向量机

若分类边界是非线性的&＃xff0c;我们常常使用高斯核进行SVM分类。

首先&＃xff0c;可视化需要分类的数据&＃xff1a;

散点图&＃xff1a;

高斯核用来衡量两个数据点的相似度&＃xff0c;公式如下&＃xff1a;

其中参数σ决定相似度指标趋于零的速度。

高斯核支持向量机训练和预测代码&＃xff1a;

预测结果及分类边界如下图&＃xff1a;

项目3——支持向量机调参

本节介绍用交叉验证方法选择模型最优参数&＃xff0c;首先下载数据集&＃xff1a;

图形如下&＃xff1a;

使用交叉验证方法选择最优参数&＃xff0c;代码如下&＃xff1a;

选择最优参数的模型&＃xff08;C&＃61;1&＃xff0c;sigma&＃61;0.1&＃xff09;来预测和画出分类边界&＃xff1a;

结果图&＃xff1a;

项目4——用SVM进行垃圾邮件分类

下载数据&＃xff0c;并用线性核进行分类&＃xff0c;得到训练准确率和测试准确率。

代码如下&＃xff1a;

得到训练准确率和测试准确率的结果分别为&＃xff1a;99.8%和98.9%。

3.小结

本文介绍了最大间隔分类器的原理&＃xff0c;若遇到非线性边界数据的分类任务&＃xff0c;则需要用支持向量机去构建模型。文章通过四个小项目解释线性核SVM&＃xff0c;高斯核SVM&＃xff0c;正则化参数C的作用以及如何用交叉验证方法选择模型的最优参数。

数据和代码获取方法&＃xff1a;扫码下面的二维码&＃xff0c;公众号后台回复“ svm" &＃xff0c;即可获取数据和代码。

推荐阅读

二维码
深入解析Socket结构与实现

本文详细介绍了Socket在Linux内核中的实现机制，包括基本的Socket结构、协议操作集以及不同协议下的具体实现。通过这些内容，读者可以更好地理解Socket的工作原理。 ... [详细]

蜡笔小新 2024-11-24 12:00:27
二维码
基于角色的权限管理在AspNetForums中的应用

本文探讨了在AspNetForums平台中实施基于角色的权限控制系统的方法，旨在为不同级别的用户提供合适的访问权限，确保系统的安全性和可用性。 ... [详细]

蜡笔小新 2024-11-23 18:42:29
二维码
弱监督目标检测之一最小熵隐变量模型

目标检测是计算机视觉一个非常重要的子任务。目标检测需要发现并准确定位自然图片中的物体。在2012年之前，目标检测主要基于手工设计的特征以及传统分类器。2012年以后，出现了 ... [详细]

蜡笔小新 2024-10-20 17:50:44
二维码
深度学习: 目标函数

Introduction目标函数是深度学习之心，是模型训练的发动机。目标函数(objectfunction)损失函数(lossfunction)代价函数(costfunction) ... [详细]

蜡笔小新 2024-10-18 18:45:28
php
scikitlearn学习之SVM算法

分隔超平面：将数据集分割开来的直线叫做分隔超平面。超平面：如果数据集是N维的，那么就需要N-1维的某对象来对数据进行分割。该对象叫做超平面，也就是分类的决策边界。间隔：一个点 ... [详细]

蜡笔小新 2024-10-14 22:47:51
okhttp
如何高效学习鸿蒙操作系统：开发者指南

本文探讨了开发者如何更有效地学习鸿蒙操作系统，提供了来自行业专家的建议，包括系统化学习方法、职业规划建议以及具体的开发技巧。 ... [详细]

蜡笔小新 2024-11-23 19:22:14
okhttp
汇编语言标识符和表达式（四）（表达式与符号定义语句）

7、表达式表达式是程序设计课程里的一个重要的基本概念，它可由运算符、操作符、括号、常量和一些符号连在一起的式子。在汇编语言中，表达式分为：数值表达式和地址表达式。（1）进制伪指令R ... [详细]

蜡笔小新 2024-11-23 15:31:08
php
计算数值平方根的方法与实现

本文介绍了使用Python和C语言编写程序来计算一个给定数值的平方根的方法。通过迭代算法，我们能够精确地得到所需的结果。 ... [详细]

蜡笔小新 2024-11-23 13:50:24
上传
全面覆盖的前端技术资源大全

本文提供了一个详尽的前端开发资源列表，涵盖了从基础入门到高级应用的各个方面，包括HTML5、CSS3、JavaScript框架及库、移动开发、API接口、工具与插件等。 ... [详细]

蜡笔小新 2024-11-23 12:05:53
上传
WebBenchmark：强大的Web API性能测试工具

本文介绍了一款名为WebBenchmark的Web API性能测试工具，该工具不仅支持HTTP和HTTPS服务的测试，还提供了丰富的功能来帮助开发者进行高效的性能评估。 ... [详细]

蜡笔小新 2024-11-23 05:24:11
缓存
七大策略降低云上MySQL成本

在全球经济放缓和通胀压力下，降低云环境中MySQL数据库的运行成本成为企业关注的重点。本文提供了一系列实用技巧，旨在帮助企业有效控制成本，同时保持高效运作。 ... [详细]

蜡笔小新 2024-11-22 10:13:40
爬虫
机器学习的持续探索与进展

在机器学习领域，深入探讨了概率论与数理统计的基础知识，特别是这些理论在数据挖掘中的应用。文章重点分析了偏差（Bias）与方差（Variance）之间的平衡问题，强调了方差反映了不同训练模型之间的差异，例如在K折交叉验证中，不同模型之间的性能差异显著。此外，还讨论了如何通过优化模型选择和参数调整来有效控制这一平衡，以提高模型的泛化能力。 ... [详细]

蜡笔小新 2024-11-11 10:27:39
爬虫
支持向量机（SVM）在机器学习中的应用与学习心得

支持向量机（SVM）是一种高效的二分类模型，其核心目标是通过寻找最优超平面来区分不同类别的数据点。在实际应用中，SVM能够有效地处理高维数据，并通过核技巧扩展到非线性分类问题。当新的数据点输入时，SVM会根据其相对于超平面的位置来判定其所属类别。训练过程中，SVM通过最大化间隔来确定最优超平面，从而提高模型的泛化能力。本文总结了SVM在机器学习中的应用及其学习心得，探讨了其在实际问题中的优势和局限性。 ... [详细]

蜡笔小新 2024-11-06 19:38:05
爬虫
vmware workstation14嵌套安装kvm

vmware workstation14嵌套安装kvm ... [详细]

蜡笔小新 2024-10-17 16:30:10
爬虫
NLP篇【01】tfidf与bm25介绍与对比

上一篇：自然语言处理【NLP】遇上电商——专栏导读下一篇：NLP篇【02】白话Word2vec原理以及层softmax、负采样的实现一、tfidf介 ... [详细]

蜡笔小新 2024-10-13 12:46:48

台湾金门高粱酒业集团股份公司

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章