当前位置: 开发笔记 > 后端 > 正文

知识点汇总_SVM知识点汇总

作者：圣友家具简章da | 来源：互联网 | 2023-09-24 16:22

目录1. 简单描述SVM（线性可分SVM的求解）2. 线性SVM3. 非线性SVM

1. 简单描述SVM（线性可分SVM的求解）

2. 线性SVM

3. 非线性SVM

1. 简单描述SVM

SVM是一个分类算法，通过寻找一个分离超平面，将正负样本分开，并且正负样本到超平面的间隔最大。分离超平面可以用y = wx + b来描述，样本到超平面的相对距离可以用函数间隔r = | wx + b |描述。当y+ = 1, y - = -1时，r = | wx + b | = y( wx + b )。但由于当w,b成比例变化时，超平面不变，但样本到超平面的距离会发生改变，因此改用几何间隔r‘ = y( wx + b）/ ||w||。整个模型可表示如下图：

技术分享

约束最优化问题，利用拉格朗日对偶性将其转化为对偶问题进行求解。拉格朗日对偶性的求解形式如下：

技术分享

对照写出SVM问题的拉格朗日函数：

技术分享

原始问题是极小极大问题，将其转换为对偶问题求解，并且只有当问题满足KKT条件时，可将对偶问题的解作为原始问题的解。

技术分享

于是SVM问题就变为：

技术分享

关于拉格朗日算子α的约束优化问题的求解：SMO算法（序列最小最优化）

2. 线性SVM

当样本无法被超平面完全分开时，引入松弛变量，使得不可分的部分样本能被超平面分开。但当松弛变量过大时，SVM分类模型就失去意义了，因此对松弛变量进行惩罚。

技术分享

这样的线性SVM等价于以下最优化问题：

技术分享

可以看到等价的这个目标函数是由合页损失函数和正则化项组成的。这种自带正则化项的特性，使得SVM有较好的泛化能力。

实际上大部分问题都不是线性可分问题，同时这样的做法也可以避免线性可分SVM受异常点影响较大的问题。

推荐阅读

正则
机器学习中的相似度度量与模型优化

本文探讨了机器学习中常见的相似度度量方法，包括余弦相似度、欧氏距离和马氏距离，并详细介绍了如何通过选择合适的模型复杂度和正则化来提高模型的泛化能力。此外，文章还涵盖了模型评估的各种方法和指标，以及不同分类器的工作原理和应用场景。 ... [详细]

蜡笔小新 2024-12-26 18:10:02
正则
机器学习核心概念与技术

本文系统梳理了机器学习的关键知识点，涵盖模型评估、正则化、线性模型、支持向量机、决策树及集成学习等内容，并深入探讨了各算法的原理和应用场景。 ... [详细]

蜡笔小新 2024-12-22 09:15:30
正则
弱监督目标检测之一最小熵隐变量模型

目标检测是计算机视觉一个非常重要的子任务。目标检测需要发现并准确定位自然图片中的物体。在2012年之前，目标检测主要基于手工设计的特征以及传统分类器。2012年以后，出现了 ... [详细]

蜡笔小新 2024-10-20 17:50:44
正则
深度学习: 目标函数

Introduction目标函数是深度学习之心，是模型训练的发动机。目标函数(objectfunction)损失函数(lossfunction)代价函数(costfunction) ... [详细]

蜡笔小新 2024-10-18 18:45:28
cache
Java面试题解析

本文详细介绍了Java编程语言中的核心概念和常见面试问题，包括集合类、数据结构、线程处理、Java虚拟机（JVM）、HTTP协议以及Git操作等方面的内容。通过深入分析每个主题，帮助读者更好地理解Java的关键特性和最佳实践。 ... [详细]

蜡笔小新 2024-12-27 13:55:14
cache
DLP数据泄露检测原理浅析

最近团队在部署DLP，作为一个技术人员对于黑盒看不到的地方还是充满了好奇心。多次咨询乙方人员DLP的算法原理是什么，他们都以商业秘密为由避而不谈，不得已只能自己查资料学习，于是有了下面的浅见。身为甲方，虽然不需要开发DLP产品，但是也有必要弄明白DLP基本的原理。俗话说工欲善其事必先利其器，只有在懂这个工具的原理之后才能更加灵活地使用这个工具，即使出现意外情况也能快速排错，越接近底层，越接近真相。根据DLP的实际用途，本文将DLP检测分为2部分，泄露关键字检测和近似重复文档检测。 ... [详细]

蜡笔小新 2024-12-25 18:19:32
cache
探索电路与系统的起源与发展

本文回顾了电路与系统的发展历程，从电的早期发现到现代电子器件的应用。文章不仅涵盖了基础理论和关键发明，还探讨了这一学科对计算机、人工智能及物联网等领域的深远影响。 ... [详细]

蜡笔小新 2024-12-24 13:57:05
cache
Python中HOG图像特征提取与应用

本文介绍如何在Python中使用HOG（Histogram of Oriented Gradients）算法进行图像特征提取，探讨其在目标检测中的应用，并详细解释实现步骤。 ... [详细]

蜡笔小新 2024-12-21 15:32:13
cache
支持向量机（SVM）方法的扩展与优化

支持向量机（SVM）是一种基于统计学习理论的模型，主要在VC维和结构风险最小化的理论基础上发展而来。本文将探讨几种不同的SVM方法及其优化策略，旨在提高模型的效率和适用性。 ... [详细]

蜡笔小新 2024-12-17 14:27:48
cookie
大数据时代的机器学习：人工特征工程与线性模型的局限

本文探讨了在大数据背景下，人工特征工程与线性模型的应用及其局限性。随着数据量的激增和技术的进步，传统的特征工程方法面临挑战，文章提出了未来发展的可能方向。 ... [详细]

蜡笔小新 2024-12-07 11:58:58
port
支持向量机（SVM）算法综述

支持向量机（Support Vector Machine, SVM）是由Cortes和Vapnik于1995年首次提出的一种机器学习算法。SVM在处理小样本、非线性及高维模式识别问题上表现出显著的优势，并广泛应用于函数拟合等其他机器学习任务中。 ... [详细]

蜡笔小新 2024-12-01 15:25:08
cache
机器学习算法：SVM（支持向量机）

SVM算法（SupportVectorMachine，支持向量机）的核心思想有2点：1、如果数据线性可分，那么基于最大间隔的方式来确定超平面，以确保全局最优， ... [详细]

蜡笔小新 2024-11-14 04:33:58
爬虫
机器学习的持续探索与进展

在机器学习领域，深入探讨了概率论与数理统计的基础知识，特别是这些理论在数据挖掘中的应用。文章重点分析了偏差（Bias）与方差（Variance）之间的平衡问题，强调了方差反映了不同训练模型之间的差异，例如在K折交叉验证中，不同模型之间的性能差异显著。此外，还讨论了如何通过优化模型选择和参数调整来有效控制这一平衡，以提高模型的泛化能力。 ... [详细]

蜡笔小新 2024-11-11 10:27:39
cache
scikitlearn学习之SVM算法

分隔超平面：将数据集分割开来的直线叫做分隔超平面。超平面：如果数据集是N维的，那么就需要N-1维的某对象来对数据进行分割。该对象叫做超平面，也就是分类的决策边界。间隔：一个点 ... [详细]

蜡笔小新 2024-10-14 22:47:51
nlp
NLP篇【01】tfidf与bm25介绍与对比

上一篇：自然语言处理【NLP】遇上电商——专栏导读下一篇：NLP篇【02】白话Word2vec原理以及层softmax、负采样的实现一、tfidf介 ... [详细]

蜡笔小新 2024-10-13 12:46:48

圣友家具简章da

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章