热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

svm高斯核为什么惩罚项越大_SVM分类、核函数、损失函数

1、支持向量机:支持向量机(SupportVectorMachine,SVM)是一类按监督学习(supervisedlear

1、支持向量机:

支持向量机(Support Vector Machine, SVM)是一类按监督学习(supervised learning)方式对数据进行二元分类(binary classification)的广义线性分类器(generalized linear classifier),其决策边界是对学习样本求解的最大边距超平面(maximum-margin hyperplane)。

SVM的目的:寻找到一个超平面使样本分成两类,并且间隔最大。而我们求得的w就代表着我们需要寻找的超平面的系数。边界上的样本点就是支持向量,这些点很关键,这也是”支持向量机“命名的由来。

dc813003a3436888ea0c1e0e052322a2.png

什么是线性可分?

在分类问题中给定输入数据和学习目标

,其中输入数据的每个样本都包含多个特征并由此构成特征空间(feature space):
,而学习目标为二元变量
表示负类(negative class)和正类(positive class)。

若输入数据所在的特征空间存在作为决策边界(decision boundary)的超平面(hyperplane):

将学习目标按正类和负类分开,并使
任意样本的点到平面距离大于等于1:
则称该分类问题具有线性可分性,参数
分别为超平面的法向量和截距。

满足该条件的决策边界实际上构造了2个平行的超平面:

作为间隔边界以判别样本的分类:
, if
, if

所有在上间隔边界上方的样本属于正类,在下间隔边界下方的样本属于负类。两个间隔边界的距离

被定义为边距(margin),位于间隔边界上的正类和负类样本为支持向量(support vector)。

2、损失函数:

在一个分类问题不具有线性可分性时,使用超平面作为决策边界会带来分类损失,即部分支持向量不再位于间隔边界上,而是进入了间隔边界内部,或落入决策边界的错误一侧。损失函数可以对分类损失进行量化,常用的损失函数有:铰链损失函数(hinge loss)、logistic损失函数(logistic loss)、指数损失函数(exponential loss)。

hinge:

logistic:

exponential:

其中SVM使用的是铰链损失函数。

图中

70272b41a0fb6b7bbef684bccae23bba.png

分类器的经验风险描述了分类器所给出的分类结果的准确程度;结构风险描述了分类器自身的稳定程度,复杂的分类器容易产生过拟合,因此是不稳定的。

最终的SVM损失函数既要考虑到经验风险,也要考虑到结构风险,因此最终的损失函数为:

第一项为经验风险,度量了模型对训练数据的拟合程度;第二项为结构风险,也称正则化项,度量了模型自身的复杂度,可以降低过拟合风险,由于该项为二次幂形式,所以又叫作L2正则项。

是一个可调参数,用来权衡经验风险和结构风险,以加大某一项的惩罚力度。

3、核函数:

SVM可以通过核方法(kernel method)进行非线性分类,是常见的核学习(kernel learning)方法之一。常见的核函数有:多项式核、径向基函数核、拉普拉斯核、Sigmoid核。

一些线性不可分的问题可能是非线性可分的,即特征空间存在超曲面(hypersurface)将正类和负类分开。使用非线性函数可以将非线性可分问题从原始的特征空间映射至更高维的希尔伯特空间(Hilbert space)H ,从而转化为线性可分问题,此时作为决策边界的超平面表示如下:

式中:

为映射函数

由于映射函数是复杂的非线性函数,因此其内积的计算是困难的,此时可使用核方法(kernel method),即定义映射函数的内积为核函数(kernel function)。

多项式核:

径向基函数核(RBF核)又被称为高斯核:

拉普拉斯核:

Sigmoid核:

当多项式核的阶为1时,其被称为线性核,对应的非线性分类器退化为线性分类器。RBF核也被称为高斯核(Gaussian kernel),其对应的映射函数将样本空间映射至无限维空间。



推荐阅读
  • 纵坐标|据点_菜菜的sklearn课堂笔记支持向量机线性SVM决策过程的可视化
    纵坐标|据点_菜菜的sklearn课堂笔记支持向量机线性SVM决策过程的可视化 ... [详细]
  • 基于KVM的SRIOV直通配置及性能测试
    SRIOV介绍、VF直通配置,以及包转发率性能测试小慢哥的原创文章,欢迎转载目录?1.SRIOV介绍?2.环境说明?3.开启SRIOV?4.生成VF?5.VF ... [详细]
  • 机器学习核心概念与技术
    本文系统梳理了机器学习的关键知识点,涵盖模型评估、正则化、线性模型、支持向量机、决策树及集成学习等内容,并深入探讨了各算法的原理和应用场景。 ... [详细]
  • Explore how Matterverse is redefining the metaverse experience, creating immersive and meaningful virtual environments that foster genuine connections and economic opportunities. ... [详细]
  • Explore a common issue encountered when implementing an OAuth 1.0a API, specifically the inability to encode null objects and how to resolve it. ... [详细]
  • 本文介绍了如何使用JQuery实现省市二级联动和表单验证。首先,通过change事件监听用户选择的省份,并动态加载对应的城市列表。其次,详细讲解了使用Validation插件进行表单验证的方法,包括内置规则、自定义规则及实时验证功能。 ... [详细]
  • 前言--页数多了以后需要指定到某一页(只做了功能,样式没有细调)html ... [详细]
  • 本文深入探讨了 Java 中的 Serializable 接口,解释了其实现机制、用途及注意事项,帮助开发者更好地理解和使用序列化功能。 ... [详细]
  • 本文详细介绍了Akka中的BackoffSupervisor机制,探讨其在处理持久化失败和Actor重启时的应用。通过具体示例,展示了如何配置和使用BackoffSupervisor以实现更细粒度的异常处理。 ... [详细]
  • DNN Community 和 Professional 版本的主要差异
    本文详细解析了 DotNetNuke (DNN) 的两种主要版本:Community 和 Professional。通过对比两者的功能和附加组件,帮助用户选择最适合其需求的版本。 ... [详细]
  • 本文深入探讨了如何通过调整InnoDB的关键配置参数来优化MySQL的随机IO性能,涵盖了缓存、日志文件、预读机制等多个方面,帮助读者全面提升数据库系统的性能。 ... [详细]
  • UNP 第9章:主机名与地址转换
    本章探讨了用于在主机名和数值地址之间进行转换的函数,如gethostbyname和gethostbyaddr。此外,还介绍了getservbyname和getservbyport函数,用于在服务器名和端口号之间进行转换。 ... [详细]
  • ImmutableX Poised to Pioneer Web3 Gaming Revolution
    ImmutableX is set to spearhead the evolution of Web3 gaming, with its innovative technologies and strategic partnerships driving significant advancements in the industry. ... [详细]
  • 本文详细解析了Python中的os和sys模块,介绍了它们的功能、常用方法及其在实际编程中的应用。 ... [详细]
  • 本文详细介绍了macOS系统的核心组件,包括如何管理其安全特性——系统完整性保护(SIP),并探讨了不同版本的更新亮点。对于使用macOS系统的用户来说,了解这些信息有助于更好地管理和优化系统性能。 ... [详细]
author-avatar
拍友2502869293
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有