热门标签 | HotTags
当前位置:  开发笔记 > 人工智能 > 正文

【机器学习-斯坦福】学习笔记7-最优间隔分类器问题

最优间隔分类器问题本次课程大纲:1、最优间隔分类器2、原始优化问题&对偶优化问题(KKT条件)3、SVM对偶问题4、核方法(下一讲)复习:支撑向量机中改动的符号:输出y∈{-1,&#

最优间隔分类器问题

本次课程大纲:

1、 最优间隔分类器

2、 原始优化问题&对偶优化问题(KKT条件)

3、 SVM对偶问题

4、 核方法(下一讲)

 

复习:

支撑向量机中改动的符号:

输出y{-1,+1}

h输出的假设值也改为{-1,+1}

g(z) = { 1 , 如果z>=0;  -1,如果z<0}

hw.b(x)=g(wTx+b),这里的b相当于原来的θ0w相当于原来θ除去θ0剩余部分,长度为n维。将截距b单提出来,方便引出支撑向量机。

 

函数间隔

一个超平面(w,b)和某个特定训练样本(x(i),y(i))对应的函数间隔定义为:

参数(w,b)定义了一个分类器,例如定义了一个线性分界线。

如果y(i)=1,为了获得较大的函数间隔,需要令wTx(i)+b >> 0

如果y(i)=-1,为了获得较大的函数间隔,需要令wTx(i)+b <<0

如果y(i)(wTx(i)+b) > 0,意味着分类结果正确

 

一个超平面(w,b)和整个训练集的函数间隔定义为:

即相对于整个训练集的函数间隔定义为所有相对于样本的函数间隔的最坏情形(上述讲到,分界线距离样本越远效果越好)。

 

几何间隔:

几何间隔定义为:

这个定义和函数间隔很相似,不同点是对向量w进行了标准化。同样,希望几何间隔也是越大越好。

 

结论:如果||w||=1,函数间隔等于几何间隔。更一般的,几何间隔等于函数间隔除以||w||

 

一个超平面(w,b)和整个训练集的几何间隔定义为:

和函数间隔类似,取样本中最小的几何间隔。

 

性质:可以任意比例缩放wb,因为任意缩放wb都不会改变超平面wTx+b=0的位置。这一性质在后续讨论中带来很大便利。

 

 

1、 最优间隔分类器

最优间隔分类器可以看做是支撑向量机的前身,是一种学习算法,选择特定的wb,使几何间隔最大化。最优分类间隔是下述这样的优化问题:

即选择γ,wb使γ最大,同时满足条件:所选取的最大几何间隔必须保证每个样本的几何间隔至少为γ。即,找到一个超平面,在将正负样本分开的同时,使超平面到正负样本间的距离尽可能大。

 

由于wb可随意缩放,约束条件||w||=1,使得函数间隔等于几何间隔。但是这个约束本身是一个非常糟糕的非凸性约束。要求解的参数w在一个球体表面,如果想得到一个凸优化问题,必须保证如梯度下降算法这种局部最优值搜索算法不会找到局部最优值,而非凸性约束不能满足这个条件,所以需要改变优化问题。

 

为了解决上述问题,提出下面的最优化问题:

即将函数间隔除以||w||的值最大化,而这个值其实就是几何间隔,只是上一个优化问题的另一种表述。最优化目标是,最大化几何间隔,同时保证函数间隔不小于γ^,即求最大的γ^,但是γ^上限是最小的函数间隔的值。

 

w添加约束条件:γ^ = 1,即函数间隔为1,即使式子的最小值为1。这个一个隐含的缩放条件。将这个约束加入到第二个最优化问题中,得到最终的最优间隔分类器

这是一个凸优化问题,且没有局部最优值,可以通过梯度下降找到全局最优值。

 

2、 原始优化问题&对偶优化问题(KKT条件)

原始问题

 

如要求下式的值:

即最小化函数f(w),并满足约束条件hi(w)=0,可以将hi写成0向量。

 

创建拉格朗日算子:

即等于原始目标函数加限制函数的线性组合,其中参数β称为拉格朗日乘数。

 

则,如果对下式求偏导数置为0,即可求出解:

对上述两个偏导数方程求解,检查得到的解是否为最小值即可。

 

拉格朗日乘数法的一般形式,也称为原始问题

此时,拉格朗日算子为:

此时α和β为拉格朗日乘数,定义:

上式中的p表示原始问题(primal),

如果w违反了约束条件,即gi(w)>0hi(w)!=0,那么上式变成:

上式中从(1)到(2)的解释为:若gi(w)>0,那么只要使αi无穷大,θp(w)就会无穷大;同理,若hi(w)!=0,只要使βi相应取无穷大(hi(w)>0)或无穷小(hi(w)<0),θp(w)也会无穷大。

 

反之,若w满足约束条件,那么θp(w) = f(w),所以可得:

那么,求min f(w)就是求下式的值,定义为p*

 

对偶问题

 

定义:

对其取最大值,即给出对偶优化问题,定义为d*

从公式上看,对偶问题就是把原始问题中的minmax换了顺序。

 

可得:

 

原始问题和对偶问题获得相同解的条件:

 

f为凸函数(凸函数的hessian矩阵是半正定的,H>=0,即开口朝上的碗状函数)

假设hi为仿射函数,即

假设gi是严格可执行的,即存在w,使得对于所有igi(w)<0

在上述条件下,存在w*,α*,β*,其中w*是原始问题的解,α*,β*是对偶问题的解,并且:

此外,还要满足条件:

这些条件被称为KKT互补条件

 

KKT中的隐含条件:

如果αi>0 => gi(w*)=0,但是一般来说αi>0 <=> gi(w*)=0

gi(w*)=0,称gi(w*)为活动约束。

 

3、 SVM对偶问题

 

最优间隔分类器:

将约束改写为:

又通过KKT条件,αi>0 => gi(w,b)=0,即活动约束

gi(w,b)=0 <=> y(i)(wTx(i)+b)=1,即函数间隔为1

 

给出例子如下图:

图中的圈和叉即正负样本,实线即w,b确定的分隔线,虚线即函数间隔为1的点所构成的线。看出有三个样本的函数间隔为1,其他样本的函数间隔大于1

 

通过KKT条件,这些函数间隔为1的样本对应的拉格朗日乘数一般不等于0,即αi>0。这个函数间隔为1的样本称为支撑向量。支撑向量数量很少,所以多数的αi=0,那么反推可得,αi=0,对应的样本不是支撑向量。

 

对最优间隔优化问题建立拉格朗日算子:

由于这个问题只有不等式约束,所以没有β。

 

为了使拉格朗日算子最小,因为它是wb的函数,对wb求偏导数并设为0

推出:

w就是输入特征向量的线性组合。对b求偏导:

w代入拉格朗日算子,即代入||w||=wTw,化简后得到:

根据对b求偏导的结果,最后一项为0,得到:

将上式表示为W(α),对偶问题就是:

所有优化问题都是针对w进行了,b只是一个参数。

 

为了解决上述对偶问题,求出参数α*,而求出α,即可通过上面w的公式求出w,求出α和w后,容易求出b,因为w决定了超平面的斜率,那么根据最优间隔,将α和w代入原始问题,就容易求出b了,如下式:

这个公式的直观理解就是,找到最差的样本(离得最近的正负样本),根据它们的位置,可求出超平面的位置。

 

4、 核方法

 

可以将上面整个算法表示成内积的形式:

x(i)Tx表示为新输入的x和训练样本x的内积的和。

 

SVM特征空间中,由于训练样本的维数可能会很高,核方法可以高效计算内积的表示方法,但是仅对一些特定的特征空间成立。

 

浏览整个SVM计算过程,所有步骤都可以不直接计算x(i),而通过计算特征向量的内积得到结果,所以核方法被引入。

 

该算法另一个性质就是,由于函数间隔为1的样本只占训练集的一小部分,大多数αi=0,计算w时计算量小。


推荐阅读
  • 在机器学习领域,深入探讨了概率论与数理统计的基础知识,特别是这些理论在数据挖掘中的应用。文章重点分析了偏差(Bias)与方差(Variance)之间的平衡问题,强调了方差反映了不同训练模型之间的差异,例如在K折交叉验证中,不同模型之间的性能差异显著。此外,还讨论了如何通过优化模型选择和参数调整来有效控制这一平衡,以提高模型的泛化能力。 ... [详细]
  • 大数据时代的机器学习:人工特征工程与线性模型的局限
    本文探讨了在大数据背景下,人工特征工程与线性模型的应用及其局限性。随着数据量的激增和技术的进步,传统的特征工程方法面临挑战,文章提出了未来发展的可能方向。 ... [详细]
  • LambdaMART算法详解
    本文详细介绍了LambdaMART算法的背景、原理及其在信息检索中的应用。首先回顾了LambdaMART的发展历程,包括其前身RankNet和LambdaRank,然后深入探讨了LambdaMART如何结合梯度提升决策树(GBDT)和LambdaRank来优化排序问题。 ... [详细]
  • 在互联网信息爆炸的时代,当用户需求模糊或难以通过精确查询表达时,推荐系统成为解决信息过载的有效手段。美团作为国内领先的O2O平台,通过深入分析用户行为,运用先进的机器学习技术优化推荐算法,提升用户体验。 ... [详细]
  • 支持向量机(SVM)是一种基于统计学习理论的模型,主要在VC维和结构风险最小化的理论基础上发展而来。本文将探讨几种不同的SVM方法及其优化策略,旨在提高模型的效率和适用性。 ... [详细]
  • 随着技术的发展,黑客开始利用AI技术在暗网中创建用户的‘数字孪生’,这一现象引起了安全专家的高度关注。 ... [详细]
  • 本文旨在探讨机器学习与数据分析之间的差异,不仅在于它们处理的数据类型,还包括技术背景、业务应用场景以及参与者的不同。通过深入分析,希望能为读者提供清晰的理解。 ... [详细]
  • 聚焦法是一种采用穷尽搜索策略的Filter型特征选择方法,其核心在于寻找能有效区分不同样本的最小特征集合。此方法的评估标准主要依赖于一致性测量。 ... [详细]
  • 我的新书已正式上市,可在当当和京东购买。如果您喜欢本书,欢迎留下宝贵评价。本书历时3至4年完成,内容涵盖MySQL的安装、配置、开发、测试、监控和运维等方面,旨在帮助读者系统地学习MySQL。 ... [详细]
  • 本文探讨了图像标签的多种分类场景及其在以图搜图技术中的应用,涵盖了从基础理论到实际项目实施的全面解析。 ... [详细]
  • AI炼金术:KNN分类器的构建与应用
    本文介绍了如何使用Python及其相关库(如NumPy、scikit-learn和matplotlib)构建KNN分类器模型。通过详细的数据准备、模型训练及新样本预测的过程,展示KNN算法的实际操作步骤。 ... [详细]
  • 机器学习算法:SVM(支持向量机)
    SVM算法(SupportVectorMachine,支持向量机)的核心思想有2点:1、如果数据线性可分,那么基于最大间隔的方式来确定超平面,以确保全局最优, ... [详细]
  • 本文介绍如何使用OpenCV和线性支持向量机(SVM)模型来开发一个简单的人脸识别系统,特别关注在只有一个用户数据集时的处理方法。 ... [详细]
  •     目标检测是计算机视觉一个非常重要的子任务。目标检测需要发现并准确定位自然图片中的物体。在2012年之前,目标检测主要基于手工设计的特征以及传统分类器。2012年以后,出现了 ... [详细]
  • 这是我在复习时整理的笔记,过一遍就稳了,建议还是把PPT过一遍,老师考的都是基础题,大部分都在PPT上,特别是 ... [详细]
author-avatar
于权drawing
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有