热门标签 | HotTags
当前位置:  开发笔记 > 后端 > 正文

机器学习基石第十二周笔记

一.QuadraticHypothesis之前学习了线型的分类器,今天将介绍非线性的分类器。下图左边的数据,我们用直线分类器能够很容易的将数据分开&#x

一.Quadratic Hypothesis
之前学习了线型的分类器,今天将介绍非线性的分类器。
下图左边的数据,我们用直线分类器能够很容易的将数据分开,但是右边的数据我们却不行,那么我们该怎么办呢?
这里写图片描述
之前对于线型不可分的数据我们容许有一定的误差,但是这里的误差明显太大了,所以不能应用。但是我们发现该数据是能够用一个圆进行分割的,所以这里我们将应用Circular Separable.
这里写图片描述
这里写图片描述
我们将输入特征进行转换,另z0=1,z1=x1^2,z2=x2^2并将x空间的数据映射到z空间进行显示,发现数据在z空间能够被线型分开,于是我们就能在z空间使用之前所学过的知识进行分类了。
这里写图片描述
我们能够学得的结果如下图所示,能够是圆,椭圆,双曲线和常数,这样我们就相当于用x空间的上述形状对数据进行分类了。
这里写图片描述
但是上述的模型学到的圆等形状他们的原点必须要在圆心,要想突破这个限制我们在从x转换到z空间的时候需要增加移动项的组合。
这里写图片描述
仔细分析会发现,当后三项为0时形状就会退化成直线,所以上述模型里面包含了直线和常数模型。
二.Nonlinear Transform
非线性分类的流程如下所示,首先进行特征转换将x空间转换成z空间,在z空间进行线型分类,然后将分类好的点反转换回x空间。
注:实际上是对x空间的一个点进行转换分类后直接将该点进行标记,而不是将转换的点进行反转换
这里写图片描述

三.Price of Nonlinear Transform
想象很美好,现实很骨感,为了实现上述的φ的转换,我们要付出极大的计算和内存空间,假如我们的原始数据的维数为d,我们要转换的多项式次数为Q,那么我们转换后的数据的维数将会是O(Q^d)这将会额外浪费极大的计算资源和效率。
这里写图片描述
同样的,由于d的增加,我们的VC维也会增加,这就会增加模型的复杂度。
这里写图片描述
所以我们应该如何选取Q也成为了一个难题,如下两幅图,当我们选择大的Q时Ein会下降,但是Eout与Ein的差会变大,选择小的Q,Ein会增加,但是Ein与Eout的差距会变小,这就会形成矛盾。
这里写图片描述
但是我们绝对不要靠我们的眼睛来决定Q的大小,因为第一,我们的眼睛不能够看到大于3维的数据,而我们所用的数据大多是三维以上,第二,我们的眼睛会带入主观偏见,这会妨碍算法求得真正的规律。
这里写图片描述
这里写图片描述

四.Structured Hypothesis Sets
从Q=1到Q=n假设空间的变化及关系如下图所示:
这里写图片描述
VC维和Ein的关系如下图所示:
这里写图片描述
那我们该怎么决定Q呢?我们应该从Q=1开始从简单往难的模型进行试验,如果简单的模型能找到一个小的Ein那么我们就选择它。
这里写图片描述


推荐阅读
  • 毕业设计:基于机器学习与深度学习的垃圾邮件(短信)分类算法实现
    本文详细介绍了如何使用机器学习和深度学习技术对垃圾邮件和短信进行分类。内容涵盖从数据集介绍、预处理、特征提取到模型训练与评估的完整流程,并提供了具体的代码示例和实验结果。 ... [详细]
  • 深入解析:手把手教你构建决策树算法
    本文详细介绍了机器学习中广泛应用的决策树算法,通过天气数据集的实例演示了ID3和CART算法的手动推导过程。文章长度约2000字,建议阅读时间5分钟。 ... [详细]
  • 在金融和会计领域,准确无误地填写票据和结算凭证至关重要。这些文件不仅是支付结算和现金收付的重要依据,还直接关系到交易的安全性和准确性。本文介绍了一种使用C语言实现小写金额转换为大写金额的方法,确保数据的标准化和规范化。 ... [详细]
  • 机器学习中的相似度度量与模型优化
    本文探讨了机器学习中常见的相似度度量方法,包括余弦相似度、欧氏距离和马氏距离,并详细介绍了如何通过选择合适的模型复杂度和正则化来提高模型的泛化能力。此外,文章还涵盖了模型评估的各种方法和指标,以及不同分类器的工作原理和应用场景。 ... [详细]
  •   上一篇博客中我们说到线性回归和逻辑回归之间隐隐约约好像有什么关系,到底是什么关系呢?我们就来探讨一下吧。(这一篇数学推导占了大多数,可能看起来会略有枯燥,但这本身就是一个把之前算法 ... [详细]
  • 利用决策树预测NBA比赛胜负的Python数据挖掘实践
    本文通过使用2013-14赛季NBA赛程与结果数据集以及2013年NBA排名数据,结合《Python数据挖掘入门与实践》一书中的方法,展示如何应用决策树算法进行比赛胜负预测。我们将详细讲解数据预处理、特征工程及模型评估等关键步骤。 ... [详细]
  • Coursera ML 机器学习
    2019独角兽企业重金招聘Python工程师标准线性回归算法计算过程CostFunction梯度下降算法多变量回归![选择特征](https:static.oschina.n ... [详细]
  • 机器学习核心概念与技术
    本文系统梳理了机器学习的关键知识点,涵盖模型评估、正则化、线性模型、支持向量机、决策树及集成学习等内容,并深入探讨了各算法的原理和应用场景。 ... [详细]
  • 本文介绍了如何在 C# 和 XNA 框架中实现一个自定义的 3x3 矩阵类(MMatrix33),旨在深入理解矩阵运算及其应用场景。该类参考了 AS3 Starling 和其他相关资源,以确保算法的准确性和高效性。 ... [详细]
  • 本文详细探讨了Java中的24种设计模式及其应用,并介绍了七大面向对象设计原则。通过创建型、结构型和行为型模式的分类,帮助开发者更好地理解和应用这些模式,提升代码质量和可维护性。 ... [详细]
  • 本文介绍了Java并发库中的阻塞队列(BlockingQueue)及其典型应用场景。通过具体实例,展示了如何利用LinkedBlockingQueue实现线程间高效、安全的数据传递,并结合线程池和原子类优化性能。 ... [详细]
  • 数据管理权威指南:《DAMA-DMBOK2 数据管理知识体系》
    本书提供了全面的数据管理职能、术语和最佳实践方法的标准行业解释,构建了数据管理的总体框架,为数据管理的发展奠定了坚实的理论基础。适合各类数据管理专业人士和相关领域的从业人员。 ... [详细]
  • 深入解析Spring Cloud Ribbon负载均衡机制
    本文详细介绍了Spring Cloud中的Ribbon组件如何实现服务调用的负载均衡。通过分析其工作原理、源码结构及配置方式,帮助读者理解Ribbon在分布式系统中的重要作用。 ... [详细]
  • 本文将介绍由密歇根大学Charles Severance教授主讲的顶级Python入门系列课程,该课程广受好评,被誉为Python学习的最佳选择。通过生动有趣的教学方式,帮助初学者轻松掌握编程基础。 ... [详细]
  • 本文详细介绍了Java编程语言中的核心概念和常见面试问题,包括集合类、数据结构、线程处理、Java虚拟机(JVM)、HTTP协议以及Git操作等方面的内容。通过深入分析每个主题,帮助读者更好地理解Java的关键特性和最佳实践。 ... [详细]
author-avatar
你说Dan_795
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有