热门标签 | HotTags
当前位置:  开发笔记 > 人工智能 > 正文

机器学习基石第二周

1.感知机与其假设空间假设输入为X,X是个多维向量分量为x1,x2,…..,xi。比如X是个银行的客户,x1,x2,……xi,就分别代表那个人的性别&#

1.感知机与其假设空间
这里写图片描述
假设输入为X,X是个多维向量分量为x1,x2,…..,xi。比如X是个银行的客户,x1,x2,……xi,就分别代表那个人的性别,年您,职业,收入等信息。感知机就是对这些分量进行加权求和,并设定一个阈值,如果求和结果大于这个阈值,那么输出一个结果,如果为负,则输出相反的结果。这里的权重组,与阈值的组合有无穷多种,我们将这些组合的集合称作假设空间H。我们的目的就是从H中学到一个最接近理想函数f的h。
这里写图片描述
我们将阈值乘以1,并将这个1当做X的第0维向量,那么这个阈值就相当于第0维的权值,最后将权值向量化,得到化简后的结果。
这里写图片描述
假设X所代表的向量只有二维,则每个输入X相当于平面上的一个点,而权值向量与输入向量的乘积相当于平面上的一条线,当点落在线上,则结果为0,如果在上方则大于零,下方则小于零。这就是感知机的集合表示。

那么问题的关键就是我们怎么从假设空间中找出一条最接近理想线条f的g呢?
要想让g接近于f那么至少在我们看过的数据里面,g要和f有相同的效果,所以我们要的g要求对以前的所有数据进行正确的分类。

这里写图片描述
这里写图片描述
那我们该怎么做呢?
1.首先我们随便确定一个权重系数和阈值即W0。当然这个肯定不是我们想要的系数。因为它会对以前的数据进行错误的判断。比如对于X0,实际的结果应该是正的,而W0的输出确是负的,那么证明W0是远离于理想函数f的,那么我们就得对它进行更改,如果正的判断成了负的那么说明W0与X0的夹角太大,这时我们就缩小其夹角,使其变为正数,反之则增大其夹角使之变为负数。这里我们的改变方法是在W0的基础上加上或者减去判断错误的那个输入。一直重复循环直到没有错误。
但是有一个问题,那就是每次只检测一个样本,所以会捡了芝麻而丢了西瓜,所以会这个样本对了,而另一个样本点又错了,所以这个算法会计算很多次后才会分类正确。

上面只是定性的对这个问题做了一个简单的叙述,下面将对这个问题进行数学的证明:
这里写图片描述
这里面假设Wf为我们理想的f所具备的系数,Wt+1为每次更新之后的系数。Wf*Wt+1越大证明更新之后的值与理想的系数越接近。上图表示不论数据对错每次迭代更新后系数都越来越接近理想值。
但是这个增大不一定就是角度接近导致的增大,还有可能是向量膜变化导致的结果增大,这就是我们接下来要讨论的问题。
这里写图片描述
在更新的时候我们只会对错误的数据进行更新,如上图所示,这就导致更新之后Wt+1的模不会太大于Wt的模甚至小于Wt的模,所以我们能确定Wt+1与Wf的接近是因为角度的接近所导致的。

但是之前我们的假设是该数据是线型可分的即一定能找到一条直线能够将这些数据点划分开来,但是如果数据是不可分的呢?我们该怎么办?
这里写图片描述
那我们就找一条所犯错误最小的直线对其进行分化。
这里写图片描述
具体思路是:我们首先随便初始化一条分割线,然后随机选择一个数据点对其进行更新,当且仅但新得到的分割线所犯错误小于之前的才对其进行更新,直到达到规定的次数或者要求时我们才停止算法,这就是所谓了pocket算法,不过该算法相比于PLA要慢很多,因为每次更新后我们都要对其进行验证,并且如果数据线型可分,当找到最好的线之后,它并不会停止,而是会继续进行更新。


推荐阅读
  • 毕业设计:基于机器学习与深度学习的垃圾邮件(短信)分类算法实现
    本文详细介绍了如何使用机器学习和深度学习技术对垃圾邮件和短信进行分类。内容涵盖从数据集介绍、预处理、特征提取到模型训练与评估的完整流程,并提供了具体的代码示例和实验结果。 ... [详细]
  • Coursera ML 机器学习
    2019独角兽企业重金招聘Python工程师标准线性回归算法计算过程CostFunction梯度下降算法多变量回归![选择特征](https:static.oschina.n ... [详细]
  • 机器学习核心概念与技术
    本文系统梳理了机器学习的关键知识点,涵盖模型评估、正则化、线性模型、支持向量机、决策树及集成学习等内容,并深入探讨了各算法的原理和应用场景。 ... [详细]
  • 随着生活节奏的加快和压力的增加,越来越多的人感到不快乐。本文探讨了现代社会中导致人们幸福感下降的各种因素,并提供了一些改善建议。 ... [详细]
  • Python中HOG图像特征提取与应用
    本文介绍如何在Python中使用HOG(Histogram of Oriented Gradients)算法进行图像特征提取,探讨其在目标检测中的应用,并详细解释实现步骤。 ... [详细]
  • Python 工具推荐 | PyHubWeekly 第二十一期:提升命令行体验的五大工具
    本期 PyHubWeekly 为大家精选了 GitHub 上五个优秀的 Python 工具,涵盖金融数据可视化、终端美化、国际化支持、图像增强和远程 Shell 环境配置。欢迎关注并参与项目。 ... [详细]
  • LambdaMART算法详解
    本文详细介绍了LambdaMART算法的背景、原理及其在信息检索中的应用。首先回顾了LambdaMART的发展历程,包括其前身RankNet和LambdaRank,然后深入探讨了LambdaMART如何结合梯度提升决策树(GBDT)和LambdaRank来优化排序问题。 ... [详细]
  • 在互联网信息爆炸的时代,当用户需求模糊或难以通过精确查询表达时,推荐系统成为解决信息过载的有效手段。美团作为国内领先的O2O平台,通过深入分析用户行为,运用先进的机器学习技术优化推荐算法,提升用户体验。 ... [详细]
  • 机器学习公开课备忘录(三)机器学习算法的应用与大数据集
    机器学习公开课备忘录(三)机器学习算法的应用与大数据集对应机器学习公开课第六周和第10周机器学习算法模型的选择与评价1、对于一个data,可以将data划分为trainingset、t ... [详细]
  • 支持向量机(SVM)是一种基于统计学习理论的模型,主要在VC维和结构风险最小化的理论基础上发展而来。本文将探讨几种不同的SVM方法及其优化策略,旨在提高模型的效率和适用性。 ... [详细]
  • 2017年人工智能领域的十大里程碑事件回顾
    随着2018年的临近,我们一同回顾过去一年中人工智能领域的重要进展。这一年,无论是政策层面的支持,还是技术上的突破,都显示了人工智能发展的迅猛势头。以下是精选的2017年人工智能领域最具影响力的事件。 ... [详细]
  • 本文深入探讨了CART(分类与回归树)的基本原理及其在随机森林中的应用。重点介绍了CART的分裂准则、防止过拟合的方法、处理样本不平衡的策略以及其在回归问题中的应用。此外,还详细解释了随机森林的构建过程、样本均衡处理、OOB估计及特征重要性的计算。 ... [详细]
  • 智慧城市建设现状及未来趋势
    随着新基建政策的推进及‘十四五’规划的实施,我国正步入以5G、人工智能等先进技术引领的智慧经济新时代。规划强调加速数字化转型,促进数字政府建设,新基建政策亦倡导城市基础设施的全面数字化。本文探讨了智慧城市的发展背景、全球及国内进展、市场规模、架构设计,以及百度、阿里、腾讯、华为等领军企业在该领域的布局策略。 ... [详细]
  • 获取计算机硬盘序列号的方法与实现
    本文介绍了如何通过编程方法获取计算机硬盘的唯一标识符(序列号),并提供了详细的代码示例和解释。此外,还涵盖了如何使用这些信息进行身份验证或注册保护。 ... [详细]
  • 本文详细介绍了 React 中的两个重要 Hook 函数:useState 和 useEffect。通过具体示例,解释了如何使用它们来管理组件状态和处理副作用。 ... [详细]
author-avatar
可惜偏偏孤独一个小姐_448
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有