热门标签 | HotTags
当前位置:  开发笔记 > 数据库 > 正文

【《机器学习》周志华学习笔记1.11.2】~什么是“机器学习”?机器学习有哪些基本概念?

由现实世界引出“机器学习”看到乌云密布,自己推测出要下雨通过一个苹果的表面和大小,来判断这个苹果是否好吃我们通过经验来进行判断,这是
由现实世界引出“机器学习”

看到乌云密布,自己推测出要下雨

通过一个苹果的表面和大小,来判断这个苹果是否好吃

我们通过经验来进行判断,这是因为我们积累了许多有用的经验,通过对有用经验的分析,就能对遇到的情况做出相应的对策。

计算机中,经验就是“数据”,判断模型就是“算法”,机器学习就是研究“学习算法”。

举例:当计算机数据库有上千万只猫的照片,并对其特点进行建模分析,你给机器一张照片,它就能进行判断这张照片的动物是不是猫。(有人问:会不会出错?肯定会出错啊!模型如果100%就不会出错,这是依赖于“算法”的好坏和数据库的大小。我们人类的经验也有时候会出错,这其实就是概率的问题)



基本概念:从具体到抽象

要进行机器学习, 首先要准备数据。 还是以猫为例:

{猫颜色:黑的、白的、黄的...}  、{猫眼睛:颜色一样的,颜色不一样} 、{猫有的有铃铛,有的没有铃铛}   这些都是“特征”“属性”,每一只猫的属性有很多种,我们可以用一只黑色+眼睛颜色一样+没有铃铛的猫来进行描述。

比如现在有100只猫的照片,那么 这个就 称为“样本空间

这100只猫的属性集合,分开形成各自的集合,比如上面3个集合,那就称为“属性空间

抽象:D={x1,x2,x3.....xm}表示有m个示例的数据集。(100只猫的照片形成的数据集)

每个x都有d个属性描述(每只猫可以由:颜色+眼睛色彩+铃铛等属性区分),d是维数

x是样本空间的一个向量

从数据中学习得的模型称为“学习”或者“训练”

每一个样本(每一张猫的照片)称为一个“训练样本”,训练样本的集合 为“训练集”

潜在的规律称为“假设”,也称为“真相”、“真实”,学习过程就是不断 找到真相。

仅仅有前面示例的猫的照片也不够,需要建立联系,就是告诉计算机这是不是猫,(白色,双眼一样,有铃铛;这只是猫)注意分号!这是一个“标记”,拥有了标记,这就成为了一个“样例”这样的集合成为“标记空间”“输出空间”

给你一张照片,判断是不是猫,这个叫做“分类”,预测是连续值,成为“回归”

只涉及两个类别的分类成为“二分类”问题: “正类”+“反类”;多个分类成为:“多分类”

预测的过程称为:“测试”;测试的东西称为:“测试样本”

同时可以对其进行聚类分析:比如把猫分为:橘猫,波斯猫....聚类分析有利于进一步学习,找到潜在规律,这些规律我们事先并不知道。

根据训练数据是否有标记:“监督学习”+“无监督学习”

监督学习代表:分类和回归;无监督学习代表:聚类

训练的目的是解决未知情况,对于“新样本”的认识能力,也就是“泛化”能力

 假设样本空间 服从一个未知分布,每个样本 都是独立的,“独立同分布”,一般而言, 训练样本越多,这个未知分布越 明确,越实用, 泛化能力也越强!


推荐阅读
  • 【历史上的今天】5 月 18 日:微软反垄断诉讼;携程旅行网上线;谷歌首次公布 TPU
    整理|王启隆透过「历史上的今天」,从过去看未来,从现在亦可以改变未来。今天是2022年5月18日,在1939年的今天,彼得 ... [详细]
  • SSL协议、TLS协议,使用哪一种更安全?
    在金融银行业,保护机密信息的安全至关重要。由于财务记录完全通过在线数据库维护,因此实施保护客户、银行和金融机构免受黑客攻击的安全功能比以往任何时候都更加重要。安全套接字层(SSL) ... [详细]
  • 重学数据结构之链表篇
    本文是重学数据结构系列文章的第二篇,本文和大家一起探讨链表的相关知识。重学数据结构之数组篇文章目录链表是怎么样的数据结构链表的特点常见的链表结构单链表双向链表循环链表链表or数组链 ... [详细]
  • python自学教程哪里好,python比较好的教程
    本文目录一览:1、想学python去哪里比较好? ... [详细]
  • ROC曲线ROC曲线:中文称受试者工作特征曲线横坐标为假阳性率FBRFBRFPNN是负样本数量FP是N个负样本中被分类器预测为正样本的个数纵坐标为真阳性率TPRTPRTPPTPP是 ... [详细]
  • 机器学习如何看世界 对抗机器学习诠释人工智能和人类思维的不同
    接近,计算,极限,看,世界,对抗,机器,学习,诠释,人工智能,和, ... [详细]
  • 文章目录1.解释一下GBDT算法的过程1.1Boosting思想1.2GBDT原来是这么回事2.梯度提升和梯度下降的区别和联系是什么?3.GBDT的优点和局限性有哪 ... [详细]
  • AI算法工程师从入门到上瘾
    设定一个非常清晰的目标清晰的目标就比如说你要做NLP,你要知道NLP的应用有智能问答,机器翻译,搜索引擎等等。然后如果你要做智能问答你要知道现在最发达的技术是深度学习,使用的算法有 ... [详细]
  • Logistic回归主要针对输入的数据是多个,输出则是有限的数值型,多为2个分类。涉及到以下方面:1.输出yw0+w1*x1+w2*x2+..(x1,x2,是样本的 ... [详细]
  • 牛津大学科普 | 几分钟带你了解:什么是机器学习
    编译:Mika【导读】如今机器学习已经深入到我们生活的方方面面,它就在我们身边,在我们的手机上,社交网络上但它是如何工 ... [详细]
  • 自编码器(Autoencoder,AE)基本意思就是一个隐藏层的神经网络,输入输出都是x,并且输入维度一定要比 ... [详细]
  • 线性代数:机器学习背后的优化原理线性代数作为数学的一个分支,广泛应用于科学和工程中,掌握好线性代数对于理解和从事机器学习算法相关工作是很有 ... [详细]
  • 系数|量纲_机器学习基础一文带你用sklearn做特征工程
    篇首语:本文由编程笔记#小编为大家整理,主要介绍了机器学习基础一文带你用sklearn做特征工程相关的知识,希望对你有一定的参考价值。使用sklearn做特 ... [详细]
  • 近年来,大数据成为互联网世界的新宠儿,被列入阿里巴巴、谷歌等公司的战略规划中,也在政府报告中频繁提及。据《大数据人才报告》显示,目前全国大数据人才仅46万,未来3-5年将出现高达150万的人才缺口。根据领英报告,数据剖析人才供应指数最低,且跳槽速度最快。中国商业结合会数据剖析专业委员会统计显示,未来中国基础性数据剖析人才缺口将高达1400万。目前BAT企业中,60%以上的招聘职位都是针对大数据人才的。 ... [详细]
  • 本文介绍了adg架构设置在企业数据治理中的应用。随着信息技术的发展,企业IT系统的快速发展使得数据成为企业业务增长的新动力,但同时也带来了数据冗余、数据难发现、效率低下、资源消耗等问题。本文讨论了企业面临的几类尖锐问题,并提出了解决方案,包括确保库表结构与系统测试版本一致、避免数据冗余、快速定位问题等。此外,本文还探讨了adg架构在大版本升级、上云服务和微服务治理方面的应用。通过本文的介绍,读者可以了解到adg架构设置的重要性及其在企业数据治理中的应用。 ... [详细]
author-avatar
321
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有