热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

《机器学习》周志华CH1绪论

文章目录1.1引言1.2基本术语(极其重要)1.3假设空间1.4归纳偏好1.5发展历程1.6应用现状习题1.1引言机器学习(machinelearni

文章目录1.1 引言1.2 基本术语(极其重要)1.3 假设空间1.4 归纳偏好1.5 发展历程1.6 应用现状习题

1.1 引言
机器学习(machine learning)的定义:它致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。
在计算机系统中,“经验”通常以“数据”的形式存在。
ML研究的主要内容:在计算机上、从数据中产生“模型model”的算法。即是:如何通过数据集产生模型?因此机器学习本质上,研究的是算法;而这种算法的作用是,从数据集中产生模型;而模型的作用是,当面对新的数据时,模型会给我们提供一定的判断,即是数据预测。
模型,可以看做是:从数据集中学得的结果。
机器学习,是研究算法的学问。
2017.1.17记录;
2017.2.5记录;

1.2 基本术语(极其重要)
本节讲述了ML领域诸多经典的基本术语,如果不明白这些术语的含义,那么ML的学习,将会寸步难行。下面,将这些入门术语都做个笔记,用浅显易懂的例子将它表述出来,从而加深自己的理解。
机器学习的根基,是数据,而且是大量的数据;通过将一系列的数据,提取它的规律,那么就能得到模型。注意,ML领域的“模型”,和三维建模的这个“模型”,是有本质上的区别的。后者是一种几何实体,而前者可以理解为一组方程。
本节的基本术语有:
数据集data set:机器学习的基础是数据,数据的集合;
示例instance/样本sample:每条数据描述了一个对象的信息,该对象称之为示例,一般用x表示;
属性attribute/特征feature:数据描述的是样本在某些方面的性质,称之为属性;
属性值attribute value:属性的取值;
属性空间attribute space/样本空间sample space/输入空间input space:对于一个样本而言,假如它有n种属性,则组成了一个n维空间,称之为样本空间;
特征向量feature vector:示例的别名;
学习learning/训练training:从数据集中学得模型的过程;
训练数据training data:学习过程中使用的数据;
训练样本training sample:训练数据中的样本;
训练集training set:数据集分为两部分,一部分用于训练模型;
假设hypothesis:学得的模型对应了数据集中某种潜在的规律,称之为假设;
真相/真实ground-truth:数据集本身的潜在的规律。学习的过程就是逼近真相的过程;
学习器learner:模型的别称;
标记label:有关示例结果的信息,一般用y表示;
样例example:具有标记信息的示例;
标记空间label space/输出空间:所有标记的集合构成的空间;
分类classification:一种典型的学习任务,将数据集按一定规律分为若干类;
回归regression:一种典型的学习任务,预测数据集对应的结果;
二分类binary classification:将数据集分为两类;
正类positive class:二分类任务其中的一类数据;
反类negative class:同上;
多分类multi-class classification:将数据集分为多类;
测试testing:学得模型后,对其进行预测的过程。机器学习是一个反复的过程,需要重复多次学习、测试、调整,才能得到准确率最高的模型;
测试样本testing sample:被预测的样本;
聚类clustering:无监督学习的一种,将训练集的数据分为若干组,而这些组事先是不知道的;
簇cluster:聚类得到的数据分类;
监督学习supervised learning:训练数据拥有标记信息;
无监督学习unsupervised learning:训练数据没有标记信息;
泛化generalization能力:学得模型适用于新样本的能力。或者说,模型预测数据的精准度;
独立同分布independent and identically distributed:简称i,i,d。假设样本是从一个很大的数据空间中,独立的从其内在分布上得到的;
大概20多个专有名词,一开始看的时候,不可能全部都理解的很透彻。因此,需要反复、多次的观看和理解。这些专有名词,是ML领域不可避免的重要内容。

1.3 假设空间
学习的目的是泛化,即通过训练,得到一个模型,而这个模型可以对新样例的标签进行精准的预测。
学习的过程,也可以看做,在所有假设组成的空间中,进行搜索的过程。假设,就是说该数据集对应的潜在规律;这个规律可能有很多种,学习的过程,就是找到最适合它的那一种。

1.4 归纳偏好
很多情况下,通过现有的有限的数据集,可以得到多个假设空间;但是我们必须得到一个最好的模型。这时候,就要从这若干个假设空间中,选择其中的一个,从这个空间中提取ML的模型。
尽管数据集无法从这若干个假设空间中选择最佳的那一个,但是我们可以使用另一个法宝:归纳偏好。机器学习算法在学习的过程中,对某种类型的假设的偏好,称之为归纳偏好。可以简单的理解为,对于上述不同的假设空间,在选择最优模型时,其权重不同。
对于归纳偏好,我们使用奥卡姆剃刀来作为一般的原则,用于引导算法确立“正确”的偏好。奥卡姆梯度是自然科学中最常见的法则之一:若有多个假设与观察一致,则选最简单的那个。

1.5 发展历程
本节讲述机器学习的发展历程,属于common knowledge的介绍。没有任何难度,了解即可。
机器学习是人工智能(artificial intelligence)研究发展到一定阶段的必然产物。下面总结ML的发展历程:
时间 | 流派 | 主要人物 | 成果

| :-: | -:
1950-1970 | 推理期 | A.Newell和H.Simon| 逻辑理论家、通用问题求解
1975-1995 | 知识期 | E.A. Feigenbaum    | 知识工程、专家系统
1980-1990 | 符号主义 | 诸多                     | 决策树、基于逻辑的学习
1950-1985 | 连接主义 | J.J.Hopfield         | BP神经网络
1995-1970 | 统计学习 | V.N.Vapnik          | SVM、核方法、VC维
2000-2015 |连接主义 | 诸多                    | 深度学习、大数据时代


1.6 应用现状
大数据时代的三大关键技术:机器学习、云计算、众包crowdsourcing
ML的应用领域:天气预报、环境监测、能源勘探、商业营销策划、互联网搜索、图片搜索、自动驾驶、奥巴马大选、脑科学研究等。

习题
1.1 表1.1中若只包含编号为1和4的两个样例,试给出相应的版本空间。
1.2 与试用单个合取式来进行假设表示相比,试用“析合范式”将使得假设空间具有更强的表示能力。例如:
好瓜<->(&#xff08;色泽&#61;&#xff09;&#xff08;根蒂&#61;蜷缩&#xff09;&#xff08;敲声&#61;&#xff09;)
会把“ ”以及“ ”都分类为“好瓜”。若使得最多包含k个合取式的析合范式来表达表1.1西瓜分类问题的假设空间&#xff0c;试估算共有多少种可能的假设。
1.3 若数据包含噪声&#xff0c;则假设空间中有可能不存在与所有训练样本都一致的假设。在此情形下&#xff0c;试设计一种归纳偏好用于假设选择。
1.4 本章1.4节在论述“没有免费的午餐”定理时&#xff0c;默认使用了“分类错误率”作为性能度量来对分类器进行评估。若换用其他性能度量l&#xff0c;则式(1.1)将改为
试证明&#xff0c;“没有免费的午餐定理”仍成立。
1.5 试述机器学习能在互联网搜索的哪些环节起什么作用。

---------------------

本文来自 JasonYoung_2017 的CSDN 博客 &#xff0c;全文地址请点击&#xff1a;https://blog.csdn.net/qq_34100655/article/details/79122523?utm_source&#61;copy


推荐阅读
  •     目标检测是计算机视觉一个非常重要的子任务。目标检测需要发现并准确定位自然图片中的物体。在2012年之前,目标检测主要基于手工设计的特征以及传统分类器。2012年以后,出现了 ... [详细]
  • 能够感知你情绪状态的智能机器人即将问世 | 科技前沿观察
    本周科技前沿报道了多项重要进展,包括美国多所高校在机器人技术和自动驾驶领域的最新研究成果,以及硅谷大型企业在智能硬件和深度学习技术上的突破性进展。特别值得一提的是,一款能够感知用户情绪状态的智能机器人即将问世,为未来的人机交互带来了全新的可能性。 ... [详细]
  • 通过使用CIFAR-10数据集,本文详细介绍了如何快速掌握Mixup数据增强技术,并展示了该方法在图像分类任务中的显著效果。实验结果表明,Mixup能够有效提高模型的泛化能力和分类精度,为图像识别领域的研究提供了有价值的参考。 ... [详细]
  • 在机器学习领域,深入探讨了概率论与数理统计的基础知识,特别是这些理论在数据挖掘中的应用。文章重点分析了偏差(Bias)与方差(Variance)之间的平衡问题,强调了方差反映了不同训练模型之间的差异,例如在K折交叉验证中,不同模型之间的性能差异显著。此外,还讨论了如何通过优化模型选择和参数调整来有效控制这一平衡,以提高模型的泛化能力。 ... [详细]
  • 图像分割技术在人工智能领域中扮演着关键角色,其中语义分割、实例分割和全景分割是三种主要的方法。本文对这三种分割技术进行了详细的对比分析,探讨了它们在不同应用场景中的优缺点和适用范围,为研究人员和从业者提供了有价值的参考。 ... [详细]
  • 本文介绍如何使用OpenCV和线性支持向量机(SVM)模型来开发一个简单的人脸识别系统,特别关注在只有一个用户数据集时的处理方法。 ... [详细]
  • Python 数据可视化实战指南
    本文详细介绍如何使用 Python 进行数据可视化,涵盖从环境搭建到具体实例的全过程。 ... [详细]
  • 本文探讨了利用Java实现WebSocket实时消息推送技术的方法。与传统的轮询、长连接或短连接等方案相比,WebSocket提供了一种更为高效和低延迟的双向通信机制。通过建立持久连接,服务器能够主动向客户端推送数据,从而实现真正的实时消息传递。此外,本文还介绍了WebSocket在实际应用中的优势和应用场景,并提供了详细的实现步骤和技术细节。 ... [详细]
  • 超分辨率技术的全球研究进展与应用现状综述
    本文综述了图像超分辨率(Super-Resolution, SR)技术在全球范围内的最新研究进展及其应用现状。超分辨率技术旨在从单幅或多幅低分辨率(Low-Resolution, LR)图像中恢复出高质量的高分辨率(High-Resolution, HR)图像。该技术在遥感、医疗成像、视频处理等多个领域展现出广泛的应用前景。文章详细分析了当前主流的超分辨率算法,包括基于传统方法和深度学习的方法,并探讨了其在实际应用中的优缺点及未来发展方向。 ... [详细]
  • 视觉图像的生成机制与英文术语解析
    近期,Google Brain、牛津大学和清华大学等多家研究机构相继发布了关于多层感知机(MLP)在视觉图像分类中的应用成果。这些研究深入探讨了MLP在视觉任务中的工作机制,并解析了相关技术术语,为理解视觉图像生成提供了新的视角和方法。 ... [详细]
  • 在Matlab中,我尝试构建了一个神经网络模型,用于预测函数 y = x^2。为此,我设计并实现了一个拟合神经网络,并对其进行了详细的仿真和验证。通过调整网络结构和参数,成功实现了对目标函数的准确估计。此外,还对模型的性能进行了全面评估,确保其在不同输入条件下的稳定性和可靠性。 ... [详细]
  • 全球计算机视觉顶会CVPR2018(ConferenceonComputerVisionandPatternRecognition,即IEEE国际计算机 ... [详细]
  • 深度学习: 目标函数
    Introduction目标函数是深度学习之心,是模型训练的发动机。目标函数(objectfunction)损失函数(lossfunction)代价函数(costfunction) ... [详细]
  • 分隔超平面:将数据集分割开来的直线叫做分隔超平面。超平面:如果数据集是N维的,那么就需要N-1维的某对象来对数据进行分割。该对象叫做超平面,也就是分类的决策边界。间隔:一个点 ... [详细]
  • 机器学习如何看世界 对抗机器学习诠释人工智能和人类思维的不同
    接近,计算,极限,看,世界,对抗,机器,学习,诠释,人工智能,和, ... [详细]
author-avatar
wuke85394
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有