《机器学习》周志华CH1绪论

作者：wuke85394 | 来源：互联网 | 2023-09-13 11:39

文章目录1.1引言1.2基本术语（极其重要）1.3假设空间1.4归纳偏好1.5发展历程1.6应用现状习题1.1引言机器学习(machinelearni

文章目录1.1 引言1.2 基本术语&＃xff08;极其重要&＃xff09;1.3 假设空间1.4 归纳偏好1.5 发展历程1.6 应用现状习题

1.1 引言
机器学习(machine learning)的定义&＃xff1a;它致力于研究如何通过计算的手段&＃xff0c;利用经验来改善系统自身的性能。
在计算机系统中&＃xff0c;“经验”通常以“数据”的形式存在。
ML研究的主要内容&＃xff1a;在计算机上、从数据中产生“模型model”的算法。即是&＃xff1a;如何通过数据集产生模型&＃xff1f;因此机器学习本质上&＃xff0c;研究的是算法&＃xff1b;而这种算法的作用是&＃xff0c;从数据集中产生模型&＃xff1b;而模型的作用是&＃xff0c;当面对新的数据时&＃xff0c;模型会给我们提供一定的判断&＃xff0c;即是数据预测。
模型&＃xff0c;可以看做是&＃xff1a;从数据集中学得的结果。
机器学习&＃xff0c;是研究算法的学问。
2017.1.17记录&＃xff1b;
2017.2.5记录&＃xff1b;

1.2 基本术语&＃xff08;极其重要&＃xff09;
本节讲述了ML领域诸多经典的基本术语&＃xff0c;如果不明白这些术语的含义&＃xff0c;那么ML的学习&＃xff0c;将会寸步难行。下面&＃xff0c;将这些入门术语都做个笔记&＃xff0c;用浅显易懂的例子将它表述出来&＃xff0c;从而加深自己的理解。
机器学习的根基&＃xff0c;是数据&＃xff0c;而且是大量的数据&＃xff1b;通过将一系列的数据&＃xff0c;提取它的规律&＃xff0c;那么就能得到模型。注意&＃xff0c;ML领域的“模型”&＃xff0c;和三维建模的这个“模型”&＃xff0c;是有本质上的区别的。后者是一种几何实体&＃xff0c;而前者可以理解为一组方程。
本节的基本术语有&＃xff1a;
数据集data set&＃xff1a;机器学习的基础是数据&＃xff0c;数据的集合&＃xff1b;
示例instance/样本sample&＃xff1a;每条数据描述了一个对象的信息&＃xff0c;该对象称之为示例&＃xff0c;一般用x表示&＃xff1b;
属性attribute/特征feature&＃xff1a;数据描述的是样本在某些方面的性质&＃xff0c;称之为属性&＃xff1b;
属性值attribute value&＃xff1a;属性的取值&＃xff1b;
属性空间attribute space/样本空间sample space/输入空间input space&＃xff1a;对于一个样本而言&＃xff0c;假如它有n种属性&＃xff0c;则组成了一个n维空间&＃xff0c;称之为样本空间&＃xff1b;
特征向量feature vector&＃xff1a;示例的别名&＃xff1b;
学习learning/训练training&＃xff1a;从数据集中学得模型的过程&＃xff1b;
训练数据training data&＃xff1a;学习过程中使用的数据&＃xff1b;
训练样本training sample&＃xff1a;训练数据中的样本&＃xff1b;
训练集training set&＃xff1a;数据集分为两部分&＃xff0c;一部分用于训练模型&＃xff1b;
假设hypothesis&＃xff1a;学得的模型对应了数据集中某种潜在的规律&＃xff0c;称之为假设&＃xff1b;
真相/真实ground-truth&＃xff1a;数据集本身的潜在的规律。学习的过程就是逼近真相的过程&＃xff1b;
学习器learner&＃xff1a;模型的别称&＃xff1b;
标记label&＃xff1a;有关示例结果的信息&＃xff0c;一般用y表示&＃xff1b;
样例example&＃xff1a;具有标记信息的示例&＃xff1b;
标记空间label space/输出空间&＃xff1a;所有标记的集合构成的空间&＃xff1b;
分类classification&＃xff1a;一种典型的学习任务&＃xff0c;将数据集按一定规律分为若干类&＃xff1b;
回归regression&＃xff1a;一种典型的学习任务&＃xff0c;预测数据集对应的结果&＃xff1b;
二分类binary classification&＃xff1a;将数据集分为两类&＃xff1b;
正类positive class&＃xff1a;二分类任务其中的一类数据&＃xff1b;
反类negative class&＃xff1a;同上&＃xff1b;
多分类multi-class classification&＃xff1a;将数据集分为多类&＃xff1b;
测试testing&＃xff1a;学得模型后&＃xff0c;对其进行预测的过程。机器学习是一个反复的过程&＃xff0c;需要重复多次学习、测试、调整&＃xff0c;才能得到准确率最高的模型&＃xff1b;
测试样本testing sample&＃xff1a;被预测的样本&＃xff1b;
聚类clustering&＃xff1a;无监督学习的一种&＃xff0c;将训练集的数据分为若干组&＃xff0c;而这些组事先是不知道的&＃xff1b;
簇cluster&＃xff1a;聚类得到的数据分类&＃xff1b;
监督学习supervised learning&＃xff1a;训练数据拥有标记信息&＃xff1b;
无监督学习unsupervised learning&＃xff1a;训练数据没有标记信息&＃xff1b;
泛化generalization能力&＃xff1a;学得模型适用于新样本的能力。或者说&＃xff0c;模型预测数据的精准度&＃xff1b;
独立同分布independent and identically distributed&＃xff1a;简称i,i,d。假设样本是从一个很大的数据空间中&＃xff0c;独立的从其内在分布上得到的&＃xff1b;
大概20多个专有名词&＃xff0c;一开始看的时候&＃xff0c;不可能全部都理解的很透彻。因此&＃xff0c;需要反复、多次的观看和理解。这些专有名词&＃xff0c;是ML领域不可避免的重要内容。

1.3 假设空间
学习的目的是泛化&＃xff0c;即通过训练&＃xff0c;得到一个模型&＃xff0c;而这个模型可以对新样例的标签进行精准的预测。
学习的过程&＃xff0c;也可以看做&＃xff0c;在所有假设组成的空间中&＃xff0c;进行搜索的过程。假设&＃xff0c;就是说该数据集对应的潜在规律&＃xff1b;这个规律可能有很多种&＃xff0c;学习的过程&＃xff0c;就是找到最适合它的那一种。

1.4 归纳偏好
很多情况下&＃xff0c;通过现有的有限的数据集&＃xff0c;可以得到多个假设空间&＃xff1b;但是我们必须得到一个最好的模型。这时候&＃xff0c;就要从这若干个假设空间中&＃xff0c;选择其中的一个&＃xff0c;从这个空间中提取ML的模型。
尽管数据集无法从这若干个假设空间中选择最佳的那一个&＃xff0c;但是我们可以使用另一个法宝&＃xff1a;归纳偏好。机器学习算法在学习的过程中&＃xff0c;对某种类型的假设的偏好&＃xff0c;称之为归纳偏好。可以简单的理解为&＃xff0c;对于上述不同的假设空间&＃xff0c;在选择最优模型时&＃xff0c;其权重不同。
对于归纳偏好&＃xff0c;我们使用奥卡姆剃刀来作为一般的原则&＃xff0c;用于引导算法确立“正确”的偏好。奥卡姆梯度是自然科学中最常见的法则之一&＃xff1a;若有多个假设与观察一致&＃xff0c;则选最简单的那个。

1.5 发展历程
本节讲述机器学习的发展历程&＃xff0c;属于common knowledge的介绍。没有任何难度&＃xff0c;了解即可。
机器学习是人工智能(artificial intelligence)研究发展到一定阶段的必然产物。下面总结ML的发展历程&＃xff1a;
时间 | 流派 | 主要人物 | 成果

1.6 应用现状
大数据时代的三大关键技术&＃xff1a;机器学习、云计算、众包crowdsourcing
ML的应用领域&＃xff1a;天气预报、环境监测、能源勘探、商业营销策划、互联网搜索、图片搜索、自动驾驶、奥巴马大选、脑科学研究等。

习题
1.1 表1.1中若只包含编号为1和4的两个样例&＃xff0c;试给出相应的版本空间。
1.2 与试用单个合取式来进行假设表示相比&＃xff0c;试用“析合范式”将使得假设空间具有更强的表示能力。例如&＃xff1a;
好瓜<->(&＃xff08;色泽&＃61;&＃xff09;&＃xff08;根蒂&＃61;蜷缩&＃xff09;&＃xff08;敲声&＃61;&＃xff09;)
会把“ ”以及“ ”都分类为“好瓜”。若使得最多包含k个合取式的析合范式来表达表1.1西瓜分类问题的假设空间&＃xff0c;试估算共有多少种可能的假设。
1.3 若数据包含噪声&＃xff0c;则假设空间中有可能不存在与所有训练样本都一致的假设。在此情形下&＃xff0c;试设计一种归纳偏好用于假设选择。
1.4 本章1.4节在论述“没有免费的午餐”定理时&＃xff0c;默认使用了“分类错误率”作为性能度量来对分类器进行评估。若换用其他性能度量l&＃xff0c;则式(1.1)将改为
试证明&＃xff0c;“没有免费的午餐定理”仍成立。
1.5 试述机器学习能在互联网搜索的哪些环节起什么作用。

---------------------

本文来自 JasonYoung_2017 的CSDN 博客 &＃xff0c;全文地址请点击&＃xff1a;https://blog.csdn.net/qq_34100655/article/details/79122523?utm_source&＃61;copy

推荐阅读

select
弱监督目标检测之一最小熵隐变量模型

目标检测是计算机视觉一个非常重要的子任务。目标检测需要发现并准确定位自然图片中的物体。在2012年之前，目标检测主要基于手工设计的特征以及传统分类器。2012年以后，出现了 ... [详细]

蜡笔小新 2024-10-20 17:50:44
list
能够感知你情绪状态的智能机器人即将问世 | 科技前沿观察

本周科技前沿报道了多项重要进展，包括美国多所高校在机器人技术和自动驾驶领域的最新研究成果，以及硅谷大型企业在智能硬件和深度学习技术上的突破性进展。特别值得一提的是，一款能够感知用户情绪状态的智能机器人即将问世，为未来的人机交互带来了全新的可能性。 ... [详细]

蜡笔小新 2024-11-05 20:45:31
format
利用CIFAR10数据集快速掌握Mixup数据增强技术，显著提高图像分类精度

通过使用CIFAR-10数据集，本文详细介绍了如何快速掌握Mixup数据增强技术，并展示了该方法在图像分类任务中的显著效果。实验结果表明，Mixup能够有效提高模型的泛化能力和分类精度，为图像识别领域的研究提供了有价值的参考。 ... [详细]

蜡笔小新 2024-11-05 14:24:36
io
机器学习的持续探索与进展

在机器学习领域，深入探讨了概率论与数理统计的基础知识，特别是这些理论在数据挖掘中的应用。文章重点分析了偏差（Bias）与方差（Variance）之间的平衡问题，强调了方差反映了不同训练模型之间的差异，例如在K折交叉验证中，不同模型之间的性能差异显著。此外，还讨论了如何通过优化模型选择和参数调整来有效控制这一平衡，以提高模型的泛化能力。 ... [详细]

蜡笔小新 2024-11-11 10:27:39
io
语义、实例与全景分割的对比分析（Comparative Analysis of Semantic, Instance, and Panoptic Segmentation）

图像分割技术在人工智能领域中扮演着关键角色，其中语义分割、实例分割和全景分割是三种主要的方法。本文对这三种分割技术进行了详细的对比分析，探讨了它们在不同应用场景中的优缺点和适用范围，为研究人员和从业者提供了有价值的参考。 ... [详细]

蜡笔小新 2024-10-29 18:51:14
io
利用OpenCV和线性SVM实现人脸识别

本文介绍如何使用OpenCV和线性支持向量机（SVM）模型来开发一个简单的人脸识别系统，特别关注在只有一个用户数据集时的处理方法。 ... [详细]

蜡笔小新 2024-11-13 14:50:37
io
Python 数据可视化实战指南

本文详细介绍如何使用 Python 进行数据可视化，涵盖从环境搭建到具体实例的全过程。 ... [详细]

蜡笔小新 2024-11-13 06:03:30
io
利用Java实现WebSocket实时消息推送技术

本文探讨了利用Java实现WebSocket实时消息推送技术的方法。与传统的轮询、长连接或短连接等方案相比，WebSocket提供了一种更为高效和低延迟的双向通信机制。通过建立持久连接，服务器能够主动向客户端推送数据，从而实现真正的实时消息传递。此外，本文还介绍了WebSocket在实际应用中的优势和应用场景，并提供了详细的实现步骤和技术细节。 ... [详细]

蜡笔小新 2024-11-04 15:50:18
io
超分辨率技术的全球研究进展与应用现状综述

本文综述了图像超分辨率（Super-Resolution, SR）技术在全球范围内的最新研究进展及其应用现状。超分辨率技术旨在从单幅或多幅低分辨率（Low-Resolution, LR）图像中恢复出高质量的高分辨率（High-Resolution, HR）图像。该技术在遥感、医疗成像、视频处理等多个领域展现出广泛的应用前景。文章详细分析了当前主流的超分辨率算法，包括基于传统方法和深度学习的方法，并探讨了其在实际应用中的优缺点及未来发展方向。 ... [详细]

蜡笔小新 2024-10-31 15:10:48
io
视觉图像的生成机制与英文术语解析

近期，Google Brain、牛津大学和清华大学等多家研究机构相继发布了关于多层感知机（MLP）在视觉图像分类中的应用成果。这些研究深入探讨了MLP在视觉任务中的工作机制，并解析了相关技术术语，为理解视觉图像生成提供了新的视角和方法。 ... [详细]

蜡笔小新 2024-10-30 09:47:50
format
在Matlab中自主构建与仿真神经网络模型 - Building and Simulating Neural Network Models Independently in Matlab

在Matlab中，我尝试构建了一个神经网络模型，用于预测函数 y = x^2。为此，我设计并实现了一个拟合神经网络，并对其进行了详细的仿真和验证。通过调整网络结构和参数，成功实现了对目标函数的准确估计。此外，还对模型的性能进行了全面评估，确保其在不同输入条件下的稳定性和可靠性。 ... [详细]

蜡笔小新 2024-10-27 11:21:21
io
CVPR 2018 | 旷视科技Face++推出语义分割创新模型——判别特征网络（DFN）

全球计算机视觉顶会CVPR2018（ConferenceonComputerVisionandPatternRecognition，即IEEE国际计算机 ... [详细]

蜡笔小新 2024-10-23 18:11:27
io
深度学习: 目标函数

Introduction目标函数是深度学习之心，是模型训练的发动机。目标函数(objectfunction)损失函数(lossfunction)代价函数(costfunction) ... [详细]

蜡笔小新 2024-10-18 18:45:28
io
scikitlearn学习之SVM算法

分隔超平面：将数据集分割开来的直线叫做分隔超平面。超平面：如果数据集是N维的，那么就需要N-1维的某对象来对数据进行分割。该对象叫做超平面，也就是分类的决策边界。间隔：一个点 ... [详细]

蜡笔小新 2024-10-14 22:47:51
search
机器学习如何看世界对抗机器学习诠释人工智能和人类思维的不同

接近,计算,极限,看,世界,对抗,机器,学习,诠释,人工智能,和, ... [详细]

蜡笔小新 2024-09-29 20:35:55

wuke85394

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章