当前位置: 开发笔记 > 数据库 > 正文

【《机器学习》周志华学习笔记1.11.2】~什么是“机器学习”？机器学习有哪些基本概念？

作者：321 | 来源：互联网 | 2023-06-17 15:51

由现实世界引出“机器学习”看到乌云密布，自己推测出要下雨通过一个苹果的表面和大小，来判断这个苹果是否好吃我们通过经验来进行判断，这是

由现实世界引出“机器学习”

看到乌云密布&＃xff0c;自己推测出要下雨

通过一个苹果的表面和大小&＃xff0c;来判断这个苹果是否好吃

我们通过经验来进行判断&＃xff0c;这是因为我们积累了许多有用的经验&＃xff0c;通过对有用经验的分析&＃xff0c;就能对遇到的情况做出相应的对策。

计算机中&＃xff0c;经验就是“数据”&＃xff0c;判断模型就是“算法”&＃xff0c;机器学习就是研究“学习算法”。

举例&＃xff1a;当计算机数据库有上千万只猫的照片&＃xff0c;并对其特点进行建模分析&＃xff0c;你给机器一张照片&＃xff0c;它就能进行判断这张照片的动物是不是猫。&＃xff08;有人问&＃xff1a;会不会出错&＃xff1f;肯定会出错啊&＃xff01;模型如果100%就不会出错&＃xff0c;这是依赖于“算法”的好坏和数据库的大小。我们人类的经验也有时候会出错&＃xff0c;这其实就是概率的问题&＃xff09;

基本概念&＃xff1a;从具体到抽象

要进行机器学习&＃xff0c; 首先要准备数据。还是以猫为例&＃xff1a;

{猫颜色&＃xff1a;黑的、白的、黄的...} 、{猫眼睛&＃xff1a;颜色一样的&＃xff0c;颜色不一样} 、{猫有的有铃铛&＃xff0c;有的没有铃铛} 这些都是“特征”“属性”&＃xff0c;每一只猫的属性有很多种&＃xff0c;我们可以用一只黑色&＃43;眼睛颜色一样&＃43;没有铃铛的猫来进行描述。

比如现在有100只猫的照片&＃xff0c;那么这个就称为“样本空间”

这100只猫的属性集合&＃xff0c;分开形成各自的集合&＃xff0c;比如上面3个集合&＃xff0c;那就称为“属性空间”

抽象&＃xff1a;D&＃61;{x1,x2,x3.....xm}表示有m个示例的数据集。&＃xff08;100只猫的照片形成的数据集&＃xff09;

每个x都有d个属性描述&＃xff08;每只猫可以由&＃xff1a;颜色&＃43;眼睛色彩&＃43;铃铛等属性区分&＃xff09;&＃xff0c;d是维数

x是样本空间的一个向量

从数据中学习得的模型称为“学习”或者“训练”

每一个样本&＃xff08;每一张猫的照片&＃xff09;称为一个“训练样本”&＃xff0c;训练样本的集合为“训练集”

潜在的规律称为“假设”&＃xff0c;也称为“真相”、“真实”&＃xff0c;学习过程就是不断找到真相。

仅仅有前面示例的猫的照片也不够&＃xff0c;需要建立联系&＃xff0c;就是告诉计算机这是不是猫&＃xff0c;&＃xff08;白色&＃xff0c;双眼一样&＃xff0c;有铃铛&＃xff1b;这只是猫&＃xff09;注意分号&＃xff01;这是一个“标记”&＃xff0c;拥有了标记&＃xff0c;这就成为了一个“样例”这样的集合成为“标记空间”“输出空间”

给你一张照片&＃xff0c;判断是不是猫&＃xff0c;这个叫做“分类”&＃xff0c;预测是连续值&＃xff0c;成为“回归”

只涉及两个类别的分类成为“二分类”问题&＃xff1a; “正类”&＃43;“反类”&＃xff1b;多个分类成为&＃xff1a;“多分类”

预测的过程称为&＃xff1a;“测试”&＃xff1b;测试的东西称为&＃xff1a;“测试样本”

同时可以对其进行聚类分析&＃xff1a;比如把猫分为&＃xff1a;橘猫&＃xff0c;波斯猫....聚类分析有利于进一步学习&＃xff0c;找到潜在规律&＃xff0c;这些规律我们事先并不知道。

根据训练数据是否有标记&＃xff1a;“监督学习”&＃43;“无监督学习”

监督学习代表&＃xff1a;分类和回归&＃xff1b;无监督学习代表&＃xff1a;聚类

训练的目的是解决未知情况&＃xff0c;对于“新样本”的认识能力&＃xff0c;也就是“泛化”能力

假设样本空间服从一个未知分布&＃xff0c;每个样本都是独立的&＃xff0c;“独立同分布”&＃xff0c;一般而言&＃xff0c; 训练样本越多&＃xff0c;这个未知分布越明确&＃xff0c;越实用&＃xff0c; 泛化能力也越强&＃xff01;

推荐阅读

数据库
优化ListView性能

本文深入探讨了如何通过多种技术手段优化ListView的性能，包括视图复用、ViewHolder模式、分批加载数据、图片优化及内存管理等。这些方法能够显著提升应用的响应速度和用户体验。 ... [详细]

蜡笔小新 2024-12-28 10:36:30
mysql
新浪笔试题

1:有如下一段程序：packagea.b.c;publicclassTest{privatestaticinti0;publicintgetNext(){return ... [详细]

蜡笔小新 2024-12-27 19:32:17
数据库
数据管理权威指南：《DAMA-DMBOK2 数据管理知识体系》

本书提供了全面的数据管理职能、术语和最佳实践方法的标准行业解释，构建了数据管理的总体框架，为数据管理的发展奠定了坚实的理论基础。适合各类数据管理专业人士和相关领域的从业人员。 ... [详细]

蜡笔小新 2024-12-27 18:29:55
数据库
精选Python视频教程：来自国际顶尖讲师的全面指南（附中文字幕）

本文将介绍由密歇根大学Charles Severance教授主讲的顶级Python入门系列课程，该课程广受好评，被誉为Python学习的最佳选择。通过生动有趣的教学方式，帮助初学者轻松掌握编程基础。 ... [详细]

蜡笔小新 2024-12-27 15:14:33
数据库
深入理解C++中的KMP算法：高效字符串匹配的利器

本文详细介绍C++中实现KMP算法的方法，探讨其在字符串匹配问题上的优势。通过对比暴力匹配（BF）算法，展示KMP算法如何利用前缀表优化匹配过程，显著提升效率。 ... [详细]

蜡笔小新 2024-12-27 14:45:30
数据库
深入解析：手把手教你构建决策树算法

本文详细介绍了机器学习中广泛应用的决策树算法，通过天气数据集的实例演示了ID3和CART算法的手动推导过程。文章长度约2000字，建议阅读时间5分钟。 ... [详细]

蜡笔小新 2024-12-27 13:44:59
数据库
网络攻防实战：从HTTP到HTTPS的演变

本文通过一系列日记记录了从发现漏洞到逐步加强安全措施的过程，探讨了如何应对网络攻击并最终实现全面的安全防护。 ... [详细]

蜡笔小新 2024-12-27 11:34:50
数据库
机器学习中的相似度度量与模型优化

本文探讨了机器学习中常见的相似度度量方法，包括余弦相似度、欧氏距离和马氏距离，并详细介绍了如何通过选择合适的模型复杂度和正则化来提高模型的泛化能力。此外，文章还涵盖了模型评估的各种方法和指标，以及不同分类器的工作原理和应用场景。 ... [详细]

蜡笔小新 2024-12-26 18:10:02
join
毕业设计：基于机器学习与深度学习的垃圾邮件（短信）分类算法实现

本文详细介绍了如何使用机器学习和深度学习技术对垃圾邮件和短信进行分类。内容涵盖从数据集介绍、预处理、特征提取到模型训练与评估的完整流程，并提供了具体的代码示例和实验结果。 ... [详细]

蜡笔小新 2024-12-25 17:38:50
join
广义线性模型（Generalized Linear Models, GLM）

　　上一篇博客中我们说到线性回归和逻辑回归之间隐隐约约好像有什么关系，到底是什么关系呢？我们就来探讨一下吧。（这一篇数学推导占了大多数，可能看起来会略有枯燥，但这本身就是一个把之前算法 ... [详细]

蜡笔小新 2024-12-24 19:32:12
join
机器学习核心概念与技术

本文系统梳理了机器学习的关键知识点，涵盖模型评估、正则化、线性模型、支持向量机、决策树及集成学习等内容，并深入探讨了各算法的原理和应用场景。 ... [详细]

蜡笔小新 2024-12-22 09:15:30
join
现代人幸福感缺失的原因探究

随着生活节奏的加快和压力的增加，越来越多的人感到不快乐。本文探讨了现代社会中导致人们幸福感下降的各种因素，并提供了一些改善建议。 ... [详细]

蜡笔小新 2024-12-21 16:09:25
join
Python中HOG图像特征提取与应用

本文介绍如何在Python中使用HOG（Histogram of Oriented Gradients）算法进行图像特征提取，探讨其在目标检测中的应用，并详细解释实现步骤。 ... [详细]

蜡笔小新 2024-12-21 15:32:13
join
Python 工具推荐 | PyHubWeekly 第二十一期：提升命令行体验的五大工具

本期 PyHubWeekly 为大家精选了 GitHub 上五个优秀的 Python 工具，涵盖金融数据可视化、终端美化、国际化支持、图像增强和远程 Shell 环境配置。欢迎关注并参与项目。 ... [详细]

蜡笔小新 2024-12-21 14:45:11
join
LambdaMART算法详解

本文详细介绍了LambdaMART算法的背景、原理及其在信息检索中的应用。首先回顾了LambdaMART的发展历程，包括其前身RankNet和LambdaRank，然后深入探讨了LambdaMART如何结合梯度提升决策树（GBDT）和LambdaRank来优化排序问题。 ... [详细]

蜡笔小新 2024-12-18 12:30:35

321

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章