热门标签 | HotTags
当前位置:  开发笔记 > 人工智能 > 正文

吴恩达《机器学习》课程笔记——第一章:绪论初识机器学习

上一篇  ※※※※※※※※ 【回到目录】  ※※※※※※※※  下一篇1.1什么是机器学习卡内基梅隆大学的Tom Mitchell提出了一种机器学习的定义:电脑程序要完成任务(T)

上一篇  ※※※※※※※※ 【回到目录】  ※※※※※※※※  下一篇

1.1 什么是机器学习

卡内基梅隆大学的Tom Mitchell提出了一种机器学习的定义:电脑程序要完成任务(T),如果电脑程序获取关于任务(T)的经验(E)越多,就表现(P)越好,那么就可以说这个程序“学习”了关于任务(T)的经验。举个例子,Samuel编写了一个西洋棋程序。该程序要完成下棋的任务(T),西洋棋程序自己跟自己下了上万盘棋,并总结更容易赢的布局方式(E),该经验越多,那么程序就越清楚什么是好的布局,什么是不好的布局,该下棋程序表现更佳(P)。

我们不仅要掌握机器学习的算法,更重要的是也需要熟知每一种算法怎么使用。熟知不同算法的使用方法可以极大地提高效率,避免不必要的麻烦。目前的学习算法可主要分为两种,即监督学习和无监督学习,在下面的章节中具体介绍。

1.2 监督学习

我将监督学习和无监督学习归纳总结成下图:

《吴恩达《机器学习》课程笔记——第一章:绪论 初识机器学习》

监督学习指的就是我们给学习算法一个数据集,这个数据集由“正确答案”组成。比如在预测房价问题中,我们给了一系列房子的数据,我们给定数据集中每个样本的正确价格(即它们实际的售价),然后运用学习算法,算出更多的正确答案。用术语来讲,这叫做回归问题。关于回归:回归是指变量之间的统计关系。①若先有模型,则已知X可求Y;②而“回归”的意思就是我们通过收集X与Y来确定实际上存在的关系模型:收集X、Y,从而确定模型。

再举一个监督学习的例子:假设说你想通过查看病历来推测乳腺癌是否为良性。让我们来看一组数据:这个数据集中,横轴表示肿瘤的大小,纵轴上,我标出1和0表示是或者不是恶性肿瘤。如果是恶性则记为1,不是恶性或者说良性记为0。

 《吴恩达《机器学习》课程笔记——第一章:绪论 初识机器学习》

我有5个良性肿瘤样本,在1的位置有5个恶性肿瘤样本。那么机器学习的问题就在于,你能否估算出肿瘤是恶性的或是良性的概率。用术语来讲,这是一个分类问题。关于分类:分类是指推测出离散的输出值,0或者1。事实上分类问题不仅有二值分类,还有多元分类。如希望预测的离散输出为0、1、2、3。在其它一些机器学习问题中,可能会遇到不止一种特征。举个例子,我们不仅知道肿瘤的尺寸,还知道对应患者的年龄。在其他机器学习问题中,我们通常有更多的特征。

《吴恩达《机器学习》课程笔记——第一章:绪论 初识机器学习》

 

 图中右侧的英文翻译为:clump thickness(肿块厚度)、uniformity of Cell Size(肿瘤细胞尺寸的一致性)、uniformity of Cell Shape(肿瘤细胞形状的一致性)。

以上就是监督学习的内容。

1.3 无监督学习

对于监督学习里的每条数据,我们已经清楚地知道,训练集对应的正确答案(right answers given)。而无监督学习中,没有任何的标签或者是有相同的标签或者就是没标签。针对数据集,无监督学习就能判断出数据有两个不同的聚集簇。这是一个,那是另一个,二者不同。无监督学习算法可能会把这些数据分成两个不同的簇。所以叫做聚类算法。

无监督学习的应用实例:①新闻事件分类:谷歌新闻每天都在,收集非常多,非常多的网络的新闻内容。它再将这些新闻分组,组成有关联的新闻。所以谷歌新闻做的就是搜索非常多的新闻事件,自动地把它们聚类到一起。②市场分割:许多公司有大型的数据库,存储消费者信息。所以,检索这些顾客数据集,自动地发现市场分类,并自动地把顾客划分到不同的细分市场中,才能自动并更有效地销售或不同的细分市场一起进行销售。

 

 

以上,就是吴恩达机器学习课程第一章的主要内容。

 

如果这篇文章帮助到了你,或者你有任何问题,欢迎扫码关注微信公众号:一刻AI  在后台留言即可,让我们一起学习一起进步!

《吴恩达《机器学习》课程笔记——第一章:绪论 初识机器学习》

 

 

【重要提示】:本人机器学习课程的主要学习资料包括:吴恩达教授的机器学习课程和黄广海博士的中文学习笔记。感谢吴恩达教授和黄广海博士的知识分享和无私奉献。作为机器学习小白,计划每周末记录一周以来的学习内容,总结回顾。希望大家多多挑错,也愿我的学习笔记能帮助到有需要的人。


推荐阅读
  • 深入理解C++中的KMP算法:高效字符串匹配的利器
    本文详细介绍C++中实现KMP算法的方法,探讨其在字符串匹配问题上的优势。通过对比暴力匹配(BF)算法,展示KMP算法如何利用前缀表优化匹配过程,显著提升效率。 ... [详细]
  • 深入解析:手把手教你构建决策树算法
    本文详细介绍了机器学习中广泛应用的决策树算法,通过天气数据集的实例演示了ID3和CART算法的手动推导过程。文章长度约2000字,建议阅读时间5分钟。 ... [详细]
  • 机器学习中的相似度度量与模型优化
    本文探讨了机器学习中常见的相似度度量方法,包括余弦相似度、欧氏距离和马氏距离,并详细介绍了如何通过选择合适的模型复杂度和正则化来提高模型的泛化能力。此外,文章还涵盖了模型评估的各种方法和指标,以及不同分类器的工作原理和应用场景。 ... [详细]
  • 毕业设计:基于机器学习与深度学习的垃圾邮件(短信)分类算法实现
    本文详细介绍了如何使用机器学习和深度学习技术对垃圾邮件和短信进行分类。内容涵盖从数据集介绍、预处理、特征提取到模型训练与评估的完整流程,并提供了具体的代码示例和实验结果。 ... [详细]
  •   上一篇博客中我们说到线性回归和逻辑回归之间隐隐约约好像有什么关系,到底是什么关系呢?我们就来探讨一下吧。(这一篇数学推导占了大多数,可能看起来会略有枯燥,但这本身就是一个把之前算法 ... [详细]
  • 深入理解K近邻分类算法:机器学习100天系列(26)
    本文详细介绍了K近邻分类算法的理论基础,探讨其工作原理、应用场景以及潜在的局限性。作为机器学习100天系列的一部分,旨在为读者提供全面且深入的理解。 ... [详细]
  • Coursera ML 机器学习
    2019独角兽企业重金招聘Python工程师标准线性回归算法计算过程CostFunction梯度下降算法多变量回归![选择特征](https:static.oschina.n ... [详细]
  • 机器学习核心概念与技术
    本文系统梳理了机器学习的关键知识点,涵盖模型评估、正则化、线性模型、支持向量机、决策树及集成学习等内容,并深入探讨了各算法的原理和应用场景。 ... [详细]
  • 随着生活节奏的加快和压力的增加,越来越多的人感到不快乐。本文探讨了现代社会中导致人们幸福感下降的各种因素,并提供了一些改善建议。 ... [详细]
  • Python中HOG图像特征提取与应用
    本文介绍如何在Python中使用HOG(Histogram of Oriented Gradients)算法进行图像特征提取,探讨其在目标检测中的应用,并详细解释实现步骤。 ... [详细]
  • Python 工具推荐 | PyHubWeekly 第二十一期:提升命令行体验的五大工具
    本期 PyHubWeekly 为大家精选了 GitHub 上五个优秀的 Python 工具,涵盖金融数据可视化、终端美化、国际化支持、图像增强和远程 Shell 环境配置。欢迎关注并参与项目。 ... [详细]
  • 本文介绍了Java并发库中的阻塞队列(BlockingQueue)及其典型应用场景。通过具体实例,展示了如何利用LinkedBlockingQueue实现线程间高效、安全的数据传递,并结合线程池和原子类优化性能。 ... [详细]
  • 题目描述:给定n个半开区间[a, b),要求使用两个互不重叠的记录器,求最多可以记录多少个区间。解决方案采用贪心算法,通过排序和遍历实现最优解。 ... [详细]
  • 探讨一个显示数字的故障计算器,它支持两种操作:将当前数字乘以2或减去1。本文将详细介绍如何用最少的操作次数将初始值X转换为目标值Y。 ... [详细]
  • 本文详细介绍了Java编程语言中的核心概念和常见面试问题,包括集合类、数据结构、线程处理、Java虚拟机(JVM)、HTTP协议以及Git操作等方面的内容。通过深入分析每个主题,帮助读者更好地理解Java的关键特性和最佳实践。 ... [详细]
author-avatar
艾特PONYO
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有