作者:juxiu小妹_895 | 来源:互联网 | 2023-09-25 15:05
本章节主要介绍了监督学习和无监督学习的概念与举例,适合小白入门机器学习。1.监督学习监督学习指的就是我们给学习算法一个数据集。这个数据集由“正确答案”组成。房价问题首先给了一系列房
本章节主要介绍了监督学习和无监督学习的概念与举例,适合小白入门机器学习。
1. 监督学习
监督学习指的就是我们给学习算法一个数据集。这个数据集由“正确答案”组成。
房价问题
首先给了一系列房子的数据,然后给定数据集中每个样本实际的售价,然后运用学习算法,算出更多的正确答案。这是一个回归问题,回归是指预测连续值的属性。可以用一条直线、二次函数或二阶多项式拟合数据做出预测。
肿瘤问题
假设想通过查看病历来推测乳腺癌良性与否,例如这组数据:横轴表示肿瘤的大小,纵轴上1表示恶性肿瘤,0表示不是恶性肿瘤。这是一个分类问题,分类是预测离散值的输出,输出可以是多个值。比如说可能有三种乳腺癌,则要预测离散输出0、1、2、3。
在其他机器学习问题中,我们通常有更多的特征。例如肿瘤问题中常采用肿块密度,肿瘤细胞尺寸的一致性和形状的一致性等等这些特征。
当存在无限多种特征时,如何选择预测模型?这将在后面的课程中进行介绍。
2. 无监督学习
无监督学习的数据集没有任何标签,就是给算法一个数据集,但不知道哪些样本是什么类型也不知道有哪些类型,并希望算法从数据中找出某种结构。例如自动将数据分为两个不同的簇,即聚类算法。
应用
- 组织大型计算机集群。解决什么样的机器易于协同地工作,能让数据中心工作得更高效。
- 社交网络的分析。自动地给出朋友的分组,识别出同属一个圈子的朋友。
- 市场分割。许多公司有大型的数据库,存储消费者信息。检索这些顾客数据集,自动找出不同的市场分割,并自动地把顾客划分到不同的细分市场中,实现在不同的细分市场中进行自动高效的销售。
鸡尾酒宴问题
两个人在同时讲话,两个不同位置的麦克风分别录下了这些重叠的声音。通过无监督学习算法找出数据的结构,可以分离出两个音频源。一行代码就可以完成这个算法:
[W,s,v] = svd((repmat(sum(x.*x,1),size(x,1),1).*x)*x’);
svd是奇异值分解。
下一章将介绍单变量线性回归。