作者:业余爱好者 | 来源:互联网 | 2023-09-13 11:03
简单解释:
分类和回归的区别在于输出变量的类型。
定量输出称为回归,或者说是连续变量预测;
定性输出称为分类,或者说是离散变量预测。
举个例子:
预测明天的气温是多少度,这是一个回归任务;
预测明天是阴、晴还是雨,就是一个分类任务。
监督学习中,
如果预测的变量是离散的,我们称其为分类(如决策树,支持向量机等),
如果预测的变量是连续的,我们称其为回归。
以下内容参考:李航《统计学习方法》第12章
分类算法有感知机、K近邻、朴素贝叶斯、决策树、逻辑回归与最大熵模型、支持向量机、提升方法。
原始的感知机、支持向量机以及提升方法是针对二类分类的,可以将它们扩展到多类分类。
感知机、K近邻、朴素贝叶斯、决策树是简单的分类算法,模型直观、实现容易。
逻辑回归与最大熵模型、支持向量机、提升方法是较复杂但更有效的分类算法。
分类很简单,就是分类么,下面着重说回归
回归又分为线性回归与逻辑回归(Logistic Regression 和 Linear Regression)
1、分类与回归是干嘛的?
不管是分类,还是回归,其本质是一样的,都是对输入做出预测,并且都是监督学习。说白了,就是根据特征,分析输入的内容,判断它的类别,或者预测其值。
作者:陶韬
链接:https://www.zhihu.com/question/21329754/answer/204957456
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
为什么那么多回答说分类与回归的区别就是离散和连续的区别?根本不是这样子的啊!这两者的区别完全不在于连续与否啊,而在于损失函数的形式不同啊!(后文详述)-------------分割线----------------前面的很多答案用到了不少生动的例子和理论,从多个角度深刻诠释了什么是分类问题,什么是回归问题,以及如何实现回归与分类任务,但大多数的回答仍没有提及这两者间的本质区别。个人认为:“回归与分类的根本区别在于输出空间是否为一个度量空间。”我们不难看到,回归问题与分类问题本质上都是要建立映射关系:而两者的区别则在于:对于回归问题,其输出空间B是一个度量空间,即所谓“定量”。也就是说,回归问题的输出空间定义了一个度量 去衡量输出值与真实值之间的“误差大小”。例如:预测一瓶700毫升的可乐的价格(真实价格为5元)为6元时,误差为1;预测其为7元时,误差为2。这两个预测结果是不一样的,是有度量定义来衡量这种“不一样”的。(于是有了均方误差这类误差函数)。对于分类问题,其输出空间B不是度量空间,即所谓“定性”。也就是说,在分类问题中,只有分类“正确”与“错误”之分,至于错误时是将Class 5分到Class 6,还是Class 7,并没有区别,都是在error counter上+1。而非很多回答所提到的“连续即回归,离散即分类”。事实上,在实际操作中,我们确实常常将回归问题和分类问题互相转化(分类问题回归化:逻辑回归;回归问题分类化:年龄预测问题——>年龄段分类问题),但这都是为了处理实际问题时的方便之举,背后损失的是数学上的严谨性。
1、分类与回归是干嘛的?
不管是分类,还是回归,其本质是一样的,都是对输入做出预测,并且都是监督学习。说白了,就是根据特征,分析输入的内容,判断它的类别,或者预测其值。
2、二者有什么区别
重要要研究的就是两者的区别
1.输出不同
1.分类问题输出的是物体所属的类别,回归问题输出的是物体的值。
例如,最近福州天气比较怪(阴晴不定,像极了女朋友的脾气),为了能够对明天穿衣服的量以及是否携带雨具做判断,我们就要根据已有天气情况做预测。
上图中的天气可以分为:晴、阴、雨 三类,我们只知道今天(2019年3月26日)及之前的天气,我们会预测明天及以后几天的天气情况,如明天阴,下周一晴,这就是分类;
每一天的天气温度,我们知道今天及以前几天的温度,我们就要通过之前的温度来预测现在往后的温度,每一个时刻,我们都能预测出一个温度值,得到这个值用的方法就是回归。
2.分类问题输出的值是离散的,回归问题输出的值是连续的
注:这个离散和连续不是纯数学意义上的离散和连续。
在数学上的连续是指,在某一个点处的极限值等于在这个点的函数值。很明显,回归问题不可能测得连续值。因为我们测得的两个值再接近,这两个值之间还是会存在实数域上的值,比如我们测得空气温度是11°和10.999°(现实情况中,测空气温度小数点后三位几乎没什么意义,在此只是作为例子来说明问题),在这两个值之间还有无穷多个值,比如:10.9999°,10.99999°等等。测得的值是有范围的,小数点多少位以后,值就测不到了。
那我们怎么去理解离散和连续呢?
我们可以这么理解:离散就是规定好有有限个类别,这些类别是离散的。连续就是理论上可以取某一范围内的任意值,比如现在28°,当然这是我们测出来的,但是实际温度可能是无限趋于28。也就是说,回归并没有要求你的值必须是那个类别,你只要能回归出一个值,在可控范围内即可。
3.分类问题输出的值是定性的,回归问题输出的值是定量的
首先我们要先给大家说一下什么是定性和定量。
所谓定性是指确定某种东西的确切的组成有什么或者某种物质是什么,这种测定一般不用特别的测定这种物质的各种确切的数值量。
所谓定量就是指确定一种成分(某种物质)的确切的数值量,这种测定一般不用特别的鉴定物质是什么,
举个例子,这是一杯水,这句话是定性;这杯水有10毫升,这是定量。
2.目的不同
分类的目的是为了寻找决策边界,即分类算法得到是一个决策面,用于对数据集中的数据进行分类。
回归的目的是为了找到最优拟合,通过回归算法得到是一个最优拟合线,这个线条可以最好的接近数据集中的各个点。
3.本质不同
这个是我看到的别人在分析两者的差别时提到的,分享给大家。
(原文:https://www.zhihu.com/question/21329754/answer/204957456)
所谓的离散与连续的差别是分类与回归的不同的表象,而非本质,本质在于损失函数的形式不同。
4.结果不同
分类的结果没有逼近,对就是对,错就是错,什么类别就是什么类别,最终结果只有一个。
回归是对真实值的一种逼近预测,值不确定,当预测值与真实值相近时,误差较小时,认为这是一个好的回归。(例如一个产品的实际价格为5000元,通过回归分析预测值为4999元,我们认为这是一个比较好的回归分析。)
3、场景应用
我们的主要目的还是为了应用,而不是单纯了解他们有什么不同。
1.分类应用
分类问题应用非常广泛。通常是建立在回归之上,分类的最后一层通常要使用softmax函数进行判断其所属类别。分类并没有逼近的概念,最终正确结果只有一个,错误的就是错误的,不会有相近的概念。
例如判断一幅图片上的动物是一只猫还是一只狗,判断明天天气的阴晴,判断零件的合格与不合格等等。
2.回归应用
回归问题通常是用来预测一个值。另外,回归分析用在神经网络上,其最上层是不需要加上softmax函数的,而是直接对前一层累加即可。一个比较常见的回归算法是线性回归算法(LR)
如预测房价、股票的成交额、未来的天气情况等等。