热门标签 | HotTags
当前位置:  开发笔记 > 后端 > 正文

机器学习中的回归技术

介绍线性和逻辑回归通常是人们在数据科学

介绍

线性和逻辑回归通常是人们在数据科学中学习的第一个算法。由于它们的流行,许多分析师甚至最终认为它们是回归的唯一形式。参与程度稍高的人认为,它们是所有形式的回归分析中最重要的。

事实是,可以执行无数种形式的回归。每种形式都有其自身的重要性和最适合应用的特定条件。在本文中介绍了数据科学中最常用的7种回归类型。

1

什么是回归分析?

回归分析是一种预测建模技术,用于研究因变量(目标)与自变量(预测变量)之间的关系 。该技术用于预测,时间序列建模以及查找变量之间的因果关系。例如,通过回归最好地研究皮疹驾驶与驾驶员道路交通事故发生次数之间的关系。

回归分析是用于建模和分析数据的重要工具。在这里,我们将曲线/线拟合到数据点,以使数据点到曲线或线的距离之间的差异最小化。


为什么要使用回归分析

回归分析估计两个或多个变量之间的关系。让我们用一个简单的例子来理解这一点:

假设您要根据当前的经济状况估算公司的销售增长。您具有最近的公司数据,该数据表明销售增长约为经济增长的两倍半。利用这一见解,我们可以根据当前和过去的信息来预测公司的未来销售。

使用回归分析有多个好处。如下:

1.它表明因变量和自变量之间的显着关系

2.它表示多个自变量对因变量的影响强度

回归分析还使我们能够比较在不同规模上测得的变量的影响,例如价格变化和促销活动数量的影响。这些好处可帮助市场研究人员/数据分析师/数据科学家消除和评估用于建立预测模型的最佳变量集。

2

3

有几种类型的回归技术?

有多种回归技术可用于进行预测。这些技术主要由三个指标(自变量数量,因变量类型和回归线的形状)驱动。

01

线性回归

它是最广为人知的建模技术之一。线性回归通常是人们在学习预测建模时会选择的头几个主题。在此技术中,因变量是连续的,自变量可以是连续的或离散的,并且回归线的性质是线性的。

线性回归使用最佳拟合直线(也称为回归线)在因变量(Y)和一个或多个自变量(X)之间建立关系。

它由等式Y = a + b * X + e表示,其中a是截距,b是直线的斜率,e是误差项。该方程式可用于基于给定的预测变量来预测目标变量的值。

简单线性回归和多元线性回归之间的区别在于,多元线性回归具有(> 1)个自变量,而简单线性回归只有1个自变量。现在,问题是“我们如何获得最佳拟合线?”。

如何获得最佳拟合线(a和b的值)?

可以通过最小二乘法轻松地完成此任务。这是用于拟合回归线的最常用方法。它通过最小化从每个数据点到该线的垂直偏差的平方和来计算观测数据的最佳拟合线。由于偏差是先平方的,所以相加时就不会在正值和负值之间抵消。

02

Logistic回归

Logistic回归用于查找事件=成功和事件=失败的概率。当因变量本质上是二进制(0/1,True False,Yes No)时,我们应该使用逻辑回归。在此,Y的值在0至1的范围内,并且可以由以下等式表示。

·赔率= p (1-p)=事件发生的概率/非事件发生的概率

·ln(奇数)= ln(p (1-p))

·logit(p)= ln(p (1-p))= b0 + b1X1 + b2X2 + b3X3 .... + bkXk

上面的p是存在感兴趣特征的概率。您在这里应该问的一个问题是“为什么在方程式中使用对数?”。

由于我们在这里使用二项式分布(因变量),因此我们需要选择最适合此分布的链接函数。并且,它是logit功能。在上面的方程式中,选择参数的目的是使观察样本值的可能性最大化,而不是使平方误差的总和最小(就像在普通回归中一样)。

03

多项式回归

如果自变量的幂大于1,则回归方程式是多项式回归方程式。以下方程式表示多项式方程式:

y = a + b * x ^ 2

在这种回归技术中,最佳拟合线不是直线。而是一条适合数据点的曲线。

04

逐步回归

当我们处理多个自变量时,将使用这种形式的回归。在这种技术中,自变量的选择是在自动过程的帮助下完成的,该过程 无需人工干预。

通过观察R-square,t-stats和AIC度量等统计值来识别重要变量,可以实现这一壮举。逐步回归基本上可以通过基于指定条件一次添加/删除一个协变量来拟合回归模型。下面列出了一些最常用的逐步回归方法:

·标准逐步回归有两件事。它根据每个步骤的需要添加和删除预测变量。

·正向选择从模型中最重要的预测变量开始,并为每个步骤添加变量。

·向后消除从模型中的所有预测变量开始,并删除每个步骤的最低有效变量。

这种建模技术的目的是用最少数量的预测变量来最大化预测能力。它是处理更高维度数据集的方法之一。

05

岭回归

岭回归是一种当数据遭受多重共线性(独立变量高度相关)时使用的技术。在多重共线性中,即使最小二乘估计(OLS)是无偏的,它们的方差也很大,这使观测值偏离了真实值。通过在回归估计中增加一定程度的偏差,岭回归可减少标准误差。

我们看到了线性回归方程。它可以表示为:

y = a + b * x

该方程式还有一个误差项。完整的等式变为:

y = a + b * x + e(误差项),[误差项是校正观测值和预测值之间的预测误差所需的值]
=> y = a + y = a + b1x1 + b2x2 + .... + e,用于多个自变量。

在线性方程中,预测误差可以分解为两个子成分。首先是由于偏见,其次是由于方差。由于这两个或两个组件中的任何一个,可能会发生预测错误。在这里,我们将讨论由于方差引起的误差。

Ridge回归通过收缩参数λ(λ)解决了多重共线性问题 。看下面的等式。

在这个方程中,我们有两个组成部分。第一个是最小二乘项,另一个是β2的总和的λ  (β平方),其中β是系数。将其添加到最小二乘项以缩小参数以使其具有非常低的方差。

06

套索回归

与“岭回归”相似,“套索”(最小绝对收缩和选择算子)也惩罚了回归系数的绝对大小。此外,它能够减少变异性并提高线性回归模型的准确性。看下面的方程式:套索回归与岭回归的不同之处在于,它在惩罚函数中使用绝对值而不是平方。这导致惩罚(或等效地约束估计的绝对值之和)值,这导致某些参数估计值恰好为零。施加的惩罚越大,则估计值进一步缩水至绝对零。这导致从给定的n个变量中选择变量。

07

ElasticNet回归

ElasticNet是Lasso和Ridge回归技术的混合。  事先用L1和L2训练它作为正则化器。当存在多个相互关联的功能时,Elastic-net很有用。套索可能会随机选择其中之一,而弹性网可能会同时选择两者。

在Lasso和Ridge之间进行折衷的一个实际优势是,它允许Elastic-Net继承旋转条件下Ridge的某些稳定性。

到现在为止,我希望您对回归有所了解。应考虑数据条件应用这些回归技术。找出使用哪种技术的最佳技巧之一就是检查变量系列,即离散或连续。

感谢您的阅读!

本文作者:


指导老师:

扫码关注我们~

数艺学苑

沈浩老师



推荐阅读
  • Python 数据可视化实战指南
    本文详细介绍如何使用 Python 进行数据可视化,涵盖从环境搭建到具体实例的全过程。 ... [详细]
  • 如何撰写数据分析师(包括转行者)的面试简历?
    CDA数据分析师团队出品,作者:徐杨老师,编辑:Mika。本文将帮助您了解如何撰写一份高质量的数据分析师简历,特别是对于转行者。 ... [详细]
  • 从0到1搭建大数据平台
    从0到1搭建大数据平台 ... [详细]
  • 投融资周报 | Circle 达成 4 亿美元融资协议,唯一艺术平台 A 轮融资超千万美元 ... [详细]
  • 本文介绍了在 MySQL 中如何使用正则表达式来提高查询效率,通过具体示例展示了如何筛选包含中文字符的记录,并详细解释了正则表达式的各种特殊字符和结构。 ... [详细]
  • 使用 SourceTree 管理 SVN 代码仓库的详细指南
    SourceTree 是一款功能强大的 Git 管理工具,但很多人不知道它同样支持管理 SVN 代码仓库。本文将详细介绍如何使用 SourceTree 来管理和操作 SVN 代码仓库。 ... [详细]
  • CM 创始人分享:在 GitHub 上成为开源项目的守护者
    本文由 CM 创始人 Steve Klabnik 发表在其个人博客上,详细介绍了他在 GitHub 上为 Rails 开源项目所做的贡献和经验,特别强调了如何有效管理和筛选项目中的问题。 ... [详细]
  • 深入解析监督学习的核心概念与应用
    本文深入探讨了监督学习的基本原理及其广泛应用。监督学习作为机器学习的重要分支,通过利用带有标签的训练数据,能够有效构建预测模型。文章详细解析了监督学习的关键概念,如特征选择、模型评估和过拟合问题,并介绍了其在图像识别、自然语言处理等领域的实际应用。 ... [详细]
  • 在ElasticStack日志监控系统中,Logstash编码插件自5.0版本起进行了重大改进。插件被独立拆分为gem包,每个插件可以单独进行更新和维护,无需依赖Logstash的整体升级。这不仅提高了系统的灵活性和可维护性,还简化了插件的管理和部署过程。本文将详细介绍这些编码插件的功能、配置方法,并通过实际生产环境中的应用案例,展示其在日志处理和监控中的高效性和可靠性。 ... [详细]
  • 在探讨 MySQL 正则表达式 REGEXP 的功能与应用之前,我们先通过一个小实验来对比 REGEXP 和 LIKE 的性能。通过具体的代码示例,我们将评估这两种查询方式的效率,以确定 REGEXP 是否值得深入研究。实验结果将为后续的详细解析提供基础。 ... [详细]
  • 业务团队与独立团队在数据分析领域的效能对比:谁更胜一筹?
    业务团队与独立团队在数据分析领域的效能对比:谁更胜一筹? ... [详细]
  • HBase Java API 进阶:过滤器详解与应用实例
    本文详细探讨了HBase 1.2.6版本中Java API的高级应用,重点介绍了过滤器的使用方法和实际案例。首先,文章对几种常见的HBase过滤器进行了概述,包括列前缀过滤器(ColumnPrefixFilter)和时间戳过滤器(TimestampsFilter)。此外,还详细讲解了分页过滤器(PageFilter)的实现原理及其在大数据查询中的应用场景。通过具体的代码示例,读者可以更好地理解和掌握这些过滤器的使用技巧,从而提高数据处理的效率和灵活性。 ... [详细]
  • Node.js 配置文件管理方法详解与最佳实践
    本文详细介绍了 Node.js 中配置文件管理的方法与最佳实践,涵盖常见的配置文件格式及其优缺点,并提供了多种实用技巧和示例代码,帮助开发者高效地管理和维护项目配置,具有较高的参考价值。 ... [详细]
  • 掌握PHP编程必备知识与技巧——全面教程在当今的PHP开发中,了解并运用最新的技术和最佳实践至关重要。本教程将详细介绍PHP编程的核心知识与实用技巧。首先,确保你正在使用PHP 5.3或更高版本,最好是最新版本,以充分利用其性能优化和新特性。此外,我们还将探讨代码结构、安全性和性能优化等方面的内容,帮助你成为一名更高效的PHP开发者。 ... [详细]
  • Nginx不仅是一款轻量级的高性能Web服务器,还具备出色的负载均衡和反向代理功能。它支持复杂的正则匹配规则、动静内容分离以及灵活的URL重写功能,使得配置和管理更加便捷高效。此外,Nginx提供了多种负载均衡算法,如轮询、加权轮询、最少连接数等,以满足不同应用场景的需求。 ... [详细]
author-avatar
mobiledu2502877697
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有