热门标签 | HotTags
当前位置:  开发笔记 > 开放平台 > 正文

统计学之一元线性回归分析

统计学之一元线性回归分析-1.回归模型简介我们先来看一下什么是回归模型,以下解释来源于百度百科:回归模型是一种预测性的建模技术,它研究的是因变量(目标)和自变量(预测器)之间的关系
1.回归模型简介

我们先来看一下什么是回归模型,以下解释来源于百度百科:

回归模型是一种预测性的建模技术,它研究的是因变量(目标)和自变量(预测器)之间的关系。这种技术通常用于预测分析,时间序列模型以及发现变量之间的因果关系

回归模型最重要的两个应用场景就是预测分析和因果关系分析,比如我们上学的时候学过的一元一次方程组y = kx + b就是一个最简单的回归模型,当我们知道一个x时,比如此时的x是月份,就可以通过方程求出这个这个x对应的y,这里的y可以是销量,这个通过x求取y的过程就是一个预测的过程。

回归模型主要分为一元线性回归和多元线性回归,这一节先给大家讲一下一元线性回归。

2.参数估计

参数估计是做什么的呢?是估计什么参数呢?就是用来估计方程y = kx + b中的k和b的。可能有的人会有这样的疑问,为什么要估计呢?而不是直接去算。我们在上学的时候是可以直接去算的,那是因为只有两个点,通过这两个点的直线是确定的,所以对应的参数也是固定的。

而在实际应用中,我们的数据点往往都是多个,这多个点往往不在一条直线上,但是呢,我们又希望这些点尽可能的都在一条直线上,所以我们需要找到这么一条直线,这条直线到每个数据点的距离都很近(接近于0),这样我们就可以用这条距离每个点都尽可能近的直线来近似表示这些点的一个趋势。这条线对应的 k 和 b 就是我们估计出来的参数。

我们在找这一条直线的有一个原则,就是每个点到这条线的距离尽可能的小,最后让所有点到直线的距离最小,我们把这种方法称为最小二乘法,最小二乘法是参数估计的一种方法。

关于最小二乘法的更多内容,大家可以自行学习。

3.拟合程度判断

通过上面的参数估计,我们已经得到了一条可以反映数据点趋势的线,可是这条线到底准确度如何,也就是和实际数据点走势的拟合程度是怎么样的,我们需要来判断一下。

这里介绍几个关于判断拟合程度的概念。

总平方和(SST):实际值与其平均值之间距离的平方和,可以理解为方差(而非实际方差),用来反映实际值y波动大小的。

回归平方和(SSR):回归值(即预测出来的y值)与实际值均值之间距离的平方和。这一部分变化是由于自变量的变化引起的,是可以由回归直线来解释的。

残差平方和(SSE):回归值与实际值之间距离的平方和。这一部分是除了自变量影响之外的其他影响因素造成的,属于不可解释部分。

SST = SSR + SSE,

上述公式表面实际值y的波动情况由两部分因素决定,一部分是由于自变量x不一样导致的y的变动(回归平方和),另一部分是由于除自变量以外的因素决定(残差平方和)。

我们理想情况下,实际值y的波动尽可能都可能都是因为自变量x变化引起的,而且这个占比越高越可以说明我们的回归直线拟合的好。我们把这个指标称为 R^2 = SSR/SST。

R^2越大,说明拟合度越好,介于[0,1]之间。

4.显著性检验

通过前面的步骤参数也求出来了,也就是y = kx + b中的 k 和 b 求出来了,那我们是不是就可以直接拿来用了呢?很显然不太能,为什么呢?因为你参数估计是根据你现有样本数据估计出来的,所以直线反映的也是现有数据情况下的趋势,这些数据的趋势能否代表全量数据的趋势呢?我们需要检验一下,这就是显著性检验。

回归直线其实是用来反映 x 和 y 之间的线性关系的,所以我们首先要检验的就是线性关系是否显著,那怎么来检验,还是用我们之前讲过的假设检验的方法。

我们先假设 x 和 y 之间是没有线性关系的,如果没有线性关系是不是k就等于0,那既然这样总平方和的的波动是不是就完全由残差平方和决定了,那是不是意味着 SSR/SSE 基本为0,这是我们通过如果没有线性关系这个假设得出来的结论。

还是前面方差分析中提到的,平方和会随着样本数据的增加而增加,所以我们就需要把平方和转换成均方,即平方和/自由度。

在一元线性回归中,回归平方和的自由度为1(即自变量的个数),残差平方和的自由度为n-2。

统计量F

=(SSR/1)/(SSE/(n-2))

=MSR/MSE。

根据样本数据计算得出F值,确定显著性水平,查显著性水平对应的F边界值,如果F>F边界值,则拒绝原假设,否则不拒绝原假设。

5.回归方程应用

一元回归方差主要用来做预测,分为点预测与区间预测,点预测就是通过回归方程预测今年12月份的具体销量是多少;区间预测是通过回归方程得到今年12月份销量的范围大概是在哪一区间内。

点预测比较简单,直接把x代入到方程中就可以得出结果。区间预测稍微比较复杂一些,但是区间预测的本质还是我们之前讲过的置信区间[聊聊置信度与置信区间]的求取,关键点就两个,一个是样本均值,一个是标准差。样本均值也比较简单,标准差的公式如下:


推荐阅读
  • 如何在PHPcms网站中添加广告
    本文详细介绍了在PHPcms网站后台添加广告的方法,涵盖多种常见的广告形式,如百度广告和Google广告,并提供了相关设置的步骤。同时,文章还探讨了优化网站流量的SEO策略。 ... [详细]
  • 本文详细介绍了如何使用Python编写爬虫程序,从豆瓣电影Top250页面抓取电影信息。文章涵盖了从基础的网页请求到处理反爬虫机制,再到多页数据抓取的全过程,并提供了完整的代码示例。 ... [详细]
  • 百度服务再次遭遇技术问题,疑似DNS解析故障
    近日晚间,百度多项在线服务出现加载异常,包括移动端搜索在内的多个功能受到影响。初步迹象表明,问题可能与DNS服务器解析有关。 ... [详细]
  • 自媒体创作必备工具与软件推荐
    本文将详细介绍自媒体创作者所需的各类工具和软件,包括视频制作、剪辑、发布平台管理等方面的专业建议。 ... [详细]
  • 探讨如何使用工具或方法来自定义百度网盘的提取码,以提高文件分享的安全性和便捷性。 ... [详细]
  • 摘要:为了解决下载速度慢的问题,本文介绍了一种高效的下载方法,并提供了详细的步骤和工具推荐。通过使用百度网盘分享功能,可以显著提高文件传输效率。 ... [详细]
  • 根据最新发布的《互联网人才趋势报告》,尽管大量IT从业者已转向Python开发,但随着人工智能和大数据领域的迅猛发展,仍存在巨大的人才缺口。本文将详细介绍如何使用Python编写一个简单的爬虫程序,并提供完整的代码示例。 ... [详细]
  • 通过与阿里云的合作,牛客网成功解决了跨国视频面试中的网络卡顿问题,为求职者和面试官提供了更加流畅的沟通体验。 ... [详细]
  • 本文探讨了如何在 PHP 的 Eloquent ORM 中实现数据表之间的关联查询,并通过具体示例详细解释了如何将关联数据嵌入到查询结果中。这不仅提高了数据查询的效率,还简化了代码逻辑。 ... [详细]
  • 揭秘:为何我的网名是老紫竹
    本文详细解释了作者为何选择“老紫竹”作为网名,从个人喜好到网络经历,以及与紫竹植物的渊源。 ... [详细]
  • 本文将深入探讨PHP编程语言的基本概念,并解释PHP概念股的含义。通过详细解析,帮助读者理解PHP在Web开发和股票市场中的重要性。 ... [详细]
  • 本文介绍了一种有效的方法来检测硬盘上的视频文件是否损坏或存在缺帧问题。虽然一些常见的搜索引擎并未提供专门的工具,但通过使用FFmpeg等专业软件,可以全面验证各种视频格式的数据完整性,包括较为古老的AVI格式。 ... [详细]
  • 本次考试于2016年10月25日上午7:50至11:15举行,主要涉及数学专题,特别是斐波那契数列的性质及其在编程中的应用。本文将详细解析考试中的题目,并提供解题思路和代码实现。 ... [详细]
  • 爱奇艺视频下载指南
    随着百度在视频领域的不断扩展,爱奇艺的内容库日益丰富,涵盖了大量新番动画、电影、电视剧和综艺节目。本文将详细介绍如何通过爱奇艺客户端下载视频,帮助用户轻松实现离线观看。 ... [详细]
  • TCP长连接设备管理平台:架构与功能概览
    本文介绍了基于TCP长连接的设备管理平台的设计理念、技术选型及主要功能模块。最初,项目旨在实现简单的协议测试,但随着需求扩展,逐步演变为一个完整的前后端分离系统。 ... [详细]
author-avatar
wjwakx5792
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有