05线性回归算法(LinearRegression)(机器学习)

作者：兆龙77 | 来源：互联网 | 2023-10-12 10:34

线性回归算法(LinearRegression)就是假定一个数据集合预测值与实际值存在一定的误差,然后假定所有的这些误差值符合正太分布,通过方程求这个正太分布的最小均值和方差来还原

线性回归算法(LinearRegression)就是假定一个数据集合预测值与实际值存在一定的误差, 然后假定所有的这些误差值符合正太分布, 通过方程求这个正太分布的最小均值和方差来还原原数据集合的斜率和截距。
当误差值无限接近于0时, 预测值与实际值一致, 就变成了求误差的极小值。

from sklearn.linear_model import LinearRegression model &＃61; LinearRegression() # 使用模型 model.fit(X,y) w_ &＃61; model.coef_ # 斜率 b_ &＃61; model.intercept_ # 截距 θ &＃61; np.linalg.inv(X.T.dot(X)).dot(X.T).dot(y).round(2) # [[3.97] [7.19]] 矩阵求解

1、基本概念

线性回归是机器学习中有监督机器学习下的一种算法。 回归问题主要关注的是因变量(需要预测的值&＃xff0c;可以是一个也可以是多个)和一个或多个数值型的自变量(预测变量)之间的关系。

需要预测的值:即目标变量&＃xff0c;target&＃xff0c;y&＃xff0c;连续值预测变量。
影响目标变量的因素&＃xff1a;
1.4、多元线性回归

现实生活中&＃xff0c;往往影响结果 y 的因素不止一个&＃xff0c;这时 x 就从一个变成了 n 个&＃xff0c;X1,X2…Xn同时简单线性回归的公式也就不在适用了。多元线性回归公式如下&＃xff1a;
$\hat{y} &＃61; w_1x_1 &＃43; w_2x_2 &＃43;.....&＃43; w_nx_n &＃43; b$
2、正规方程

2.1、最小二乘法矩阵表示

最小二乘法可以将误差方程转化为有确定解的代数方程组&＃xff08;其方程式数目正好等于未知数的个数&＃xff09;&＃xff0c;从而可求解出这些未知参数。这个有确定解的代数方程组称为最小二乘法估计的正规方程。公式如下&＃xff1a;
$\theta &＃61; (X^TX)^{-1}X^Ty$
最小二乘法公式:
${\color{Red} J(\theta) &＃61; \frac{1}{2}\sum\limits_{i &＃61; 0}^n(h_{\theta}(x_i) - y_i)^2}$
2.2、多元一次方程举例

三元一次方程 :
通过矩阵可以直接求解: ${\color{Red} W &＃61; X^{-1}Y}$
- 使用逆矩阵进行转化
2.4、凸函数判定

判定损失函数是凸函数的好处在于我们可能很肯定的知道我们求得的极值即最优解&＃xff0c;一定是全局最优解。
判定凸函数的方式: 判定凸函数的方式非常多&＃xff0c;其中一个方法是看黑塞矩阵是否是半正定的。
- 黑塞矩阵(hessian matrix)是由目标函数在点 X 处的二阶偏导数组成的对称矩阵。在导函数的基础上再次对θ来求偏导&＃xff0c;结果全为正时为正定,如果结果大于等于0, 就是半正定。判定极小值.
- 在机器学习中往往损失函数都是凸函数&＃xff0c;到深度学习中损失函数往往是非凸函数&＃xff0c;即找到的解未必是全局最优&＃xff0c;只要模型堪用就好&＃xff01;机器学习特点是&＃xff1a;不强调模型 100% 正确&＃xff0c;只要是有价值的&＃xff0c;堪用的&＃xff0c;就Okay&＃xff01;
3、线性回归算法推导

人类社会很多事情都被大自然这种神奇的力量只配置&＃xff1a;身高、体重、智商、相貌……这种神秘的力量就叫正态分布。大数学家高斯&＃xff0c;深入研究了正态分布&＃xff0c;最终推导出了线性回归的原理&＃xff1a;最小二乘法&＃xff01;
3.1、误差分析

误差等于第 i 个样本实际的值减去预测的值&＃xff0c;公式可以表达为如下&＃xff1a;
         ${\color{Red} \varepsilon_i &＃61; |y_i - \hat{y}|}$
正态分布 公式如下&＃xff1a;

        随着参数μ和σ变化&＃xff0c;概率分布也产生变化。下面重要的步骤来了&＃xff0c;我们要把一组数据误差出现的总似然&＃xff0c;也就是一组数据之所以对应误差出现的整体可能性表达出来了&＃xff0c;因为数据的误差我们假设服从一个高斯分布&＃xff0c;并且通过截距项来平移整体分布的位置从而使得μ&＃61;0.
3.4、误差总似然, 最小二乘法MSE

这种最小二乘法估计&＃xff0c;其实我们就可以认为&＃xff0c;假定了误差服从正太分布&＃xff0c;认为样本误差的出现是随机的&＃xff0c;独立的&＃xff0c;使用最大似然估计思想&＃xff0c;利用损失函数最小化 MSE 就能求出最优解&＃xff01;所以反过来说&＃xff0c;如果我们的数据误差不是互相独立的&＃xff0c;或者不是随机出现的&＃xff0c;那么就不适合去假设为正太分布&＃xff0c;就不能去用正太分布的概率密度函数带入到总似然的函数中&＃xff0c;故而就不能用 MSE 作为损失函数去求解最优解了&＃xff01;
还有譬如假设误差服从泊松分布&＃xff0c;或其他分布那就得用其他分布的概率密度函数去推导出损失函数了。
所以有时我们也可以把线性回归看成是广义线性回归。比如&＃xff0c;逻辑回归&＃xff0c;泊松回归都属于广义线性回归的一种&＃xff0c;这里我们线性回归可以说是最小二乘线性回归。
4、线性回归实战

4.1、简单线性回归

一元一次方程&＃xff0c;在机器学习中一元表示一个特征&＃xff0c;b表示截距&＃xff0c;y表示目标值。
import numpy as np import matplotlib.pyplot as plt # 转化成矩阵 X &＃61; np.linspace(0,10,num &＃61; 30).reshape(-1,1) # 斜率和截距&＃xff0c;随机生成 w &＃61; np.random.randint(1,5,size &＃61; 1) b &＃61; np.random.randint(1,10,size &＃61; 1) # 根据一元一次方程计算目标值y&＃xff0c;并加上“噪声”&＃xff0c;数据有上下波动~ y &＃61; X * w &＃43; b &＃43; np.random.randn(30,1) plt.scatter(X,y) # 重新构造X&＃xff0c;b截距&＃xff0c;相当于系数w0&＃xff0c;前面统一乘以1 X &＃61; np.concatenate([X,np.full(shape &＃61; (30,1),fill_value&＃61; 1)],axis &＃61; 1) # 正规方程求解 θ &＃61; np.linalg.inv(X.T.dot(X)).dot(X.T).dot(y).round(2) # 根据公式计算 print(&＃39;一元一次方程真实的斜率和截距是&＃xff1a;&＃39;,w, b) print(&＃39;通过正规方程求解的斜率和截距是&＃xff1a;&＃39;,θ) # 根据求解的斜率和截距绘制线性回归线型图 plt.plot(X[:,0],X.dot(θ),color &＃61; &＃39;green&＃39;)
4.2、多元线性回归

二元一次方程&＃xff0c;x1, x2相当于两个特征&＃xff0c;b是方程截距
import numpy as np import matplotlib.pyplot as plt from mpl_toolkits.mplot3d.axes3d import Axes3D # 绘制三维图像 # 转化成矩阵 x1 &＃61; np.random.randint(-150,150,size &＃61; (300,1)) x2 &＃61; np.random.randint(0,300,size &＃61; (300,1)) # 斜率和截距&＃xff0c;随机生成 w &＃61; np.random.randint(1,5,size &＃61; 2) b &＃61; np.random.randint(1,10,size &＃61; 1) # 根据二元一次方程计算目标值y&＃xff0c;并加上“噪声”&＃xff0c;数据有上下波动~ y &＃61; x1 * w[0] &＃43; x2 * w[1] &＃43; b &＃43; np.random.randn(300,1) fig &＃61; plt.figure(figsize&＃61;(9,6)) ax &＃61; Axes3D(fig) ax.scatter(x1,x2,y) # 三维散点图 ax.view_init(elev&＃61;10, azim&＃61;-20) # 调整视角 # 重新构造X&＃xff0c;将x1、x2以及截距b&＃xff0c;相当于系数w0&＃xff0c;前面统一乘以1进行数据合并 X &＃61; np.concatenate([x1,x2,np.full(shape &＃61; (300,1),fill_value&＃61;1)],axis &＃61; 1) w &＃61; np.concatenate([w,b]) # 正规方程求解 θ &＃61; np.linalg.inv(X.T.dot(X)).dot(X.T).dot(y).round(2) # 计算公式 print(&＃39;二元一次方程真实的斜率和截距是&＃xff1a;&＃39;,w) print(&＃39;通过正规方程求解的斜率和截距是&＃xff1a;&＃39;,θ.reshape(-1)) # # 根据求解的斜率和截距绘制线性回归线型图 x &＃61; np.linspace(-150,150,100) y &＃61; np.linspace(0,300,100) z &＃61; x * θ[0] &＃43; y * θ[1] &＃43; θ[2] ax.plot(x,y,z ,color &＃61; &＃39;red&＃39;)
4.3、机器学习库scikit-learn

一元线性回归:
from sklearn.linear_model import LinearRegression import numpy as np import matplotlib.pyplot as plt # 转化成矩阵 X &＃61; np.linspace(0,10,num &＃61; 30).reshape(-1,1) # 斜率和截距&＃xff0c;随机生成 w &＃61; np.random.randint(1,5,size &＃61; 1) b &＃61; np.random.randint(1,10,size &＃61; 1) # 根据一元一次方程计算目标值y&＃xff0c;并加上“噪声”&＃xff0c;数据有上下波动~ y &＃61; X * w &＃43; b &＃43; np.random.randn(30,1) plt.scatter(X,y) # 使用scikit-learn中的线性回归求解 model &＃61; LinearRegression() # 使用模型 model.fit(X,y) w_ &＃61; model.coef_ b_ &＃61; model.intercept_ print(&＃39;一元一次方程真实的斜率和截距是&＃xff1a;&＃39;,w, b) print(&＃39;通过scikit-learn求解的斜率和截距是&＃xff1a;&＃39;,w_,b_) plt.plot(X,X.dot(w_) &＃43; b_,color &＃61; &＃39;green&＃39;)
多元线性回归:
import numpy as np import matplotlib.pyplot as plt from mpl_toolkits.mplot3d.axes3d import Axes3D from sklearn.linear_model import LinearRegression # 转化成矩阵 x1 &＃61; np.random.randint(-150,150,size &＃61; (300,1)) x2 &＃61; np.random.randint(0,300,size &＃61; (300,1)) # 斜率和截距&＃xff0c;随机生成 w &＃61; np.random.randint(1,5,size &＃61; 2) b &＃61; np.random.randint(1,10,size &＃61; 1) # 根据二元一次方程计算目标值y&＃xff0c;并加上“噪声”&＃xff0c;数据有上下波动~ y &＃61; x1 * w[0] &＃43; x2 * w[1] &＃43; b &＃43; np.random.randn(300,1) fig &＃61; plt.figure(figsize&＃61;(9,6)) ax &＃61; Axes3D(fig) ax.scatter(x1,x2,y) # 三维散点图 ax.view_init(elev&＃61;10, azim&＃61;-20) # 调整视角 # 重新构造X&＃xff0c;将x1、x2以及截距b&＃xff0c;相当于系数w0&＃xff0c;前面统一乘以1进行数据合并 X &＃61; np.concatenate([x1,x2],axis &＃61; 1) # 使用scikit-learn中的线性回归求解 model &＃61; LinearRegression() # 使用模型 model.fit(X,y) w_ &＃61; model.coef_.reshape(-1) b_ &＃61; model.intercept_ print(&＃39;二元一次方程真实的斜率和截距是&＃xff1a;&＃39;,w,b) # [2, 4] [1] print(&＃39;通过scikit-learn求解的斜率和截距是&＃xff1a;&＃39;,w_,b_) # [1.99997 3.99976] [0.88129] # 根据求解的斜率和截距绘制线性回归线型图 x &＃61; np.linspace(-150,150,100) y &＃61; np.linspace(0,300,100) z &＃61; x * w_[0] &＃43; y * w_[1] &＃43; b_ ax.plot(x,y,z ,color &＃61; &＃39;green&＃39;)

推荐阅读

random
探索CNN的可视化技术

神经网络的可视化在理论学习与实践应用中扮演着至关重要的角色。本文深入探讨了三种有效的CNN（卷积神经网络）可视化方法，旨在帮助读者更好地理解和优化模型。 ... [详细]

蜡笔小新 2024-11-24 11:30:28
tree
[NOI2012]

来自FallDream的博客，未经允许，请勿转载，谢谢。一天一套noi简直了.昨天勉强做完了noi2011今天教练又丢出来一套noi ... [详细]

蜡笔小新 2024-11-24 17:13:08
random
java datarow_DataSet DataTable DataRow 深入浅出

本篇文章适合有一定的基础的人去查看，最好学习过一定net编程基础在来查看此文章。1.概念DataSet是ADO.NET的中心概念。可以把DataSet当成内存中的数据 ... [详细]

蜡笔小新 2024-11-24 15:10:22
ip
解析 Android Service 中 onStartCommand 方法的不同返回值

本文详细探讨了 Android Service 组件中 onStartCommand 方法的四种不同返回值及其应用场景。Service 可以在后台执行长时间的操作，无需提供用户界面，支持通过启动和绑定两种方式创建。 ... [详细]

蜡笔小新 2024-11-23 20:54:16
controller
iOS如何实现手势

这篇文章主要为大家展示了“iOS如何实现手势”，内容简而易懂，条理清晰，希望能够帮助大家解决疑惑，下面让小编带领大家一起研究并学习一下“iOS ... [详细]

蜡笔小新 2024-11-23 20:37:40
get
Android 开发技巧：使用 AsyncTask 实现后台任务与 UI 交互

本文详细介绍了如何在 Android 应用中利用 AsyncTask 来执行后台任务，并及时将任务进展反馈给用户界面，提高用户体验。 ... [详细]

蜡笔小新 2024-11-23 19:19:43
version
使用 Android 的 Movie 类展示并适配 GIF 动画

本文探讨了如何利用 Android 的 Movie 类来展示 GIF 动画，并详细介绍了调整 GIF 尺寸以适应不同布局的方法。同时，提供了相关的代码示例和注意事项。 ... [详细]

蜡笔小新 2024-11-23 17:23:35
get
Python Numpy 数组创建技巧：从列表到高效Numpy数组转换

本文探讨了在已知最终数组尺寸不会超过5000x10的情况下，如何利用预分配和调整大小的方法来优化Numpy数组的创建过程，以提高性能并减少内存消耗。 ... [详细]

蜡笔小新 2024-11-23 16:46:44
cmd
Python网络编程：深入探讨TCP粘包问题及解决方案

本文详细探讨了TCP协议下的粘包现象及其产生的原因，并提供了通过自定义报头解决粘包问题的具体实现方案。同时，对比了TCP与UDP协议在数据传输上的不同特性。 ... [详细]

蜡笔小新 2024-11-23 15:55:15
include
计算数值平方根的方法与实现

本文介绍了使用Python和C语言编写程序来计算一个给定数值的平方根的方法。通过迭代算法，我们能够精确地得到所需的结果。 ... [详细]

蜡笔小新 2024-11-23 13:50:24
match
机器学习实践：逻辑回归与过拟合控制

本文深入探讨了逻辑回归在机器学习中的应用，并详细解释了如何通过正则化等方法来有效避免模型的过拟合问题。 ... [详细]

蜡笔小新 2024-11-21 15:22:20
random
AI炼金术：KNN分类器的构建与应用

本文介绍了如何使用Python及其相关库（如NumPy、scikit-learn和matplotlib）构建KNN分类器模型。通过详细的数据准备、模型训练及新样本预测的过程，展示KNN算法的实际操作步骤。 ... [详细]

蜡笔小新 2024-11-21 11:40:55
ip
深入解析Android联系人数据库设计：AbstractContactsProvider

本文探讨了Android系统中联系人数据库的设计，特别是AbstractContactsProvider类的作用与实现。文章提供了对源代码的详细分析，并解释了该类如何支持跨数据库操作及事务处理。源代码可从官方Android网站下载。 ... [详细]

蜡笔小新 2024-11-24 18:04:54
ip
selenium通过JS语法操作页面元素

做过web测试的小伙伴们都知道，web元素现在很多是JS写的，那么既然是JS写的，可以通过JS语言去操作页面，来帮助我们操作一些selenium不能覆盖的功能。问题来了我们能否通过 ... [详细]

蜡笔小新 2024-11-24 03:05:20
version
使用Java计算两个日期之间的月份数

本文详细介绍了利用Java编程语言计算两个指定日期之间月份数的方法。文章通过实例代码讲解了如何使用Joda-Time库来简化日期处理过程，旨在为开发者提供一个高效且易于理解的解决方案。 ... [详细]

蜡笔小新 2024-11-23 20:44:50