作者:涅槃WB | 来源:互联网 | 2023-10-11 13:22
线性回归线性回归解决问题基本形式线性回归目的模型计算梯度下降法求最优解代码演示--波士顿房价预估(python)线性回归算法学习记录,方便后期复习线性回归解决问题对
线性回归
- 线性回归解决问题
- 基本形式
- 线性回归目的
- 模型计算
- 梯度下降法求最优解
- 代码演示--波士顿房价预估(python)
线性回归算法学习记录,方便后期复习
线性回归解决问题
对大量的观测数据进行处理,从而得到比较符合事物内部规律的数学表达式。也就是说寻找到数据与数据之间的规律所在,从而就可以模拟出结果,也就是对结果进行预测。解决的就是通过已知的数据得到未知的结果。例如:对房价的预测、判断信用评价、电影票房预估等。
基本形式
给定由d个属性描述的示例X=(x1;x2;…;xd),其中xi是X在第i个属性上的取值,线性模型想要通过一个属性的线性组合来得到一个预测的函数,即:
f(x)=w1x1+w2x2+…+wdxd+b
一般用向量的形式可以写成:
f(x)=wTX+b
其中w=(w1;w2;…;wd),,当w和b学得之后,模型就得以确定。
线性回归目的
线性回归的目的就是求解出合适的θ,在一元的情况下拟合出一条直线(多元情况下是平面或者曲面),可以近似的代表各个数据样本的标签值。所以最好的直线要距离各个样本点都很接近
那么应该如何求得这条直线呢?
模型计算
为了计算出这条直线,我们引入损失函数的概念。损失函数表示的是预测值与实际值之间的不一致程度。表达式如下:
还有另一种表达式:
其中hθ(x(i))代表每个样本通过我们模型的预测值,y(i)代表每个样本标签的真实值,m为样本个数。
我们要做的就是找到一组值,将其带入损失函数后使得该损失函数的值最小。
梯度下降法求最优解
梯度下降方法就是沿着梯度下降的方向通过迭代逐步求取一个函数的最小值
通常情况下,数据不可能完全符合我们的要求,所以很难用矩阵去求解,所以机器学习就应该用学习的方法,因此我们采用梯度下降,不断迭代,沿着梯度下降的方向来移动,求出极小值。梯度下降法包括批量梯度下降法和随机梯度下降法(SGD)以及二者的结合mini批量下降法(通常与SGD认为是同一种,常用于深度学习中)。
图示如下:
代码演示–波士顿房价预估(python)
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_boston
boston = load_boston()
boston_pd = pd.DataFrame(boston.data, columns=boston.feature_names)
boston_pd['price'] = boston.target
print(boston_pd)
for i in range(0, 9):X = boston_pd.iloc[:, i:i+1]y = boston_pd['price']plt.subplot(3, 3, i+1)plt.scatter(X, y)plt.xlabel(u'{}'.format(boston.feature_names[i]))plt.ylabel(u'price')plt.title(u'{} for price'.format(boston.feature_names[i]))plt.show()
X = np.array(boston_pd.iloc[:, 5:6])
y = np.array(boston_pd['price'])
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25)
X_train, X_test, y_train, y_test = train_test_split(boston.data, boston.target, test_size=0.25)
lr = LinearRegression()
lr.fit(X_train, y_train)
print("权重:", lr.coef_)
print("截距:", lr.intercept_)
print("拟合函数:",'y={}x1+{}x2+{}x3+{}x4+{}'.format(lr.coef_[0], lr.coef_[1], lr.coef_[2],lr.coef_[3], lr.intercept_))
price_predict = lr.predict(X_test)
plt.figure(figsize=(10, 6))
t = np.arange(len(X_test))
plt.plot(t, y_test, 'r', linewidth=2, label='y_test')
plt.plot(t, price_predict, 'g', linewidth=2, label='price_predict')
plt.legend()
plt.xlabel('test data')
plt.ylabel('price')
plt.show()