热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

用多元线性回归预测房价

目录一、处理数据二、多元线性回归模型预测房价1.数据包的导入2.异常值处理3.分析数据4.热力图分析5.方差分析6.多元线性回归建模7.模型优化1.设置虚拟变量2.将结

目录

一、处理数据

 二、多元线性回归模型预测房价

1.数据包的导入

 2. 异常值处理

3.分析数据

4.热力图分析

 5.方差分析

6.多元线性回归建模

 7.模型优化

1.设置虚拟变量

2.将结果与原数据集拼接

3.再次进行建模

 4.自定义方差膨胀因子的检测公式

5. 再次拟合

6.再次进行多元共线性检测

三、sklearn多元线性回归预测房价

1.清洗数据再求解

1.导入包和数据(此时导入的csv文件需要纠正数据,不然会出错)

2.去除第一列house_id

3.关系系数的矩阵显示

 4.赋值变量

5.异常值处理

6.使用 Z 分数法

 7.IQR方法处理的数据相关性矩阵

 8.建模输出



一、处理数据

应用算法时,不能盲目地套用算法,必须对数据的有效性、正确性、假设合理性进行验证,若发现数据有问题则应该先纠正数据。

1.删除重复数据

数据->数据对比->标记重复数据->确定标记->删除标记颜色的

 2,缺失值处理

数据->自动筛选->D->bedrooms旁边的绿色倒三角->选择0

 

 用同样的方法删除bathrooms

结果如图

 3.将neighborhood里的A,B,C换为10,20,30

CTRL+F->替换
 

将Victorianranchlodge替换为100200300

最后结果:

用excel显现方程:


 二、多元线性回归模型预测房价

需要下载statsmodels

win+r->cmd

pip install statsmodels

其中我们会用到seadorn插件

pip install seadorn

1.数据包的导入

1. 导入包,数据,读取数据

import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
df = pd.read_csv('h_s.csv')
df.info(); df.head()

结果图:

 2. 异常值处理

代码:

# 异常值处理
# ================ 异常值检验函数:iqr & z分数 两种方法 =========================
def outlier_test(data, column, method&#61;None, z&#61;2):""" 以某列为依据&#xff0c;使用 上下截断点法 检测异常值(索引) """""" full_data: 完整数据column: full_data 中的指定行&#xff0c;格式 &#39;x&#39; 带引号return 可选; outlier: 异常值数据框 upper: 上截断点; lower: 下截断点method&#xff1a;检验异常值的方法&#xff08;可选, 默认的 None 为上下截断点法&#xff09;&#xff0c;选 Z 方法时&#xff0c;Z 默认为 2"""# &#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61; 上下截断点法检验异常值 &#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;if method &#61;&#61; None:print(f&#39;以 {column} 列为依据&#xff0c;使用 上下截断点法(iqr) 检测异常值...&#39;)print(&#39;&#61;&#39; * 70)# 四分位点&#xff1b;这里调用函数会存在异常column_iqr &#61; np.quantile(data[column], 0.75) - np.quantile(data[column], 0.25)# 1&#xff0c;3 分位数(q1, q3) &#61; np.quantile(data[column], 0.25), np.quantile(data[column], 0.75)# 计算上下截断点upper, lower &#61; (q3 &#43; 1.5 * column_iqr), (q1 - 1.5 * column_iqr)# 检测异常值outlier &#61; data[(data[column] <&#61; lower) | (data[column] >&#61; upper)]print(f&#39;第一分位数: {q1}, 第三分位数&#xff1a;{q3}, 四分位极差&#xff1a;{column_iqr}&#39;)print(f"上截断点&#xff1a;{upper}, 下截断点&#xff1a;{lower}")return outlier, upper, lower# &#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61; Z 分数检验异常值 &#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;if method &#61;&#61; &#39;z&#39;:""" 以某列为依据&#xff0c;传入数据与希望分段的 z 分数点&#xff0c;返回异常值索引与所在数据框 """""" paramsdata: 完整数据column: 指定的检测列z: Z分位数, 默认为2&#xff0c;根据 z分数-正态曲线表&#xff0c;可知取左右两端的 2%&#xff0c;根据您 z 分数的正负设置。也可以任意更改&#xff0c;知道任意顶端百分比的数据集合"""print(f&#39;以 {column} 列为依据&#xff0c;使用 Z 分数法&#xff0c;z 分位数取 {z} 来检测异常值...&#39;)print(&#39;&#61;&#39; * 70)# 计算两个 Z 分数的数值点mean, std &#61; np.mean(data[column]), np.std(data[column])upper, lower &#61; (mean &#43; z * std), (mean - z * std)print(f"取 {z} 个 Z分数&#xff1a;大于 {upper} 或小于 {lower} 的即可被视为异常值。")print(&#39;&#61;&#39; * 70)# 检测异常值outlier &#61; data[(data[column] <&#61; lower) | (data[column] >&#61; upper)]return outlier, upper, lower

.调用函数

outlier, upper, lower &#61; outlier_test(data&#61;df, column&#61;&#39;price&#39;, method&#61;&#39;z&#39;)
outlier.info(); outlier.sample(5)

结果图&#xff1a;

4.删除异常数据

df.drop(index&#61;outlier.index, inplace&#61;True)

3.分析数据

代码&#xff1a;

# 类别变量&#xff0c;又称为名义变量&#xff0c;nominal variables
nominal_vars &#61; [&#39;neighborhood&#39;, &#39;style&#39;]for each in nominal_vars:print(each, &#39;:&#39;)print(df[each].agg([&#39;value_counts&#39;]).T)# 直接 .value_counts().T 无法实现下面的效果## 必须得 agg&#xff0c;而且里面的中括号 [] 也不能少print(&#39;&#61;&#39;*35)# 发现各类别的数量也都还可以&#xff0c;为下面的方差分析做准备

结果图&#xff1a;

4.热力图分析

热力图代码


def heatmap(data, method&#61;&#39;pearson&#39;, camp&#61;&#39;RdYlGn&#39;, figsize&#61;(10 ,8)):"""data: 整份数据method&#xff1a;默认为 pearson 系数camp&#xff1a;默认为&#xff1a;RdYlGn-红黄蓝&#xff1b;YlGnBu-黄绿蓝&#xff1b;Blues/Greens 也是不错的选择figsize: 默认为 10&#xff0c;8"""## 消除斜对角颜色重复的色块# mask &#61; np.zeros_like(df2.corr())# mask[np.tril_indices_from(mask)] &#61; Trueplt.figure(figsize&#61;figsize, dpi&#61; 80)sns.heatmap(data.corr(method&#61;method), \xticklabels&#61;data.corr(method&#61;method).columns, \yticklabels&#61;data.corr(method&#61;method).columns, cmap&#61;camp, \center&#61;0, annot&#61;True)# 要想实现只是留下对角线一半的效果&#xff0c;括号内的参数可以加上 mask&#61;mask

 执行并输出结果

heatmap(data&#61;df, figsize&#61;(6,5))

 结果图&#xff1a;

 5.方差分析

代码&#xff1a;

import statsmodels.api as sm
from statsmodels.formula.api import ols # ols 为建立线性回归模型的统计学库
from statsmodels.stats.anova import anova_lm

# 数据集样本数量&#xff1a;6028&#xff0c;这里随机选择 600 条&#xff0c;如果希望分层抽样&#xff0c;可参考文章&#xff1a;
df &#61; df.copy().sample(600)# C 表示告诉 Python 这是分类变量&#xff0c;否则 Python 会当成连续变量使用
## 这里直接使用方差分析对所有分类变量进行检验
## 下面几行代码便是使用统计学库进行方差分析的标准姿势
lm &#61; ols(&#39;price ~ C(neighborhood) &#43; C(style)&#39;, data&#61;df).fit()
anova_lm(lm)# Residual 行表示模型不能解释的组内的&#xff0c;其他的是能解释的组间的
# df: 自由度&#xff08;n-1&#xff09;- 分类变量中的类别个数减1
# sum_sq: 总平方和&#xff08;SSM&#xff09;&#xff0c;residual行的 sum_eq: SSE
# mean_sq: msm, residual行的 mean_sq: mse
# F&#xff1a;F 统计量&#xff0c;查看卡方分布表即可
# PR(>F): P 值# 反复刷新几次&#xff0c;发现都很显著&#xff0c;所以这两个变量也挺值得放入模型中

结果如图&#xff1a;

6.多元线性回归建模

 代码&#xff1a;

from statsmodels.formula.api import olslm &#61; ols(&#39;price ~ area &#43; bedrooms &#43; bathrooms&#39;, data&#61;df).fit()
lm.summary()

结果图&#xff1a;

 7.模型优化

发现精度还不够高&#xff0c;这里通过添加虚拟变量与使用方差膨胀因子检测多元共线性的方式来提升模型精度

1.设置虚拟变量

代码&#xff1a;

# 设置虚拟变量
# 以名义变量 neighborhood 街区为例
nominal_data &#61; df[&#39;neighborhood&#39;]# 设置虚拟变量
dummies &#61; pd.get_dummies(nominal_data)
dummies.sample() # pandas 会自动帮你命名# 每个名义变量生成的虚拟变量中&#xff0c;需要各丢弃一个&#xff0c;这里以丢弃C为例
dummies.drop(columns&#61;[&#39;C&#39;], inplace&#61;True)
dummies.sample()

结果图&#xff1a;

2.将结果与原数据集拼接

# 将结果与原数据集拼接
results &#61; pd.concat(objs&#61;[df, dummies], axis&#61;&#39;columns&#39;) # 按照列来合并
results.sample(3)
# 对名义变量 style 的处理可自行尝试


3.再次进行建模

代码

# 再次建模
lm &#61; ols(&#39;price ~ area &#43; bedrooms &#43; bathrooms &#43; A &#43; B&#39;, data&#61;results).fit()
lm.summary()

结果图

 4.自定义方差膨胀因子的检测公式

代码&#xff1a;

def vif(df, col_i):"""df: 整份数据col_i&#xff1a;被检测的列名"""cols &#61; list(df.columns)cols.remove(col_i)cols_noti &#61; colsformula &#61; col_i &#43; &#39;~&#39; &#43; &#39;&#43;&#39;.join(cols_noti)r2 &#61; ols(formula, df).fit().rsquaredreturn 1. / (1. - r2)

test_data &#61; results[[&#39;area&#39;, &#39;bedrooms&#39;, &#39;bathrooms&#39;, &#39;A&#39;, &#39;B&#39;]]
for i in test_data.columns:print(i, &#39;\t&#39;, vif(df&#61;test_data, col_i&#61;i))
# 发现 bedrooms 和 bathrooms 存在强相关性&#xff0c;可能这两个变量是解释同一个问题

结果图&#xff1a;

5. 再次拟合

lm &#61; ols(formula&#61;&#39;price ~ area &#43; bathrooms &#43; A &#43; B&#39;, data&#61;results).fit()
lm.summary()


6.再次进行多元共线性检测

代码&#xff1a;

# 再次进行多元共线性检测
test_data &#61; df[[&#39;area&#39;, &#39;bathrooms&#39;]]
for i in test_data.columns:print(i, &#39;\t&#39;, vif(df&#61;test_data, col_i&#61;i))

结果图&#xff1a;

三、sklearn多元线性回归预测房价

1.清洗数据再求解


1.导入包和数据&#xff08;此时导入的csv文件需要纠正数据&#xff0c;不然会出错&#xff09;

代码

import pandas as pd
import numpy as np
import math
import matplotlib.pyplot as plt # 画图
from sklearn import linear_model # 线性模型
data &#61; pd.read_csv(&#39;h_ss.csv&#39;) #读取数据
data.head() #数据展示

结果图

2.去除第一列house_id

代码

new_data&#61;data.iloc[:,1:] #除掉id这一列
new_data.head()

结果图&#xff1a;

 

3.关系系数的矩阵显示

代码

new_data.corr() # 相关系数矩阵,只统计数值列

结果图

 

 4.赋值变量

代码

new_data_Z&#61;new_data.iloc[:,0:]
new_data_IQR&#61;new_data.iloc[:,0:]

5.异常值处理

代码

# &#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61; 异常值检验函数&#xff1a;iqr & z分数 两种方法 &#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;
def outlier_test(data, column, method&#61;None, z&#61;2):""" 以某列为依据&#xff0c;使用 上下截断点法 检测异常值(索引) """""" full_data: 完整数据column: full_data 中的指定行&#xff0c;格式 &#39;x&#39; 带引号return 可选; outlier: 异常值数据框 upper: 上截断点; lower: 下截断点method&#xff1a;检验异常值的方法&#xff08;可选, 默认的 None 为上下截断点法&#xff09;&#xff0c;选 Z 方法时&#xff0c;Z 默认为 2"""# &#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61; 上下截断点法检验异常值 &#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;if method &#61;&#61; None:print(f&#39;以 {column} 列为依据&#xff0c;使用 上下截断点法(iqr) 检测异常值...&#39;)print(&#39;&#61;&#39; * 70)# 四分位点&#xff1b;这里调用函数会存在异常column_iqr &#61; np.quantile(data[column], 0.75) - np.quantile(data[column], 0.25)# 1&#xff0c;3 分位数(q1, q3) &#61; np.quantile(data[column], 0.25), np.quantile(data[column], 0.75)# 计算上下截断点upper, lower &#61; (q3 &#43; 1.5 * column_iqr), (q1 - 1.5 * column_iqr)# 检测异常值outlier &#61; data[(data[column] <&#61; lower) | (data[column] >&#61; upper)]print(f&#39;第一分位数: {q1}, 第三分位数&#xff1a;{q3}, 四分位极差&#xff1a;{column_iqr}&#39;)print(f"上截断点&#xff1a;{upper}, 下截断点&#xff1a;{lower}")return outlier, upper, lower# &#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61; Z 分数检验异常值 &#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;&#61;if method &#61;&#61; &#39;z&#39;:""" 以某列为依据&#xff0c;传入数据与希望分段的 z 分数点&#xff0c;返回异常值索引与所在数据框 """""" paramsdata: 完整数据column: 指定的检测列z: Z分位数, 默认为2&#xff0c;根据 z分数-正态曲线表&#xff0c;可知取左右两端的 2%&#xff0c;根据您 z 分数的正负设置。也可以任意更改&#xff0c;知道任意顶端百分比的数据集合"""print(f&#39;以 {column} 列为依据&#xff0c;使用 Z 分数法&#xff0c;z 分位数取 {z} 来检测异常值...&#39;)print(&#39;&#61;&#39; * 70)# 计算两个 Z 分数的数值点mean, std &#61; np.mean(data[column]), np.std(data[column])upper, lower &#61; (mean &#43; z * std), (mean - z * std)print(f"取 {z} 个 Z分数&#xff1a;大于 {upper} 或小于 {lower} 的即可被视为异常值。")print(&#39;&#61;&#39; * 70)# 检测异常值outlier &#61; data[(data[column] <&#61; lower) | (data[column] >&#61; upper)]return outlier, upper, lower

6.使用 Z 分数法

1.z 分位数取 2 来检测异常值

代码

outlier, upper, lower &#61; outlier_test(data&#61;new_data_Z, column&#61;&#39;price&#39;, method&#61;&#39;z&#39;)
outlier.info(); outlier.sample(5)# 这里简单的丢弃即可
new_data_Z.drop(index&#61;outlier.index, inplace&#61;True)

结果图

2. price 列为依据&#xff0c;使用 上下截断点法(iqr) 检测异常值

代码

outlier, upper, lower &#61; outlier_test(data&#61;new_data_IQR, column&#61;&#39;price&#39;)
outlier.info(); outlier.sample(6)# 这里简单的丢弃即可
new_data_IQR.drop(index&#61;outlier.index, inplace&#61;True)

结果图

 

3.输出原数据相关矩阵

代码

print("原数据相关性矩阵")
new_data.corr()

结果图

 

4.Z方法处理的数据相关性矩阵

代码

print("Z方法处理的数据相关性矩阵")
new_data_Z.corr()

结果图

 7.IQR方法处理的数据相关性矩阵

代码

print("IQR方法处理的数据相关性矩阵")
new_data_IQR.corr()

结果图&#xff1a;

 


 8.建模输出

代码

x_data &#61; new_data_Z.iloc[:, 0:5]
y_data &#61; new_data_Z.iloc[:, -1]
# 应用模型
model &#61; linear_model.LinearRegression()
model.fit(x_data, y_data)
print("回归系数&#xff1a;", model.coef_)
print("截距&#xff1a;", model.intercept_)
print(&#39;回归方程: price&#61;&#39;,model.coef_[0],&#39;*neiborhood&#43;&#39;,model.coef_[1],&#39;*area &#43;&#39;,model.coef_[2],&#39;*bedrooms &#43;&#39;,model.coef_[3],&#39;*bathromms &#43;&#39;,model.coef_[4],&#39;*sytle &#39;,model.intercept_)

结果图

 总结&#xff1a;我了解到了statsmodels更加专注于统计推理但是会提供不确定性评价和P值参数&#xff0c;
而sklearn更加专注于预测。

参考文献&#xff1a; sklearn多元线性回归预测房价_醉意丶千层梦的博客-CSDN博客

多元线性回归—波士顿房价预测&#xff08;版本一&#xff09; - 不学无墅_NKer - 博客园

多元线性回归模型_heirenmin的博客-CSDN博客_多元线性回归模型


推荐阅读
  • 超级简单加解密工具的方案和功能
    本文介绍了一个超级简单的加解密工具的方案和功能。该工具可以读取文件头,并根据特定长度进行加密,加密后将加密部分写入源文件。同时,该工具也支持解密操作。加密和解密过程是可逆的。本文还提到了一些相关的功能和使用方法,并给出了Python代码示例。 ... [详细]
  • 本文介绍了利用ARMA模型对平稳非白噪声序列进行建模的步骤及代码实现。首先对观察值序列进行样本自相关系数和样本偏自相关系数的计算,然后根据这些系数的性质选择适当的ARMA模型进行拟合,并估计模型中的位置参数。接着进行模型的有效性检验,如果不通过则重新选择模型再拟合,如果通过则进行模型优化。最后利用拟合模型预测序列的未来走势。文章还介绍了绘制时序图、平稳性检验、白噪声检验、确定ARMA阶数和预测未来走势的代码实现。 ... [详细]
  • 从批量eml文件中提取附件的Python代码实现方法
    本文介绍了使用Python代码从批量eml文件中提取附件的实现方法,包括获取eml附件信息、递归文件夹下所有文件、创建目的文件夹等步骤。通过该方法可以方便地提取eml文件中的附件,并保存到指定的文件夹中。 ... [详细]
  • python机器学习之数据探索
    🐱今天我们来讲解数据建模之前需要处理的工作,也就是数据探索的过程,很多同学会说,不就是处理缺失值,异常值&# ... [详细]
  • 本文详细介绍了GetModuleFileName函数的用法,该函数可以用于获取当前模块所在的路径,方便进行文件操作和读取配置信息。文章通过示例代码和详细的解释,帮助读者理解和使用该函数。同时,还提供了相关的API函数声明和说明。 ... [详细]
  • 向QTextEdit拖放文件的方法及实现步骤
    本文介绍了在使用QTextEdit时如何实现拖放文件的功能,包括相关的方法和实现步骤。通过重写dragEnterEvent和dropEvent函数,并结合QMimeData和QUrl等类,可以轻松实现向QTextEdit拖放文件的功能。详细的代码实现和说明可以参考本文提供的示例代码。 ... [详细]
  • 开发笔记:加密&json&StringIO模块&BytesIO模块
    篇首语:本文由编程笔记#小编为大家整理,主要介绍了加密&json&StringIO模块&BytesIO模块相关的知识,希望对你有一定的参考价值。一、加密加密 ... [详细]
  • 使用Ubuntu中的Python获取浏览器历史记录原文: ... [详细]
  • 本文介绍了在使用Python中的aiohttp模块模拟服务器时出现的连接失败问题,并提供了相应的解决方法。文章中详细说明了出错的代码以及相关的软件版本和环境信息,同时也提到了相关的警告信息和函数的替代方案。通过阅读本文,读者可以了解到如何解决Python连接服务器失败的问题,并对aiohttp模块有更深入的了解。 ... [详细]
  • 本文介绍了在处理不规则数据时如何使用Python自动提取文本中的时间日期,包括使用dateutil.parser模块统一日期字符串格式和使用datefinder模块提取日期。同时,还介绍了一段使用正则表达式的代码,可以支持中文日期和一些特殊的时间识别,例如'2012年12月12日'、'3小时前'、'在2012/12/13哈哈'等。 ... [详细]
  • 模板引擎StringTemplate的使用方法和特点
    本文介绍了模板引擎StringTemplate的使用方法和特点,包括强制Model和View的分离、Lazy-Evaluation、Recursive enable等。同时,还介绍了StringTemplate语法中的属性和普通字符的使用方法,并提供了向模板填充属性的示例代码。 ... [详细]
  • java drools5_Java Drools5.1 规则流基础【示例】(中)
    五、规则文件及规则流EduInfoRule.drl:packagemyrules;importsample.Employ;ruleBachelorruleflow-group ... [详细]
  • 我用Tkinter制作了一个图形用户界面,有两个主按钮:“开始”和“停止”。请您就如何使用“停止”按钮终止“开始”按钮为以下代码调用的已运行功能提供建议 ... [详细]
  • 数学建模入门python绘制频率直方图
    文章目录例题数据处理绘图操作调用演示例题数据处理将以下的数据保存到磁盘上17275169551696417165167471716216867165521696216865 ... [详细]
  • csv转为矩阵 python_Python可视化 | Seaborn5分钟入门(六)——heatmap热力图
    Seaborn是基于matplotlib的Python可视化库。它提供了一个高级界面来绘制有吸引力的统计图形。Seaborn其实是在matplotlib的基础上进行了更高级的API ... [详细]
author-avatar
水月琴轩_452
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有