当前位置: 开发笔记 > 人工智能 > 正文

Tensorflow线性回归预测房价实例

作者：铁狼爷们儿 | 来源：互联网 | 2023-01-22 14:52

在本节中将通过一个预测房屋价格的实例来讲解利用线性回归预测房屋价格，以及在tensorflow中如何实现

在本节中将通过一个预测房屋价格的实例来讲解利用线性回归预测房屋价格，以及在tensorflow中如何实现

Tensorflow 线性回归预测房价实例
- 1.1. 准备工作
- 1.2. 归一化数据
- 1.3. 用随机的值填充a,b并计算误差，误差采用上文所使用SSE(和方差)
- 1.4. 计算误差梯度
- 1.5. 调整参数直到SSE参数最小
- 1.6. 概念
  - 1.6.1. 简单线性回归
  - 1.6.2. 梯度下降
    - 梯度
    - 步长

1.1. 准备工作

从网上得到的数据可以看到房屋价格与房屋尺寸的一个对比关系，如下图：

我们假设x轴（房屋尺寸）而Y轴（房屋价格）依据上表数据绘制折线图

现在我们使用简单的线性模型来预测，

红线表述我们的预测曲线： $$y_p=ax+b$$

蓝线表述房屋价格与尺寸的实际关系

预测与实际的不同用黄线表示

接下来需要通过数据来找到a,b的***值从而使预测与实际的误差最小。此次我们采用SSE(和方差)来判别误差。该统计参数计算的是拟合数据和原始数据对应点的误差的平方和，计算公式如下

\[\frac{1}{2}\sum_{k=1}^{n} \ {({y} -{y_p})^2}

\]

在拿到原始的数据后，为方便运算，我们将数据进行归一化处理，归一化计算公式如下

\[\frac{x-x_{min}}{x_{max}-x_{min}}

\]

1.2. 归一化数据

我们将原始的数据进行归一化处理，归一化处理后的结果如图：

def normalize(arr): arr_min = np.min(arr) arr_max = np.max(arr) arr_out = [] for item in arr: out = np.divide(np.subtract(item, arr_min), np.subtract(arr_max, arr_min)) arr_out = np.append(arr_out, np.array(out)) return arr_out

1.3. 用随机的值填充a,b并计算误差，误差采用上文所使用SSE(和方差)

def model(x, b, a): # linear regression is just b*x + a, so this model line is pretty simple return tf.multiply(x, b) + a loss = tf.multiply(tf.square(Y - y_model), 0.5)

1.4. 计算误差梯度

对sse分别求a,b的偏微分

\[\frac{\partial sse}{\partial a}

\]

\[\frac{\partial sse}{\partial b}

\]

1.5. 调整参数直到SSE参数最小

新 a = a – r * ∂SSE/∂a = 0.45-0.01*3.300 = 0.42

新 b = b – r * ∂SSE/∂b= 0.75-0.01*1.545 = 0.73

（r是学习率，表示调整的步长）

# construct an optimizer to minimize cost and fit line to mydata train_op = tf.train.GradientDescentOptimizer(0.01).minimize(loss)

然后再重复上一步骤计算，直到所设定的次数完成

for i in range(500): for (x, y) in zip(trX, trY): output = sess.run(train_op, feed_dict={X: x, Y: y})

通过刚才几步的组合，程序便能计算出最合适的a,b的值，完成代码清单如下：

import tensorflow as tf import numpy as np sess = tf.Session() # 线性模型 y=bx+a def model(x, b, a): return tf.multiply(x, b) + a # 归一化函数 def normalize(arr): arr_min = np.min(arr) arr_max = np.max(arr) arr_out = [] for item in arr: out = np.divide(np.subtract(item, arr_min), np.subtract(arr_max, arr_min)) arr_out = np.append(arr_out, np.array(out)) return arr_out # 原始数据 trX_i = [1100., 1400., 1425., 1550., 1600., 1700., 1700., 1875., 2350., 2450.] trY_i = [199000., 245000., 319000., 240000., 312000., 279000., 310000., 308000., 405000., 324000.] # 数据归一化 trX = normalize(trX_i) trY = normalize(trY_i) X = tf.placeholder(tf.float32) Y = tf.placeholder(tf.float32) # 设一个权重变量b，和一个偏差变量a b = tf.Variable(0.0, name="weights") # create a variable for biases a = tf.Variable(0.0, name="biases") y_model = model(X, b, a) # 损失函数 loss = tf.multiply(tf.square(Y - y_model), 0.5) # 梯度下降 train_op = tf.train.GradientDescentOptimizer(0.01).minimize(loss) init = tf.global_variables_initializer() sess.run(init) # 训练数据 for i in range(500): for (x, y) in zip(trX, trY): output = sess.run(train_op, feed_dict={X: x, Y: y}) print(\'b:\' + str(sess.run(b)) + \' || a:\' + str(sess.run(a))) ---result b:0.682465 || a:0.1512

1.6. 概念

1.6.1. 简单线性回归

在房价预测例子中，我们发现房价数据呈一种比较明显的线性关系，那么自然我们可能会选择简单线性回归对数据进行拟合，首先从线性模型着手：

\[y_p=ax+b

\]

从上面的二元一次方程看出，我们的输入x是已知向量，只要我们求出a，b的值，就能通过上述公式进行房价预测了，这就是简单线性回归的思想。

1.6.2. 梯度下降

梯度

如上一节中讲的我们需要找出SSE最小化时的a，b的值，采用的这种方法就叫做梯度下降。梯度下降不仅仅局限于最小化这个函数，也可能根据实际情况需要最大化某个函数，这种情况叫做梯度上升。单纯从数学上讲，对一个函数来说，梯度表示某个向量的偏导数，同时还代表了该向量的方向，在这个方向上，函数增加得最快，在相反的方向上，函数减小得最快。

利用梯度这一性质，我们采用梯度下降算法去最小化我们的损失函数，我们在梯度的反方向跨域一小步，再从一个新起点开始重复这个过程，直到我们找到损失函数的最小值，最后确定我们的a, b值。

我们需要最小化的函数为（又称为损失函数）：

\[sse=\frac{1}{2}\sum_{k=1}^{n} \ {({y} -{y_p})^2}=\frac{1}{2}\sum_{k=1}^{n} \ {(y_k-ax_k-b)^2}

\]

对a，b分别求偏导，并令偏导等于0：

\[\frac{\partial sse}{\partial a}=- \sum_{k=1}^n \ x_k(y_k-ax_k-b) \ =0

\]

\[\frac{\partial sse}{\partial b}=- \sum_{k=1}^n \ (y_k-ax_k-b) =0

\]

最后，输入已知的x和y值（均为向量），解两个一次方程就计算出a,b的确切值。

步长

为了求SSE的最小值，我们需要向梯度相反的方法移动，每移动一步，梯度逐渐降低，但是移动多少才合适呢，这需要我们谨慎的选择步长。目前，主流的选择方法有：

• 使用固定步长

• 随时间增长逐步减小步长

• 在每一步中通过最小化目标函数的值来选择合适的步长

在上一例子中，我们选择固定步长r=0.01，其实，最后一种方法很好，但它的计算代价很大。我们还可以尝试一系列步长，并选出使目标函数值最小的那个步长来求其近似值。
stepSizes=[10, 1, 0.1, 0.01, 0.001]

1.6.3 损失函数

损失函数是用来评价模型的预测值与真实值的不一致程度，它是一个非负实值函数。通常使用L(Y,f(x))来表示，损失函数越小，模型的性能就越好。

在预测房价的例子中，我们使用了和方差来计算误差，并把该函数称为损失函数，即计算实际值和预测值的误差平方和。为什么要选择这一函数来计算误差，而不采用绝对值误差，或误差的三次方，四次方来定义误差函数是因为：

相对于绝对值误差，误差平方和计算更加方便。

这里的损失函数使用的是“最小二乘法”的思想，假定我们的误差满足均值为0的高斯分布，这样符合一般的统计规律，然后根据最大似然函数估计进行推导，就得出了求导结果，平方和最小公式：

\[sse=\frac{1}{2}\sum_{k=1}^{n} \ {({y} -{y_p})^2}

\]

除上面提到的损失函数外，还有其他的一些常见的损失函数：

0-1 Loss

如果预测值与标值不等，则记为1；如果相等，则标记为0

\[L(Y, f(x)) = \left\{ \begin{array}{ll}

1 & \textrm{$Y\neq f(x)$}\\

0 & \textrm{$Y= f(x)$}

\end{array} \right.

\]

Log对数损失函数

在逻辑回归中损失函数的推导是假设样本服从伯努利分布（0-1分布），然后求满足该分布的似然函数，最后推导出顺势函数的公式为：$$L(Y,P(Y|X)) = -logP(Y|X)$$

指数损失函数

出现在Adaboost算法中

\[L(y,f(x))=\frac{1}{n}\sum_{i=1}^{n}\ {exp[-y_if(x_i)]}

\]

Hinge损失函数

在线性支持向量机中，Hinge的损失函数标准形式为：

\[L(y)=\frac{1}{n}\sum_{i=1}^{n}\ {l(wx_i+by_i)}

\]

绝对值损失函数

\[L(y,f(x))=|Y-f(x)|

\]

1.6.4 特征归一化

对于多属性的样本，我们在做分类预测的时候，应该把每个属性看作同等重要，不能让某个属性的计算结果严重影响模型的预测结果。例如，以下有一个样本数据：

玩游戏所耗时间百分比	描述每年获得的飞行常客里程数	每周消费的冰淇淋公升数
0.8	400	0.5
12	134000	0.9
0	20000	1.1
67	32000	0.1

如果我们采用KNN算法做分类预测，在计算欧式距离的时候，比如计算样本3和样本4之间的距离，很明显我们发现每年获得的飞行常客里程数由于本身数值很大，其计算结果的影响将远远大于其他两个特征值的影响，对于三个等权重的特征之一，我们不能让它严重的影响计算结果，所以，我们通常会采用特征归一化的方法把值处理为0到1或者-1到1之间。

\[\sqrt{(0-67)^2+(20000-32000)^2+(1.1-0.1)^2}

\]

即上面提到的公式：

\[\frac{x-x_{min}}{x_{max}-x_{min}}

\]

其中$x_{min}$和$x_{max}$是特征向量x的最小值和最大值，这样通过对每个特征向量进行归一化处理，所有特征值的计算都统一了，而计算得到的结果就更加准确。

在之前预测房价的例子中，我们对已有的特征向量，即房屋大小和实际价格做了归一化处理，即便是只有一个特征向量，我们仍然需要这样做，其目的与上面的样本数据一样，比如假设我们需要在该房屋预测中增加房间数量或房屋年龄等特征进行房屋价格预测，我们都可以采用同一类方法进行处理，以减少各特征值对计算结果的影响。

参考链接

【1】：http://www.kdnuggets.com/2017/04/simple-understand-gradient-descent-algorithm.html

作者：帅虫哥出处： http://www.cnblogs.com/vipyoumay/p/7488954.html

tensorflow

推荐阅读

tensorflow
通过Anaconda安装tensorflow，并安装运行spyder编译器的完整教程

本文提供了一个完整的教程，介绍了如何通过Anaconda安装tensorflow，并安装运行spyder编译器。文章详细介绍了安装Anaconda、创建tensorflow环境、安装GPU版本tensorflow、安装和运行Spyder编译器以及安装OpenCV等步骤。该教程适用于Windows 8操作系统，并提供了相关的网址供参考。通过本教程，读者可以轻松地安装和配置tensorflow环境，以及运行spyder编译器进行开发。 ... [详细]

蜡笔小新 2023-12-09 09:46:32
深度学习
Window10+anaconda+python3.5.4+ tensorflow1.5+ keras(GPU版本）安装教程

Window10+anaconda+python3.5.4+ tensorflow1.5+ keras(GPU版本）安装教程 ... [详细]

蜡笔小新 2023-10-17 21:10:23
深度学习
Tensorflow 训练自己的cnn模型行人识别

代码如下：#coding:utf-8importstring,os,sysimportnumpyasnpimportmatplotlib.py ... [详细]

蜡笔小新 2023-10-16 16:57:06
tensorflow
程序分析与优化9附录XLA的缓冲区指派

本章是系列文章的案例学习，不属于正篇，主要介绍了TensorFlow引入的XLA的优化算法。XLA也有很多局限性，XLA更多的是进行合并，但有时候如果参数特别多的场景下，也需要进行 ... [详细]

蜡笔小新 2023-10-16 16:17:29
tensorflow
Win10+Python3.7+Tensorflow安装

Win10+Python3.7+Tensorflow安装Step1：安装AnacondaStep2：Tensorflow的安装转载请注明出处：https:blog.csdn.net ... [详细]

蜡笔小新 2023-10-16 16:09:49
人工智能
干货 | 携程AI推理性能的自动化优化实践

作者简介携程度假AI研发团队致力于为携程旅游事业部提供丰富的AI技术产品，其中性能优化组为AI模型提供全方位的优化方案，提升推理性能降低成本࿰ ... [详细]

蜡笔小新 2023-10-16 14:03:03
人工智能
「爆干7天7夜」入门AI人工智能学习路线一条龙，真的不能再透彻了

前言应广大粉丝要求，今天迪迦来和大家讲解一下如何去入门人工智能，也算是迪迦对自己学习人工智能这么多年的一个总结吧，本条学习路线并不会那么 ... [详细]

蜡笔小新 2023-10-16 12:17:31
人工智能
TensorFlow入门上

前置准备在阅读本文之前，请确定你已经了解了神经网络的基本结构以及前向传播、后向传播的基本原理，如果尚未了解，可以查看下文。神经网络初探chrer.com也可以直接在我博客阅读Te ... [详细]

蜡笔小新 2023-10-16 10:25:39
机器学习
bat大牛带你深度剖析android 十大开源框架_请收好！5大领域，21个必知的机器学习开源工具...

全文共3744字，预计学习时长7分钟本文将介绍21个你可能没使用过的机器学习开源工具。每个开源工具都为数据科学家处理数据库提供了不同角度。本文将重点介绍五种机器学习的 ... [详细]

蜡笔小新 2023-10-15 15:52:17
深度学习
面试之python进阶的简单介绍

本文目录一览：1、对于Python面试,我们要做哪些准备? ... [详细]

蜡笔小新 2023-10-15 14:42:10
tensorflow
tensorflow在windows和ubuntu环境下CPU版本的安装与配置

目录一、window下的配置0、准备工作1、python3.5安装2、tensorflow1.9的安装3、测试二、Ubuntu下的配置0、准备工作.1、python ... [详细]

蜡笔小新 2023-10-15 13:25:25
tensorflow
✡︎tensorflow中的条件判断

tf.cond( ... [详细]

蜡笔小新 2023-10-15 12:33:22
深度学习
基于TensorFlow的Keras高级API实现手写体数字识别

前言这个项目的话我也是偶然在B站看到一个阿婆主（SvePana）在讲解这个，跟着他的视频敲的代码并学习起来的。并写在自己这里做个笔记也为 ... [详细]

蜡笔小新 2023-10-15 08:10:04
机器学习
2018年GitHub上最流行50大Python开源项目（上）

2018年GitHub上最流行50大Python开源项目（上）,Go语言社区,Golang程序员人脉社 ... [详细]

蜡笔小新 2023-10-14 19:31:18
人工智能
Yarn已过时！Kubeflow实现机器学习调度平台才是未来

来源：AI前线本文约6700字，建议阅读10分钟。本文分析了建设分布式训练平台的过程中的痛点所在，为你介绍Kubeflow与其核心组件及其 ... [详细]

蜡笔小新 2023-10-14 16:58:41

铁狼爷们儿

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章