当前位置: 开发笔记 > 编程语言 > 正文

DeepLearning记录：预测房价——回归问题（HousePricesAdvancedRegressionTechniques）

作者：_Terr1鄭x宜_F | 来源：互联网 | 2023-09-23 09:46

文章目录一、环境配置说明1.使用Anaconda作为python环境管理2.虚拟环境介绍二、数据集介绍与可视化展示1.数据集介绍2.可视化展示三、数据处理与说明1.数据标准化的目的

文章目录

一、环境配置说明
- 1.使用Anaconda作为python环境管理
- 2.虚拟环境介绍
二、数据集介绍与可视化展示
- 1.数据集介绍
- 2.可视化展示
三、数据处理与说明
- 1.数据标准化的目的
- 2.标准化具体实现
四、网络构建与说明
- 1.网络选择
- 2.参数说明
- 3.损失函数与优化器选择
五、小样本的K折验证
- 1.直接交叉验证的局限性
- 2.K折验证说明
- 3.代码具体实现与说明
- - &＃xff08;一&＃xff09;参数选择
  - &＃xff08;二&＃xff09;分区
  - &＃xff08;三&＃xff09;静默训练
六、验证图像绘制与超参数选择
- 1.验证图像绘制与比对
- 2.图像分析与epochs选择
- 3.分批次训练的目的
七、训练最终模型
- 1.运行代码展示
- 2.运行结果展示
- 3.适当调参
八、代码

一、环境配置说明

1.使用Anaconda作为python环境管理

使用Anaconda作为python环境管理&＃xff0c;用于配置对应的虚拟环境
在这里插入图片描述

2.虚拟环境介绍

采用2.3.1版本的Keras与2.0.0版本的tensorflow因为keras与tensorflow两者存在版本匹配&＃xff0c;否则将因不兼容而报错。

在这里插入图片描述

二、数据集介绍与可视化展示

1.数据集介绍

采用的数据集是从keras中导入的波士顿房价数据集&＃xff0c;共506个样本。每个样本含13个数值特征和1个房价平均值。 load_data()默认test_split为0.2&＃xff0c;故划分出404个训练样本和102个测试样本。

在这里插入图片描述

2.可视化展示

未说明横纵坐标的全部情况展示&＃xff1a;
在这里插入图片描述

在13个数值特征中&＃xff0c;我们选择第6个数值特征房间数作为横坐标&＃xff0c;纵坐标为房屋价格&＃xff08;以$1000作为单位&＃xff09;&＃xff0c;以此进行具体展示:
在这里插入图片描述

三、数据处理与说明

1.数据标准化的目的

将取值较大的数或异质数据输入到神经网络中并不安全&＃xff0c;可能导致较大的梯度更新&＃xff0c;进而导致网络无法收敛。

2.标准化具体实现

为了保证测试结果的真实可靠&＃xff0c;我们不能泄露测试集的信息&＃xff0c;所以测试数据集的标准化依然是采用由训练数据集计算出来的均值和标准差。

在这里插入图片描述

四、网络构建与说明

在这里插入图片描述

1.网络选择

利用Sequential类定义模型&＃xff0c;层线性堆叠根据资料得知&＃xff0c;带relu激活的全连接层(Dense)的简单堆叠在处理简单的向量数据上有出色的表现&＃xff0c;所以采用Dense层堆叠

2.参数说明

以第一层为例&＃xff0c;此时对应参数分别为隐藏单元个数、激活函数类型和输入矩阵数据第1轴要求每个带有relu激活的Dense层都实现了&＃xff1a;output &＃61; relu(dot(w, input) &＃43; b) w为权重矩阵&＃xff0c;b为偏置向量w形状为&＃xff08;输入矩阵第1轴&＃xff0c;隐藏单元个数&＃xff09; b为向量&＃xff0c;故需要通过广播实现形状不同的张量相加隐藏单元数目越多&＃xff0c;网络越能学习到更加复杂的表示&＃xff0c;但可能导致过拟合激活函数用于扩展假设空间&＃xff0c;充分利用多层表示的优势输入矩阵第1轴要求仅在第一层出现&＃xff0c;之后添加的层都会自动匹配输入层的形状

3.损失函数与优化器选择

损失函数&＃xff0c;衡量当前任务是否成功完成&＃xff0c;对于回归问题&＃xff0c;我们选择mes损失函数&＃xff0c;即均方误差&＃xff0c;表示预测值与目标值之差的平方。优化器&＃xff0c;决定如何基于损失函数对网络进行更新&＃xff0c;对于当前问题&＃xff0c;我们选择rmsprop优化器&＃xff08;均方根反向传播&＃xff09;。评价指标&＃xff0c;用于判断模型的性能&＃xff0c;但不用于网络参数的更新&＃xff0c;对于当前问题&＃xff0c;我们选择mae&＃xff0c;即平均绝对误差&＃xff0c;表示预测值与目标值之差的绝对值。

五、小样本的K折验证

1.直接交叉验证的局限性

总共只有404个训练样本&＃xff0c;如果直接依照交叉验证的思路将其划分为训练集和验证集&＃xff0c;不同的划分方式将导致验证分数有很大的差异&＃xff0c; 无法对模型进行可靠的评估。

2.K折验证说明

K折交叉验证&＃xff0c;将数据划分为K个分区&＃xff0c;总共要计算K轮&＃xff0c;将计算出的K个验证分数的平均值作为模型的验证分数&＃xff0c;每个分区轮流作为一个验证集&＃xff0c; 剩下的K-1个分区作为训练集。

3.代码具体实现与说明

在这里插入图片描述

&＃xff08;一&＃xff09;参数选择

在这里插入图片描述

K选择4&＃xff0c;即将划分为4个分区&＃xff0c;并计算出4个验证分数以其平均值作为验证分数。num_val_samples表示分区大小num_epochs表示训练的轮数all_mae_histories存储每一轮的验证分数

&＃xff08;二&＃xff09;分区

在这里插入图片描述

根据参数i选择分区担任验证集&＃xff0c;其余的k-1个分区作为训练集np.concatenate()&＃xff0c;功能是根据给定的axis参数&＃xff0c;将两个张量进行合并&＃xff0c;但要求剩下的部分要可以对应&＃xff0c;否则不能合并。在当前划分中&＃xff0c;就是将两个训练集合并为一个训练集。

&＃xff08;三&＃xff09;静默训练

在这里插入图片描述

history是调用model.fit()后返回的一个History对象&＃xff0c;是一个字典&＃xff0c;包含着训练过程中的所有数据 model.fit()是拟合&＃xff0c;值得注意的是此时verbose为0&＃xff0c;静默模式&＃xff0c;也就是不标准输出流中输出日志信息

以下为verbose参数为1时的运行截图&＃xff1a;
在这里插入图片描述

六、验证图像绘制与超参数选择

1.验证图像绘制与比对

在这里插入图片描述

2.图像分析与epochs选择

第一版中epochs选择为80&＃xff0c;第二版中为130&＃xff0c;在本地运行中&＃xff0c;我测试了多次&＃xff0c;但测试的验证mae在35轮与68轮均出现了相近的最低点&＃xff0c; 由于两者相差较大&＃xff0c;取35可能导致训练不够&＃xff0c;取68可能导致过拟合&＃xff0c;所以我折中选择了52作为最终的epochs

3.分批次训练的目的

批次大小是一个超参数&＃xff0c;表示在更新内部模型参数之前要处理的样本数分批次可以更好地概括学习&＃xff0c;如果不分批次&＃xff0c;网络将一次性传播&＃xff0c;会使网络对每个样本过于敏感&＃xff0c;也就降低了模型的泛化能力

七、训练最终模型

1.运行代码展示

在这里插入图片描述

2.运行结果展示

在这里插入图片描述
第一版结果&＃xff1a;

第二版结果&＃xff1a;

所得结果与课本示例仍有着1000$左右的差距

3.适当调参

将epochs修改为130&＃xff0c;所得结果与第二版课本相差不大
在这里插入图片描述

八、代码

import numpy as np import matplotlib.pyplot as plt import tensorflow as tf boston_housing &＃61; tf.keras.datasets.boston_housing (train_x,train_y),(test_x,test_y) &＃61; boston_housing.load_data(test_split&＃61;0.2)#数据标准化 mean &＃61; train_x.mean(axis&＃61;0) train_x -&＃61; mean std &＃61; train_x.std(axis&＃61;0) train_x/&＃61;stdtest_x-&＃61;mean test_x/&＃61;std#构建网络 from keras import models from keras import layersdef build_model():model &＃61; models.Sequential()model.add(layers.Dense(64, activation&＃61;&＃39;relu&＃39;,input_shape&＃61;(train_x.shape[1],)))model.add(layers.Dense(64, activation&＃61;&＃39;relu&＃39;))model.add(layers.Dense(1))model.compile(optimizer&＃61;&＃39;rmsprop&＃39;, loss&＃61;&＃39;mse&＃39;, metrics&＃61;[&＃39;mae&＃39;])return model#训练 model &＃61; build_model() model.fit(train_x, train_y, epochs&＃61;130, batch_size&＃61;16, verbose&＃61;0) test_mse_score, test_mae_score &＃61; model.evaluate(test_x, test_y)print(test_mae_score)#K折验证 # import numpy as np # k &＃61; 4 # num_val_samples &＃61; len(train_x) // k # # num_epochs &＃61; 100 # all_scores &＃61; [] # for i in range(k): # print(&＃39;processing fold #&＃39;, i) # val_data &＃61; train_x[i * num_val_samples: (i &＃43; 1) * num_val_samples] # val_targets &＃61; train_y[i * num_val_samples: (i &＃43; 1) * num_val_samples] # partial_train_data &＃61; np.concatenate( # [train_x[:i * num_val_samples], # train_x[(i &＃43; 1) * num_val_samples:]], # axis&＃61;0) # partial_train_targets &＃61; np.concatenate( # [train_y[:i * num_val_samples], # train_y[(i &＃43; 1) * num_val_samples:]], # axis&＃61;0) # model &＃61; build_model() # model.fit(partial_train_data, partial_train_targets, # epochs&＃61;num_epochs, batch_size&＃61;1, verbose&＃61;0) # val_mse, val_mae &＃61; model.evaluate(val_data, val_targets, verbose&＃61;0) # all_scores.append(val_mae)# 保存每折的验证结果 # import numpy as np # k &＃61; 4 # num_val_samples &＃61; len(train_x) // k # num_epochs &＃61; 500 # all_mae_histories &＃61; [] # for i in range(k): # print(&＃39;processing fold #&＃39;, i) # val_data &＃61; train_x[i * num_val_samples: (i &＃43; 1) * num_val_samples] # val_targets &＃61; train_y[i * num_val_samples: (i &＃43; 1) * num_val_samples] # partial_train_data &＃61; np.concatenate( # [train_x[:i * num_val_samples], # train_x # [(i &＃43; 1) * num_val_samples:]], # axis&＃61;0) # partial_train_targets &＃61; np.concatenate( # [train_y[:i * num_val_samples], # train_y[(i &＃43; 1) * num_val_samples:]], # axis&＃61;0) # model &＃61; build_model() # history &＃61; model.fit(partial_train_data, partial_train_targets, # validation_data&＃61;(val_data, val_targets), # epochs&＃61;num_epochs, batch_size&＃61;1, verbose&＃61;0) # mae_history &＃61; history.history[&＃39;val_mae&＃39;] # all_mae_histories.append(mae_history)#计算所有轮次中的 K 折验证分数平均值 # average_mae_history &＃61; [ # np.mean([x[i] for x in all_mae_histories]) for i in range(num_epochs)]#绘制验证分数 # import matplotlib.pyplot as plt # plt.plot(range(1, len(average_mae_history) &＃43; 1), average_mae_history) # plt.xlabel(&＃39;Epochs&＃39;) # plt.ylabel(&＃39;Validation MAE&＃39;) # plt.show()#删除前十个数据点后绘制验证分数 # def smooth_curve(points, factor&＃61;0.9): # smoothed_points &＃61; [] # for point in points: # if smoothed_points: # previous &＃61; smoothed_points[-1] # smoothed_points.append(previous * factor &＃43; point * (1 - factor)) # else: # smoothed_points.append(point) # return smoothed_points # # smooth_mae_history &＃61; smooth_curve(average_mae_history[10:]) # # plt.plot(range(1, len(smooth_mae_history) &＃43; 1), smooth_mae_history) # plt.xlabel(&＃39;Epochs&＃39;) # plt.ylabel(&＃39;Validation MAE&＃39;) # plt.show()

推荐阅读

join
Python多线程编程技巧与实战应用详解

Python多线程编程技巧与实战应用详解 ... [详细]

蜡笔小新 2024-11-09 20:44:15
get
艾伟深入解析：WCF Binding模型中的绑定元素详解

本文深入解析了WCF Binding模型中的绑定元素，详细介绍了信道、信道管理器、信道监听器和信道工厂的概念与作用。从对象创建的角度来看，信道管理器负责信道的生成。具体而言，客户端的信道通过信道工厂进行实例化，而服务端则通过信道监听器来接收请求。文章还探讨了这些组件之间的交互机制及其在WCF通信中的重要性。 ... [详细]

蜡笔小新 2024-11-09 17:13:19
header
深入解析CAS机制：全面替代传统锁的底层原理与应用

本文深入探讨了CAS（Compare-and-Swap）机制，分析了其作为传统锁的替代方案在并发控制中的优势与原理。CAS通过原子操作确保数据的一致性，避免了传统锁带来的性能瓶颈和死锁问题。文章详细解析了CAS的工作机制，并结合实际应用场景，展示了其在高并发环境下的高效性和可靠性。 ... [详细]

蜡笔小新 2024-11-09 15:45:07
header
com.sun.javadoc.PackageDoc.exceptions()方法的使用及代码示例

com.sun.javadoc.PackageDoc.exceptions()方法的使用及代码示例 ... [详细]

蜡笔小新 2024-11-13 10:47:33
web
应用链时代，详解 Avalanche 与 Cosmos 的差异

应用链时代，详解 Avalanche 与 Cosmos 的差异 ... [详细]

蜡笔小新 2024-11-13 09:37:19
get
Java 并发编程：深入解析 AtomicInteger 和 CAS 无锁算法

在多线程并发环境中，普通变量的操作往往是线程不安全的。本文通过一个简单的例子，展示了如何使用 AtomicInteger 类及其核心的 CAS 无锁算法来保证线程安全。 ... [详细]

蜡笔小新 2024-11-12 16:40:04
get
ARM汇编基础基于Keil创建STM32汇编程序的编写

文章目录一、新建项目（1）工具介绍（2）创建项目：二、配置环境（1）配置芯片&#x ... [详细]

蜡笔小新 2024-11-12 08:39:33
web
秒建一个后台管理系统？用这5个开源免费的Java项目就够了

秒建一个后台管理系统？用这5个开源免费的Java项目就够了 ... [详细]

蜡笔小新 2024-11-12 03:21:33
buffer
开发日志：高效图片压缩与上传技术解析

开发日志：高效图片压缩与上传技术解析 ... [详细]

蜡笔小新 2024-11-11 19:33:51
string
开发技巧：在Interface Builder中实现UIButton文本居中对齐的方法与步骤

开发技巧：在Interface Builder中实现UIButton文本居中对齐的方法与步骤 ... [详细]

蜡笔小新 2024-11-11 17:13:04
string
【Python 实战：汇率转换器 v1.02】

本项目通过Python编程实现了一个简单的汇率转换器v1.02。主要内容包括：1. Python的基本语法元素：（1）缩进：用于表示代码的层次结构，是Python中定义程序框架的唯一方式；（2）注释：提供开发者说明信息，不参与实际运行，通常每个代码块添加一个注释；（3）常量和变量：用于存储和操作数据，是程序执行过程中的重要组成部分。此外，项目还涉及了函数定义、用户输入处理和异常捕获等高级特性，以确保程序的健壮性和易用性。 ... [详细]

蜡笔小新 2024-11-11 16:34:26
copy
PHP预处理常量详解：如何定义与使用常量

PHP预处理常量详解：如何定义与使用常量 ... [详细]

蜡笔小新 2024-11-09 11:31:23
export
如何使用ES6语法编写Webpack配置文件？

如何使用ES6语法编写Webpack配置文件？ ... [详细]

蜡笔小新 2024-11-08 15:07:33
get
使用ObjectMapper实现JSON与JavaBean的高效转换

本文介绍了如何利用ObjectMapper实现JSON与JavaBean之间的高效转换。ObjectMapper是Jackson库的核心组件，能够便捷地将Java对象序列化为JSON格式，并支持从JSON、XML以及文件等多种数据源反序列化为Java对象。此外，还探讨了在实际应用中如何优化转换性能，以提升系统整体效率。 ... [详细]

蜡笔小新 2024-11-08 13:21:48
buffer
Scala学习指南：从零开始掌握基础

本指南从零开始介绍Scala编程语言的基础知识，重点讲解了Scala解释器REPL（读取-求值-打印-循环）的使用方法。REPL是Scala开发中的重要工具，能够帮助初学者快速理解和实践Scala的基本语法和特性。通过详细的示例和练习，读者将能够熟练掌握Scala的基础概念和编程技巧。 ... [详细]

蜡笔小新 2024-11-07 18:07:59

_Terr1鄭x宜_F

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章