kaggle工业蒸汽

作者：同亮uncle_847 | 来源：互联网 | 2023-06-04 14:23

数据信息工业蒸馏数据import库函数importnumpyasnpimportpandasaspdimportmatplotlib.pyplotaspltimport

数据信息

工业蒸馏数据

import库函数

import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns from scipy import stats import warnings warnings.filterwarnings("ignore") %matplotlib inline

数据读取

# 数据集路径 test_data_file &＃61; "./zhengqi_test.txt" train_data_file &＃61; "./zhengqi_train.txt"# 读取数据 train_data &＃61; pd.read_csv(train_data_file, sep&＃61;&＃39;\t&＃39;, encoding&＃61;&＃39;utf-8&＃39;) test_data &＃61; pd.read_csv(test_data_file, sep&＃61;&＃39;\t&＃39;, encoding&＃61;&＃39;utf-8&＃39;)# 得到没有NAN值&＃xff0c;并且数据有三十八个特征,一个标签 # 因为数据标签没有显示&＃xff0c;所以无法主观判断数据之间的关系 train_data.info()#38个特征一个标签 train_data.describe()

箱线图

def box_map(Data):"""画出Data的所有的特征标签对应的箱线图"""#指定画布大小&＃xff1a;plt.figure(figsize&＃61;(18, 10))#确定数据和画的标签列表plt.boxplot(Data.values, labels&＃61;Data.columns)#设置一些直线参数plt.hlines([-7.5, 7.5], 0, 40, "red") """ 箱线图另一种画法: #取出每个特征的标签&＃xff0c;以便画图 column &＃61; Data.columns.tolist()[:39] # 指定绘图对象宽度和高度 fig &＃61; plt.figure(figsize&＃61;(20, 40)) for i in range(38):# 一张画布画13行3列plt.subplot(13, 3, i &＃43; 1)sns.boxplot(Data[column[i]]# 数据, orient&＃61;"v"# “v”|“h” 用于控制图像使水平还是竖直显示, width&＃61;0.5) # 箱式图# 添加标签名称plt.ylabel(column[i], fontsize&＃61;8) """ # 画出箱线图 box_map(train_data) # 我们发现还是有很多在误差上下界外的数据&＃xff08;异常点&＃xff09;&＃xff0c;所以说我们要将这些数据删除掉

请添加图片描述

箱线图解释连接

在这里插入图片描述

获取并删除异常值

from sklearn.metrics import mean_squared_error# model使用那个模型寻找异常值。train_data&＃xff0c;sigma为阈值 # 就是用残差的分布转化成标准正态分布,残差在正态分布sigma外的数据为异常数据 def find_outliers(model, train_data, sigma&＃61;3):ALLX &＃61; train_data.iloc[:, 0:-1]ALLY &＃61; train_data.iloc[:, -1]"""使用model来见到的预测每一个标签值&＃xff0c;若差距过大&＃xff0c;就删除该条数据"""plt.figure(figsize&＃61;(15, 3 * 38))# 38个标签特征# 对于每一个特征值都进行删除异常值操作for i, eachName in enumerate(ALLX.columns):print("this is "&＃43;str(eachName)&＃43;" situation:")_y &＃61; ALLX.loc[:, eachName]# 被预测的特征数据_X &＃61; ALLX.drop(eachName, axis&＃61;1)# 用于模型训练的数据model.fit(_X, _y)y_pred &＃61; pd.Series(model.predict(_X), index&＃61;_y.index)from sklearn.metrics import r2_score#捕捉的信息量比例&＃xff08;不能反了&＃xff09;R2&＃61;r2_score(model.predict(_X),_y)print("均方误差MSE:{}, R^2:{}".format(round(mean_squared_error(_y, y_pred), 4), round(R2, 4)))# 残差值resid &＃61; _y - y_pred# 残差值均值resid_mean &＃61; resid.mean()# 计算标准差啊resid_std &＃61; resid.std()print("残差均值resid_mean:{}, 残差标准差resid_std:{}".format(round(resid_mean, 4), round(resid_std, 4)))# 残差标准化成正态分布&＃xff0c;就是公式&＃xff1a; F(x)&＃61;Φ[(x-μ)/σ]z &＃61; (resid - resid_mean) / resid_std# 异常值位置(真实值和预测值偏离程度较大,大于sigma倍标准差)outliers &＃61; z[abs(z) > sigma].index # 取横向坐标索引便于删除异常值数据print("异常值索引outlier index:", outliers.tolist())# *******************可视化异常值&＃xff08;呈现正相关性越好&＃xff09;*****************# ---------------真实和预测数据之间的关系----------------# 创建ax_1子图ax_1 &＃61; plt.subplot(38, 3, i * 3 &＃43; 1)# 画出真实值和预测值&＃xff0c;用“.”代表样本&＃xff0c;颜色默认plt.plot(_y, y_pred, ".", label&＃61;"Accepted")# 将异常值数据进行单独标出&＃xff0c;用红色标出&＃xff0c;有外轮廓plt.plot(_y.loc[outliers], y_pred[outliers], "ro", label&＃61;"Outlier")# y轴为预测值plt.ylabel("y_pred")# x轴为真实值plt.xlabel("true_y of " &＃43; eachName)plt.legend()# ---------------残差越靠近零值越好----------------ax_2 &＃61; plt.subplot(38, 3, i * 3 &＃43; 2)# 画出残差点plt.plot(_y, _y - y_pred, ".", label&＃61;"Accepted")# 画出异常值数据的残差点plt.plot(_y.loc[outliers], _y.loc[outliers] - y_pred.loc[outliers], "ro", label&＃61;"Outlier")plt.ylabel("residual")plt.xlabel("true_y of " &＃43; eachName)plt.legend()# ---------------绘制直方图&＃xff0c;样本分布----------------ax_3 &＃61; plt.subplot(38, 3, i * 3 &＃43; 3)# 样本分箱50&＃xff0c;颜色蓝色ax_3.hist(z, bins&＃61;50, facecolor&＃61;"blue")# 异常值搞成红色ax_3.hist(z.loc[outliers], bins&＃61;50, facecolor&＃61;"red")plt.legend(["Accepted", "Outlier"])plt.xlabel("distribution of " &＃43; eachName)if R2 > 0.7:# 根据异常值将样本数据异常值点删除ALLX &＃61; ALLX.drop(outliers)ALLY &＃61; ALLY.drop(outliers)# 自动进行子图缩进plt.tight_layout()# 返回删除异常值的train_datadata&＃61;pd.concat([ALLX,ALLY],axis&＃61;1)data.index&＃61;list(range(data.shape[0]))return datafrom sklearn.linear_model import Ridge train_data&＃61;find_outliers(Ridge(),train_data, sigma&＃61;3)

那么得到的数据在正态分布上就是一下两个图的组合,sigma就是图中的z
在这里插入图片描述

样本删除可视化后&＃xff1a;
请添加图片描述
删除后的箱线图&＃xff1a;虽然还有很多

是否符合正态分布

def prob_kde(train_data):"""画出样本分布&＃xff0c;和Q-Q图"""train_cols &＃61; 6 # 一行三个特征train_rows &＃61; len(train_data.columns)# 特征个数# 4个单位一个图&＃xff0c;纵&＃xff1a;4 * train_cols 横&＃xff1a;需要train_rows / 3行plt.figure(figsize&＃61;(4 * train_cols, 4 * train_rows / 3))i &＃61; 0for col in train_data.columns[:-1]:dat &＃61; train_data[[col, "target"]].dropna()i &＃43;&＃61; 1ax &＃61; plt.subplot(train_rows / 3, train_cols, i)# seaborn中的函数distplot画出分布密度函数以及核密度函数&＃xff0c;默认参数直方图hist&＃61;True 核函数kde&＃61;Truesns.distplot(dat[col], fit&＃61;stats.norm)# 拟合stats.norm正态分布plt.title("skew&＃61;" &＃43; "{:.4f}".format(stats.skew(dat[col])))#计算偏态问题质数""" skewness &＃61; 0 : normally distributed.skewness > 0 : more weight in the left tail of the distribution.skewness <0 : more weight in the right tail of the distribution. """i &＃43;&＃61; 1ax &＃61; plt.subplot(train_rows / 3, train_cols, i)# scipy.stats中的函数能Q-Q图,越靠近直线越服从正态分布res &＃61; stats.probplot(dat[col], plot&＃61;plt)# 计算相关系数plt.title("corr&＃61;" &＃43; "{:.2f}".format(np.corrcoef(dat[col], dat["target"])[0][1]))plt.tight_layout()

训练数据和测试数据的分布关系

def train_test_kde(train_data, test_data, columns):# 一行六张图&＃xff0c;六个特征dist_cols &＃61; 6dist_rows &＃61; len(test_data.columns)# 创建7行空间&＃xff0c;一个字图为正方形&＃xff0c;4个单位像素plt.figure(figsize&＃61;(4 * dist_cols, 4 * 7))i &＃61; 1for col in columns:ax &＃61; plt.subplot(7, dist_cols, i)# 训练数据核密度函数sns.kdeplot(train_data[col], color&＃61;"red", shade&＃61;True,label&＃61;"train")# 测试数据核密度函数sns.kdeplot(test_data[col], color&＃61;"blue", shade&＃61;True,label&＃61;"test")# 添加特征名称plt.xlabel(col)# 纵坐标plt.ylabel("Frequence")plt.legend()i &＃43;&＃61; 1plt.tight_layout()#看train_data和test_data中标签对应的数据是否分布相似&＃xff0c; # 若不相似会导致模型非泛化能力变差&＃xff0c;需要删除此类特征。 train_test_kde(train_data,test_data,X_train.columns)

请添加图片描述

#特征变量V5,V9,V11,V17,V22,V28在训练集和测试集中的数据分布不一致,所以要删除特征数据 drop_columns&＃61;["V5","V9","V11","V17","V22","V28"] # 指定删除columns特征&＃xff0c;覆盖原数据 train_data.drop(columns &＃61; drop_columns, inplace&＃61;True) test_data.drop(columns &＃61; drop_columns, inplace&＃61;True)

训练和测试数据归一化正态化

数据分布情况&＃xff1a;

请添加图片描述

# 未解决数据偏态问题&＃xff0c;我们对于每个特征数据进行标准化&＃xff0c;可视化&＃xff1a; # 预先进行归一化操作(全部数据&＃xff0c;建议在数据量比较大的时候进行处理) from sklearn.preprocessing import MinMaxScaler def func_mms(train,test):# 取出需要归一化的特征cols_numeric &＃61; test.columns# 创建归一化方法# 对train,test进行数据训练train_data_process &＃61; pd.DataFrame(MinMaxScaler().fit_transform(train[cols_numeric]), columns&＃61;cols_numeric)test_data_process &＃61; pd.DataFrame(MinMaxScaler().fit_transform(test[cols_numeric]), columns&＃61;cols_numeric)return pd.concat([train_data_process, train_data["target"]], axis&＃61;1),test_data_process#调用归一化函数 train_data,test_data&＃61;func_mms(train_data,test_data)

stats.boxcox正态化&＃xff1a;

for var in test_data.columns:train_data[var], lambda_var &＃61; stats.boxcox(train_data[var].dropna() &＃43; 1) # 数值只能是正值test_data[var], lambda_var &＃61; stats.boxcox(test_data[var].dropna() &＃43; 1) # 数值只能是正值

prob_kde(train_data)

请添加图片描述

多重共线性

通过热力图查看

train_corr &＃61; train_data.corr()# 生成关系矩阵 plt.figure(figsize&＃61;(20, 16)) sns.heatmap(train_corr, vmax&＃61;0.8, square&＃61;True, annot&＃61;True)#热力图

颜色越浅共线性越强&＃xff1a;
请添加图片描述

#我们取出和便签["target"]相关系数最高的十个特征 #columns参数就是和标签target相关系数最高的十个特征&＃xff0c;组成&＃xff08;10&＃xff0c;train_corr.shape[0]&＃xff09;矩阵 #然后取出最大值特征相对于taregt的数据组成pandas.Series数据nlargest_f nlargest_f &＃61; train_corr.nlargest(10, columns&＃61;"target")["target"] cols &＃61; nlargest_f.index plt.figure(figsize&＃61;(10, 10)) sns.heatmap(train_data[cols].corr(), annot&＃61;True, square&＃61;True) #除了主对角线之外&＃xff0c;其他的部分颜色越浅&＃xff0c;代表相关性系数越高&＃xff0c;多重共线性更加明显。

在这里插入图片描述

通过多重共线性方差膨胀因子查看

from statsmodels.stats.outliers_influence import variance_inflation_factor #多重共线性方差膨胀因子 cols&＃61;train_data.columns X&＃61;np.matrix(train_data[cols]) VIF_list&＃61;[variance_inflation_factor(X, i) for i in range(X.shape[1])] #VIF_list就是膨胀因子

方差膨胀因子的解释
请添加图片描述
PCA解决多重线性问题&＃xff1a;
不过这里效果不好&＃xff0c;没使用

# from sklearn.decomposition import PCA #主成分分析 # #PCA方法降维处理多重共线性 # #保持90%的信息 # pca &＃61; PCA(n_components&＃61;0.95) # new_train_data &＃61; pca.fit_transform(train_data.iloc[:,0:-1]) # new_test_data &＃61; pca.transform(test_data) # new_train_data &＃61; pd.DataFrame(new_train_data) # new_test_data &＃61; pd.DataFrame(new_test_data) # new_train_data[&＃39;target&＃39;] &＃61; train_data[&＃39;target&＃39;] # new_train_data.describe()

推荐阅读

sum
在范围[0..n-1]中产生m个不同的随机数 - Generating m distinct random numbers in the range [0..n-1]

Ihavetwomethodsofgeneratingmdistinctrandomnumbersintherange[0..n-1]我有两种方法在范围[0.n-1]中生 ... [详细]

蜡笔小新 2024-11-13 09:49:14
list
如何在Java中使用DButils类

这期内容当中小编将会给大家带来有关如何在Java中使用DButils类，文章内容丰富且以专业的角度为大家分析和叙述，阅读完这篇文章希望大家可以有所收获。D ... [详细]

蜡笔小新 2024-11-12 13:46:11
list
如何优化MySQL数据库性能以提升查询效率和系统稳定性

如何优化MySQL数据库性能以提升查询效率和系统稳定性 ... [详细]

蜡笔小新 2024-11-09 13:48:51
import
Scala学习指南：从零开始掌握基础

本指南从零开始介绍Scala编程语言的基础知识，重点讲解了Scala解释器REPL（读取-求值-打印-循环）的使用方法。REPL是Scala开发中的重要工具，能够帮助初学者快速理解和实践Scala的基本语法和特性。通过详细的示例和练习，读者将能够熟练掌握Scala的基础概念和编程技巧。 ... [详细]

蜡笔小新 2024-11-07 18:07:59
tree
清华大学出版社 | 杨丹：基于MATLAB机器视觉的黑色素瘤皮肤癌检测技术及源代码分析（第1689期）

清华大学出版社 | 杨丹：基于MATLAB机器视觉的黑色素瘤皮肤癌检测技术及源代码分析（第1689期） ... [详细]

蜡笔小新 2024-11-07 13:30:09
text
如何使用和示例代码解析 org.semanticweb.owlapi.model.OWLSubPropertyChainOfAxiom.getPropertyChain() 方法

如何使用和示例代码解析 org.semanticweb.owlapi.model.OWLSubPropertyChainOfAxiom.getPropertyChain() 方法 ... [详细]

蜡笔小新 2024-11-03 19:32:01
input
深入解析进程及其描述符（task_struct）

进程（Process）是指计算机中程序对特定数据集的一次运行活动，是系统资源分配与调度的核心单元，构成了操作系统架构的基础。在早期以进程为中心的计算机体系结构中，进程被视为程序的执行实例，其状态和控制信息通过任务描述符（task_struct）进行管理和维护。本文将深入探讨进程的概念及其关键数据结构task_struct，解析其在操作系统中的作用和实现机制。 ... [详细]

蜡笔小新 2024-10-31 10:54:55
list
macOS 上 Visual Studio Code 的安装与配置指南

Visual Studio Code (VSCode) 是一款功能强大的源代码编辑器，支持多种编程语言，具备丰富的扩展生态。本文将详细介绍如何在 macOS 上安装、配置并使用 VSCode。 ... [详细]

蜡笔小新 2024-11-12 19:45:55
list
Reddit 上一个引发热议的编程挑战

一篇关于五个编程问题的 Reddit 帖子引发了广泛讨论，特别是关于这些题目是否适合所有软件工程师。 ... [详细]

蜡笔小新 2024-11-12 17:41:10
jsp
第二十五天接口、多态

1.java是面向对象的语言。设计模式：接口接口类是从java里衍生出来的，不是python原生支持的主要用于继承里多继承抽象类是python原生支持的主要用于继承里的单继承但是接 ... [详细]

蜡笔小新 2024-11-12 06:43:20
text
Android TextView：实现多彩文字与多样化字体效果

在探讨如何在Android的TextView中实现多彩文字与多样化字体效果时，本文提供了一种不依赖HTML技术的解决方案。通过使用SpannableString和相关的Span类，开发者可以轻松地为文本添加丰富的样式和颜色，从而提升用户体验。文章详细介绍了实现过程中的关键步骤和技术细节，帮助开发者快速掌握这一技巧。 ... [详细]

蜡笔小新 2024-11-10 15:37:21
import
Java项目中两个文件互相调用时出现函数错误，请求专业解决方案

在Java项目中，当两个文件进行互相调用时出现了函数错误。具体问题出现在 `MainFrame.java` 文件中，该文件位于 `cn.javass.bookmgr` 包下，并且导入了 `java.awt.BorderLayout` 和 `java.awt.Event` 等相关类。为了确保项目的正常运行，请求提供专业的解决方案，以解决函数调用中的错误。建议从类路径、依赖关系和方法签名等方面入手，进行全面排查和调试。 ... [详细]

蜡笔小新 2024-11-08 17:04:11
cmd
利用 Delphi 中的 IdTCPServer 和 IdTCPClient 实现高效文件传输

本文介绍了如何利用 Delphi 中的 IdTCPServer 和 IdTCPClient 控件实现高效的文件传输。这些控件在默认情况下采用阻塞模式，并且服务器端已经集成了多线程处理，能够支持任意大小的文件传输，无需担心数据包大小的限制。与传统的 ClientSocket 相比，Indy 控件提供了更为简洁和可靠的解决方案，特别适用于开发高性能的网络文件传输应用程序。 ... [详细]

蜡笔小新 2024-11-08 16:34:23
input
技术日志：使用 Ruby 爬虫抓取拉勾网职位数据并生成词云分析报告

技术日志：使用 Ruby 爬虫抓取拉勾网职位数据并生成词云分析报告 ... [详细]

蜡笔小新 2024-11-07 14:33:19
jsp
ButterKnife的基础应用与实践指南

ButterKnife 是一款用于 Android 开发的注解库，主要用于简化视图和事件绑定。本文详细介绍了 ButterKnife 的基础用法，包括如何通过注解实现字段和方法的绑定，以及在实际项目中的应用示例。此外，文章还提到了截至 2016 年 4 月 29 日，ButterKnife 的最新版本为 8.0.1，为开发者提供了最新的功能和性能优化。 ... [详细]

蜡笔小新 2024-11-07 13:17:24

同亮uncle_847

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章