【机器学习】多项式回归的思想以及在sklearn中使用多项式回归（含示例+代码）

作者：Jamie-逗比 | 来源：互联网 | 2023-10-11 12:51

一、多项式回归回归在我们的日常生活中有着广泛的应用，线性回归法有一个很大的局限性，就是假设数据背后是存在线性关系的，但是实际上ÿ

一、多项式回归

回归在我们的日常生活中有着广泛的应用&＃xff0c;线性回归法有一个很大的局限性&＃xff0c;就是假设数据背后是存在线性关系的&＃xff0c;但是实际上&＃xff0c;具有线性关系的数据集是相对来说比较少的&＃xff0c;更多时候&＃xff0c;数据之间是具有的非线性的关系&＃xff0c;那么我们想要用线性回归法来对非线性的数据进行处理应该怎么办呢&＃xff0c;我们可以使用多项式回归的手段来改进线性回归法&＃xff0c;使线性回归法也可以对非线性的数据进行处理&＃xff0c;并进行预测。

1.1 什么是多项式回归

对于线性回归来说&＃xff0c;对于数据的最终拟合效果&＃xff0c;我们是想找到一条直线&＃xff0c;使其尽可能的拟合这些数据&＃xff0c;若只有一个特征的话&＃xff0c;我们可以称为单变量线性回归&＃xff0c;数学表达式如下&＃xff1a;
$y&＃61;\theta_0&＃43;\theta_1 x$
其中 $x$ 为样本特征&＃xff0c; $\theta_1$ 和 $\theta_0$ 为参数。

但是对于实际应用中遇到的数据来说&＃xff0c;虽然可以使用一条直线来拟合数据&＃xff0c;但是其分布很多时候是具有更强的非线性的关系&＃xff0c;也就是说&＃xff0c;使用二次曲线来拟合这些数据的话效果会更好&＃xff0c;如果也是只有一个特征的话&＃xff0c;那么方程可以写为&＃xff1a;

$y&＃61;\theta_2 x^2&＃43;\theta_1 x&＃43;\theta_0$

虽然称其为一个特征的二次方程&＃xff0c;但是可以从另一个方向来理解这个方程&＃xff0c;如果将 $x^2$ 看成是一个特征&＃xff0c; $x$ 看成另一个特征&＃xff0c;这就将其看成是含有两个特征的数据集&＃xff0c;多了一个 $x^2$ 的特征&＃xff0c;从这个方向来看的话&＃xff0c;这个式子依然是一个线性回归的式子&＃xff0c;从 $x$ 的角度来看&＃xff0c;就是一个非线性的方程&＃xff0c;这样的方式就称为多项式回归。

相当于为样本多添加了几个特征&＃xff0c;这些特征是原先样本的多项式项&＃xff08;像是 $x^2$ 就是对 $x$ 进行了平方&＃xff09;&＃xff0c;增加了这些特征以后就可以使用线性回归的思路&＃xff0c;来更好的拟合原来的数据&＃xff0c;本质上就是&＃xff0c;求出了原来的特征而言的非线性的曲线&＃xff0c;即为了更好地拟合数据进行了升维。

二、实战演练

展示一下部分数据&＃xff1a;

在这里插入图片描述
从数据上我们看不出直观的数据分布&＃xff0c;可视化一下&＃xff1a;

plt.scatter(data.iloc[:,0],data.iloc[:,1]) plt.show()

在这里插入图片描述

2.1 用线性回归的方式

首先引用LinearRegression这个类&＃xff0c;然后实例化以后进行fit&＃xff0c;fit传入X和y

X &＃61; np.array(data.iloc[:,0]).reshape(-1,1) y &＃61; np.array(data.iloc[:,1]).reshape(-1,1) estimator_1 &＃61; LinearRegression() estimator_1.fit(X,y) print(&＃39;参数分别为:&＃39;,estimator_1.coef_[0,0],estimator_1.intercept_[0])

结果为&＃xff1a;

参数分别为: 1.0760075113688143 1831.2332236366492

我们对结果进行可视化如下&＃xff1a;

x &＃61; np.linspace(X.min(),X.max(),len(X)) plt.scatter(data.iloc[:,0],data.iloc[:,1]) plt.plot(x,estimator_1.coef_[0,0]*x&＃43;estimator_1.intercept_[0],c&＃61;&＃39;red&＃39;) plt.show()

在这里插入图片描述
我们可以看到&＃xff0c;效果很差劲&＃xff01;

2.2 使用多项式回归

首先加载好需要的包&＃xff0c;再设置好的虚拟的数据集&＃xff0c;之后引用PolynomialFeatures类&＃xff0c;使用方法同样的&＃xff0c;先进行实例化&＃xff0c;传入参数degree&＃xff0c;其表示为原来的数据集添加的最高的幂&＃xff0c;这里设置为2&＃xff0c;这就初始化好了&＃xff0c;然后fit一下X&＃xff0c;之后调用poly.transform这个方式&＃xff0c;将其转换成多项式的特征。

from sklearn.preprocessing import PolynomialFeatures poly &＃61; PolynomialFeatures(degree&＃61;2) poly.fit(X,y) X_2 &＃61; poly.transform(X).reshape(-1,3) print(X_2)

[[1.00000000e&＃43;00 2.84259000e&＃43;02 8.08031791e&＃43;04] [1.00000000e&＃43;00 2.97780000e&＃43;02 8.86729284e&＃43;04] [1.00000000e&＃43;00 3.12441000e&＃43;02 9.76193785e&＃43;04] [1.00000000e&＃43;00 3.25961000e&＃43;02 1.06250574e&＃43;05] [1.00000000e&＃43;00 3.38341000e&＃43;02 1.14474632e&＃43;05] [1.00000000e&＃43;00 3.51006000e&＃43;02 1.23205212e&＃43;05] [1.00000000e&＃43;00 3.65095000e&＃43;02 1.33294359e&＃43;05] [1.00000000e&＃43;00 3.79756000e&＃43;02 1.44214620e&＃43;05] [1.00000000e&＃43;00 3.93846000e&＃43;02 1.55114672e&＃43;05] [1.00000000e&＃43;00 4.08219000e&＃43;02 1.66642752e&＃43;05] [1.00000000e&＃43;00 4.23161000e&＃43;02 1.79065232e&＃43;05] [1.00000000e&＃43;00 4.37534000e&＃43;02 1.91436001e&＃43;05] [1.00000000e&＃43;00 4.51907000e&＃43;02 2.04219937e&＃43;05] [1.00000000e&＃43;00 4.67419000e&＃43;02 2.18480522e&＃43;05] [1.00000000e&＃43;00 4.83499000e&＃43;02 2.33771283e&＃43;05] [1.00000000e&＃43;00 4.99577000e&＃43;02 2.49577179e&＃43;05] [1.00000000e&＃43;00 5.15942000e&＃43;02 2.66196147e&＃43;05] [1.00000000e&＃43;00 5.33445000e&＃43;02 2.84563568e&＃43;05] [1.00000000e&＃43;00 5.51517000e&＃43;02 3.04171001e&＃43;05] [1.00000000e&＃43;00 5.69303000e&＃43;02 3.24105906e&＃43;05] [1.00000000e&＃43;00 5.87091000e&＃43;02 3.44675842e&＃43;05] [1.00000000e&＃43;00 6.05163000e&＃43;02 3.66222257e&＃43;05] [1.00000000e&＃43;00 6.23796000e&＃43;02 3.89121450e&＃43;05] [1.00000000e&＃43;00 6.42698000e&＃43;02 4.13060719e&＃43;05] [1.00000000e&＃43;00 6.61593000e&＃43;02 4.37705298e&＃43;05] [1.00000000e&＃43;00 6.79077000e&＃43;02 4.61145572e&＃43;05] [1.00000000e&＃43;00 6.96857000e&＃43;02 4.85609678e&＃43;05] [1.00000000e&＃43;00 7.15484000e&＃43;02 5.11917354e&＃43;05] [1.00000000e&＃43;00 7.35527000e&＃43;02 5.40999968e&＃43;05] [1.00000000e&＃43;00 7.56130000e&＃43;02 5.71732577e&＃43;05] [1.00000000e&＃43;00 7.76730000e&＃43;02 6.03309493e&＃43;05] [1.00000000e&＃43;00 7.97333000e&＃43;02 6.35739913e&＃43;05] [1.00000000e&＃43;00 8.17933000e&＃43;02 6.69014392e&＃43;05] [1.00000000e&＃43;00 8.37948000e&＃43;02 7.02156851e&＃43;05] [1.00000000e&＃43;00 8.57667000e&＃43;02 7.35592683e&＃43;05] [1.00000000e&＃43;00 8.77380000e&＃43;02 7.69795664e&＃43;05] [1.00000000e&＃43;00 8.97383000e&＃43;02 8.05296249e&＃43;05] [1.00000000e&＃43;00 9.17676000e&＃43;02 8.42129241e&＃43;05] [1.00000000e&＃43;00 9.37107000e&＃43;02 8.78169529e&＃43;05] [1.00000000e&＃43;00 9.55957000e&＃43;02 9.13853786e&＃43;05] [1.00000000e&＃43;00 9.73652000e&＃43;02 9.47998217e&＃43;05] [1.00000000e&＃43;00 9.91055000e&＃43;02 9.82190013e&＃43;05] [1.00000000e&＃43;00 1.00874000e&＃43;03 1.01755639e&＃43;06] [1.00000000e&＃43;00 1.02643000e&＃43;03 1.05355854e&＃43;06] [1.00000000e&＃43;00 1.04354000e&＃43;03 1.08897573e&＃43;06] [1.00000000e&＃43;00 1.05979000e&＃43;03 1.12315484e&＃43;06] [1.00000000e&＃43;00 1.07604000e&＃43;03 1.15786208e&＃43;06] [1.00000000e&＃43;00 1.09171000e&＃43;03 1.19183072e&＃43;06]]

第一列的1可以看作为 $x$ 的0次方&＃xff0c;第2列就是原来的样本特征&＃xff0c;第3列就是 $x$ 的平方的特征&＃xff0c;以此类推。

之后的操作同上&＃xff0c;引用LinearRegression这个类&＃xff0c;然后实例化再进行fit&＃xff0c;拟合后&＃xff0c;使用predict方法得到预测结果&＃xff0c;并对其进行绘制。

estimator_2 &＃61; LinearRegression() estimator_2.fit(X_2,y) y_predict &＃61; estimator_2.predict(X_2) plt.scatter(data.iloc[:,0],data.iloc[:,1]) plt.plot(X,y_predict,c&＃61;&＃39;red&＃39;) plt.show()

在这里插入图片描述
同样的&＃xff0c;看一下系数和截距&＃xff1a;

[[ 0.00000000e&＃43;00 8.22812669e&＃43;00 -5.23124852e-03]] [1831.23322364]

推荐阅读

range
Python并行处理：提升数据处理速度的方法与实践

本文探讨了如何利用Python进行数据处理的并行化，通过介绍Numba、多进程处理以及Pandas DataFrame上的并行操作等技术，旨在帮助开发者有效提高数据处理效率。 ... [详细]

蜡笔小新 2024-12-14 11:30:03
int
ML学习笔记20210824分类算法模型选择与调优

3.模型选择和调优3.1交叉验证定义目的为了让模型得精度更加可信3.2超参数搜索GridSearch对K值进行选择。k[1,2,3,4,5,6]循环遍历搜索。API参数1& ... [详细]

蜡笔小新 2024-12-19 09:10:33
object
利用pg-promise批量插入记录

本文探讨了如何使用pg-promise库在PostgreSQL中高效地批量插入多条记录，包括通过事务和单一查询两种方法。 ... [详细]

蜡笔小新 2024-12-19 12:55:22
int
Kettle资源库管理及运行方式详解

本文介绍了Kettle资源库的基本概念、类型及其管理方法，同时探讨了Kettle的不同运行方式，包括图形界面、命令行以及API调用，并详细说明了日志记录的相关配置。 ... [详细]

蜡笔小新 2024-12-14 08:43:37
int
F# Interactive 中的数据格式化技巧：使用 AddPrinter 和 AddPrintTransformer 自定义输出

本文探讨了如何在 F# Interactive (FSI) 中通过 AddPrinter 和 AddPrintTransformer 方法自定义类型（尤其是集合类型）的输出格式，提供了详细的指南和示例代码。 ... [详细]

蜡笔小新 2024-12-22 12:09:23
object
使用预处理器开关确定类的版本

本文探讨了如何通过预处理器开关选择不同的类实现，并解决在特定情况下遇到的链接器错误。 ... [详细]

蜡笔小新 2024-12-22 12:03:31
int
机器学习核心概念与技术

本文系统梳理了机器学习的关键知识点，涵盖模型评估、正则化、线性模型、支持向量机、决策树及集成学习等内容，并深入探讨了各算法的原理和应用场景。 ... [详细]

蜡笔小新 2024-12-22 09:15:30
int
LeetCode 690：计算员工的重要性评分

在解决LeetCode第690题时，我记录了详细的解题思路和方法。该问题要求根据员工的ID计算其重要性评分，包括直接和间接下属的重要性。本文将深入探讨如何使用哈希表（Map）来高效地实现这一目标。 ... [详细]

蜡笔小新 2024-12-22 07:57:20
object
字符串中特定字符的移除方法

本文介绍如何从字符串中移除大写、小写、特殊、数字和非数字字符，并提供了多种编程语言的实现示例。 ... [详细]

蜡笔小新 2024-12-22 00:08:06
filter
Vue 3.0 翻牌数字组件使用指南

本文详细介绍了如何在 Vue 3.0 中使用翻牌数字组件，包括其基本设置和高级配置，旨在帮助开发者快速掌握并应用这一动态视觉效果。 ... [详细]

蜡笔小新 2024-12-17 11:54:45
object
POP 绘图库 Asana/Drawsana 源代码看看

iOS绘制就是采集点，贝塞尔曲线得到形状，绘图上下文去渲染出来AsanaDrawsana图形库，设计的挺好他可以画多种图形， ... [详细]

蜡笔小新 2024-12-13 14:10:31
int
开发笔记:精通 CSS 第 10 章变换过渡与动画学习笔记

开发笔记:精通 CSS 第 10 章变换过渡与动画学习笔记 ... [详细]

蜡笔小新 2024-12-12 18:31:59
range
HTML5实现逼真树叶飘落动画详解

本文详细介绍了如何利用HTML5技术创建一个逼真的树叶飘落动画，包括HTML、CSS和JavaScript的代码实现及优化技巧。 ... [详细]

蜡笔小新 2024-12-12 13:05:58
int
数字音视频编解码技术及其在短视频应用中的标准概述

本文介绍了数字音视频编解码技术标准，特别是中国自主研发的AVS标准，及其在短视频软件开发中的应用。文章探讨了AVS标准的发展历程、技术特点以及与国际标准的对比。 ... [详细]

蜡笔小新 2024-12-11 12:53:23
install
初探K近邻算法与Scikit-learn API

本文介绍了Scikit-learn这一强大的机器学习库，重点探讨了其最新稳定版本及其安装方法，并通过一个简单的K近邻算法实例展示了如何使用Scikit-learn进行模型训练和预测。 ... [详细]

蜡笔小新 2024-12-10 11:27:51

Jamie-逗比

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章