支持向量回归删除异常值Python

作者：wyzf88_987 | 来源：互联网 | 2023-10-11 15:04

1、支持向量回归（SVR）原理

1、支持向量回归&＃xff08;SVR&＃xff09;原理

支持向量回归&＃xff08;Support Vector Regression&＃xff0c;SVR&＃xff09;不仅可以用于预测&＃xff0c;还可以用于异常值检测。其基本思路是训练一个回归模型&＃xff0c;通过对每个数据点进行预测&＃xff0c;并计算其预测残差&＃xff0c;来判断该数据点是否为异常值。

在SVR中&＃xff0c;我们通过最大化预测出错的容忍度&＃xff08;margin&＃xff09;来寻找最优解。具体地&＃xff0c;我们希望找到一个超平面&＃xff0c;使得所有数据点到该超平面的距离都大于等于一定的阈值&＃xff08;margin&＃xff09;。对于线性回归模型&＃xff0c;该超平面为&＃xff1a;

w^T * x &＃43; b &＃61; 0

其中&＃xff0c;w是超平面法向量&＃xff0c;b是偏置项&＃xff0c;x是输入数据。对于一个输入数据x_i&＃xff0c;其距离超平面的距离为&＃xff1a;

y_pred_i - y_i &＃61; (w^T * x_i &＃43; b) - y_i

其中&＃xff0c;y_pred_i是该数据点的预测值&＃xff0c;y_i是该数据点的真实值。我们定义预测残差为绝对值&＃xff1a;

r_i &＃61; abs(y_pred_i - y_i)

那么&＃xff0c;如果某个数据点的预测残差&＃xff08;r_i&＃xff09;大于某个阈值&＃xff0c;则被视为异常值&＃xff0c;否则视为正常值。

在实际操作中&＃xff0c;我们需要指定SVR的一些超参数&＃xff0c;例如核函数类型、核函数参数、惩罚系数等。这些超参数对于SVR的性能有很大的影响&＃xff0c;需要根据具体问题进行调整。

2、关键函数svr.fit函数参数

sklearn.svm.SVR中fit函数常用参数如下&＃xff1a;

X: 训练数据X&＃xff0c;必选参数&＃xff0c;形状为(n_samples, n_features)。
y: 目标值y&＃xff0c;必选参数&＃xff0c;形状为(n_samples,)。
sample_weight: 样本权重&＃xff0c;可选参数&＃xff0c;形状为(n_samples,)&＃xff0c;默认每个样本的权重相等。
C: 惩罚系数&＃xff0c;可选参数&＃xff0c;默认为1.0&＃xff0c;一般取值为(0, &＃43;∞)之间的数。C越小&＃xff0c;模型越简单&＃xff1b;C越大&＃xff0c;模型越复杂。调整C的值可以防止过拟合或欠拟合的问题。
kernel: 核函数&＃xff0c;可选参数&＃xff0c;默认为’rbf’&＃xff0c;表示高斯核函数。常用的核函数还有’linear’线性核函数、&＃39;poly’多项式核函数、‘sigmoid’ Sigmoid核函数。核函数的选择决定了模型的复杂度和拟合能力。
degree: 多项式核函数的次数&＃xff0c;可选参数&＃xff0c;默认为3。
gamma: 核函数系数&＃xff0c;可选参数&＃xff0c;默认为’scale’&＃xff0c;表示使用1 / (n_features * X.var())作为gamma值。也可以设置为’auto’或一个数值。
coef0: 核函数的截距&＃xff0c;可选参数&＃xff0c;默认为0。
epsilon: SVR中的ε&＃xff0c;可选参数&＃xff0c;默认为0.1。控制了对误差的容忍度。如果预测值与真实值的差小于ε&＃xff0c;该点就被视为预测正确。
shrinking: 是否使用启发式&＃xff08;Hearst&＃xff09;方法来加速计算&＃xff0c;可选参数&＃xff0c;默认为True。建议保持默认值。
tol: 迭代终止条件&＃xff0c;可选参数&＃xff0c;默认为1e-3。如果模型收敛后两次迭代的损失函数之差小于该值&＃xff0c;则终止训练。
max_iter: 最大迭代次数&＃xff0c;可选参数&＃xff0c;默认为-1&＃xff0c;表示没有限制。如果收敛前达到该值&＃xff0c;则提前终止训练。
cache_size: 核函数缓存大小&＃xff0c;可选参数&＃xff0c;默认为200MB。

需要根据具体的情况&＃xff0c;调整SVR的超参数以获得更好的性能和效果。

3、完整代码

import pandas as pd from sklearn.svm import SVR# 加载数据 data &＃61; pd.read_csv(&＃39;data.csv&＃39;)# 训练SVR模型 X &＃61; data.index.values.reshape(-1, 1) y &＃61; data[&＃39;value&＃39;].values.reshape(-1, 1) svr &＃61; SVR(kernel&＃61;&＃39;rbf&＃39;, gamma&＃61;&＃39;scale&＃39;, C&＃61;1.0, epsilon&＃61;0.1) svr.fit(X, y)# 计算每个数据点的预测偏差 y_pred &＃61; svr.predict(X) residuals &＃61; abs(y - y_pred)# 计算偏差的标准差 std_dev &＃61; residuals.std()# 计算阈值 threshold &＃61; 3 * std_dev# 找到异常值 mask &＃61; (residuals <&＃61; threshold).flatten() clean_data &＃61; data.loc[mask]# 输出结果 print(clean_data)

测试报错&＃xff1a;
Reshape your data either using array.reshape(-1, 1) 。
dataframe数据需要转换为array。
经测试&＃xff1a;

X &＃61; df[&＃39;X&＃39;].values.reshape(-1, 1) y &＃61; np.array(df[&＃39;y&＃39;])

测试结果&＃xff1a;
在这里插入图片描述

推荐阅读

join
如何从列表中删除所有零？

本文介绍了如何使用python从列表中删除所有的零，并将结果以列表形式输出，同时提供了示例格式。 ... [详细]

蜡笔小新 2023-12-13 13:02:00
join
Python技巧：将相同元素聚合至矩阵

本文探讨了如何在Python中将具有相同值的元素分组到矩阵中，这是一个在数据分析和处理中常见的需求。 ... [详细]

蜡笔小新 2024-11-21 17:07:12
utf-8
Struts2 + json+ jquery 实现三级联动action和jsp代码竟然有小红叉，提示缺双引号，检查了转义符号也没缺啊，求解

publicclassBindActionextendsActionSupport{privateStringproString;privateStringcitString; ... [详细]

蜡笔小新 2024-11-21 16:25:41
case
JUnit下的测试和suite

nsitionalENhttp:www.w3.orgTRxhtml1DTDxhtml1-transitional.dtd ... [详细]

蜡笔小新 2024-11-21 16:03:49
byte
Requests库的基本使用方法

本文介绍了Python中Requests库的基础用法，包括如何安装、GET和POST请求的实现、如何处理Cookies和Headers，以及如何解析JSON响应。相比urllib库，Requests库提供了更为简洁高效的接口来处理HTTP请求。 ... [详细]

蜡笔小新 2024-11-21 13:17:41
range
AI炼金术：KNN分类器的构建与应用

本文介绍了如何使用Python及其相关库（如NumPy、scikit-learn和matplotlib）构建KNN分类器模型。通过详细的数据准备、模型训练及新样本预测的过程，展示KNN算法的实际操作步骤。 ... [详细]

蜡笔小新 2024-11-21 11:40:55
utf-8
Web动态服务器Python基本实现

Web动态服务器Python基本实现 ... [详细]

蜡笔小新 2024-11-21 08:01:30
web
使用Service Locator模式实现高效的服务命名访问

本文探讨了如何通过Service Locator模式来简化和优化在B/S架构中的服务命名访问，特别是对于需要频繁访问的服务，如JNDI和XMLNS。该模式通过缓存机制减少了重复查找的成本，并提供了对多种服务的统一访问接口。 ... [详细]

蜡笔小新 2024-11-20 19:26:30
utf-8
将图像平移到画布中心python_python – Tkinter画布缩放移动/平移

高级缩放示例.就像谷歌地图一样.它仅缩放图块,但不缩放整个图像.因此,缩放的瓷砖占据了恒定的记忆,并且不会为大型缩放图像调整大小的图像.对于简化的缩放示例lookhere.在Win ... [详细]

蜡笔小新 2024-11-20 15:47:04
case
管理UINavigationController中的手势返回 - Managing Swipe Back Gestures in UINavigationController

本文介绍了如何在一个简单的闪存卡片应用中实现平滑的手势返回功能，以增强用户体验。 ... [详细]

蜡笔小新 2024-11-19 10:27:04
express
sklearn数据集库中的常用数据集类型介绍

本文介绍了sklearn数据集库中常用的数据集类型，包括玩具数据集和样本生成器。其中详细介绍了波士顿房价数据集，包含了波士顿506处房屋的13种不同特征以及房屋价格，适用于回归任务。 ... [详细]

蜡笔小新 2023-12-13 17:45:15
ip
如何在Django框架中实现对象关系映射（ORM）

本文介绍了Django框架中对象关系映射（ORM）的实现方式，通过ORM，开发者可以通过定义模型类来间接操作数据库表，从而简化数据库操作流程，提高开发效率。 ... [详细]

蜡笔小新 2024-11-21 17:17:01
sum
深度学习: 目标函数

Introduction目标函数是深度学习之心，是模型训练的发动机。目标函数(objectfunction)损失函数(lossfunction)代价函数(costfunction) ... [详细]

蜡笔小新 2024-10-18 18:45:28
ip
vmware workstation14嵌套安装kvm

vmware workstation14嵌套安装kvm ... [详细]

蜡笔小新 2024-10-17 16:30:10
ip
scikitlearn学习之SVM算法

分隔超平面：将数据集分割开来的直线叫做分隔超平面。超平面：如果数据集是N维的，那么就需要N-1维的某对象来对数据进行分割。该对象叫做超平面，也就是分类的决策边界。间隔：一个点 ... [详细]

蜡笔小新 2024-10-14 22:47:51

wyzf88_987

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章