当前位置: 开发笔记 > 编程语言 > 正文

岭回归及其应用

作者：蘑菇宝 | 来源：互联网 | 2024-11-16 06:54

本文介绍了岭回归的基本原理，并通过Python中的sklearn库实现了岭回归模型。岭回归通过在代价函数中加入L2正则项，有效解决了多重共线性问题。

岭回归基本原理

岭回归是一种用于处理多重共线性问题的回归方法。其基本思想是在普通最小二乘法的基础上，加入一个L2正则项，以减少模型的复杂度和过拟合风险。岭回归的代价函数形式如下：

岭回归代价函数

其中，第一个部分是残差平方和，第二个部分是L2正则项，λ是正则化参数。通过调整λ的值，可以在模型的偏差和方差之间找到一个平衡点。

选择合适的λ值是岭回归的关键。通常，可以通过交叉验证等方法来确定最优的λ值。下图展示了不同λ值对模型参数的影响：

λ值对参数的影响

从图中可以看出，随着λ值的增加，各参数的值逐渐趋于稳定。因此，选择合适的λ值可以使模型更加稳定和准确。

sklearn实现岭回归

下面是一个使用Python和sklearn库实现岭回归的例子。我们将使用Longley数据集，该数据集包含了一些宏观经济指标，如GNP平减指数、GNP、失业率等。


import numpy as np
from numpy import genfromtxt
from sklearn import linear_model
import matplotlib.pyplot as plt

# 读入数据
data = genfromtxt(r"longley.csv", delimiter=',')
print(data)

# 切分数据
x_data = data[1:, 2:]
y_data = data[1:, 1]
print(x_data)
print(y_data)

# 生成50个候选的λ值
alphas_to_test = np.linspace(0.001, 1)

# 创建模型
model = linear_model.RidgeCV(alphas=alphas_to_test, store_cv_values=True)
model.fit(x_data, y_data)

# 输出最优的λ值
print(model.alpha_)

# 输出每个λ值对应的loss值
print(model.cv_values_.shape)

# 绘制λ值与loss值的关系图
plt.plot(alphas_to_test, model.cv_values_.mean(axis=0))
plt.plot(model.alpha_, min(model.cv_values_.mean(axis=0)), 'ro')
plt.show()

# 预测
print(model.predict(x_data[2, np.newaxis]))

运行结果如下：

[[ nan nan nan nan nan nan nan nan]
 [ nan 83. 234.289 235.6 159. 107.608 1947. 60.323]
 [ nan 88.5 259.426 232.5 145.6 108.632 1948. 61.122]
 [ nan 88.2 258.054 368.2 161.6 109.773 1949. 60.171]
 [ nan 89.5 284.599 335.1 165. 110.929 1950. 61.187]
 [ nan 96.2 328.975 209.9 309.9 112.075 1951. 63.221]
 [ nan 98.1 346.999 193.2 359.4 113.27 1952. 63.639]
 [ nan 99. 365.385 187. 354.7 115.094 1953. 64.989]
 [ nan 100. 363.112 357.8 335. 116.219 1954. 63.761]
 [ nan 101.2 397.469 290.4 304.8 117.388 1955. 66.019]
 [ nan 104.6 419.18 282.2 285.7 118.734 1956. 67.857]
 [ nan 108.4 442.769 293.6 279.8 120.445 1957. 68.169]
 [ nan 110.8 444.546 468.1 263.7 121.95 1958. 66.513]
 [ nan 112.6 482.704 381.3 255.2 123.366 1959. 68.655]
 [ nan 114.2 502.601 393.1 251.4 125.368 1960. 69.564]
 [ nan 115.7 518.173 480.6 257.2 127.852 1961. 69.331]
 [ nan 116.9 554.894 400.7 282.7 130.081 1962. 70.551]]

[[ 234.289 235.6 159. 107.608 1947. 60.323]
 [ 259.426 232.5 145.6 108.632 1948. 61.122]
 [ 258.054 368.2 161.6 109.773 1949. 60.171]
 [ 284.599 335.1 165. 110.929 1950. 61.187]
 [ 328.975 209.9 309.9 112.075 1951. 63.221]
 [ 346.999 193.2 359.4 113.27 1952. 63.639]
 [ 365.385 187. 354.7 115.094 1953. 64.989]
 [ 363.112 357.8 335. 116.219 1954. 63.761]
 [ 397.469 290.4 304.8 117.388 1955. 66.019]
 [ 419.18 282.2 285.7 118.734 1956. 67.857]
 [ 442.769 293.6 279.8 120.445 1957. 68.169]
 [ 444.546 468.1 263.7 121.95 1958. 66.513]
 [ 482.704 381.3 255.2 123.366 1959. 68.655]
 [ 502.601 393.1 251.4 125.368 1960. 69.564]
 [ 518.173 480.6 257.2 127.852 1961. 69.331]
 [ 554.894 400.7 282.7 130.081 1962. 70.551]]

[ 83. 88.5 88.2 89.5 96.2 98.1 99. 100. 101.2 104.6 108.4 110.8
 112.6 114.2 115.7 116.9]
0.40875510204081633
(16, 50)

推荐阅读

include
寻找满足特定条件的整数N的最大和(a+b)

本文探讨了如何在给定整数N的情况下，找到两个不同的整数a和b，使得它们的和最大，并且满足特定的数学条件。 ... [详细]

蜡笔小新 2024-12-26 19:26:18
join
DLP数据泄露检测原理浅析

最近团队在部署DLP，作为一个技术人员对于黑盒看不到的地方还是充满了好奇心。多次咨询乙方人员DLP的算法原理是什么，他们都以商业秘密为由避而不谈，不得已只能自己查资料学习，于是有了下面的浅见。身为甲方，虽然不需要开发DLP产品，但是也有必要弄明白DLP基本的原理。俗话说工欲善其事必先利其器，只有在懂这个工具的原理之后才能更加灵活地使用这个工具，即使出现意外情况也能快速排错，越接近底层，越接近真相。根据DLP的实际用途，本文将DLP检测分为2部分，泄露关键字检测和近似重复文档检测。 ... [详细]

蜡笔小新 2024-12-25 18:19:32
select
毕业设计：基于机器学习与深度学习的垃圾邮件（短信）分类算法实现

本文详细介绍了如何使用机器学习和深度学习技术对垃圾邮件和短信进行分类。内容涵盖从数据集介绍、预处理、特征提取到模型训练与评估的完整流程，并提供了具体的代码示例和实验结果。 ... [详细]

蜡笔小新 2024-12-25 17:38:50
object
使用 Bokeh 在 Python 中绘制菱形标记

本文介绍了如何使用 Python 的 Bokeh 库在图表上绘制菱形标记。Bokeh 是一个强大的交互式数据可视化工具，支持丰富的图形自定义选项。 ... [详细]

蜡笔小新 2024-12-25 15:53:56
object
深入理解org.neo4j.helpers.collection.Iterators.single()方法及其应用

本文详细介绍了Java中org.neo4j.helpers.collection.Iterators.single()方法的功能、使用场景及代码示例，帮助开发者更好地理解和应用该方法。 ... [详细]

蜡笔小新 2024-12-28 10:51:55
go
Go语言基础：Hello World 实践

本文将介绍如何使用 Go 语言编写和运行一个简单的“Hello, World!”程序。内容涵盖开发环境配置、代码结构解析及执行步骤。 ... [详细]

蜡笔小新 2024-12-27 21:29:35
filter
Java并发编程：LinkedBlockingQueue的实际应用

本文介绍了Java并发库中的阻塞队列（BlockingQueue）及其典型应用场景。通过具体实例，展示了如何利用LinkedBlockingQueue实现线程间高效、安全的数据传递，并结合线程池和原子类优化性能。 ... [详细]

蜡笔小新 2024-12-27 18:51:49
filter
LeetCode 991：故障计算器的最优解法

探讨一个显示数字的故障计算器，它支持两种操作：将当前数字乘以2或减去1。本文将详细介绍如何用最少的操作次数将初始值X转换为目标值Y。 ... [详细]

蜡笔小新 2024-12-27 14:34:44
object
Java面试题解析

本文详细介绍了Java编程语言中的核心概念和常见面试问题，包括集合类、数据结构、线程处理、Java虚拟机（JVM）、HTTP协议以及Git操作等方面的内容。通过深入分析每个主题，帮助读者更好地理解Java的关键特性和最佳实践。 ... [详细]

蜡笔小新 2024-12-27 13:55:14
go
Python自动化处理：从Word文档提取内容并生成带水印的PDF

本文介绍如何利用Python实现从特定网站下载Word文档，去除水印并添加自定义水印，最终将文档转换为PDF格式。该方法适用于批量处理和自动化需求。 ... [详细]

蜡笔小新 2024-12-27 13:10:20
version
深入理解Python的os和sys模块

本文详细解析了Python中的os和sys模块，介绍了它们的功能、常用方法及其在实际编程中的应用。 ... [详细]

蜡笔小新 2024-12-26 22:04:19
callback
掌握远程执行Linux脚本和命令的技巧

本文将详细介绍如何利用Python的Paramiko库实现远程执行Linux脚本和命令，帮助读者快速掌握这一实用技能。通过具体的示例和详尽的解释，让初学者也能轻松上手。 ... [详细]

蜡笔小新 2024-12-26 19:47:05
go
机器学习中的相似度度量与模型优化

本文探讨了机器学习中常见的相似度度量方法，包括余弦相似度、欧氏距离和马氏距离，并详细介绍了如何通过选择合适的模型复杂度和正则化来提高模型的泛化能力。此外，文章还涵盖了模型评估的各种方法和指标，以及不同分类器的工作原理和应用场景。 ... [详细]

蜡笔小新 2024-12-26 18:10:02
go
Python 列表切片详解与应用

本文深入探讨了 Python 列表切片的基本概念和实际应用，通过具体示例展示了不同切片方式的使用方法及其背后的逻辑。 ... [详细]

蜡笔小新 2024-12-26 16:46:25
config
VSCode 自定义代码片段配置：实现类似IDEA的快捷代码段（如sout或psvm）

本文详细介绍如何在VSCode中配置自定义代码片段，使其具备与IDEA相似的代码生成快捷键功能。通过具体的Java和HTML代码片段示例，展示配置步骤及效果。 ... [详细]

蜡笔小新 2024-12-25 17:10:13

蘑菇宝

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章