使用十折交叉验证评估回归模型性能

作者：mobiledu2502887833 | 来源：互联网 | 2024-12-02 15:52

本文介绍了如何通过十折交叉验证方法评估回归模型的性能。我们将使用PyTorch框架，详细展示数据处理、模型定义、训练及评估的完整流程。

使用十折交叉验证评估回归模型性能

首先，我们导入所有必要的库和模块，确保环境准备就绪。

import torch
from torch import nn
import numpy as np
import matplotlib.pyplot as plt
from torch.utils.data import DataLoader, TensorDataset
from sklearn.model_selection import train_test_split
from collections import OrderedDict
from torch.nn import init
import torch.utils.data as Data

接下来，定义一个函数用于获取每一折的数据，包括训练集和验证集。

def get_kfold_data(k, i, X, y):
    fold_size = X.shape[0] // k
    val_start = i * fold_size
    if i != k - 1:
        val_end = (i + 1) * fold_size
        X_valid, y_valid = X[val_start:val_end], y[val_start:val_end]
        X_train = torch.cat((X[0:val_start], X[val_end:]), dim=0)
        y_train = torch.cat((y[0:val_start], y[val_end:]), dim=0)
    else:
        X_valid, y_valid = X[val_start:], y[val_start:]
        X_train = X[0:val_start]
        y_train = y[0:val_start]
    return X_train, y_train, X_valid, y_valid

然后，实现一个执行多折交叉验证的函数，该函数将返回训练和验证的平均损失与准确率。

def k_fold(k, X, y):
    train_loss_sum, valid_loss_sum = 0, 0
    train_acc_sum, valid_acc_sum = 0, 0
    data = []
    train_loss_to_data, valid_loss_to_data = [], []
    train_acc_to_data, valid_acc_to_data = [], []
    for i in range(k):
        print(f'第 {i + 1} 折验证结果')
        X_train, y_train, X_valid, y_valid = get_kfold_data(k, i, X, y)
        train_dataset = Data.TensorDataset(X_train, y_train)
        train_loader = DataLoader(
            dataset=train_dataset,
            batch_size=batch_size,
            shuffle=True,
            num_workers=0
        )
        valid_dataset = Data.TensorDataset(X_valid, y_valid)
        valid_loader = DataLoader(
            dataset=valid_dataset,
            batch_size=batch_size,
            shuffle=True,
            num_workers=0
        )
        train_loss, valid_loss, train_acc, valid_acc = train(model, train_loader, valid_loader, loss, num_epochs, batch_size, lr)
        train_loss_to_data.append(train_loss)
        valid_loss_to_data.append(valid_loss)
        train_acc_to_data.append(train_acc.detach().numpy())
        valid_acc_to_data.append(valid_acc.detach().numpy())
        train_loss_sum += train_loss
        valid_loss_sum += valid_loss
        train_acc_sum += train_acc
        valid_acc_sum += valid_acc
    print('\n', '最终k折交叉验证结果：')
    print(f'average train loss: {train_loss_sum / k:.4f}, average train accuracy: {train_acc_sum / k * 100:.3f}%')
    print(f'average valid loss: {valid_loss_sum / k:.4f}, average valid accuracy: {valid_acc_sum / k * 100:.3f}%')
    data.extend([train_loss_to_data, valid_loss_to_data, train_acc_to_data, valid_acc_to_data])
    return data

定义模型训练函数，该函数将完成模型的训练过程，并返回每个epoch的训练和验证损失及准确率。

def train(model, train_loader, valid_loader, loss, num_epochs, batch_size, lr):
    train_losses, valid_losses = [], []
    train_accuracies, valid_accuracies = [], []
    for epoch in range(num_epochs):
        train_loss_sum, valid_loss_sum = 0, 0
        train_acc_sum, valid_acc_sum = 0, 0
        n_train, n_valid = 0, 0
        for X, y in train_loader:
            y_pred = model(X)
            l = loss(y_pred, y)
            optimizer.zero_grad()
            l.backward()
            optimizer.step()
            train_loss_sum += l.item()
            acc = (1 - abs(y_pred - y) / y).mean()
            train_acc_sum += acc
            n_train += 1
        with torch.no_grad():
            for X, y in valid_loader:
                y_pred = model(X)
                l = loss(y_pred, y)
                valid_loss_sum += l.item()
                acc = (1 - abs(y_pred - y) / y).mean()
                valid_acc_sum += acc
                n_valid += 1
        train_losses.append(train_loss_sum / n_train)
        valid_losses.append(valid_loss_sum / n_valid)
        train_accuracies.append(train_acc_sum / n_train)
        valid_accuracies.append(valid_acc_sum / n_valid)
        print(f'epoch {epoch + 1}, train_loss {train_losses[-1]:.6f}, train_acc {train_accuracies[-1] * 100:.3f}%, valid_loss {valid_losses[-1]:.6f}, valid_acc {valid_accuracies[-1] * 100:.3f}%')
    return train_losses[-1], valid_losses[-1], train_accuracies[-1], valid_accuracies[-1]

生成模拟数据集，用于模型训练和验证。

num_features, num_samples = 500, 10000
true_weights = torch.ones(1, num_features) * 0.0056
true_bias = 0.028
x_data = torch.tensor(np.random.normal(0, 0.001, size=(num_samples, num_features)), dtype=torch.float32)
y = torch.mm(x_data, true_weights.t()) + true_bias
y += torch.normal(0, 0.001, y.shape)

构建回归模型，并初始化模型参数。

model = nn.Sequential(OrderedDict([
    ('linear1', nn.Linear(num_features, 256)),
    ('relu1', nn.ReLU()),
    ('linear2', nn.Linear(256, 128)),
    ('relu2', nn.ReLU()),
    ('linear3', nn.Linear(128, 1)),
]))
for param in model.parameters():
    init.normal_(param, mean=0, std=0.001)

设置超参数并定义损失函数和优化器。

k_folds = 10
learning_rate = 0.001
batch_size = 50
epochs = 10
loss_fn = nn.MSELoss()
optimizer = torch.optim.SGD(model.parameters(), lr=learning_rate)

启动训练和验证过程，收集每折的结果。

results = k_fold(k_folds, x_data, y)

最后，使用Pandas将结果保存到CSV文件中，便于后续分析。

import pandas as pd

fold_names = [f'第{i + 1}折' for i in range(k_folds)]
data_frame = {
    'Fold': fold_names,
    'Train Loss': results[0],
    'Valid Loss': results[1],
    'Train Acc': results[2],
    'Valid Acc': results[3],
}
df = pd.DataFrame(data_frame)
df.to_csv('./feedforward_neural_network_kfold_regression.csv', index=False)
df

推荐阅读

go
编写有趣的VBScript恶作剧脚本

本文将介绍如何编写一些有趣的VBScript脚本，这些脚本可以在朋友之间进行无害的恶作剧。通过简单的代码示例，帮助您了解VBScript的基本语法和功能。 ... [详细]

蜡笔小新 2024-12-28 09:46:23
text
Akka BackoffSupervisor的深入解析与实践

本文详细介绍了Akka中的BackoffSupervisor机制，探讨其在处理持久化失败和Actor重启时的应用。通过具体示例，展示了如何配置和使用BackoffSupervisor以实现更细粒度的异常处理。 ... [详细]

蜡笔小新 2024-12-27 15:04:09
require
从零构建递归神经网络：仅用NumPy实现

尽管使用TensorFlow和PyTorch等成熟框架可以显著降低实现递归神经网络（RNN）的门槛，但对于初学者来说，理解其底层原理至关重要。本文将引导您使用NumPy从头构建一个用于自然语言处理（NLP）的RNN模型。 ... [详细]

蜡笔小新 2024-12-26 11:29:15
go
CUGB图论专题：排水系统中的最大流问题 - EK与Dinic算法解析

本题探讨如何通过最大流算法解决农场排水系统的设计问题。题目要求计算从水源点到汇合点的最大水流速率，使用经典的EK（Edmonds-Karp）和Dinic算法进行求解。 ... [详细]

蜡笔小新 2024-12-25 17:47:23
go
使用Numpy实现无外部库依赖的双线性插值图像缩放

本文介绍如何仅使用Numpy库，通过双线性插值方法实现图像的高效缩放，避免了对OpenCV等图像处理库的依赖。文中详细解释了算法原理，并提供了完整的代码示例。 ... [详细]

蜡笔小新 2024-12-28 13:15:40
go
技术分享：从动态网站提取站点密钥的解决方案

本文探讨了如何从动态网站中提取站点密钥，特别是针对验证码（reCAPTCHA）的处理方法。通过结合Selenium和requests库，提供了详细的代码示例和优化建议。 ... [详细]

蜡笔小新 2024-12-28 04:11:47
require
Yii2 GridView 实现列表页数据直接编辑的完整指南

本文详细介绍了如何使用 Yii2 的 GridView 组件在列表页面实现数据的直接编辑功能。通过具体的代码示例和步骤，帮助开发者快速掌握这一实用技巧。 ... [详细]

蜡笔小新 2024-12-27 16:27:52
require
Java 序列化接口详解

本文深入探讨了 Java 中的 Serializable 接口，解释了其实现机制、用途及注意事项，帮助开发者更好地理解和使用序列化功能。 ... [详细]

蜡笔小新 2024-12-27 15:06:12
text
C#中获取进程主窗口句柄的实现方法

本文介绍了如何在C#中启动一个应用程序，并通过枚举窗口来获取其主窗口句柄。当使用Process类启动程序时，我们通常只能获得进程的句柄，而主窗口句柄可能为0。因此，我们需要使用API函数和回调机制来准确获取主窗口句柄。 ... [详细]

蜡笔小新 2024-12-27 03:39:09
join
深入理解Python的os和sys模块

本文详细解析了Python中的os和sys模块，介绍了它们的功能、常用方法及其在实际编程中的应用。 ... [详细]

蜡笔小新 2024-12-26 22:04:19
java
寻找满足特定条件的整数N的最大和(a+b)

本文探讨了如何在给定整数N的情况下，找到两个不同的整数a和b，使得它们的和最大，并且满足特定的数学条件。 ... [详细]

蜡笔小新 2024-12-26 19:26:18
text
使用 NSTimer 实现倒计时功能

本文介绍如何使用 NSTimer 实现倒计时功能，详细讲解了初始化方法、参数配置以及具体实现步骤。通过示例代码展示如何创建和管理定时器，确保在指定时间间隔内执行特定任务。 ... [详细]

蜡笔小新 2024-12-26 19:08:19
go
基因组浏览器中的Wig格式解析

本文详细介绍了Wiggle（Wig）格式及其在基因组浏览器中的应用，涵盖variableStep和fixedStep两种主要格式的特点、适用场景及具体使用方法。同时，还提供了关于数据值和自定义参数的补充信息。 ... [详细]

蜡笔小新 2024-12-26 11:21:09
settings
PyCharm下载与安装指南

本文详细介绍如何从官方渠道下载并安装PyCharm集成开发环境（IDE），涵盖Windows、macOS和Linux系统，同时提供详细的安装步骤及配置建议。 ... [详细]

蜡笔小新 2024-12-28 09:42:41
go
分页插件3指定到某一页

前言--页数多了以后需要指定到某一页（只做了功能，样式没有细调）html ... [详细]

蜡笔小新 2024-12-27 15:19:01

mobiledu2502887833

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章