当前位置: 开发笔记 > 编程语言 > 正文

《统计学习方法》笔记一统计学习方法概论

作者：手机用户2502876217 | 来源：互联网 | 2023-10-15 18:57

统计学习统计学习时关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析。统计学习的三要素：方法模型+策略+算法统计学习由监督学习、非监督学习、半监督学习和强化学习等组成

统计学习

统计学习时关于计算机基于数据构建概率统计模型 并运用模型对数据进行预测与分析。

统计学习的三要素：

方法 = 模型+策略+算法

统计学习由监督学习、非监督学习、半监督学习和强化学习等组成。

实现统计学习方法的具体步骤如下：

（1）得到一个有限的训练数据集合；

（2）确定包含所有可能的模型的假设空间，即学习模型的集合；

（3）确定模型选择的准则，即学习的策略；

（4）实现求解最优模型的算法，即学习的算法；

（5）通过学习方法选择最优模型；

（6）利用学习的最优模型对数据进行预测或分析。

监督学习

一些基本概念：

输入空间、特征空间、输出空间

　　输入与输出所有可能取值的集合成为输入空间与输出空间。每个具体的输入是一个实例，通常由特征向量表示，所有特征向量存在的空间成为特征空间。

　　特征空间每一维对应一个特征，有时对输入空间与特征空间不加以区分，有时假设输入空间与特征空间为不同的空间，将实例从输入空间映射到特征空间。模型实际上都是定义在特征空间上的。

根据输入、输出变量的不同类型，对预测任务给予不同的名称：

　　回归问题：输入、输出变量均为连续变量的预测问题；

　　分类问题：输出变量为有限个离散变量的预测问题；

　　标注问题：输入、输出变量均为变量序列的预测问题

监督学习的任务就是学习一个模型，应用这一模型，对给定的输入预测相应的输出，这个模型的一般形式为决策函数：Y=f(X)或者条件概率分布P(Y|X)

统计学习三要素

模型

模型就是要学习的条件概率分布或决策函数。模型的假设空间包含所有可能的条件概率分布或决策函数。

空间用F表示，假设空间可以定义为决策函数的集合，即：

F通常是由一个参数向量来决定的条件概率分布族

此时有

策略

经验风险最小化

结构风险最小化（正则化）

有了假设空间，考虑如何在假设空间中选取最优模型，因此引入损失函数和风险函数等来度量模型的好坏。

损失函数度量模型一次预测的好坏，风险函数度量平均意义下模型预测的好坏。

损失函数是f(X)和Y的非负实值函数，记做 L(Y,f(X))

常用的损失函数：

这是理论上模型f(X)关于联合分布P(X,Y)的平均意义下的损失，称为风险函数或期望损失。

经验风险或经验损失：

选择令期望损失值最小的模型即为学习的目标，但是联合分布未知因此Rexp不能直接计算，但如知道了联合分布，可直接计算条件概率分布P(Y|X)，也就不需要学习。因此监督学习成为一个病态问题。

根据大数定律，当样板容量趋于无穷，经验风险趋于期望风险，但实际中训练样本数量有限，因此用经验风险估计期望风险不理想，需进行矫正，则涉及监督学习的两个基本策略：经验风险最小化和结构风险最小化。

经验风险最小化（empirical risk minimization，ERM）

ERM认为，经验风险最小的模型最优，则最优模型可转换为：

当模型是条件概率分布，损失函数是对数损失函数时，经验风险最小化就等价于极大似然估计。

F为假设空间，当样本容量足够大，学习效果较好，但样本容量很小时，容易过拟合，则引申出结构风险最小化。

结构风险最小化（structural risk minimization,SRM）/正则化

在ERM基础上加上表示模型复杂度的正则化项或罚项，定义如下

其中J(f)为模型的复杂度，是定义在假设空间F上的泛函，模型f越复杂，J(f)越大。lamda是系数，≥0，用以权衡ERM和模型复杂度。

则SRM最小化将求最优模型转换为求解最优问题：

当模型是条件概率分布、损失函数是对数损失函数、模型复杂度由模型的先验概率表示时，结构风险最小化就等价于最大后验概率估计。

算法

指学习模型的具体计算方法

模型评估与模型选择

训练误差与测试误差

正则化与交叉验证

正则化一般形式如下：

第一项为经验风险，第二项为正则化项目，正则化项可取不同的形式。经验风险较小的模型可能较复杂（有多个非零参数），则第二项模型复杂度会较大，正则化的作用是选择经验风险与模型复杂度同时小的模型。

从贝叶斯估计角度看，正则化项对应模型的先验概率，可假设复杂的模型有较大的先验概率，简单的模型有较小的先验概率。

若样本充足，可随机将数据集分为训练集、验证集和测试集，验证集用于模型选择，在学习到的不同复杂度的模型中，选择对验证集有最小预测误差的模型。但实际中数据不够，因此采用交叉验证，即重复利用数据，将给定数据划分为训练集与测试集，反复训练、测试及模型选择。

简单交叉验证

　　随机将数据分为训练集和测试集，用训练集在各条件下训练模型，在测试集上评价各个模型的测试误差，选出测试误差最小的模型

S折交叉验证

　　随机将数据切分为S个互不相交的大小相同的子集，利用S-1个子集的数据训练模型，利用余下的子集测试模型，重复进行算出S次评测中平均测试误差最小的模型

留一交叉验证

　　当S=N时，N为给定数据集的容量

泛化能力

指由该方法学习到的模型对未知数据的预测能力。泛化误差相当于所学习到的模型的期望风险。

泛化误差上界（泛化误差概率上界）

它是样本容量的函数，样本容量增加，泛化上界趋于0；是假设空间容量的函数，假设空间容量越大，模型越难学，泛化误差上界越大。

R(f)为期望风险，R^为经验风险。

生成模型与判别模型

分类问题

标注问题

标注问题可认为是分类问题的推广，输入是一个观测序列，输出是一个标记序列或状态序列。

评价标注模型的指标与评价分类模型的指标一样，常用的有标注准确率、精确率和召回率。
标注常用的统计学习方法有：隐马尔可夫模型、条件随机场。

回归问题

回归用于预测输入变量和输出变量之间的关系，回归模型表示从输入变量到输出变量之间映射的函数，回归问题的学习等价于函数拟合。
回归问题按照输入变量的个数，分为一元回归和多元回归，按照输入变量和输出变量之间关系的类型即类型的模型，分为线性回归和非线性回归。
回归常用的损失函数是平方损失函数，例最小二乘法。

推荐阅读

char
Java面试题解析

本文详细介绍了Java编程语言中的核心概念和常见面试问题，包括集合类、数据结构、线程处理、Java虚拟机（JVM）、HTTP协议以及Git操作等方面的内容。通过深入分析每个主题，帮助读者更好地理解Java的关键特性和最佳实践。 ... [详细]

蜡笔小新 2024-12-27 13:55:14
char
USACO 2014 Jan - Moolympics区间记录优化算法

题目描述：给定n个半开区间[a, b)，要求使用两个互不重叠的记录器，求最多可以记录多少个区间。解决方案采用贪心算法，通过排序和遍历实现最优解。 ... [详细]

蜡笔小新 2024-12-27 18:14:31
char
C语言实现小写金额转换为大写金额

在金融和会计领域，准确无误地填写票据和结算凭证至关重要。这些文件不仅是支付结算和现金收付的重要依据，还直接关系到交易的安全性和准确性。本文介绍了一种使用C语言实现小写金额转换为大写金额的方法，确保数据的标准化和规范化。 ... [详细]

蜡笔小新 2024-12-27 12:39:06
post
机器学习中的相似度度量与模型优化

本文探讨了机器学习中常见的相似度度量方法，包括余弦相似度、欧氏距离和马氏距离，并详细介绍了如何通过选择合适的模型复杂度和正则化来提高模型的泛化能力。此外，文章还涵盖了模型评估的各种方法和指标，以及不同分类器的工作原理和应用场景。 ... [详细]

蜡笔小新 2024-12-26 18:10:02
char
长春大学软件工程：二叉排序树实验报告

本实验主要探讨了二叉排序树（BST）的基本操作，包括创建、查找和删除节点。通过具体实例和代码实现，详细介绍了如何使用递归和非递归方法进行关键字查找，并展示了删除特定节点后的树结构变化。 ... [详细]

蜡笔小新 2024-12-26 15:32:56
const
C++面试高频题

作者：守望者1028链接：https:www.nowcoder.comdiscuss55353来源：牛客网面试高频题：校招过程中参考过牛客诸位大佬的面经，但是具体哪一块是参考谁的我 ... [详细]

蜡笔小新 2024-12-25 12:32:36
heap
深入解析JVM垃圾收集器

本文基于《深入理解Java虚拟机：JVM高级特性与最佳实践》第二版，详细探讨了JVM中不同类型的垃圾收集器及其工作原理。通过介绍各种垃圾收集器的特性和应用场景，帮助读者更好地理解和优化JVM内存管理。 ... [详细]

蜡笔小新 2024-12-28 13:35:19
go
非公版RTX 3080显卡的革新与亮点

本文深入探讨了图形显卡的进化历程，重点介绍了非公版RTX 3080显卡的技术特点和创新设计。 ... [详细]

蜡笔小新 2024-12-28 13:07:40
go
深入理解OAuth认证机制

本文介绍了OAuth认证协议的核心概念及其工作原理。OAuth是一种开放标准，旨在为第三方应用提供安全的用户资源访问授权，同时确保用户的账户信息（如用户名和密码）不会暴露给第三方。 ... [详细]

蜡笔小新 2024-12-28 12:07:46
char
深入理解KMP算法中的next数组：北大OJ 2406题解

本文详细探讨了KMP算法中next数组的构建及其应用，重点分析了未改良和改良后的next数组在字符串匹配中的作用。通过具体实例和代码实现，帮助读者更好地理解KMP算法的核心原理。 ... [详细]

蜡笔小新 2024-12-28 11:30:01
heap
优化ListView性能

本文深入探讨了如何通过多种技术手段优化ListView的性能，包括视图复用、ViewHolder模式、分批加载数据、图片优化及内存管理等。这些方法能够显著提升应用的响应速度和用户体验。 ... [详细]

蜡笔小新 2024-12-28 10:36:30
go
Transforming the Future of Virtual Worlds

Explore how Matterverse is redefining the metaverse experience, creating immersive and meaningful virtual environments that foster genuine connections and economic opportunities. ... [详细]

蜡笔小新 2024-12-28 09:44:49
go
优化ASM字节码操作：简化类转换与移除冗余指令

本文探讨如何利用ASM框架进行字节码操作，以优化现有类的转换过程，简化复杂的转换逻辑，并移除不必要的加0操作。通过这些技术手段，可以显著提升代码性能和可维护性。 ... [详细]

蜡笔小新 2024-12-28 09:35:00
range
使用Objective-C和dispatch库实现并发素数计算

本文介绍如何使用Objective-C结合dispatch库进行并发编程，以提高素数计数任务的效率。通过对比纯C代码与引入并发机制后的代码，展示dispatch库的强大功能。 ... [详细]

蜡笔小新 2024-12-28 08:44:35
range
深入解析HTML中的标签及其应用场景

本文详细介绍了HTML中标签的使用方法和作用。通过具体示例，解释了如何利用标签为网页中的缩写和简称提供完整解释，并探讨了其在提高可读性和搜索引擎优化方面的优势。 ... [详细]

蜡笔小新 2024-12-27 17:05:37

手机用户2502876217

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章