从数据中学习

作者：潘月飞--_758 | 来源：互联网 | 2023-05-18 14:51

许多根据数据开发模型的方法都是从生物系统的学习能力，特别是从人的学习能力中得到的：是以数据驱动的方式来处理环境未知的统计属性，人并不具有天生的学习能力，而是通过与环境之间的数据驱动相互作用学到的。

从数据样本中学习的问题可以描述为古典哲学的普通推理概念，每个预测学习过程都包括两个主要阶段：

1、从已知样本集中学习或估计系统中的未知的相关性（归纳）

2、用估计出的相关性来预测系统对于将来的输入值的新的输出（演绎）

归纳学习和模型估计的过程可用不同的学习方法来描述，学习方法是一种估计系统在可用数据集中的输入和输出之间的未知映射的算法，即从已知样本中进行估计，一旦精确地估计出它们的相关性，就可以用于预测已知输入值的情况下系统将做的输出。

一、机器学习

机器学习作为人工智能和统计学的结合物，已被证明是一个富有成效的研究领域，产生了许多不同问题和这些问题解决方案的算法，所有算法都是搜索n维空间数据集，以找出一个合适的概括结果。机器学习的一个基本任务是归纳机器学习，它从样本集中获得概括结果，用不同的技术和模型来定型。

普通学习方案组成部分：

（1）输出发生器：随机输入向量X发生器

（2）系统：对一个输入向量X返回输出Y

（3）学习机器：根据观测到的样本，估计未知的系统映射

归纳学习机试图从特定的、真正的事实，即我们所说的训练数据集中形成一般化的东西，这种归纳被定型为与系统行为相接近的函数集的形式，它的解决方法除了需要数据外，还需要先验知识。所有的归纳学习方法都使用关于所选的那类学习机的近似函数的先验知识。

二、统计学习

统计学习原理（SLT）是目前最好的用于有限样本归纳学习的形式化理论。也被称为Vapnik-Chervonenkis(VC)理论，严格地定义了所有归纳学习的相关概念，并为大多数归纳学习结果提供数据依据。其他学习方法如人工神经网络、贝叶斯推理、决策规则等更多地面向工程，重点在于实践实现，不需要强大的理论依据。

归纳学习的目标是在一类使用可用数据的近似函数中估计未知的相关性。最佳估计与最小期望风险函数相对应，包括数据的一般分布。分布未知，仅有的可用信息是有限的训练样本。因此，唯一可行的是用一个近似函数来替换未知的真实风险函数，这个近似函数叫经验风险，可用根据可用数据集将其计算出来，这种方法叫经验风险最小化（ERM）

ERM归纳原则是针对相对大型的数据集，当数据集较小时，必须修正ERM原则，结构风险最小化（SRM）的归纳原则提出了正式的机制来从有限的和小型的数据集中选择具有最优复杂度的模型。

已知数据集最优模型评估步骤：

（1）选择结构的一个元素，使之有最佳复杂度

（2）根据所选的结构元素中定义的近似函数集来估计模型

SRM优化策略：

（1）梯度下降法

（2）迭代法

（3）贪心优化

优化策略存在的问题：

（1）初始条件灵敏度

（2）停止规则的灵敏度（局部最小）

（3）多局部最小灵敏度

三、学习方法类型

1、有指导学习

有指导学习用于从已知的输入输出样本中估计未知的相关性，分类和回归是这类归纳学习方法的共同任务，有指导学习存在一位老师-匹配函数或其他的一些模型估计的外部方法。

2、无指导学习

只将有输入值的样本提供给学习系统，学习过程中没有输出的概念，无指导学习去掉了老师，并要求学习者自己建立并估计模型。

四、学习任务

2、分类

3、回归

4、聚类

5、概括

6、相关性建模

7、异常检测

推荐阅读

深度学习
深度学习与神经网络课程总结

本文档总结了神经网络和深度学习课程中的关键概念和理论，包括机器学习的基本要素、算法类型以及数据特征表示等。 ... [详细]

蜡笔小新 2024-11-26 11:31:09
深度学习
知识图谱与图神经网络在金融科技中的应用探讨

本文详细介绍了融慧金科AI Lab负责人张凯博士在2020爱分析·中国人工智能高峰论坛上的演讲，探讨了知识图谱与图神经网络模型如何在金融科技领域发挥重要作用。 ... [详细]

蜡笔小新 2024-11-21 15:02:52
深度学习
计算机学报精选论文概览（2020-2022）

本文汇总了2020年至2022年间《计算机学报》上发表的若干重要论文，旨在为即将投稿的研究者提供参考。 ... [详细]

蜡笔小新 2024-11-20 11:08:21
深度学习
计算机视觉初学者指南：如何顺利入门

本文旨在为计算机视觉领域的初学者提供一套全面的入门指南，涵盖基础知识、技术工具、学习资源等方面，帮助读者快速掌握计算机视觉的核心概念和技术。 ... [详细]

蜡笔小新 2024-11-27 13:38:50
机器学习
41款高效LISP工具助力数据处理全流程

本文由公众号【数智物语】(ID: decision_engine)发布，关注获取更多干货。文章探讨了从数据收集到清洗、建模及可视化的全过程，介绍了41款实用工具，旨在帮助数据科学家和分析师提升工作效率。 ... [详细]

蜡笔小新 2024-11-24 00:11:50
机器学习
吴石访谈：腾讯安全科恩实验室如何引领物联网安全研究

腾讯安全科恩实验室曾两次成功破解特斯拉自动驾驶系统，并远程控制汽车，展示了其在汽车安全领域的强大实力。近日，该实验室负责人吴石接受了InfoQ的专访，详细介绍了团队未来的重点方向——物联网安全。 ... [详细]

蜡笔小新 2024-11-22 13:27:32
深度学习
本周三大青年学术分享会即将开启

由雷锋网旗下的AI研习社主办，旨在促进AI领域的知识共享和技术交流。通过邀请来自学术界和工业界的专家进行在线分享，活动致力于搭建一个连接理论与实践的平台。 ... [详细]

蜡笔小新 2024-11-21 17:13:10
机器学习
【转】强大的矩阵奇异值分解(SVD)及其应用

在工程实践中，经常要对大矩阵进行计算，除了使用分布式处理方法以外，就是通过理论方法，对矩阵降维。一下文章，我在 ... [详细]

蜡笔小新 2024-11-16 12:44:31
nlp
Python基础：使用NLTK和Python构建机器学习应用

本文节选自《NLTK基础教程——用NLTK和Python库构建机器学习应用》一书的第1章第1.2节，作者Nitin Hardeniya。本文将带领读者快速了解Python的基础知识，为后续的机器学习应用打下坚实的基础。 ... [详细]

蜡笔小新 2024-11-13 21:23:34
神经网络
DropBlock：一种卷积网络的正则化技术

本文详细探讨了DropBlock这一正则化方法在卷积神经网络中的应用与效果。通过结构化的dropout方式，即在特征图中连续区域内的单元同时被丢弃，DropBlock有效解决了传统dropout在卷积层应用时效果不佳的问题。更多理论分析及其实现细节可参考原文链接。 ... [详细]

蜡笔小新 2024-11-28 11:54:39
深度学习
深入浅出：Hadoop架构详解

Hadoop作为大数据处理的核心技术，包含了一系列组件如HDFS（分布式文件系统）、YARN（资源管理框架）和MapReduce（并行计算模型）。本文将通过实例解析Hadoop的工作原理及其优势。 ... [详细]

蜡笔小新 2024-11-26 13:26:40
算法
构建高性能Feed流系统的设计指南

随着移动互联网的发展，Feed流系统成为了众多社交应用的核心组成部分。本文将深入探讨如何设计一个高效、稳定的Feed流系统，涵盖从基础架构到高级特性的各个方面。 ... [详细]

蜡笔小新 2024-11-26 12:55:53
深度学习
Topaz Video Enhance AI V2.2.0 - 高级AI视频画质提升工具 | 下载及使用指南

Topaz Video Enhance AI 是一款利用先进的人工智能技术设计的视频画质增强软件，特别适用于视频剪辑，旨在通过深度学习技术提升视频质量，减少噪点和恢复细节。 ... [详细]

蜡笔小新 2024-11-26 01:55:24
人工智能
兆芯X86 CPU架构的演进与现状（国产CPU系列）

本文详细介绍了兆芯X86 CPU架构的发展历程，从公司成立背景到关键技术授权，再到具体芯片架构的演进，全面解析了兆芯在国产CPU领域的贡献与挑战。 ... [详细]

蜡笔小新 2024-11-14 15:04:34
人工智能
Java 15 发布，带来多项重要更新！

2020年9月15日，Oracle正式发布了最新的JDK 15版本。本次更新带来了许多新特性，包括隐藏类、EdDSA签名算法、模式匹配、记录类、封闭类和文本块等。 ... [详细]

蜡笔小新 2024-11-14 12:11:09

潘月飞--_758

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章