热门标签 | HotTags
当前位置:  开发笔记 > 人工智能 > 正文

机器学习之数学基础(一)

机器学习之数学基础(一)前言统计学是机器学习重要的一门基础性学科。很多机器学习相关的模型都是基于统计学。由此可见统计学对机器学习的重要性。本文将总结统计概率学的相关概念,这

机器学习之数学基础(一)

前言

     统计学是机器学习重要的一门基础性学科。很多机器学习相关的模型都是基于统计学。由此可见统计学对机器学习的重要性。本文将总结统计概率学的相关概念,这对随后的机器学习的理解有很大的帮助。

样本空间

     将随机试验E的所有可能结果组成的集合称为E的样本空间记为S。样本空间的元素,称为样本点

 

概率

    随机试验E,其中S为它的样本空间。对于E的每一事件A赋予一个实数,记为P(A),称为事件A的概率。

概率的性质

    1) 非负性。对于每一个事件A,有p(A ) >= 0。

    2) 对于必然事件S,有P(S)=1;

    3) 可列可加性。对于S中两两互不相容的事件(两种事件同时发生的概率为0)的概率可以相加。

    P(A U B)= P(A) U P(B)

 

等可能概型(古典概型)

等可能概型的特点

    1)样本空间S包含有限个元素。

    2)试验中每个基本事件发生的概率相同。

等可能概型的计算公式

 

条件概率

概念

     在事件A发生的条件下,事件B发生的概率记为P(B|A)。如下所示:

          

推广公式


    可以理解为事件ABC同时发生的情况下应满足以下条件:

    首先事件A发生,事件A发生的情况下B发生,事件A和B发生的情况下C发生。

全概率公式

试验E的样本空间为S,A为E的事件,B1..Bn为S的一个个划分,且(Bi)>0(i=1,2,3..n)。如下图所示:

贝叶斯公式

    设试验E的样本空间为S。A为E的事件,B1,B2,…Bn为S的一个划分,且P(A)>0 ,P(Bi)>0(i=1,2,3..n),则

    称为贝叶斯公式。

    全概率公式和贝叶斯公式在n=2时,公式分别如下:


参考资料

    《概率论与数理统计》浙江大学第四版。



推荐阅读
  • 自然语言处理(NLP)——LDA模型:对电商购物评论进行情感分析
    目录一、2020数学建模美赛C题简介需求评价内容提供数据二、解题思路三、LDA简介四、代码实现1.数据预处理1.1剔除无用信息1.1.1剔除掉不需要的列1.1.2找出无效评论并剔除 ... [详细]
  • 本文介绍了如何使用 Google Colab 的免费 GPU 资源进行深度学习应用开发。Google Colab 是一个无需配置即可使用的云端 Jupyter 笔记本环境,支持多种深度学习框架,并且提供免费的 GPU 计算资源。 ... [详细]
  • 从0到1搭建大数据平台
    从0到1搭建大数据平台 ... [详细]
  • 在2019中国国际智能产业博览会上,百度董事长兼CEO李彦宏强调,人工智能应务实推进其在各行业的应用。随后,在“ABC SUMMIT 2019百度云智峰会”上,百度展示了通过“云+AI”推动AI工业化和产业智能化的最新成果。 ... [详细]
  • 非线性门控感知器算法的实现与应用分析 ... [详细]
  • 在机器学习领域,深入探讨了概率论与数理统计的基础知识,特别是这些理论在数据挖掘中的应用。文章重点分析了偏差(Bias)与方差(Variance)之间的平衡问题,强调了方差反映了不同训练模型之间的差异,例如在K折交叉验证中,不同模型之间的性能差异显著。此外,还讨论了如何通过优化模型选择和参数调整来有效控制这一平衡,以提高模型的泛化能力。 ... [详细]
  • R语言中向量(Vector)数据类型的元素索引与访问:利用中括号[]和赋值操作符在向量末尾追加数据以扩展其长度
    在R语言中,向量(Vector)数据类型的元素可以通过中括号 `[]` 进行索引和访问。此外,利用中括号和赋值操作符,可以在向量的末尾追加新数据,从而动态地扩展向量的长度。这种方法不仅简洁高效,还能灵活地管理向量中的数据。 ... [详细]
  • 深入解析监督学习的核心概念与应用
    本文深入探讨了监督学习的基本原理及其广泛应用。监督学习作为机器学习的重要分支,通过利用带有标签的训练数据,能够有效构建预测模型。文章详细解析了监督学习的关键概念,如特征选择、模型评估和过拟合问题,并介绍了其在图像识别、自然语言处理等领域的实际应用。 ... [详细]
  • 独家解析:深度学习泛化理论的破解之道与应用前景
    本文深入探讨了深度学习泛化理论的关键问题,通过分析现有研究和实践经验,揭示了泛化性能背后的核心机制。文章详细解析了泛化能力的影响因素,并提出了改进模型泛化性能的有效策略。此外,还展望了这些理论在实际应用中的广阔前景,为未来的研究和开发提供了宝贵的参考。 ... [详细]
  • 《统计学习方法》第一章:基础概念与理论框架综述
    第一章介绍了统计学习方法的基础概念与理论框架。1.2节详细讨论了两种模型类型:一种直接输出具体的数值结果,另一种则输出概率分布。条件概率分布描述了在给定输入 \( x \) 的情况下,多个可能输出 \( y \) 的概率分布情况,而直接输出数值的模型则为每个输入 \( x \) 提供一个确定的输出值。这一部分还探讨了这些模型在实际应用中的重要性和应用场景。 ... [详细]
  • 2021年Java开发实战:当前时间戳转换方法详解与实用网址推荐
    在当前的就业市场中,金九银十过后,金三银四也即将到来。本文将分享一些实用的面试技巧和题目,特别是针对正在寻找新工作机会的Java开发者。作者在准备字节跳动的面试过程中积累了丰富的经验,并成功获得了Offer。文中详细介绍了如何将当前时间戳进行转换的方法,并推荐了一些实用的在线资源,帮助读者更好地应对技术面试。 ... [详细]
  • 布民于2015年加入阿里巴巴,目前担任阿里云高级专家和技术委员会成员,负责大规模流计算与图计算平台。他在微软亚洲研究院期间担任主管研究员,专注于大规模分布式计算的研究。本文将详细介绍阿里巴巴在大规模流式增量计算中的应用与实践,分享其在实时数据处理和分析方面的最新进展和技术挑战。 ... [详细]
  • 提升 Kubernetes 集群管理效率的七大专业工具
    Kubernetes 在云原生环境中的应用日益广泛,然而集群管理的复杂性也随之增加。为了提高管理效率,本文推荐了七款专业工具,这些工具不仅能够简化日常操作,还能提升系统的稳定性和安全性。从自动化部署到监控和故障排查,这些工具覆盖了集群管理的各个方面,帮助管理员更好地应对挑战。 ... [详细]
  • 支持向量机(SVM)在机器学习中的应用与学习心得
    支持向量机(SVM)是一种高效的二分类模型,其核心目标是通过寻找最优超平面来区分不同类别的数据点。在实际应用中,SVM能够有效地处理高维数据,并通过核技巧扩展到非线性分类问题。当新的数据点输入时,SVM会根据其相对于超平面的位置来判定其所属类别。训练过程中,SVM通过最大化间隔来确定最优超平面,从而提高模型的泛化能力。本文总结了SVM在机器学习中的应用及其学习心得,探讨了其在实际问题中的优势和局限性。 ... [详细]
  • 如何使用mysql_nd:Python连接MySQL数据库的优雅指南
    无论是进行机器学习、Web开发还是爬虫项目,数据库操作都是必不可少的一环。本文将详细介绍如何使用Python通过 `mysql_nd` 库与 MySQL 数据库进行高效连接和数据交互。内容涵盖以下几个方面: ... [详细]
author-avatar
phperint
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有