热门标签 | HotTags
当前位置:  开发笔记 > 后端 > 正文

机器学习是什么,机器学习模型

目录1、什么是机器学习?简述机器学习的一般过程。2、简述K折交叉验证与留一法的基本思想及其特点。3、简述什么是欠拟合和过拟合、产生的原因以及如何解决。4、简述线性回归与逻辑回归

目录

1、什么是机器学习?简述机器学习的一般过程。

2、简述K折交叉验证与留一法的基本思想及其特点。

3、简述什么是欠拟合和过拟合、产生的原因以及如何解决。

4、简述线性回归与逻辑回归的区别。

5、简述剪枝的目的以及常用的两种剪枝方式的基本过程。

6、简述K均值聚类算法的流程。

7、简述什么是降维以及PCA算法的流程。

8、简述贝叶斯网的组成,贝叶斯网中结点的三种连接方式,并分析它们的独立性。

9、简述卷积神经网络与传统的神经网络的区别。

10、简述基于核函数的非线性支持向量机的基本思想。


1、什么是机器学习?简述机器学习的一般过程。

答:机器学习是通过算法使得机器从大量历史数据中学习规律,从而对新样本做分类或预测。一般分为训练阶段、测试阶段和工作阶段。训练阶段的主要工作是根据训练数据建立模型,测试阶段的主要工作是利用验证集对模型评估与选择,工作阶段的主要工作是利用建立好的模型对新的数据进行预测与分类。

2、简述K折交叉验证与留一法的基本思想及其特点。

答:K折交叉验证:将数据划分为K个大小相等的互斥子集;然后用其中的K-1个子集作为训练集,余下的那个子集作为测试集;这样就可以进行K次训练和测试,最终返回的是这K个测试结果的平均值。其稳定性和保真性在很大程度上取决与K的取值。

       留一法:每次取一个样本作为测试集,其余样本组成的集合作为训练集,训练和测试的次数等于样本的个数。留一法的评估结果往往被认为是比较准确的,其最大的缺陷是当数据集较大时,模型的开销非常大。

3、简述什么是欠拟合和过拟合、产生的原因以及如何解决。

答:欠拟合:模型在训练集上的误差较高。原因:模型过于简单,没有很好的捕捉到数据特征,不能很好的拟合数据。解决方法:模型复杂化、增加更多的特征,使输入数据具有更强的表达能力等。

       过拟合:在训练集上误差低,测试集上误差高。原因:模型把数据学习的太彻底,以至于把噪声数据的特征也学习到了,这样就会导致在后期测试的时候不能够很好地识别数据,模型泛化能力太差。解决方法:降维、增加训练数据、正则约束等。

4、简述线性回归与逻辑回归的区别。

答:(1)任务不同:回归模型是对连续的量进行预测;分类模型是对离散值/类别进行;(2)输出不同:回归模型的输出是一个连续的量,范围在[-∞,+∞],分类模型的输出是数据属于某种类别的概率,范围在[0,1]之间;(3)参数估计方法不同:线性回归中使用的是最小化平方误差损失函数,对偏离真实值越远的数据惩罚越严重;逻辑回归使用对数似然函数进行参数估计,使用交叉熵作为损失函数,对预测错误的惩罚是随着输出的增大,逐渐逼近一个常数。

5、简述剪枝的目的以及常用的两种剪枝方式的基本过程。

答:目的:剪枝是决策树学习算法对付“过拟合”的主要手段,通过主动去掉一些分支来降低过拟合的风险。基本策略有“预剪枝”和“后剪枝”。

       “预剪枝”对每个结点划分前先进行估计,若当前结点的划分不能带来决策树泛化性能的提升,则停止划分,并标记为叶结点。

       “后剪枝”先从训练集生成一棵完整的决策树,然后自底向上对非叶子结点进行考察,若该结点对应的子树用叶结点能带来决策树泛化性能的提升,则将该子树替换为叶结点。

6、简述K均值聚类算法的流程。

答:假设有m条数据,n个特性,则K均值聚类算法的流程如下:

(1)随机选取k个点作为起始中心(k行n列的矩阵,每个特征都有自己的中心);(2)遍历数据集中的每一条数据,计算它与每个中心的距离;(3)将数据分配到距离最近的中心所在的簇;(4)使用每个簇中的数据的均值作为新的簇中心;(5)如果簇的组成点发生变化,则跳转执行第2步;否则,结束聚类。

7、简述什么是降维以及PCA算法的流程。

答:降维是通过某种数学变换将原始高维属性空间转变为一个低维子空间,保留重要性比较高的特征维度,去除冗余的特征。

       主元成分分析PCA使用最广泛的数据降维算法,其一般流程如下:(1)样本零均值化;(2)计算数据的协方差矩阵;(3)计算协方差矩阵的特征值与特征向量;(4)按照特征值,将特征向量从大到小进行排序;(5)选取前 k 个特征向量作为转换矩阵;(6)零均值化后的数据与转换矩阵做矩阵乘法获得降维后的数据。

8、简述贝叶斯网的组成,贝叶斯网中结点的三种连接方式,并分析它们的独立性。

答:一个贝叶斯网B由结构G和参数Ɵ组成。G是一个有向无环图,其中每个结点对应于一个属性,若两个属性由直接依赖关系,则它们由一条边连接起来;参数Ɵ包含了每个属性的条件概率表,定量描述这种依赖关系。

                                                            

                  (1)                                                              (2)                                                                  (3)

(1)同父结构,c已知的情况下,a,b独立;

(2)V型结构,c未知情况下,a,b独立;

(3)顺序结构,c已知情况下,a,b独立。

9、简述卷积神经网络与传统的神经网络的区别。

答:传统的神经网络是一种层级结构,由输入层,隐藏层,输出层构成,每层神经元与下层神经元完全互连,神经元之间不存在同层连接,也不存在跨层连接。

       卷积神经网络相较于传统神经网络的特殊性在于权值共享和局部连接两个方面。局部连接:每个神经元只与上一层的部分神经元相连,只感知局部,而不是整幅图像;权值共享:每一个神经元都可以看作一个滤波器,同一个神经元使用一个固定的卷积核去卷积整个图像,可以认为一个神经元只关注一个特征,而不同的神经元关注多个不同的特征。

10、简述基于核函数的非线性支持向量机的基本思想。

答:核函数不显示定义映射函数,在原始样本空间中通过计算核函数的值来代替特征空间中的内积。基于核函数的非线性支持向量机的基本思想就是通过非线性变换将输入空间对应到一个特征空间上,使得输入空间中的超曲面模型对应于特征空间上的一个超平面模型也就是支持向量机,问题转化为在特征空间中求解支持向量机。


推荐阅读
  • 吴石访谈:腾讯安全科恩实验室如何引领物联网安全研究
    腾讯安全科恩实验室曾两次成功破解特斯拉自动驾驶系统,并远程控制汽车,展示了其在汽车安全领域的强大实力。近日,该实验室负责人吴石接受了InfoQ的专访,详细介绍了团队未来的重点方向——物联网安全。 ... [详细]
  • 计算机学报精选论文概览(2020-2022)
    本文汇总了2020年至2022年间《计算机学报》上发表的若干重要论文,旨在为即将投稿的研究者提供参考。 ... [详细]
  • 本文节选自《NLTK基础教程——用NLTK和Python库构建机器学习应用》一书的第1章第1.2节,作者Nitin Hardeniya。本文将带领读者快速了解Python的基础知识,为后续的机器学习应用打下坚实的基础。 ... [详细]
  • 非计算机专业的朋友如何拿下多个Offer
    大家好,我是归辰。秋招结束后,我已顺利入职,并应公子龙的邀请,分享一些秋招面试的心得体会,希望能帮助到学弟学妹们,让他们在未来的面试中更加顺利。 ... [详细]
  • Python 数据可视化实战指南
    本文详细介绍如何使用 Python 进行数据可视化,涵盖从环境搭建到具体实例的全过程。 ... [详细]
  • 如何撰写数据分析师(包括转行者)的面试简历?
    CDA数据分析师团队出品,作者:徐杨老师,编辑:Mika。本文将帮助您了解如何撰写一份高质量的数据分析师简历,特别是对于转行者。 ... [详细]
  • 在机器学习领域,深入探讨了概率论与数理统计的基础知识,特别是这些理论在数据挖掘中的应用。文章重点分析了偏差(Bias)与方差(Variance)之间的平衡问题,强调了方差反映了不同训练模型之间的差异,例如在K折交叉验证中,不同模型之间的性能差异显著。此外,还讨论了如何通过优化模型选择和参数调整来有效控制这一平衡,以提高模型的泛化能力。 ... [详细]
  • 独家解析:深度学习泛化理论的破解之道与应用前景
    本文深入探讨了深度学习泛化理论的关键问题,通过分析现有研究和实践经验,揭示了泛化性能背后的核心机制。文章详细解析了泛化能力的影响因素,并提出了改进模型泛化性能的有效策略。此外,还展望了这些理论在实际应用中的广阔前景,为未来的研究和开发提供了宝贵的参考。 ... [详细]
  • 能够感知你情绪状态的智能机器人即将问世 | 科技前沿观察
    本周科技前沿报道了多项重要进展,包括美国多所高校在机器人技术和自动驾驶领域的最新研究成果,以及硅谷大型企业在智能硬件和深度学习技术上的突破性进展。特别值得一提的是,一款能够感知用户情绪状态的智能机器人即将问世,为未来的人机交互带来了全新的可能性。 ... [详细]
  • 对于初学者而言,搭建一个高效稳定的 Python 开发环境是入门的关键一步。本文将详细介绍如何利用 Anaconda 和 Jupyter Notebook 来构建一个既易于管理又功能强大的开发环境。 ... [详细]
  • 本周三大青年学术分享会即将开启
    由雷锋网旗下的AI研习社主办,旨在促进AI领域的知识共享和技术交流。通过邀请来自学术界和工业界的专家进行在线分享,活动致力于搭建一个连接理论与实践的平台。 ... [详细]
  • 机器学习实践:逻辑回归与过拟合控制
    本文深入探讨了逻辑回归在机器学习中的应用,并详细解释了如何通过正则化等方法来有效避免模型的过拟合问题。 ... [详细]
  • 本文详细探讨了Spring框架中遇到的NoSuchBeanDefinitionException异常,具体涉及com.thinkplatform.dao.UserLogDao Bean未定义的问题,并提供了相应的解决方案。 ... [详细]
  • 深入解析国内AEB应用:摄像头和毫米波雷达融合技术的现状与前景
    本文作者程建伟,武汉极目智能技术有限公司CEO,入选武汉市“光谷3551人才计划”。文章详细探讨了国内自动紧急制动(AEB)系统中摄像头与毫米波雷达融合技术的现状及未来前景。通过分析当前技术的应用情况、存在的挑战以及潜在的解决方案,作者指出,随着传感器技术的不断进步和算法优化,AEB系统的性能将大幅提升,为交通安全带来显著改善。 ... [详细]
  • 斯坦福大学公开课:利用神经网络技术实现自动驾驶的案例分析
    斯坦福大学的公开课深入探讨了如何利用神经网络技术实现自动驾驶。课程中通过实例展示了汽车如何通过学习算法自主驾驶。具体而言,课程展示了一幅图解,其中左下角显示了汽车前方的实时路况图像,而左上角则呈现了一个水平的菜单栏,用于展示系统处理和决策的过程。这一案例详细解析了神经网络在自动驾驶中的应用,为学生提供了宝贵的实践参考。 ... [详细]
author-avatar
zhj808008
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有