热门标签 | HotTags
当前位置:  开发笔记 > 后端 > 正文

机器学习是什么,机器学习模型

目录1、什么是机器学习?简述机器学习的一般过程。2、简述K折交叉验证与留一法的基本思想及其特点。3、简述什么是欠拟合和过拟合、产生的原因以及如何解决。4、简述线性回归与逻辑回归

目录

1、什么是机器学习?简述机器学习的一般过程。

2、简述K折交叉验证与留一法的基本思想及其特点。

3、简述什么是欠拟合和过拟合、产生的原因以及如何解决。

4、简述线性回归与逻辑回归的区别。

5、简述剪枝的目的以及常用的两种剪枝方式的基本过程。

6、简述K均值聚类算法的流程。

7、简述什么是降维以及PCA算法的流程。

8、简述贝叶斯网的组成,贝叶斯网中结点的三种连接方式,并分析它们的独立性。

9、简述卷积神经网络与传统的神经网络的区别。

10、简述基于核函数的非线性支持向量机的基本思想。


1、什么是机器学习?简述机器学习的一般过程。

答:机器学习是通过算法使得机器从大量历史数据中学习规律,从而对新样本做分类或预测。一般分为训练阶段、测试阶段和工作阶段。训练阶段的主要工作是根据训练数据建立模型,测试阶段的主要工作是利用验证集对模型评估与选择,工作阶段的主要工作是利用建立好的模型对新的数据进行预测与分类。

2、简述K折交叉验证与留一法的基本思想及其特点。

答:K折交叉验证:将数据划分为K个大小相等的互斥子集;然后用其中的K-1个子集作为训练集,余下的那个子集作为测试集;这样就可以进行K次训练和测试,最终返回的是这K个测试结果的平均值。其稳定性和保真性在很大程度上取决与K的取值。

       留一法:每次取一个样本作为测试集,其余样本组成的集合作为训练集,训练和测试的次数等于样本的个数。留一法的评估结果往往被认为是比较准确的,其最大的缺陷是当数据集较大时,模型的开销非常大。

3、简述什么是欠拟合和过拟合、产生的原因以及如何解决。

答:欠拟合:模型在训练集上的误差较高。原因:模型过于简单,没有很好的捕捉到数据特征,不能很好的拟合数据。解决方法:模型复杂化、增加更多的特征,使输入数据具有更强的表达能力等。

       过拟合:在训练集上误差低,测试集上误差高。原因:模型把数据学习的太彻底,以至于把噪声数据的特征也学习到了,这样就会导致在后期测试的时候不能够很好地识别数据,模型泛化能力太差。解决方法:降维、增加训练数据、正则约束等。

4、简述线性回归与逻辑回归的区别。

答:(1)任务不同:回归模型是对连续的量进行预测;分类模型是对离散值/类别进行;(2)输出不同:回归模型的输出是一个连续的量,范围在[-∞,+∞],分类模型的输出是数据属于某种类别的概率,范围在[0,1]之间;(3)参数估计方法不同:线性回归中使用的是最小化平方误差损失函数,对偏离真实值越远的数据惩罚越严重;逻辑回归使用对数似然函数进行参数估计,使用交叉熵作为损失函数,对预测错误的惩罚是随着输出的增大,逐渐逼近一个常数。

5、简述剪枝的目的以及常用的两种剪枝方式的基本过程。

答:目的:剪枝是决策树学习算法对付“过拟合”的主要手段,通过主动去掉一些分支来降低过拟合的风险。基本策略有“预剪枝”和“后剪枝”。

       “预剪枝”对每个结点划分前先进行估计,若当前结点的划分不能带来决策树泛化性能的提升,则停止划分,并标记为叶结点。

       “后剪枝”先从训练集生成一棵完整的决策树,然后自底向上对非叶子结点进行考察,若该结点对应的子树用叶结点能带来决策树泛化性能的提升,则将该子树替换为叶结点。

6、简述K均值聚类算法的流程。

答:假设有m条数据,n个特性,则K均值聚类算法的流程如下:

(1)随机选取k个点作为起始中心(k行n列的矩阵,每个特征都有自己的中心);(2)遍历数据集中的每一条数据,计算它与每个中心的距离;(3)将数据分配到距离最近的中心所在的簇;(4)使用每个簇中的数据的均值作为新的簇中心;(5)如果簇的组成点发生变化,则跳转执行第2步;否则,结束聚类。

7、简述什么是降维以及PCA算法的流程。

答:降维是通过某种数学变换将原始高维属性空间转变为一个低维子空间,保留重要性比较高的特征维度,去除冗余的特征。

       主元成分分析PCA使用最广泛的数据降维算法,其一般流程如下:(1)样本零均值化;(2)计算数据的协方差矩阵;(3)计算协方差矩阵的特征值与特征向量;(4)按照特征值,将特征向量从大到小进行排序;(5)选取前 k 个特征向量作为转换矩阵;(6)零均值化后的数据与转换矩阵做矩阵乘法获得降维后的数据。

8、简述贝叶斯网的组成,贝叶斯网中结点的三种连接方式,并分析它们的独立性。

答:一个贝叶斯网B由结构G和参数Ɵ组成。G是一个有向无环图,其中每个结点对应于一个属性,若两个属性由直接依赖关系,则它们由一条边连接起来;参数Ɵ包含了每个属性的条件概率表,定量描述这种依赖关系。

                                                            

                  (1)                                                              (2)                                                                  (3)

(1)同父结构,c已知的情况下,a,b独立;

(2)V型结构,c未知情况下,a,b独立;

(3)顺序结构,c已知情况下,a,b独立。

9、简述卷积神经网络与传统的神经网络的区别。

答:传统的神经网络是一种层级结构,由输入层,隐藏层,输出层构成,每层神经元与下层神经元完全互连,神经元之间不存在同层连接,也不存在跨层连接。

       卷积神经网络相较于传统神经网络的特殊性在于权值共享和局部连接两个方面。局部连接:每个神经元只与上一层的部分神经元相连,只感知局部,而不是整幅图像;权值共享:每一个神经元都可以看作一个滤波器,同一个神经元使用一个固定的卷积核去卷积整个图像,可以认为一个神经元只关注一个特征,而不同的神经元关注多个不同的特征。

10、简述基于核函数的非线性支持向量机的基本思想。

答:核函数不显示定义映射函数,在原始样本空间中通过计算核函数的值来代替特征空间中的内积。基于核函数的非线性支持向量机的基本思想就是通过非线性变换将输入空间对应到一个特征空间上,使得输入空间中的超曲面模型对应于特征空间上的一个超平面模型也就是支持向量机,问题转化为在特征空间中求解支持向量机。


推荐阅读
  • 机器学习中的相似度度量与模型优化
    本文探讨了机器学习中常见的相似度度量方法,包括余弦相似度、欧氏距离和马氏距离,并详细介绍了如何通过选择合适的模型复杂度和正则化来提高模型的泛化能力。此外,文章还涵盖了模型评估的各种方法和指标,以及不同分类器的工作原理和应用场景。 ... [详细]
  • 机器学习核心概念与技术
    本文系统梳理了机器学习的关键知识点,涵盖模型评估、正则化、线性模型、支持向量机、决策树及集成学习等内容,并深入探讨了各算法的原理和应用场景。 ... [详细]
  • 毕业设计:基于机器学习与深度学习的垃圾邮件(短信)分类算法实现
    本文详细介绍了如何使用机器学习和深度学习技术对垃圾邮件和短信进行分类。内容涵盖从数据集介绍、预处理、特征提取到模型训练与评估的完整流程,并提供了具体的代码示例和实验结果。 ... [详细]
  • 探索电路与系统的起源与发展
    本文回顾了电路与系统的发展历程,从电的早期发现到现代电子器件的应用。文章不仅涵盖了基础理论和关键发明,还探讨了这一学科对计算机、人工智能及物联网等领域的深远影响。 ... [详细]
  • Coursera ML 机器学习
    2019独角兽企业重金招聘Python工程师标准线性回归算法计算过程CostFunction梯度下降算法多变量回归![选择特征](https:static.oschina.n ... [详细]
  • 机器学习公开课备忘录(三)机器学习算法的应用与大数据集
    机器学习公开课备忘录(三)机器学习算法的应用与大数据集对应机器学习公开课第六周和第10周机器学习算法模型的选择与评价1、对于一个data,可以将data划分为trainingset、t ... [详细]
  • 2017年人工智能领域的十大里程碑事件回顾
    随着2018年的临近,我们一同回顾过去一年中人工智能领域的重要进展。这一年,无论是政策层面的支持,还是技术上的突破,都显示了人工智能发展的迅猛势头。以下是精选的2017年人工智能领域最具影响力的事件。 ... [详细]
  • 基于2-channelnetwork的图片相似度判别一、相关理论本篇博文主要讲解2015年CVPR的一篇关于图像相似度计算的文章:《LearningtoCompar ... [详细]
  • 在Ubuntu 16.04中使用Anaconda安装TensorFlow
    本文详细介绍了如何在Ubuntu 16.04系统上通过Anaconda环境管理工具安装TensorFlow。首先,需要下载并安装Anaconda,然后配置环境变量以确保系统能够识别Anaconda命令。接着,创建一个特定的Python环境用于安装TensorFlow,并通过指定的镜像源加速安装过程。最后,通过一个简单的线性回归示例验证TensorFlow的安装是否成功。 ... [详细]
  • 李宏毅机器学习笔记:无监督学习之线性方法
    无监督学习主要涵盖两大类别:一是聚类与降维,旨在简化数据结构;二是生成模型,用于从编码生成新的数据样本。本文深入探讨了这些技术的具体应用和理论基础。 ... [详细]
  • 吴恩达推出TensorFlow实践课程,Python基础即可入门,四个月掌握核心技能
    量子位报道,deeplearning.ai最新发布了TensorFlow实践课程,适合希望使用TensorFlow开发AI应用的学习者。该课程涵盖机器学习模型构建、图像识别、自然语言处理及时间序列预测等多个方面。 ... [详细]
  • 智能车间调度研究进展
    本文综述了基于强化学习的智能车间调度策略,探讨了车间调度问题在资源有限条件下的优化方法。通过数学规划、智能算法和强化学习等手段,解决了作业车间、流水车间和加工车间中的静态与动态调度挑战。重点讨论了不同场景下的求解方法及其应用前景。 ... [详细]
  • 本文档旨在帮助开发者回顾游戏开发中的人工智能技术,涵盖移动算法、群聚行为、路径规划、脚本AI、有限状态机、模糊逻辑、规则式AI、概率论与贝叶斯技术、神经网络及遗传算法等内容。 ... [详细]
  • 在上一篇文章中,我们初步探讨了神经网络的基础概念,并通过一个简单的例子——将摄氏度转换为华氏度——介绍了单个神经元的工作原理。本文将继续探索神经网络的应用,特别是如何构建一个基本的分类器。 ... [详细]
  • 初探K近邻算法与Scikit-learn API
    本文介绍了Scikit-learn这一强大的机器学习库,重点探讨了其最新稳定版本及其安装方法,并通过一个简单的K近邻算法实例展示了如何使用Scikit-learn进行模型训练和预测。 ... [详细]
author-avatar
zhj808008
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有