热门标签 | HotTags
当前位置:  开发笔记 > 后端 > 正文

机器学习是什么,机器学习模型

目录1、什么是机器学习?简述机器学习的一般过程。2、简述K折交叉验证与留一法的基本思想及其特点。3、简述什么是欠拟合和过拟合、产生的原因以及如何解决。4、简述线性回归与逻辑回归

目录

1、什么是机器学习?简述机器学习的一般过程。

2、简述K折交叉验证与留一法的基本思想及其特点。

3、简述什么是欠拟合和过拟合、产生的原因以及如何解决。

4、简述线性回归与逻辑回归的区别。

5、简述剪枝的目的以及常用的两种剪枝方式的基本过程。

6、简述K均值聚类算法的流程。

7、简述什么是降维以及PCA算法的流程。

8、简述贝叶斯网的组成,贝叶斯网中结点的三种连接方式,并分析它们的独立性。

9、简述卷积神经网络与传统的神经网络的区别。

10、简述基于核函数的非线性支持向量机的基本思想。


1、什么是机器学习?简述机器学习的一般过程。

答:机器学习是通过算法使得机器从大量历史数据中学习规律,从而对新样本做分类或预测。一般分为训练阶段、测试阶段和工作阶段。训练阶段的主要工作是根据训练数据建立模型,测试阶段的主要工作是利用验证集对模型评估与选择,工作阶段的主要工作是利用建立好的模型对新的数据进行预测与分类。

2、简述K折交叉验证与留一法的基本思想及其特点。

答:K折交叉验证:将数据划分为K个大小相等的互斥子集;然后用其中的K-1个子集作为训练集,余下的那个子集作为测试集;这样就可以进行K次训练和测试,最终返回的是这K个测试结果的平均值。其稳定性和保真性在很大程度上取决与K的取值。

       留一法:每次取一个样本作为测试集,其余样本组成的集合作为训练集,训练和测试的次数等于样本的个数。留一法的评估结果往往被认为是比较准确的,其最大的缺陷是当数据集较大时,模型的开销非常大。

3、简述什么是欠拟合和过拟合、产生的原因以及如何解决。

答:欠拟合:模型在训练集上的误差较高。原因:模型过于简单,没有很好的捕捉到数据特征,不能很好的拟合数据。解决方法:模型复杂化、增加更多的特征,使输入数据具有更强的表达能力等。

       过拟合:在训练集上误差低,测试集上误差高。原因:模型把数据学习的太彻底,以至于把噪声数据的特征也学习到了,这样就会导致在后期测试的时候不能够很好地识别数据,模型泛化能力太差。解决方法:降维、增加训练数据、正则约束等。

4、简述线性回归与逻辑回归的区别。

答:(1)任务不同:回归模型是对连续的量进行预测;分类模型是对离散值/类别进行;(2)输出不同:回归模型的输出是一个连续的量,范围在[-∞,+∞],分类模型的输出是数据属于某种类别的概率,范围在[0,1]之间;(3)参数估计方法不同:线性回归中使用的是最小化平方误差损失函数,对偏离真实值越远的数据惩罚越严重;逻辑回归使用对数似然函数进行参数估计,使用交叉熵作为损失函数,对预测错误的惩罚是随着输出的增大,逐渐逼近一个常数。

5、简述剪枝的目的以及常用的两种剪枝方式的基本过程。

答:目的:剪枝是决策树学习算法对付“过拟合”的主要手段,通过主动去掉一些分支来降低过拟合的风险。基本策略有“预剪枝”和“后剪枝”。

       “预剪枝”对每个结点划分前先进行估计,若当前结点的划分不能带来决策树泛化性能的提升,则停止划分,并标记为叶结点。

       “后剪枝”先从训练集生成一棵完整的决策树,然后自底向上对非叶子结点进行考察,若该结点对应的子树用叶结点能带来决策树泛化性能的提升,则将该子树替换为叶结点。

6、简述K均值聚类算法的流程。

答:假设有m条数据,n个特性,则K均值聚类算法的流程如下:

(1)随机选取k个点作为起始中心(k行n列的矩阵,每个特征都有自己的中心);(2)遍历数据集中的每一条数据,计算它与每个中心的距离;(3)将数据分配到距离最近的中心所在的簇;(4)使用每个簇中的数据的均值作为新的簇中心;(5)如果簇的组成点发生变化,则跳转执行第2步;否则,结束聚类。

7、简述什么是降维以及PCA算法的流程。

答:降维是通过某种数学变换将原始高维属性空间转变为一个低维子空间,保留重要性比较高的特征维度,去除冗余的特征。

       主元成分分析PCA使用最广泛的数据降维算法,其一般流程如下:(1)样本零均值化;(2)计算数据的协方差矩阵;(3)计算协方差矩阵的特征值与特征向量;(4)按照特征值,将特征向量从大到小进行排序;(5)选取前 k 个特征向量作为转换矩阵;(6)零均值化后的数据与转换矩阵做矩阵乘法获得降维后的数据。

8、简述贝叶斯网的组成,贝叶斯网中结点的三种连接方式,并分析它们的独立性。

答:一个贝叶斯网B由结构G和参数Ɵ组成。G是一个有向无环图,其中每个结点对应于一个属性,若两个属性由直接依赖关系,则它们由一条边连接起来;参数Ɵ包含了每个属性的条件概率表,定量描述这种依赖关系。

                                                            

                  (1)                                                              (2)                                                                  (3)

(1)同父结构,c已知的情况下,a,b独立;

(2)V型结构,c未知情况下,a,b独立;

(3)顺序结构,c已知情况下,a,b独立。

9、简述卷积神经网络与传统的神经网络的区别。

答:传统的神经网络是一种层级结构,由输入层,隐藏层,输出层构成,每层神经元与下层神经元完全互连,神经元之间不存在同层连接,也不存在跨层连接。

       卷积神经网络相较于传统神经网络的特殊性在于权值共享和局部连接两个方面。局部连接:每个神经元只与上一层的部分神经元相连,只感知局部,而不是整幅图像;权值共享:每一个神经元都可以看作一个滤波器,同一个神经元使用一个固定的卷积核去卷积整个图像,可以认为一个神经元只关注一个特征,而不同的神经元关注多个不同的特征。

10、简述基于核函数的非线性支持向量机的基本思想。

答:核函数不显示定义映射函数,在原始样本空间中通过计算核函数的值来代替特征空间中的内积。基于核函数的非线性支持向量机的基本思想就是通过非线性变换将输入空间对应到一个特征空间上,使得输入空间中的超曲面模型对应于特征空间上的一个超平面模型也就是支持向量机,问题转化为在特征空间中求解支持向量机。


推荐阅读
  • 背景应用安全领域,各类攻击长久以来都危害着互联网上的应用,在web应用安全风险中,各类注入、跨站等攻击仍然占据着较前的位置。WAF(Web应用防火墙)正是为防御和阻断这类攻击而存在 ... [详细]
  • 生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型,可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]
  • 不同优化算法的比较分析及实验验证
    本文介绍了神经网络优化中常用的优化方法,包括学习率调整和梯度估计修正,并通过实验验证了不同优化算法的效果。实验结果表明,Adam算法在综合考虑学习率调整和梯度估计修正方面表现较好。该研究对于优化神经网络的训练过程具有指导意义。 ... [详细]
  • 浏览器中的异常检测算法及其在深度学习中的应用
    本文介绍了在浏览器中进行异常检测的算法,包括统计学方法和机器学习方法,并探讨了异常检测在深度学习中的应用。异常检测在金融领域的信用卡欺诈、企业安全领域的非法入侵、IT运维中的设备维护时间点预测等方面具有广泛的应用。通过使用TensorFlow.js进行异常检测,可以实现对单变量和多变量异常的检测。统计学方法通过估计数据的分布概率来计算数据点的异常概率,而机器学习方法则通过训练数据来建立异常检测模型。 ... [详细]
  • 建立分类感知器二元模型对样本数据进行分类
    本文介绍了建立分类感知器二元模型对样本数据进行分类的方法。通过建立线性模型,使用最小二乘、Logistic回归等方法进行建模,考虑到可能性的大小等因素。通过极大似然估计求得分类器的参数,使用牛顿-拉菲森迭代方法求解方程组。同时介绍了梯度上升算法和牛顿迭代的收敛速度比较。最后给出了公式法和logistic regression的实现示例。 ... [详细]
  • cs231n Lecture 3 线性分类笔记(一)
    内容列表线性分类器简介线性评分函数阐明线性分类器损失函数多类SVMSoftmax分类器SVM和Softmax的比较基于Web的可交互线性分类器原型小结注:中文翻译 ... [详细]
  • 【论文】ICLR 2020 九篇满分论文!!!
    点击上方,选择星标或置顶,每天给你送干货!阅读大概需要11分钟跟随小博主,每天进步一丢丢来自:深度学习技术前沿 ... [详细]
  • 近年来,大数据成为互联网世界的新宠儿,被列入阿里巴巴、谷歌等公司的战略规划中,也在政府报告中频繁提及。据《大数据人才报告》显示,目前全国大数据人才仅46万,未来3-5年将出现高达150万的人才缺口。根据领英报告,数据剖析人才供应指数最低,且跳槽速度最快。中国商业结合会数据剖析专业委员会统计显示,未来中国基础性数据剖析人才缺口将高达1400万。目前BAT企业中,60%以上的招聘职位都是针对大数据人才的。 ... [详细]
  • 本文介绍了Java工具类库Hutool,该工具包封装了对文件、流、加密解密、转码、正则、线程、XML等JDK方法的封装,并提供了各种Util工具类。同时,还介绍了Hutool的组件,包括动态代理、布隆过滤、缓存、定时任务等功能。该工具包可以简化Java代码,提高开发效率。 ... [详细]
  • [译]技术公司十年经验的职场生涯回顾
    本文是一位在技术公司工作十年的职场人士对自己职业生涯的总结回顾。她的职业规划与众不同,令人深思又有趣。其中涉及到的内容有机器学习、创新创业以及引用了女性主义者在TED演讲中的部分讲义。文章表达了对职业生涯的愿望和希望,认为人类有能力不断改善自己。 ... [详细]
  • sklearn数据集库中的常用数据集类型介绍
    本文介绍了sklearn数据集库中常用的数据集类型,包括玩具数据集和样本生成器。其中详细介绍了波士顿房价数据集,包含了波士顿506处房屋的13种不同特征以及房屋价格,适用于回归任务。 ... [详细]
  • 词袋模型的通俗介绍
    词,袋, ... [详细]
  • 统一知识图谱学习和建议:更好地理解用户偏好
    本文介绍了一种将知识图谱纳入推荐系统的方法,以提高推荐的准确性和可解释性。与现有方法不同的是,本方法考虑了知识图谱的不完整性,并在知识图谱中传输关系信息,以更好地理解用户的偏好。通过大量实验,验证了本方法在推荐任务和知识图谱完成任务上的优势。 ... [详细]
  • Learning to Paint with Model-based Deep Reinforcement Learning
    本文介绍了一种基于模型的深度强化学习方法,通过结合神经渲染器,教机器像人类画家一样进行绘画。该方法能够生成笔画的坐标点、半径、透明度、颜色值等,以生成类似于给定目标图像的绘画。文章还讨论了该方法面临的挑战,包括绘制纹理丰富的图像等。通过对比实验的结果,作者证明了基于模型的深度强化学习方法相对于基于模型的DDPG和模型无关的DDPG方法的优势。该研究对于深度强化学习在绘画领域的应用具有重要意义。 ... [详细]
  • 读手语图像识别论文笔记2
    文章目录一、前言二、笔记1.名词解释2.流程分析上一篇快速门:读手语图像识别论文笔记1(手语识别背景和方法)一、前言一句:“做完了&#x ... [详细]
author-avatar
zhj808008
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有