热门标签 | HotTags
当前位置:  开发笔记 > 数据库 > 正文

机器学习——基本术语

第一章基本术语1、机器学习的定义:从数据中自动的归纳逻辑或规则,并根据这个归纳的结果与新数据来进行预测的算法。要讨论算法的相对优劣,必须要针对具体的学习问题。2、目标:使得学得的

第一章  基本术语

1、机器学习的定义:从数据中自动的归纳逻辑或规则,并根据这个归纳的结果与新数据来进行预测的算法。要讨论算法的相对优劣,必须要针对具体的学习问题。

2、目标:使得学得的模型能很好的适用于“新样本”,而不仅仅在训练样本上工作得很好,即便是对聚类这样的无监督学习,也希望学得的聚划分能适用于没在训练集中出现的样本。

3、样本(示例、特征向量): 数据集中的每个记录称之为样本或者示例。 

4、属性空间(样本空间、输入空间):样本属性张成的空间称为属性空间(样本空间、输入空间),每个样本对应空间中的一个点,故而一个示例也称为一个“特征向量”。

5、模型:模型也称为学习器,可看作学习算法在给定数据集和参数空间的实例化。

6、学习:从数据中学得模型的过程称为“学习”或“训练”,这个过程通过执行某个学习算法来完成。

7、训练集:训练过程中使用的数据称为训练数据,训练样本组成的集合称为训练集。学得的模型对应了关于数据的某种潜在的规律,因此称为“假设”。这种潜在规律自身,则是称为真相或真实,学习过程就是为了找出或逼近真相。训练集通常是样本空间中很小的一个采样。

8、测试:学得模型后,使用其进行预测的过程称为“测试”,被测试的样本称为测试样本。

 监督学习与无监督学习:根据训练数据是否拥有标记信息,学习任务可以分为两类,监督学习和无监督学习:分类和回归是前者的代表,聚类是后者的代表(学习过程中使用的训练样本通常不拥有标记信息)。

9、泛化 : 学得模型适用于新样本的能力,称为“泛化”能力,具有强泛化能力的模型能很好地适用整个样本空间。

10、假设:通过学习得到的模型对应了假设空间中的一个假设。

11、学习过程:通常假设样本空间中全体样本服从一个未知分布,我们获得的每个样本都是独立地从这个分布上采样获得的,即“独立同分布”。一般而言,训练样本越多,我们得到的关于该未知分布的信息越多,这样就越有可能通过学习获得具有强泛化能力的模型。

我们可以将学习过程看作是在一个所有的假设组成的空间中进行搜索的过程,搜索目标是找到与训练集匹配的假设,即能够将训练集中的训练样本判断正确的假设。

12、概念学习:概念学习(归纳学习)的目标就是泛化,即是通过对训练集中的训练样本进行学习以获得对测试集进行判断的能力。

13、归纳偏好:机器学习算法在学习过程中对某种类型假设的偏好我们称之为“归纳偏好”,简称“偏好”。

归纳偏好对应了学习算法本身所作出的关于什么样的模型更好的假设,在具体的现实问题中,这个假设是否成立,即算法的归纳偏好是否与问题本身匹配,大多数时候直接决定了算法能否取得好的性能。


 机器学习与数据挖掘、数据库技术的联系:

数据挖掘是从海量知识中发掘知识,这就必然涉及对“海量数据”的管理和分析。数据库领域为数据挖掘提供数据管理技术,机器学习和统计学的研究为数据挖掘提供数据分析的技术。机器学习领域和数据库领域则是数据挖掘的两大支撑。机器学习提供数据分析能力,云计算提供数据处理能力,众包提供数据标记能力。


 

 

 

 

 

 

 

 



推荐阅读
  • 智慧城市建设现状及未来趋势
    随着新基建政策的推进及‘十四五’规划的实施,我国正步入以5G、人工智能等先进技术引领的智慧经济新时代。规划强调加速数字化转型,促进数字政府建设,新基建政策亦倡导城市基础设施的全面数字化。本文探讨了智慧城市的发展背景、全球及国内进展、市场规模、架构设计,以及百度、阿里、腾讯、华为等领军企业在该领域的布局策略。 ... [详细]
  • Hadoop入门与核心组件详解
    本文详细介绍了Hadoop的基础知识及其核心组件,包括HDFS、MapReduce和YARN。通过本文,读者可以全面了解Hadoop的生态系统及应用场景。 ... [详细]
  • Python库在GIS与三维可视化中的应用
    Python库极大地扩展了GIS的能力,使其能够执行复杂的数据科学任务。本文探讨了几个关键的Python库,这些库不仅增强了GIS的核心功能,还推动了地理信息系统向更高层次的应用发展。 ... [详细]
  • 聚焦法是一种采用穷尽搜索策略的Filter型特征选择方法,其核心在于寻找能有效区分不同样本的最小特征集合。此方法的评估标准主要依赖于一致性测量。 ... [详细]
  • 解决getallheaders函数导致的500错误及8种服务器性能优化策略
    本文探讨了解决getallheaders函数引起的服务器500错误的方法,并介绍八种有效的服务器性能优化技术,包括内存数据库的应用、Spark RDD的使用、缓存策略的实施、SSD的引入、数据库优化、IO模型的选择、多核处理策略以及分布式部署方案。 ... [详细]
  • 1:有如下一段程序:packagea.b.c;publicclassTest{privatestaticinti0;publicintgetNext(){return ... [详细]
  • 数据管理权威指南:《DAMA-DMBOK2 数据管理知识体系》
    本书提供了全面的数据管理职能、术语和最佳实践方法的标准行业解释,构建了数据管理的总体框架,为数据管理的发展奠定了坚实的理论基础。适合各类数据管理专业人士和相关领域的从业人员。 ... [详细]
  • 深入解析:手把手教你构建决策树算法
    本文详细介绍了机器学习中广泛应用的决策树算法,通过天气数据集的实例演示了ID3和CART算法的手动推导过程。文章长度约2000字,建议阅读时间5分钟。 ... [详细]
  • 利用决策树预测NBA比赛胜负的Python数据挖掘实践
    本文通过使用2013-14赛季NBA赛程与结果数据集以及2013年NBA排名数据,结合《Python数据挖掘入门与实践》一书中的方法,展示如何应用决策树算法进行比赛胜负预测。我们将详细讲解数据预处理、特征工程及模型评估等关键步骤。 ... [详细]
  • 全能终端工具推荐:高效、免费、易用
    介绍一款备受好评的全能型终端工具——MobaXterm,它不仅功能强大,而且完全免费,适合各类用户使用。 ... [详细]
  • 智能全栈云风暴:AI引领的企业转型之路
    当提及AI,人们脑海中常浮现的是天才少年独自编写算法,瞬间点亮机器人的双眼。然而,真正的AI革命正由大型企业和机构推动,它们利用全栈全场景AI技术,实现数字化与智能化的深度转型。 ... [详细]
  • 本文深入探讨了数据挖掘领域内的十个经典算法,包括但不限于C4.5决策树、K-Means聚类、支持向量机等。这些算法不仅在理论上有深厚的数学基础,也在实践中展现出强大的应用价值。 ... [详细]
  • 掌握Python岗位,你需要了解的关键技能
    最近,在社交平台脉脉上,一条关于Python岗位的消息引起了广泛关注。本文将探讨Python岗位的实际价值,并深入解析阿里巴巴等大公司在面试Python开发者时常见的问题。 ... [详细]
  • 致信息安全爱好者的成长指南
    本文旨在为信息安全爱好者提供一份详尽的成长指南,涵盖从学习心态调整到具体技能提升的各个方面。 ... [详细]
  • 本文探讨了数据挖掘技术的发展及其在大数据环境下的应用流程,重点介绍了统计学、在线分析处理、信息检索、机器学习、专家系统和模式识别等领域的最新进展。 ... [详细]
author-avatar
七城赣州击剑_966
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有