热门标签 | HotTags
当前位置:  开发笔记 > 人工智能 > 正文

【数据挖掘导论】数据类型-mysql教程

数据类型数据集的不同表现在很多方面。例如:描述数据对象的属性可有具有不同的类型——定量的或者定性的。并且数据集可能还具有特定的性质,如包含时间序列或者彼此相关联。这因为如此,数据的类型决定我们应使用何种工具和技术来分析数据。此外,数据挖掘

数据类型 数据集的不同表现在很多方面。例如:描述数据对象的属性可有具有不同的类型——定量的或者定性的。并且数据集可能还具有特定的性质,如包含时间序列或者彼此相关联。这因为如此,数据的类型决定我们应使用何种工具和技术来分析数据。此外,数据挖掘

数据类型
数据集的不同表现在很多方面。例如:描述数据对象的属性可有具有不同的类型——定量的或者定性的。并且数据集可能还具有特定的性质,如包含时间序列或者彼此相关联。这因为如此,数据的类型决定我们应使用何种工具和技术来分析数据。此外,数据挖掘的研究也是为了适应新的应用领域和新的数据类型。
数据的质量 数据通常远非完美,尽管大部分的数据挖掘技术都容忍不完美的数据,但注重理解和提高数据质量将是改进精确分析结果的重要途径之一。
使数据适合挖掘的预处理步骤 通常,原始数据必须经过加工才能适合分析。而加工处理一方面是提高数据的质量,另一方面让数据更好的适应特定的数据挖掘技术或者工具。
根据数据联系分析数据 数据分析的一种方法是找出数据对象之间的联系,之后使用这些联系而不是数据对象本身进行其余的分析。
通常,数据集可以看作数据对象的集合。数据对象可以是:记录,点,向量,模式等。数据对象用一组刻画对象基本特性的属性描述,如:变量,字段,特征或者维。 \
\ \ 属性与度量<喎?http://www.2cto.com/kf/ware/vc/" target="_blank" class="keylink">vc3Ryb25nPgo8c3Ryb25nPsqyw7TKx8r00NSjujwvc3Ryb25nPgo8c3Ryb25nPsr00NSjqGF0dHJpYnV0ZaOpPC9zdHJvbmc+yse21M/ztcTQ1NbKu/LV38zY0NSjrMv80vK21M/ztvjS7Lvyy+bXxcqxvOSx5Luvtvix5LuvoaPXt7j5y93UtKOsyvTQ1LKit8fK/dfWu/K3+7rFoaPIu7b4zqrBy8zWwtu6zbfWzva21M/ztcTM2NDUo6zO0sPHuLPT6MHLy/zDx8r919a6zbf7usWho86qwcvTw9K71tbD98i3tqjS5bXEt73Kvdf2tb3V4rXjo6zO0sPH0OjSqrLiwb+x6rbIoaMKPGJyPgoKPHN0cm9uZz6y4sG/seq2yKOobXJlYXN1cmVtZW50IHNjYWxlo6k8L3N0cm9uZz7Kx72ryv0mIzIwNTQwO7vyt/u6xSYjMjA1NDA70+u21M/ztcTK9NDUz+C52MGqtcS55tTyo6i6r8r9o6mho9DOyr3Jz6OssuLBv7n9s8zKx8q508Oy4sG/seq2yL2r0ru49iYjMjA1NDA70+vSu7j2zNi2qLbUz/O1xMzYtqjK9NDUz+C52MGqoaPL5Mi7y7W1xNPQ0Kmz6c/zoaO1q9Tayfq77tbQo6zO0sPHzt7Ksc7ev8y1xL340NCy4sG/uf2zzKOsyOejusnPuau9u7O1o6y74b+009DDu9PQyqPT4LXE1/nOu8Tc1/i1yKGj1eLQqcfpv/bPwqOstrzKx7bUz/PK9NDUtcTO78DtJiMyMDU0MDuxu9OzyeS1vcr9JiMyMDU0MDu78rf7usUmIzIwNTQwO6GjCjxicj4KCjxzdHJvbmc+yvTQ1LXEwODQzTwvc3Ryb25nPgq008eww+a1w9aqo6zK9NDUtcTQ1NbKsrux2NPr08PAtLbIwb/L/LXEJiMyMDU0MDu1xNDU1srP4M2soaO8tKOs08PAtLT6se3K9NDUtcQmIzIwNTQwO7/JxNy+39PQsrvNrNPryvTQ1LG+ye21xNDU1sqjrLe01q7S4Mi7oaMKPGltZyBzcmM9"http://www.2cto.com/uploadfile/2014/0724/20140724013644436.png" alt="\"> \

属性的类型告诉我们,属性的那些性质反映在用于测量它的&#20540;中。知道属性的类型的重要性,因为它告诉我们测量&#20540;的那些性质与属性的基本性质一致,从而使我,恶魔得以避免计算雇员的平均ID这也愚蠢的行为,需要注意的是,通常将属性的类型称作测量标度的类型。

属性的不同类型 一种指定属性类型的有用方法是:确定对应属性基本性质的数&#20540;的性质。如:长度的属性可以有数&#20540;的许多性质,按长度比较对象,确定对象的排序,以及长度的差与比例都是有意义的。数&#20540;如下的操作通常用来描述属性: \
\ 给定这些性质,我们可以定义出四种属性类型:标称(nominal),序数(ordinal),区间(interval),比率(ratio)。 \ \
属性的类型也可以用不改变属性意义的变换来描述,如:长度可用米或者英尺来度量。下表给出上表的四种属性类型的允许变换: \ \
用&#20540;的个数描述属性 区分属性的一种独立的方法就是根据属性可能取&#20540;的个数来判断 离散的(discrete)离散属性具有有限个或无限个可数个&#20540;。通常离散属性应整数变量表示。二元属性(binary attribute)是离散属性的一种特殊情况,只接受两个&#20540;:真假,是否,01等。二元属性用布尔变量表示。
连续的(continuous)连续属性是取实数&#20540;的属性。如温度,高度等。通常,连续属性用浮点变量表示。
从理论上讲,任何测量标度类型(标称的,序数的,区间的,比率的)都可以与基于属性&#20540;个数的任意类型(二元的,离散的,连续的)组合。有些组合并不常出现,或者没有什么意义。
非对称属性 对于非对称属性(asymmetric attribute),出现非零属性&#20540;才是重要的。如:对于一个,每个对象都是学生的数据集。每个属性记录学生是否选修大学的某个课程。对于某个学生,选修某个属性的课程,&#20540;为1,否则为0。由于学生只能选所有可选的课程的一部分,因此这种数据集的大部分&#20540;为0,因此关注非零&#20540;将更有意义。只有非零&#20540;才重要的二元属性是非对称的二元属性。

数据集的类型 数据集的类型有很多,一般我们将数据集分为三组:记录数据,基于图形的数据和有序数据。
数据集的一般特性 维度(dimensionality)数据集的维度是数据集中的对象具有的属性数目,分为底,中,高维度。在分析数据的时候,最好将数据的维度降低。因为在分析高维度数据的时候,会陷入所谓的维灾难(curse of dimensionality)。因此,数据预处理的一个重要的动机就是减少维度,称为维归约(dimensionality reduction)
稀疏性(sparsity)有些数据集,如具有非对称特征的数据集,一个对象的大部分属性上的&#20540;都是0,在许多情况下,非零项还不到1%。事实上,稀疏性是一个优点,因为只有非零&#20540;才需要存储和处理。这将大大节省计算时间和存储空间。
分辨率(resolution)常常可以在不同的分辨率下得到数据,且在不同的分辨率下数据的性质也不同。如:在几米的分辨率下,地表看起来很不平坦,但在数十公里的分辨率下却相对平坦。

记录数据 许多数据挖掘任务都是假定数据集是记录(数据对象)的汇集,每个记录包含固定的数据字段(属性)集。下面介绍不同类型的记录数据: \ \
事务数据或购物篮数据 事务数据(transaction data)是一种特殊类型的记录数据,其中每个记录(数据)涉及一系列的项。考虑顾客一次购物所买的商品集合构成一个事务,而所有购买的商品作为项。这种类型的数据称作购物篮数据(market basket data)。
数据矩阵 如果一个数据集族中所有数据对象都具有相同的数&#20540;属性集,则数据对象可以看作多维空间的点(向量),其中每个维代表对象的一个不同属性。这样的数据对象集可以用一个m*n的矩阵表示,其中m行,一个对象一行;n列,一个属性一列。这种矩阵称作数据矩阵(data matrix)模式矩阵(pattern matrix)。
稀疏数据矩阵 稀疏数据矩阵是数据矩阵的一种特殊的情况,其中属性的类型相同并且是非对称的,即只有非零&#20540;才是重要的。事务数据是仅含0-1元素的稀疏数据矩阵的例子。另一个常见的便是文档数据。文档集合的表示通常称作文档-词矩阵(document-term matrix),如图2-2d,文档是该矩阵的行,词是该矩阵的列。

基于图形的数据 有时图形可以有效的表示数据,但有两种特殊的情况:图形捕获数据对象之间的联系;数据对象本身用图形表示。
担忧对象之间联系的数据 对象之间的联系常常携带重要的信息。这种情况下,数据常常用图形表示。一般把数据对象映射到图的结点,而对象之间的联系用对象之间的链或方向,权&#20540;等表示。如相互链接的网页。
具有图形对象的数据 如果对象具有结构,即对象包含具有联系的子对象,则这样的对象常常用图形表示。如化学物的结构用图形表示。

有序数据 对于某些数据类型,属性涉及到时间或空间序的联系。如下: \
时序数据 时序数据(sequential data)也称时间数据(temporal data),可以看作记录数据的扩充,其中每一个记录包含一个与之相关联的时间。时间也可以与每个属性相关,如:每个记录可以是一位顾客的购物历史,包含不同时间购买的商品列表。使用这些信息,我们也许可能发现:买了iPhone的人是不会在关注那些低端的android机的。
序列数据 序列数据(sequence data)是一个数据集合,它是各个实体的序列,如:词或字母的序列,基因组序列等
时间序列数据 时间序列数据(time series data)是一种特殊的时序数据,其中每个记录都是一个时间序列(time series),即一段时间以来的测量序列。如图2-4c,记录的是一个地方1982年到1994年月平均的时间序列。需要注意的是:在分析时间数据时,需要考虑时间自相关(temporal autocorrelation),即如果两个测量的时间很近,则这些测量的&#20540;通常非常的相&#20284;。
空间数据 某些数据也许还会拥有空间属性,如位置或区域。空间数据的例子有很多,比如:从不同地方收集气象数据。空间数据的一个重要的特点就是空间自相关性(spatial autocorrelation),即物理上靠近的对象趋向于其他方面也相&#20284;。

处理非记录数据 大部分数据挖掘算法都是为记录数据或其变体(事务数据,数据矩阵)设计的。通过对象中提取特征,并使用这些特征创建对应与每个对象的记录,针对记录数据的技术也可以用与非记录数据。如化学结构的数据,给定一个常见的子结构集合,每个化合物都可以用一个具有二元属性的记录表示,这些二元属性指出化合物是否包含特定的子结构,这也的表示实际上是事务数据集,其中事务是化合物,而项是子结构。

推荐阅读
  • 数据集成策略:ETL与ELT架构对比及工具选择
    随着企业信息化的深入发展,‘数据孤岛’问题日益突出,阻碍了数据的有效利用与整合。本文探讨了如何通过构建数据仓库解决这一问题,重点分析了ETL与ELT两种数据处理架构的特点及适用场景,为企业选择合适的ETL工具提供了指导。 ... [详细]
  • 掌握Python岗位,你需要了解的关键技能
    最近,在社交平台脉脉上,一条关于Python岗位的消息引起了广泛关注。本文将探讨Python岗位的实际价值,并深入解析阿里巴巴等大公司在面试Python开发者时常见的问题。 ... [详细]
  • 使用R语言进行Foodmart数据的关联规则分析与可视化
    本文探讨了如何利用R语言中的arules和arulesViz包对Foodmart数据集进行关联规则的挖掘与可视化。文章首先介绍了数据集的基本情况,然后逐步展示了如何进行数据预处理、规则挖掘及结果的图形化呈现。 ... [详细]
  • CISSP 第8章 软件开发安全概述与实践
    本文探讨了软件开发中的安全问题,包括但不限于满足功能需求与安全性之间的平衡、SDLC(软件开发生命周期)中安全的重要性、OWASP的最佳实践、不同的开发模型、能力成熟度模型、变更控制流程、软件托管服务以及不同代际的编程语言等。此外,还涉及了Web环境下的特定威胁、多层次的攻击防御、数据仓库与数据挖掘技术及其应用模型、恶意软件的识别与防范措施等内容。 ... [详细]
  • 知识图谱与图神经网络在金融科技中的应用探讨
    本文详细介绍了融慧金科AI Lab负责人张凯博士在2020爱分析·中国人工智能高峰论坛上的演讲,探讨了知识图谱与图神经网络模型如何在金融科技领域发挥重要作用。 ... [详细]
  • 【转】强大的矩阵奇异值分解(SVD)及其应用
    在工程实践中,经常要对大矩阵进行计算,除了使用分布式处理方法以外,就是通过理论方法,对矩阵降维。一下文章,我在 ... [详细]
  • 本文详细介绍了如何使用NumPy、Pandas和Matplotlib进行数据分析和数据可视化。通过具体的代码示例,帮助读者更好地理解和应用这些强大的Python库。 ... [详细]
  • 本文整理了关于Sia去中心化存储平台的重要网址和资源,旨在为研究者和用户提供全面的信息支持。 ... [详细]
  • 自然语言处理(NLP)——LDA模型:对电商购物评论进行情感分析
    目录一、2020数学建模美赛C题简介需求评价内容提供数据二、解题思路三、LDA简介四、代码实现1.数据预处理1.1剔除无用信息1.1.1剔除掉不需要的列1.1.2找出无效评论并剔除 ... [详细]
  • 近期,微信公众平台上的HTML5游戏引起了广泛讨论,预示着HTML5游戏将迎来新的发展机遇。磊友科技的赵霏,作为一名HTML5技术的倡导者,分享了他在微信平台上开发HTML5游戏的经验和见解。 ... [详细]
  • 从0到1搭建大数据平台
    从0到1搭建大数据平台 ... [详细]
  • Python 3 Scrapy 框架执行流程详解
    本文详细介绍了如何在 Python 3 环境下安装和使用 Scrapy 框架,包括常用命令和执行流程。Scrapy 是一个强大的 Web 抓取框架,适用于数据挖掘、监控和自动化测试等多种场景。 ... [详细]
  • 在机器学习领域,深入探讨了概率论与数理统计的基础知识,特别是这些理论在数据挖掘中的应用。文章重点分析了偏差(Bias)与方差(Variance)之间的平衡问题,强调了方差反映了不同训练模型之间的差异,例如在K折交叉验证中,不同模型之间的性能差异显著。此外,还讨论了如何通过优化模型选择和参数调整来有效控制这一平衡,以提高模型的泛化能力。 ... [详细]
  • K-均值聚类算法是一种经典的划分方法,广泛应用于数据挖掘和机器学习领域。该算法通过将数据集划分为多个互斥的簇,确保每个对象仅归属于一个簇。然而,这种严格的归属要求忽略了潜在的离群点和数据的复杂性,限制了其在某些场景下的适用性。为了提高算法的鲁棒性和灵活性,研究者们提出了多种改进方法,如引入模糊隶属度和基于密度的聚类技术。这些改进不仅提升了算法的性能,还扩展了其在实际问题中的应用范围。 ... [详细]
  • 在众多市场调研公司中,如何选择一家值得信赖的合作伙伴至关重要。基于我在市场调查行业近二十年的经验,我将推荐几家国内知名的市场调研机构,供您参考:1. 开元研究——专注于零售报刊发行研究、媒体广告价值评估及网络营销分析等领域,以其专业性和准确性赢得了广泛认可。 ... [详细]
author-avatar
永恆極光_822
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有