热门标签 | HotTags
当前位置:  开发笔记 > 人工智能 > 正文

数据挖掘:概念与技术--笔记1--度量数据的相似性与相异性

基本概念数据矩阵表示n个对象×p个属性相异性矩阵表示n个对象两两之间的临近度n×n的矩阵d(i,j)表示对象i与对象j之间的相异性1标称属性的临近性度量

基本概念

数据矩阵

表示 n个对象 × p个属性

相异性矩阵

表示n个对象两两之间的临近度   n×n的矩阵

d(i,j)表示对象i与对象j之间的相异性

1 标称属性的临近性度量

计算公式:

m: 匹配的数目(即i和j取值相同状态的属性数)

p:  刻画对象的属性总数

令p=1 (主要目的是使相异矩阵的值在[0,1]之间),相同时为1,不同时为0

相异矩阵为:

相似性:

 

2 二元属性的临近性度量

(1)对称的二元相异性

其中q,r,s,t的含义见表2.3

 

(2)非对称的二元相异性

可以看出非对称的二元相异性是忽略t的,即忽略属性均为0的

例:

y(yes) p(positive) 值为1,n(no, negative) 值为0

其中name是对象标示符,gender是对称属性,其余均为非对称属性

对于非对称属性进行计算:

d(Jack,Jim)=(1+1)/(1+1+1)=0.67

d(Jack,Mary)=(0+1)/(2+0+1)=0.33

d(Jim,Mary)=(1+2)/(1+1+2)=0.75

 

3 数值属性的相异性

 介绍几个基本概念

一般计算距离之前数据应该规范化

欧几里得距离

 

加权的欧几里得距离

曼哈顿(城市块)距离

 

闵可夫斯基距离

其中h是实数 h≥1

上确界距离

 (1)序数属性的临近性度量

计算步骤:

第一步:把test-2的每个值替换为它的排位,则四个对象将分别被赋值为3,1,2,3

第二步:按照公式 Mf表示总的排位,rif表示第i个对象的排位 (此公式的目的是将每个属性的值域映射到[0.0,1.0])

所以排位1的值为0,排位2的值为0.5,排位3的值为1

第三步:可以使用比如欧几里得距离算出相异性矩阵

(2)数值属性的临近性度量

对test-3计算

maxhxh=64,minhxh=22

 

4 混合类型属性的相异性

 把所有有意义的属性转换到共同的区间[0.0,1.0]上

 

结果

 

 5 余弦相似性

对于稀疏矩阵,例比较文档或针对给定的查询词向量对文档排序

例:

 


推荐阅读
  • 本文深入探讨了数据挖掘领域内的十个经典算法,包括但不限于C4.5决策树、K-Means聚类、支持向量机等。这些算法不仅在理论上有深厚的数学基础,也在实践中展现出强大的应用价值。 ... [详细]
  • 数据集成策略:ETL与ELT架构对比及工具选择
    随着企业信息化的深入发展,‘数据孤岛’问题日益突出,阻碍了数据的有效利用与整合。本文探讨了如何通过构建数据仓库解决这一问题,重点分析了ETL与ELT两种数据处理架构的特点及适用场景,为企业选择合适的ETL工具提供了指导。 ... [详细]
  • 本文探讨了数据挖掘的全面理解和其理论基础,强调了数据挖掘在现代社会和经济活动中扮演的关键角色。通过对数据的深入分析,我们可以揭示隐藏在大量信息背后的模式和趋势。 ... [详细]
  • 使用R语言进行Foodmart数据的关联规则分析与可视化
    本文探讨了如何利用R语言中的arules和arulesViz包对Foodmart数据集进行关联规则的挖掘与可视化。文章首先介绍了数据集的基本情况,然后逐步展示了如何进行数据预处理、规则挖掘及结果的图形化呈现。 ... [详细]
  • CISSP 第8章 软件开发安全概述与实践
    本文探讨了软件开发中的安全问题,包括但不限于满足功能需求与安全性之间的平衡、SDLC(软件开发生命周期)中安全的重要性、OWASP的最佳实践、不同的开发模型、能力成熟度模型、变更控制流程、软件托管服务以及不同代际的编程语言等。此外,还涉及了Web环境下的特定威胁、多层次的攻击防御、数据仓库与数据挖掘技术及其应用模型、恶意软件的识别与防范措施等内容。 ... [详细]
  • 知识图谱与图神经网络在金融科技中的应用探讨
    本文详细介绍了融慧金科AI Lab负责人张凯博士在2020爱分析·中国人工智能高峰论坛上的演讲,探讨了知识图谱与图神经网络模型如何在金融科技领域发挥重要作用。 ... [详细]
  • 【转】强大的矩阵奇异值分解(SVD)及其应用
    在工程实践中,经常要对大矩阵进行计算,除了使用分布式处理方法以外,就是通过理论方法,对矩阵降维。一下文章,我在 ... [详细]
  • 本文详细介绍了如何使用NumPy、Pandas和Matplotlib进行数据分析和数据可视化。通过具体的代码示例,帮助读者更好地理解和应用这些强大的Python库。 ... [详细]
  • 本文整理了关于Sia去中心化存储平台的重要网址和资源,旨在为研究者和用户提供全面的信息支持。 ... [详细]
  • 自然语言处理(NLP)——LDA模型:对电商购物评论进行情感分析
    目录一、2020数学建模美赛C题简介需求评价内容提供数据二、解题思路三、LDA简介四、代码实现1.数据预处理1.1剔除无用信息1.1.1剔除掉不需要的列1.1.2找出无效评论并剔除 ... [详细]
  • 近期,微信公众平台上的HTML5游戏引起了广泛讨论,预示着HTML5游戏将迎来新的发展机遇。磊友科技的赵霏,作为一名HTML5技术的倡导者,分享了他在微信平台上开发HTML5游戏的经验和见解。 ... [详细]
  • 从0到1搭建大数据平台
    从0到1搭建大数据平台 ... [详细]
  • Python 3 Scrapy 框架执行流程详解
    本文详细介绍了如何在 Python 3 环境下安装和使用 Scrapy 框架,包括常用命令和执行流程。Scrapy 是一个强大的 Web 抓取框架,适用于数据挖掘、监控和自动化测试等多种场景。 ... [详细]
  • 在机器学习领域,深入探讨了概率论与数理统计的基础知识,特别是这些理论在数据挖掘中的应用。文章重点分析了偏差(Bias)与方差(Variance)之间的平衡问题,强调了方差反映了不同训练模型之间的差异,例如在K折交叉验证中,不同模型之间的性能差异显著。此外,还讨论了如何通过优化模型选择和参数调整来有效控制这一平衡,以提高模型的泛化能力。 ... [详细]
  • K-均值聚类算法是一种经典的划分方法,广泛应用于数据挖掘和机器学习领域。该算法通过将数据集划分为多个互斥的簇,确保每个对象仅归属于一个簇。然而,这种严格的归属要求忽略了潜在的离群点和数据的复杂性,限制了其在某些场景下的适用性。为了提高算法的鲁棒性和灵活性,研究者们提出了多种改进方法,如引入模糊隶属度和基于密度的聚类技术。这些改进不仅提升了算法的性能,还扩展了其在实际问题中的应用范围。 ... [详细]
author-avatar
尕尕东东东_534
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有