BigSpatiotemporalData(RtreeIndexandNN&RNN&Skyline)

作者：良良8003 | 来源：互联网 | 2023-05-18 05:16

初次接触时空大数据，介绍以R-tree索引为基础的NN查询，RNN查询，以及Sky

一、简单介绍大数据技术产物

“大数据”一词首先出现在2008年9月《Nature》杂志发表的一篇名为“Big Data: Wikiomics”的文章上（Mitch，2008）。“大数据科学”尚未有统一定义，但是科学家普遍认为它是以海量的多元异构数据为主要研究对象，以大数据的存储、处理和理解方法为主要研究内容，以新兴的计算技术为主要研究工具，以扩展人类对数据的利用能力为主要目标的一门新兴的综合性学科。它主要针对当前海量（volume）、多元（variety）和高速更新（velocity）数据的处理问题，重点研究如何将当前高速发展的计算技术用于数据处理/挖掘、有效地利用数据、从海量多元的数据本身去发现新的知识。

　　在存储上，hdfs的分布式存储可以任意水平扩展，可以解决数据存储的难题。

　　在计算上，从最初的MapReduce，把任务水平拆分，多台机器并行计算，再汇总结果；

　　到基于Spark的内存计算，改造Mapreduce每次数据落盘以及编程方式的痛点。

有了存储和计算框架，周边就衍生出了很多管理、缓存相关的技术，比如：

yarn解决多租户资源调度的难题，
flume解决数据传输的难题，
sqoop解决分布式存储数据与传统DB数据之间的转换，
oozie解决了大数据计算任务的调度，
kafka提供了发布订阅机制的消息队列，
zookeeper可以帮助用户完成主备的选举，
hive在hdfs的基础上提供了数仓的功能，
hbase则基于hdfs实现列式数据库....

处于大数据时代下的产物：

技术分享

二、介绍时空大数据

　　时空大数据定义：越来越多的数据使世界进入真正的大数据（Big Data）时代，其中大量的与时空位置有关的数据称为时空大数据。比如Uber网约车实时车辆位置，外卖配送等等。

　　时空大数据由于其所在空间的空间实体和空间现象在时间、空间和属性三个方面的固有特征，呈现出多维、语义、时空动态关联的复杂性，因此，需要研究时空大数据多维关联描述的形式化表达、关联关系动态建模与多尺度关联分析方法，时空大数据协同计算与重构提供快速、准确的面向任务的关联约束。具体特点包括：

　　1）时空大数据包含对象、过程、事件在空间、时间、语义等方面的关联关系。

　　2）时空大数据具有时变、空变、动态、多维演化特点，这些基于对象、过程、事件的时空变化是可度量的，其变化过程可作为事件来描述，通过对象、过程与事件的关联映射，建立时空大数据的动态关联模型。

　　3）时空大数据具有尺度特性，可建立时空大数据时空演化关联关系的尺度选择机制；针对不同尺度的时空大数据的时空演化特点，可实现对象、过程、事件关联关系的尺度转换与重建，进而实现时空大数据的多尺度关联分析。

　　4）时空大数据时空变化具有多类型、多尺度、多维、动态关联特点，对关联约束可进行面向任务的分类分级，建立面向任务的关联约束选择、重构与更新机制，根据关联约束之间的相关性，可建立面向任务的关联约束启发式生成方法。

　　5）时空大数据具有时间和空间维度上的特点，实时地抽取阶段行为特征，以及参考时空关联约束建立态势模型，实时地觉察，理解和预测导致某特定阶段行为发生的态势。可针对时空大数据事件理解与预测问题，研究空间大数据事件行为的本体建模和规则库构建，为异常事件的模式挖掘和主动预警提供知识保障，可针对相似的行为特征，时空约束和事件级别来挖掘事件模式并构建大尺度事件及其应对方案的规则库。

　　时空大数据一方面具有一般大数据的大规模、多样性、快变性和价值性的特点，另一方面还具有与对象行为对应的多源异构和复杂性、与事件对应的时/空/尺度/对象动态演化、对事件的感知和预测特性。

　　目前来看，国际上的时空大数据科学的研究仍处于起步阶段，需要面向具体应用开展深入研究。例如在国防领域，整体态势感知是现代化国防的关键，具有整体获取特性的遥感大数据在国防上意义重大；在气象领域，空间信息是气象预测的基础，能融合时空大数据的气象大数据将为大气环境监测、农业灾害监测提供强有力的支撑；在交通领域，融合了地理位置信息、空间信息的时空大数据将是应急处置的重要决策依据，可以提高应急交通指挥决策的科学性。因此，进一步研究时空大数据表示、度量和理解的基本理论和方法，揭示时空大数据与现实世界对象、行为、事件间的对应规律，将大有可为。

三、介绍时空大数据中的基础操作

　 1.最近邻查询（离我最近的人是谁？）

　　2.反向最近邻查询（谁的最近邻查询是我？结果为一个集合）

　　3.范围查询（距离我10m范围内都有谁？）

　　4.空间集成查询（聚合查询，距离我10m范围内有几个人？）

　　5.最短路径查询（从沙河到学院路的最短路径）

　　6.最优选址查询（麦当劳选址问题）

四、介绍索引结构

　　索引结构R-tree。R-tree结构类似于B树，R-tree是B树在高维空间的扩展，是一棵平衡树。每个R树的叶子结点包含了多个指向不同数据的指针，这些数据可以是存放在硬盘中的，也可以是存在内存中。根据R-tree的这种数据结构，当我们需要进行一个高维空间查询时，我们只需要遍历少数几个叶子结点所包含的指针，查看这些指针指向的数据是否满足要求即可。这种方式使我们不必遍历所有数据即可获得答案，效率显著提高。

　　举例说明：

其中的矩形是按照Minimum Bounding Rectangle(MBR)进行划分的。其中每个结点最大的子节点数量d可以自定义，并且在上面的例子里设为d=3。

R-tree的一些特性：

　　基于磁盘的: 存储在磁盘上，加载需要的部分到内存。
　　分页的: 每个节点是一个固定大小的磁盘页 (e.g. 8KB)。
　　平衡的: 所有节点距离根节点的距离相等。
　　动态的更新: 动态插入/删除。
　　叶节点存储: 所有的记录都存在叶子节点中。
　　最小容量: 每个节点（除根节点）数据至少占一半空间。

利用R-tree实现范围查询的过程如下：

从根节点开始：

1.若当前节点是非叶子结点，对该节点的每个子节点进行如下判断：如果E的MBR和Q有重叠，搜索ptr指向的子树。

2.如果当前节点是叶子节点，则返回叶子节点中位于Q内的点。

下图给出阴影部分为查询范围！很直观可以得到在阴影内的点有b和d，下图解释如何利用R-tree完成这一范围查询操作。

　　　　技术分享

利用R-tree实现聚合查询的过程如下：

求解算法：

直接想法：先转换成范围查询，然后计数。

更好的想法：对每个index实体都保存对应其子树的聚合的值。

保存每个Index实体子树聚合的数量值，如果当前查询完整包括某个MBR，则将求解的ans加上该部分的Index中保存的数量值。实现剪枝操作，注意这里的剪枝是有前提条件以及相应的操作的！！！（前提条件：MBR属于查询范围Q；相应操作 ans+=MBR‘s Index num）

下面简单介绍R-tree的构建：插入对象

从根节点开始向下查找“最适合”的叶子节点L。
　　1，找到插入该节点需要扩大面积最小的子节点。如果有两个这样的节点，则选择MBR面积较小的节点。

如果该叶子节点L有剩余位置，插入o完成操作。否则，将L分裂为L1和L2。
　　1，调整L内的对象的范围使L恰覆盖L1。
　　2，向L的父节点添加一个子节点覆盖L2(可能会引起父节点的递归分裂)。

因此操作可以简化为：

1. 无分裂、无扩大区域

2. 无分裂、需扩大区域

3. 需要分裂

技术分享

L中原有的对象和新插入的实体必须位于L1或L2中。目标是减少L1和L2覆盖区域在随后查询中的重叠程度。思路：以最小化面积为目标重新分配L1和L2的区域。

1. 穷举算法速度慢；
2.可以在平方或者线性时间下获得近似结果。

最近邻查询操作：

　　技术分享

反向最近邻查询（RNN）

技术分享

Skyline点 那些点不能被其他的点dominate( 找skyline点集)

技术分享

参考文献：

Big Spatio temporal Data(R-tree Index and NN & RNN & Skyline)

推荐阅读

stream
什么是大数据lambda架构

一、什么是Lambda架构Lambda架构由Storm的作者[NathanMarz]提出，根据维基百科的定义，Lambda架构的设计是为了在处理大规模数 ... [详细]

蜡笔小新 2023-10-17 16:06:09
python
在Linux系统中配置环境变量以切换不同版本Python的方法与实践

在Linux系统中，原本已安装了多个版本的Python 2，并且还安装了Anaconda，其中包含了Python 3。本文详细介绍了如何通过配置环境变量，使系统默认使用指定版本的Python，以便在不同版本之间轻松切换。此外，文章还提供了具体的实践步骤和注意事项，帮助用户高效地管理和使用不同版本的Python环境。 ... [详细]

蜡笔小新 2024-10-30 09:39:09
stream
从0到1搭建大数据平台

从0到1搭建大数据平台 ... [详细]

蜡笔小新 2024-11-12 15:26:03
int
2012年9月12日优酷土豆校园招聘笔试题目解析与备考指南

2012年9月12日，优酷土豆校园招聘笔试题目解析与备考指南。在选择题部分，有一道题目涉及中国人的血型分布情况，具体为A型30%、B型20%、O型40%、AB型10%。若需确保在随机选取的样本中，至少有一人为B型血的概率不低于90%，则需要选取的最少人数是多少？该问题不仅考察了概率统计的基本知识，还要求考生具备一定的逻辑推理能力。 ... [详细]

蜡笔小新 2024-11-06 15:25:14
python
如何高效启动大数据应用之旅？

在前一篇文章中，我探讨了大数据的定义及其与数据挖掘的区别。本文将重点介绍如何高效启动大数据应用项目，涵盖关键步骤和最佳实践，帮助读者快速踏上大数据之旅。 ... [详细]

蜡笔小新 2024-11-04 18:30:38
header
HBase在金融大数据迁移中的应用与挑战

随着最后一台设备的下线，标志着超过10PB的HBase数据迁移项目顺利完成。目前，新的集群已在新机房稳定运行超过两个月，监控数据显示，新集群的查询响应时间显著降低，系统稳定性大幅提升。此外，数据消费的波动也变得更加平滑，整体性能得到了显著优化。 ... [详细]

蜡笔小新 2024-10-31 14:06:06
python
如何提升Python处理约1GB数据集时的运行效率？

如何提升Python处理约1GB数据集时的运行效率？本文探讨了在后端开发中使用Python处理大规模数据集的优化方法。通过分析常见的性能瓶颈，介绍了多种提高数据处理速度的技术，包括使用高效的数据结构、并行计算、内存管理和代码优化策略。此外，文章还提供了在Ubuntu环境下配置和测试这些优化方案的具体步骤，适用于从事推荐系统等领域的开发者。 ... [详细]

蜡笔小新 2024-10-27 02:13:48
int
Storm集成Kakfa

一、整合说明Storm官方对Kafka的整合分为两个版本，官方说明文档分别如下：StormKafkaIntegratio ... [详细]

蜡笔小新 2024-10-16 20:20:41
stream
数据湖风暴来袭，EMR重磅发布Apache Hudi

Hudi是一种数据湖的存储格式，在Hadoop文件系统之上提供了更新数据和删除数据的能力以及流式消费变化数据的能力。应用场景近实时数据摄取Hudi支持插入、更新和删除数据的能力。您 ... [详细]

蜡笔小新 2024-10-14 13:15:48
stream
每天收获一点点Hadoop概述

一、Hadoop来历Hadoop的思想来源于Google在做搜索引擎的时候出现一个很大的问题就是这么多网页我如何才能以最快的速度来搜索到，由于这个问题Google发明 ... [详细]

蜡笔小新 2023-12-14 18:58:01
int
投融资周报 | Circle 达成 4 亿美元融资协议，唯一艺术平台 A 轮融资超千万美元

投融资周报 | Circle 达成 4 亿美元融资协议，唯一艺术平台 A 轮融资超千万美元 ... [详细]

蜡笔小新 2024-11-05 04:56:42
split
PHP中元素的计量单位是什么？

PHP中元素的计量单位是什么？ ... [详细]

蜡笔小新 2024-11-01 15:06:51
python
六个关键步骤掌握Python数据分析，探索六款小众但强大的数据处理库

Python 数据分析领域不仅拥有高质量的开发环境，还提供了众多功能强大的第三方库。本文将介绍六个关键步骤，帮助读者掌握 Python 数据分析的核心技能，并深入探讨六款虽不广为人知但却极具潜力的数据处理库，如 Pandas 的替代品和新兴的可视化工具，助力数据科学家和分析师提升工作效率。 ... [详细]

蜡笔小新 2024-10-29 11:26:54
spring
Alibaba珍藏版mybatis手写文档，值得一读！

一面问题：MySQLRedisKafka线程算法mysql知道哪些存储引擎，它们的区别mysql索引在什么情况下会失效mysql在项目中的优化场景&# ... [详细]

蜡笔小新 2024-10-14 13:45:07
require
阿里云大数据计算服务MaxCompute (原名 ODPS)

MaxCompute是阿里EB级计算平台，经过十年磨砺，它成为阿里巴巴集团数据中台的计算核心和阿里云大数据的基础服务。去年MaxCompute做了哪些工作，这些工作背后的原因是什 ... [详细]

蜡笔小新 2024-09-28 17:30:24

良良8003

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章