热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

时空大数据介绍

时空大数据的使用通过这篇论文,对于时空大数据的应用,无疑是从三个方面展开的:聚合、统计推理、建模。而按照我们项目的计划也是从这三个方面开始

时空大数据的使用

image.png

通过这篇论文,对于时空大数据的应用,无疑是从三个方面展开的:聚合、统计推理
、建模。
而按照我们项目的计划也是从这三个方面开始的,只不过是时空大数据在乎的是时空上的聚合、统计推理、建模,而我们在当初假象的时候还没注意到时间

大体的使用框架如上图所示,那么具体该怎么处理数据呢


时空轨迹数据的预处理

时空轨迹数据预处理包括:道路匹配和轨迹压缩两个基本阶段


  • 道路匹配
    所谓的道路匹配就是修正定位技术精度的偏差和自身设备的可靠性所对可视化在电子地图上时,移动对象位置会出现偏离路网道路的情况的影响
    所以,即使采集到了移动对象的轨迹数,也必须首先进行道路匹配工作,修正有偏差的位置数据
  • 轨迹压缩
    轨迹数据通常由智能移动终端的定位模块按照不同的采样频率实时产生,由于采样 d频率一般很高会产生大量冗余的位置点数据,这会严重影响挖掘算法的效率。所以,在轨迹预处理阶段的一个重要工作就是轨迹的压缩
    最常用的是DP(Douglas-Peucker)算法,通过将数据点序列替换为线段序列,保持原有轨迹的几何特征。
    在线处理方法更适合轨迹实时处理场景(如移动对象的实时监控),基于滑动窗口的算法爱变长的滑动窗口中按照指定偏离错误率的指导,对冗余位置点进行替换

时空轨迹模式


时空轨迹模式的类型定义

按照序列中元素类型的不同,可以分为时空轨迹点序列和时空轨迹边序列两种


  • 时空轨迹点序列
    由一个元组序列Sv= {v0,…,vi,…,vn},其中vi=〈xi,yi,ti〉是空间中的坐标点,ti为该点的时戳
  • 时空轨迹边序列
    时空轨迹边序列Se是由时空轨迹点序列变换而来,是一个元组序列,Se={e1,…,ei,…,en},其中ei=〈(xi-1,yi-1,ti-1),(xi,yi,ti)〉是空间中的一条边,(xi,yi,ti)表示点坐标,ti表示时戳

时空轨迹模式的类型

对于时空轨迹数据,我们要选择有价值的模式进行进一步挖掘,常见的模式有:频繁模式、伴随模式、聚集模式、异常模式和大数据模式


频繁模式

时空轨迹频繁模式是指从时空轨迹集中发现的频繁重复的序列,在进行轨迹频繁模式挖掘之前,必须对时空轨迹数据进行预处理,采用路网匹配和轨迹压缩技术处理的同时还要提取出兴趣点序列,以便找出频繁兴趣点子序列
常用算法:


  • 挖掘由兴趣区域(Region of interest,ROI)构成的频繁序列
  • 基于时间周期的 最频繁路 径 (Time period-based most frequent path,TPMFP)查询算法
  • 时空轨迹的细粒度序列模式挖掘

伴随模式

时空轨迹伴随模式是指从时空轨迹数据集中发现具有相同或者相似路线的移动对象群体。通过分析移动对象群体的行为特征和规律,可以帮助实现在时空环境中的群体跟踪、热点事件发现等

定义::给定m,k∈N,r为大于零的常数。给定时空轨迹集合,且每条轨迹由τ条线段构成。伴随模式是指在时间区间I=ti,tj中,至少包含m个移动对象,在时间区间I的每个时刻中所有位置点都集中在半径为r的圆形区域内

常用算法


  • 群体模式算法
  • 伴随模式算法
    • 相干移动簇算法(Coherent moving cluster,CMC)
    • 采用轨迹简化技术的伴随模式发现(Convoy discovery using trajectory simplification,CuTS)算法
    • 交错式进化伴随算法ID-1/2
  • 蜂群模式算法

聚集模式

首先了解三个概念


  • 快照簇:为某一时刻移动对象形成的簇,并且簇内所有移动对象密度相连
  • 群体:由一定数目的快照簇形成的集合,并且任意相邻时刻的快照簇间的距离都小于等于给定的距离阈值
  • 参与者:在群体中出现至少kp次的移动对象

聚集模式::如果群体中的每个快照簇含有至少mp个参与者,那么这个群体就属于聚集模式

常用算法:


  • 基于关联规则剪枝的聚集模式挖掘算法

    • 基于关联规则剪枝的聚集模式挖掘算法
    • 基于FP-Growth的有效组图结构挖掘算法
    • 基于轨迹的组模式挖掘 (Apriori trajectory-based group pattern mining,ATGP)算法
    • 遍历式VG-Growth(Traversal VG-Growth,TVG-Growth)算法
    • 面向移动对象的深度优先搜索算法
  • 基于密度聚类的聚集模式挖掘算法

    • 基于密度的空间聚类 (Density-based spatial clustering of applications with noise,DBSCAN)算法

异常模式

设有时空轨迹数据集D={TR1,…,TRn},TRi=p1p2p3…pj…pleni(1≤i≤n)是一条轨迹,其中,pj为d维度的点,leni为轨迹TRi的长度。轨迹段是指一条线段pipj(ii和pj是来自TRi中任意的点

离群轨迹段:如果一个轨迹段周围没有足够数量的其他轨迹段与其靠近,则它称为离群轨迹段
异常模式:轨迹的异常模式是指O={O1,…,Om},其中Oi为离群轨迹段

常用算法:


  • 静态数据集的轨迹异常检测
    • 基于R-Tree的异常轨迹检测算法
    • 实时轨迹异常检测算法
  • 轨迹数据流的异常检测
    • 基于滑动窗口定义了轨迹流的异常检

大数据模式

对于时空轨迹大数据,时空轨迹模式挖掘除了需要经典的数据挖掘技术(关联分析、分类、聚类、异常检测等)以外,通过还有特殊的技术


  • 云计算技术
    主要是对数据进行并行的计算分析处理,常用MapReduce、Storm、Spark、Flink等等
  • 轨迹数据压缩和消减技术
    其基本思想是,将原有的轨迹点序列转化成线段序列,同时保留关键性的“拐点”。例如,如果移动对象经过路口,那么此路口的坐标应该作为结点被保留在线段序列中;如果移动对象改变了交通工具,导致行为方式或者移动速度发生变化,那么这样的行为“拐点”也应该被保留下来。
  • 时空轨迹数据可视化技术

欢迎交流学习

个人博客

掘金主页


推荐阅读
  • TypeScript 实战分享:Google 工程师深度解析 TypeScript 开发经验与心得
    TypeScript 实战分享:Google 工程师深度解析 TypeScript 开发经验与心得 ... [详细]
  • 在机器学习领域,深入探讨了概率论与数理统计的基础知识,特别是这些理论在数据挖掘中的应用。文章重点分析了偏差(Bias)与方差(Variance)之间的平衡问题,强调了方差反映了不同训练模型之间的差异,例如在K折交叉验证中,不同模型之间的性能差异显著。此外,还讨论了如何通过优化模型选择和参数调整来有效控制这一平衡,以提高模型的泛化能力。 ... [详细]
  • OpenAI首席执行官Sam Altman展望:人工智能的未来发展方向与挑战
    OpenAI首席执行官Sam Altman展望:人工智能的未来发展方向与挑战 ... [详细]
  • 题目解析给定 n 个人和 n 种书籍,每个人都有一个包含自己喜好的书籍列表。目标是计算出满足以下条件的分配方案数量:1. 每个人都必须获得他们喜欢的书籍;2. 每本书只能分配给一个人。通过使用深度优先搜索算法,可以系统地探索所有可能的分配组合,确保每个分配方案都符合上述条件。该方法能够有效地处理这类组合优化问题,找到所有可行的解。 ... [详细]
  • 能够感知你情绪状态的智能机器人即将问世 | 科技前沿观察
    本周科技前沿报道了多项重要进展,包括美国多所高校在机器人技术和自动驾驶领域的最新研究成果,以及硅谷大型企业在智能硬件和深度学习技术上的突破性进展。特别值得一提的是,一款能够感知用户情绪状态的智能机器人即将问世,为未来的人机交互带来了全新的可能性。 ... [详细]
  • 本文详细介绍了 PHP 中对象的生命周期、内存管理和魔术方法的使用,包括对象的自动销毁、析构函数的作用以及各种魔术方法的具体应用场景。 ... [详细]
  • 在2019中国国际智能产业博览会上,百度董事长兼CEO李彦宏强调,人工智能应务实推进其在各行业的应用。随后,在“ABC SUMMIT 2019百度云智峰会”上,百度展示了通过“云+AI”推动AI工业化和产业智能化的最新成果。 ... [详细]
  • 独家解析:深度学习泛化理论的破解之道与应用前景
    本文深入探讨了深度学习泛化理论的关键问题,通过分析现有研究和实践经验,揭示了泛化性能背后的核心机制。文章详细解析了泛化能力的影响因素,并提出了改进模型泛化性能的有效策略。此外,还展望了这些理论在实际应用中的广阔前景,为未来的研究和开发提供了宝贵的参考。 ... [详细]
  • POJ 2482 星空中的星星:利用线段树与扫描线算法解决
    在《POJ 2482 星空中的星星》问题中,通过运用线段树和扫描线算法,可以高效地解决星星在窗口内的计数问题。该方法不仅能够快速处理大规模数据,还能确保时间复杂度的最优性,适用于各种复杂的星空模拟场景。 ... [详细]
  • 本文将继续探讨 JavaScript 函数式编程的高级技巧及其实际应用。通过一个具体的寻路算法示例,我们将深入分析如何利用函数式编程的思想解决复杂问题。示例中,节点之间的连线代表路径,连线上的数字表示两点间的距离。我们将详细讲解如何通过递归和高阶函数等技术实现高效的寻路算法。 ... [详细]
  • Cosmos生态系统为何迅速崛起,波卡作为跨链巨头应如何应对挑战?
    Cosmos生态系统为何迅速崛起,波卡作为跨链巨头应如何应对挑战? ... [详细]
  • 本文介绍了UUID(通用唯一标识符)的概念及其在JavaScript中生成Java兼容UUID的代码实现与优化技巧。UUID是一个128位的唯一标识符,广泛应用于分布式系统中以确保唯一性。文章详细探讨了如何利用JavaScript生成符合Java标准的UUID,并提供了多种优化方法,以提高生成效率和兼容性。 ... [详细]
  • 如何高效启动大数据应用之旅?
    在前一篇文章中,我探讨了大数据的定义及其与数据挖掘的区别。本文将重点介绍如何高效启动大数据应用项目,涵盖关键步骤和最佳实践,帮助读者快速踏上大数据之旅。 ... [详细]
  • 本文深入探讨了 hCalendar 微格式在事件与时间、地点相关活动标记中的应用。作为微格式系列文章的第四篇,前文已分别介绍了 rel 属性用于定义链接关系、XFN 微格式增强链接的人际关系描述以及 hCard 微格式对个人和组织信息的描述。本次将重点解析 hCalendar 如何通过结构化数据标记,提高事件信息的可读性和互操作性。 ... [详细]
  • 探索聚类分析中的K-Means与DBSCAN算法及其应用
    聚类分析是一种用于解决样本或特征分类问题的统计分析方法,也是数据挖掘领域的重要算法之一。本文主要探讨了K-Means和DBSCAN两种聚类算法的原理及其应用场景。K-Means算法通过迭代优化簇中心来实现数据点的划分,适用于球形分布的数据集;而DBSCAN算法则基于密度进行聚类,能够有效识别任意形状的簇,并且对噪声数据具有较好的鲁棒性。通过对这两种算法的对比分析,本文旨在为实际应用中选择合适的聚类方法提供参考。 ... [详细]
author-avatar
你的美我chase
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有