热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

大数据10大发展趋势,大数据在管理方面的应用

大数据时代数据管理方式研究1数据管理技术的回顾数据管理技术主要经历了人工管理阶段、文件系统阶段和数据库系统阶段。随着数据应用领域的不断扩展,数据管理所处的环境也越来越复杂


大数据时代的数据管理方式研究


1数据管理技术评述


数据管理技术主要经历了人工管理阶段、文件系统阶段、数据库系统阶段。 随着数据应用领域的不断扩大,数据管理的环境也越来越复杂,目前广泛流行的数据库技术开始暴露出许多弱点,也面临着许多新的课题。


1.1人工管理阶段


20世纪50年代中期,计算机主要用于科学计算。 当时没有磁盘等直接存取设备,只有纸带、卡、磁带等外部存储器,也没有管理操作系统和数据的专用软件。 它具有不存储此阶段管理的数据、APP应用程序管理数据、数据不共享、数据不独立等特点。


1.2文件系统阶段


20世纪50年代后期至20世纪60年代中期,随着计算机软硬件的发展,磁盘、磁鼓等直接存取设备开始普及。 这一时期的数据处理系统是将计算机内的数据组织成相互独立命名的数据文件,按文件名称访问,可以访问文件内记录的数据管理技术。 数据可以长期存储在计算机的外部存储器中,支持重复处理数据,支持文件查询、修改、插入、删除等操作。 由于该数据面向特定的APP应用,数据共享性、独立性差,冗馀性高,管理和维护成本也大。


1.3数据库阶段


20世纪60年代后期以后,计算机的性能进一步提高,更重要的是出现了大容量磁盘,存储容量大幅增加,价格下降。 在此基础上,可以克服文件系统在管理数据方面的不足,满足并解决实际APP应用程序中多用户、多APP应用程序共享数据的要求,使数据服务于尽可能多的APP应用程序。 出现了数据库这样的数据管理技术。 数据库的特点是不仅仅针对某个特定的APP应用,而是面向整个组织,具有整体结构性,共享性高,冗余减少,具有一定的程序和数据之间的独立性,并且统一控制数据。


2大数据时代的数据管理技术


大数据(big data )或海量数据是指大到无法在合理的时间内,使用当今主流的软件工具获取、管理、处理和组织更积极的信息,以帮助企业做出经营决策的数据大数据有三个v,一个是海量化,数据量持续快速增长,从TB级上升到PB级; 二是多样化(Variety ),数据类型多样化,结构化数据已被视为小菜一碟,图像、音频、视频等非结构化数据以传统结构化数据的两倍速度快速制作。 三是高速化(Velocity )。 如果数据生成速度快,则也需要高速的处理能力。 因此,“一秒法则”应运而生。 也就是说,一般在秒单位的时间范围内得出分析结果,时间过长则没有价值。 这种速度要求是大数据处理技术与传统数据挖掘技术的最大区别。


2.1关系数据库(RDBMS )


20世纪70年代初,IBM工程师Codd发表了著名论文《arelationalmodelofdataforlargeshareddatabanks》,标志着关系数据库时代的到来。 关系数据库的理论基础是关系模型,它采用集合代数等数学概念和方法处理数据库中的数据,现实世界中实体和实体之间的联系容易用关系模型表示。 凭借易于理解的模型、易于掌握的查询语言、高效的优化程序以及成熟的技术和产品,关系数据库占据了数据库市场的绝对控制权。 随着互联网web2.0网站的兴起,半结构化和非结构化数据大量出现,传统的关系数据库是web2.0网站,特别是超大规模、高并发的SNS (统称Social Networking Services,即社交网络服务)


2.2 noSQL数据库


适应时代发展的需要noSQL数据库技术应运而生。 其主要特点是采用与关系模型不同的数据模型。 目前热门的noSQL数据库系统可以说是蓬勃发展、异军突起。 许多公司都热情支持。 例如,谷歌公司提出的Big Table、MapReduce和IBM公司提出的Lotus Notes等。 任何公司的noSQL数据库都围绕着大数据的3个v,目的是解决大数据的3个v问题。 因此,在设计noSQL时,经常考虑以下原则。 首先,采用横向扩展方式,通过并行处理技术对数据进行分割并行处理,获得高速读写速度; 其次,解决了数据类型从以结构化数据为主转变为结构化、半结构化、非结构化三者融合的问题,再次缓解ACID对数据一致性的约束,允许数据暂时不匹配,接受最终一致性; 最后,备份各分区数据,应对节点失败等情况。


对数据的应用可以分为分析型应用和操作型对应

用,分析型应用主要是指对大量数据进行分类、聚集、汇总,最后获得数据量相对小的分析结果;操作型应用主要是指对数据进行增加、删除、修改和查询以及简单的汇总操作,涉及的数据量一般比较少,事务执行时间一般比较短。目前数据库可分为关系数据库和 noSQL数据库,根据数据应用的要求,再结合目前数据库的种类,所以目前数据库管理方式主要有以下 4 类。
    (1)面向操作型的关系数据库技术。
    首先,传统数据库厂商提供的基于行存储的关系数据库系统,如 DB2、Oracle、SQL Server 等,以其高度的一致性、精确性、系统可恢复性,在事务处理方面仍然是核心引擎。其次,面向实时计算的内存数据库系统,如 phdpw、Timesten、Altibase 等通过把对数据并发控制、查询和恢复等操作控制在内存内部进行,所以获得了非常高的性能,在很多特定领域如电信、证券、网管等得到普遍应用。另外,以 VoltDB、Clustrix 和NuoDB 为代表的 new SQL 宣称能够在保持 ACDI 特性的同时提高了事务处理性能 50 倍 ~60 倍。
    (2)面向分析型的关系数据库技术。
    首先,TeraData 是数据仓库领域的领头羊,Teradata 在整体上是按 Shared Nothing 架构体系进行组织的,定位就是大型数据仓库系统,支持较高的扩展性。其次,面向分析型应用,列存储数据库的研究形成了另一个重要的潮流。列存储数据库以其高效的压缩、更高的 I/O 效率等特点,在分析型应用领域获得了比行存储数据库高得多的性能。如:MonetDB 和 Vertica是一个典型的基于列存储技术的数据库系统。
    (3)面向操作型的 noSQL 技术。
    有些操作型应用不受 ACID 高度一致性约束,但对大数据处理需要处理的数据量非常大,对速度性能要求也非常高,这样就必须依靠大规模集群的并行处理能力来实现数据处理,弱一致性或最终一致性就可以了。这时,操作型 noSQL数据库的优点就可以发挥的淋漓尽致了。如,Hbase 一天就可以有超过 200 亿个到达硬盘的读写操作,实现对大数据的处理。另外,noSQL数据库是一个数据模型灵活、支持多样数据类型,如对图数据建模、存储和分析,其性能、扩展性是关系数据库无法比拟的。
    (4)面向分析型的 noSQL 技术。
    面向分析型应用的 noSQL 技术主要依赖于Hadoop 分布式计算平台,Hadoop 是一个分布式计算平台,以 HDFS 和 Map Reduce 为用户提供系统底层细节透明的分布式基础架构。《Hadoop 经典实践染技巧》传统的数据库厂商 Microsoft,Oracle,SAS,IBM 等纷纷转向 Hadoop 的研究,如微软公司关闭 Dryad 系统,全力投入 Map Reduce 的研发,Oracle 在 2011 年下半年发布 Big Plan 战略计划,全面进军大数据处理领域,IBM 则早已捷足先登“,沃森(Watson)”计算机就是基于 Hadoop 技术开发的产物,同时 IBM 发布了 BigInsights 计划,基于 Hadoop,Netezza 和 SPSS(统计分析、数据挖掘软件)等技术和产品构建大数据分析处理的技术框架。同时也涌现出一批新公司来研究Hadoop 技术,如 Cloudera、MapRKarmashpere 等。
   3数据管理方式的展望
    通过以上分析,可以看出关系数据库的 ACID 强调数据一致性通常指关联数据之间的逻辑关系是否正确和完整,而对于很多互联网应用来说,对这一致性和隔离性的要求可以降低,而可用性的要求则更为明显,此时就可以采用 noSQL 的两种弱一致性的理论 BASE 和 CAP.关系数据库和 noSQL数据库并不是想到对立的矛盾体,而是可以相互补充的,根据不同需求使用不同的技术,甚至二者可以共同存在,互不影响。最近几年,以 Spanner 为代表新型数据库的出现,给数据库领域注入新鲜血液,这就是融合了一致性和可用性的 newSQL,这种新型思维方式或许会是未来大数据处理方式的发展方向。
   4 结束语
    随着云计算、物联网等的发展,数据呈现爆炸式的增长,人们正被数据洪流所包围,大数据的时代已经到来。正确利用大数据给人们的生活带来了极大的便利,但与此同时也给传统的数据管理方式带来了极大的挑战。


 

转载于:https://www.cnblogs.com/amengduo/p/9586640.html


推荐阅读
  • 从0到1搭建大数据平台
    从0到1搭建大数据平台 ... [详细]
  • 本文深入探讨了NoSQL数据库的四大主要类型:键值对存储、文档存储、列式存储和图数据库。NoSQL(Not Only SQL)是指一系列非关系型数据库系统,它们不依赖于固定模式的数据存储方式,能够灵活处理大规模、高并发的数据需求。键值对存储适用于简单的数据结构;文档存储支持复杂的数据对象;列式存储优化了大数据量的读写性能;而图数据库则擅长处理复杂的关系网络。每种类型的NoSQL数据库都有其独特的优势和应用场景,本文将详细分析它们的特点及应用实例。 ... [详细]
  • NoSQL数据库,即非关系型数据库,有时也被称作Not Only SQL,是一种区别于传统关系型数据库的管理系统。这类数据库设计用于处理大规模、高并发的数据存储与查询需求,特别适用于需要快速读写大量非结构化或半结构化数据的应用场景。NoSQL数据库通过牺牲部分一致性来换取更高的可扩展性和性能,支持分布式部署,能够有效应对互联网时代的海量数据挑战。 ... [详细]
  • 第二章:Kafka基础入门与核心概念解析
    本章节主要介绍了Kafka的基本概念及其核心特性。Kafka是一种分布式消息发布和订阅系统,以其卓越的性能和高吞吐量而著称。最初,Kafka被设计用于LinkedIn的活动流和运营数据处理,旨在高效地管理和传输大规模的数据流。这些数据主要包括用户活动记录、系统日志和其他实时信息。通过深入解析Kafka的设计原理和应用场景,读者将能够更好地理解其在现代大数据架构中的重要地位。 ... [详细]
  • 在搭建Hadoop集群以处理大规模数据存储和频繁读取需求的过程中,经常会遇到各种配置难题。本文总结了作者在实际部署中遇到的典型问题,并提供了详细的解决方案,帮助读者避免常见的配置陷阱。通过这些经验分享,希望读者能够更加顺利地完成Hadoop集群的搭建和配置。 ... [详细]
  • Linux学习精华:程序管理、终端种类与命令帮助获取方法综述 ... [详细]
  • Hadoop的分布式架构改进与应用
    nsitionalENhttp:www.w3.orgTRxhtml1DTDxhtml1-transitional.dtd ... [详细]
  • Spark与HBase结合处理大规模流量数据结构设计
    本文将详细介绍如何利用Spark和HBase进行大规模流量数据的分析与处理,包括数据结构的设计和优化方法。 ... [详细]
  • oracle c3p0 dword 60,web_day10 dbcp c3p0 dbutils
    createdatabasemydbcharactersetutf8;alertdatabasemydbcharactersetutf8;1.自定义连接池为了不去经常创建连接和释放 ... [详细]
  • 在Linux系统中避免安装MySQL的简易指南
    在Linux系统中避免安装MySQL的简易指南 ... [详细]
  • 在前一篇文章《Hadoop》系列之“踽踽独行”(二)中,我们详细探讨了云计算的核心概念。本章将重点转向物联网技术,全面解析其基本原理、应用场景及未来发展前景。通过深入分析物联网的架构和技术栈,我们将揭示其在智能城市、工业自动化和智能家居等领域的广泛应用潜力。此外,还将讨论物联网面临的挑战,如数据安全和隐私保护等问题,并展望其在未来技术融合中的重要角色。 ... [详细]
  • Python与R语言在功能和应用场景上各有优势。尽管R语言在统计分析和数据可视化方面具有更强的专业性,但Python作为一种通用编程语言,适用于更广泛的领域,包括Web开发、自动化脚本和机器学习等。对于初学者而言,Python的学习曲线更为平缓,上手更加容易。此外,Python拥有庞大的社区支持和丰富的第三方库,使其在实际应用中更具灵活性和扩展性。 ... [详细]
  • HBase在金融大数据迁移中的应用与挑战
    随着最后一台设备的下线,标志着超过10PB的HBase数据迁移项目顺利完成。目前,新的集群已在新机房稳定运行超过两个月,监控数据显示,新集群的查询响应时间显著降低,系统稳定性大幅提升。此外,数据消费的波动也变得更加平滑,整体性能得到了显著优化。 ... [详细]
  • 本文详细介绍了HDFS的基础知识及其数据读写机制。首先,文章阐述了HDFS的架构,包括其核心组件及其角色和功能。特别地,对NameNode进行了深入解析,指出其主要负责在内存中存储元数据、目录结构以及文件块的映射关系,并通过持久化方案确保数据的可靠性和高可用性。此外,还探讨了DataNode的角色及其在数据存储和读取过程中的关键作用。 ... [详细]
  • Phoenix 使用体验分享与深度解析
    闲来无事看了下hbase方面的东西,发现还好理解不过不大习惯于是找到个phoenix感觉不错性能指标如下好像还不错了准备工作:启动hadoop集群启动zookkeeper启动hba ... [详细]
author-avatar
塑料调色cz
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有