作者:塑料调色cz | 来源:互联网 | 2023-08-26 12:54
大数据时代数据管理方式研究1数据管理技术的回顾数据管理技术主要经历了人工管理阶段、文件系统阶段和数据库系统阶段。随着数据应用领域的不断扩展,数据管理所处的环境也越来越复杂
大数据时代的数据管理方式研究
1数据管理技术评述
数据管理技术主要经历了人工管理阶段、文件系统阶段、数据库系统阶段。 随着数据应用领域的不断扩大,数据管理的环境也越来越复杂,目前广泛流行的数据库技术开始暴露出许多弱点,也面临着许多新的课题。
1.1人工管理阶段
20世纪50年代中期,计算机主要用于科学计算。 当时没有磁盘等直接存取设备,只有纸带、卡、磁带等外部存储器,也没有管理操作系统和数据的专用软件。 它具有不存储此阶段管理的数据、APP应用程序管理数据、数据不共享、数据不独立等特点。
1.2文件系统阶段
20世纪50年代后期至20世纪60年代中期,随着计算机软硬件的发展,磁盘、磁鼓等直接存取设备开始普及。 这一时期的数据处理系统是将计算机内的数据组织成相互独立命名的数据文件,按文件名称访问,可以访问文件内记录的数据管理技术。 数据可以长期存储在计算机的外部存储器中,支持重复处理数据,支持文件查询、修改、插入、删除等操作。 由于该数据面向特定的APP应用,数据共享性、独立性差,冗馀性高,管理和维护成本也大。
1.3数据库阶段
20世纪60年代后期以后,计算机的性能进一步提高,更重要的是出现了大容量磁盘,存储容量大幅增加,价格下降。 在此基础上,可以克服文件系统在管理数据方面的不足,满足并解决实际APP应用程序中多用户、多APP应用程序共享数据的要求,使数据服务于尽可能多的APP应用程序。 出现了数据库这样的数据管理技术。 数据库的特点是不仅仅针对某个特定的APP应用,而是面向整个组织,具有整体结构性,共享性高,冗余减少,具有一定的程序和数据之间的独立性,并且统一控制数据。
2大数据时代的数据管理技术
大数据(big data )或海量数据是指大到无法在合理的时间内,使用当今主流的软件工具获取、管理、处理和组织更积极的信息,以帮助企业做出经营决策的数据大数据有三个v,一个是海量化,数据量持续快速增长,从TB级上升到PB级; 二是多样化(Variety ),数据类型多样化,结构化数据已被视为小菜一碟,图像、音频、视频等非结构化数据以传统结构化数据的两倍速度快速制作。 三是高速化(Velocity )。 如果数据生成速度快,则也需要高速的处理能力。 因此,“一秒法则”应运而生。 也就是说,一般在秒单位的时间范围内得出分析结果,时间过长则没有价值。 这种速度要求是大数据处理技术与传统数据挖掘技术的最大区别。
2.1关系数据库(RDBMS )
20世纪70年代初,IBM工程师Codd发表了著名论文《arelationalmodelofdataforlargeshareddatabanks》,标志着关系数据库时代的到来。 关系数据库的理论基础是关系模型,它采用集合代数等数学概念和方法处理数据库中的数据,现实世界中实体和实体之间的联系容易用关系模型表示。 凭借易于理解的模型、易于掌握的查询语言、高效的优化程序以及成熟的技术和产品,关系数据库占据了数据库市场的绝对控制权。 随着互联网web2.0网站的兴起,半结构化和非结构化数据大量出现,传统的关系数据库是web2.0网站,特别是超大规模、高并发的SNS (统称Social Networking Services,即社交网络服务)
2.2 noSQL数据库
适应时代发展的需要noSQL数据库技术应运而生。 其主要特点是采用与关系模型不同的数据模型。 目前热门的noSQL数据库系统可以说是蓬勃发展、异军突起。 许多公司都热情支持。 例如,谷歌公司提出的Big Table、MapReduce和IBM公司提出的Lotus Notes等。 任何公司的noSQL数据库都围绕着大数据的3个v,目的是解决大数据的3个v问题。 因此,在设计noSQL时,经常考虑以下原则。 首先,采用横向扩展方式,通过并行处理技术对数据进行分割并行处理,获得高速读写速度; 其次,解决了数据类型从以结构化数据为主转变为结构化、半结构化、非结构化三者融合的问题,再次缓解ACID对数据一致性的约束,允许数据暂时不匹配,接受最终一致性; 最后,备份各分区数据,应对节点失败等情况。
对数据的应用可以分为分析型应用和操作型对应
用,分析型应用主要是指对大量数据进行分类、聚集、汇总,最后获得数据量相对小的分析结果;操作型应用主要是指对数据进行增加、删除、修改和查询以及简单的汇总操作,涉及的数据量一般比较少,事务执行时间一般比较短。目前数据库可分为关系数据库和 noSQL数据库,根据数据应用的要求,再结合目前数据库的种类,所以目前数据库管理方式主要有以下 4 类。
(1)面向操作型的关系数据库技术。
首先,传统数据库厂商提供的基于行存储的关系数据库系统,如 DB2、Oracle、SQL Server 等,以其高度的一致性、精确性、系统可恢复性,在事务处理方面仍然是核心引擎。其次,面向实时计算的内存数据库系统,如 phdpw、Timesten、Altibase 等通过把对数据并发控制、查询和恢复等操作控制在内存内部进行,所以获得了非常高的性能,在很多特定领域如电信、证券、网管等得到普遍应用。另外,以 VoltDB、Clustrix 和NuoDB 为代表的 new SQL 宣称能够在保持 ACDI 特性的同时提高了事务处理性能 50 倍 ~60 倍。
(2)面向分析型的关系数据库技术。
首先,TeraData 是数据仓库领域的领头羊,Teradata 在整体上是按 Shared Nothing 架构体系进行组织的,定位就是大型数据仓库系统,支持较高的扩展性。其次,面向分析型应用,列存储数据库的研究形成了另一个重要的潮流。列存储数据库以其高效的压缩、更高的 I/O 效率等特点,在分析型应用领域获得了比行存储数据库高得多的性能。如:MonetDB 和 Vertica是一个典型的基于列存储技术的数据库系统。
(3)面向操作型的 noSQL 技术。
有些操作型应用不受 ACID 高度一致性约束,但对大数据处理需要处理的数据量非常大,对速度性能要求也非常高,这样就必须依靠大规模集群的并行处理能力来实现数据处理,弱一致性或最终一致性就可以了。这时,操作型 noSQL数据库的优点就可以发挥的淋漓尽致了。如,Hbase 一天就可以有超过 200 亿个到达硬盘的读写操作,实现对大数据的处理。另外,noSQL数据库是一个数据模型灵活、支持多样数据类型,如对图数据建模、存储和分析,其性能、扩展性是关系数据库无法比拟的。
(4)面向分析型的 noSQL 技术。
面向分析型应用的 noSQL 技术主要依赖于Hadoop 分布式计算平台,Hadoop 是一个分布式计算平台,以 HDFS 和 Map Reduce 为用户提供系统底层细节透明的分布式基础架构。《Hadoop 经典实践染技巧》传统的数据库厂商 Microsoft,Oracle,SAS,IBM 等纷纷转向 Hadoop 的研究,如微软公司关闭 Dryad 系统,全力投入 Map Reduce 的研发,Oracle 在 2011 年下半年发布 Big Plan 战略计划,全面进军大数据处理领域,IBM 则早已捷足先登“,沃森(Watson)”计算机就是基于 Hadoop 技术开发的产物,同时 IBM 发布了 BigInsights 计划,基于 Hadoop,Netezza 和 SPSS(统计分析、数据挖掘软件)等技术和产品构建大数据分析处理的技术框架。同时也涌现出一批新公司来研究Hadoop 技术,如 Cloudera、MapRKarmashpere 等。
3数据管理方式的展望
通过以上分析,可以看出关系数据库的 ACID 强调数据一致性通常指关联数据之间的逻辑关系是否正确和完整,而对于很多互联网应用来说,对这一致性和隔离性的要求可以降低,而可用性的要求则更为明显,此时就可以采用 noSQL 的两种弱一致性的理论 BASE 和 CAP.关系数据库和 noSQL数据库并不是想到对立的矛盾体,而是可以相互补充的,根据不同需求使用不同的技术,甚至二者可以共同存在,互不影响。最近几年,以 Spanner 为代表新型数据库的出现,给数据库领域注入新鲜血液,这就是融合了一致性和可用性的 newSQL,这种新型思维方式或许会是未来大数据处理方式的发展方向。
4 结束语
随着云计算、物联网等的发展,数据呈现爆炸式的增长,人们正被数据洪流所包围,大数据的时代已经到来。正确利用大数据给人们的生活带来了极大的便利,但与此同时也给传统的数据管理方式带来了极大的挑战。
转载于:https://www.cnblogs.com/amengduo/p/9586640.html