首先大数据与DBA完全不是一回事。
传统意义上的DBA就是某个数据库的管理员。但现在的所谓大数据是一种应用系统。这种系统多数基于hadoop,使用java开发的,在linux之上运行。工作主要是应用开源代码做开发。
所以这不是相同的东西。现在有一种风气,就好像是个应用系统都得用hadoop、hbase来做数据库存取。如果不用hadoop存数据就不成其为应用系统了。这就是一个赶热门,一股风而已。等你真证明白了hadoop到底是什么,到底怎么工作,到底怎么个原理,你就明白我说的是怎么回事了。但现在风气的洪流就这样,我们就算知道真理也没法逆转这洪流。就这么样吧,会有消停的一天。
你的意思 当今 的 大数据 就是一种泡沫?
也可以这么说。
因为所谓的大数据系统的应用领域决定了它不是有多大的应用范围,更多的业务处理系统用它就是没必要。就算有决策支持系统,但试问到底是决策支持系统多,还是业务处理系统多。而且很多决策分析是基于关系数据的。或者说是基于关系数据与非关系数据的混合。所谓大数据其实其性能是基于集群的负载均衡。但试问就算关系数据库如果用上虚拟机大集群,其性能就不会提高吗?这是明显的。你文件系统可以,人家关系数据库也可以。就是堆机器呗!只不过应用用场景不同而已。不可否认在非关系数据的情况下,基于hadoop的系统很出色,但这不能抹杀关系数据库在相关领域的功绩和成就特长。目前这股新鲜的风潮矫枉过正。等退潮之后,就会看到狼藉了。
首先大数据与DBA完全不是一回事。
传统意义上的DBA就是某个数据库的管理员。但现在的所谓大数据是一种应用系统。这种系统多数基于hadoop,使用java开发的,在linux之上运行。工作主要是应用开源代码做开发。
所以这不是相同的东西。现在有一种风气,就好像是个应用系统都得用hadoop、hbase来做数据库存取。如果不用hadoop存数据就不成其为应用系统了。这就是一个赶热门,一股风而已。等你真证明白了hadoop到底是什么,到底怎么工作,到底怎么个原理,你就明白我说的是怎么回事了。但现在风气的洪流就这样,我们就算知道真理也没法逆转这洪流。就这么样吧,会有消停的一天。
你的意思 当今 的 大数据 就是一种泡沫?
也可以这么说。
因为所谓的大数据系统的应用领域决定了它不是有多大的应用范围,更多的业务处理系统用它就是没必要。就算有决策支持系统,但试问到底是决策支持系统多,还是业务处理系统多。而且很多决策分析是基于关系数据的。或者说是基于关系数据与非关系数据的混合。所谓大数据其实其性能是基于集群的负载均衡。但试问就算关系数据库如果用上虚拟机大集群,其性能就不会提高吗?这是明显的。你文件系统可以,人家关系数据库也可以。就是堆机器呗!只不过应用用场景不同而已。不可否认在非关系数据的情况下,基于hadoop的系统很出色,但这不能抹杀关系数据库在相关领域的功绩和成就特长。目前这股新鲜的风潮矫枉过正。等退潮之后,就会看到狼藉了。
首先大数据与DBA完全不是一回事。
传统意义上的DBA就是某个数据库的管理员。但现在的所谓大数据是一种应用系统。这种系统多数基于hadoop,使用java开发的,在linux之上运行。工作主要是应用开源代码做开发。
所以这不是相同的东西。现在有一种风气,就好像是个应用系统都得用hadoop、hbase来做数据库存取。如果不用hadoop存数据就不成其为应用系统了。这就是一个赶热门,一股风而已。等你真证明白了hadoop到底是什么,到底怎么工作,到底怎么个原理,你就明白我说的是怎么回事了。但现在风气的洪流就这样,我们就算知道真理也没法逆转这洪流。就这么样吧,会有消停的一天。
你的意思 当今 的 大数据 就是一种泡沫?
也可以这么说。
因为所谓的大数据系统的应用领域决定了它不是有多大的应用范围,更多的业务处理系统用它就是没必要。就算有决策支持系统,但试问到底是决策支持系统多,还是业务处理系统多。而且很多决策分析是基于关系数据的。或者说是基于关系数据与非关系数据的混合。所谓大数据其实其性能是基于集群的负载均衡。但试问就算关系数据库如果用上虚拟机大集群,其性能就不会提高吗?这是明显的。你文件系统可以,人家关系数据库也可以。就是堆机器呗!只不过应用用场景不同而已。不可否认在非关系数据的情况下,基于hadoop的系统很出色,但这不能抹杀关系数据库在相关领域的功绩和成就特长。目前这股新鲜的风潮矫枉过正。等退潮之后,就会看到狼藉了。
事实上,Hadoop与传统关系型数据库不是互斥,而是互补。某些可预见增量非常恐怖,但查询/排序属性单一的事实表、窄表,用KV型非关系数据库(如HBase)相比RDB更有优势。但查询、排序属性较多,数据模型需要多表关联的,RDB还是有优势。又或者一些存量历史数据或逻辑删除的数据需要归档,Hadoop具有传统数据库无法比拟的优势。或者生产与决策分析需要分离的场景,自然冷热数据隔离。不是说刚起步的业务系统就不能用Hadoop,也不是庞大系统就非Hadoop不可,根据实际业务需求制定选型才是硬道理。
首先大数据与DBA完全不是一回事。
传统意义上的DBA就是某个数据库的管理员。但现在的所谓大数据是一种应用系统。这种系统多数基于hadoop,使用java开发的,在linux之上运行。工作主要是应用开源代码做开发。
所以这不是相同的东西。现在有一种风气,就好像是个应用系统都得用hadoop、hbase来做数据库存取。如果不用hadoop存数据就不成其为应用系统了。这就是一个赶热门,一股风而已。等你真证明白了hadoop到底是什么,到底怎么工作,到底怎么个原理,你就明白我说的是怎么回事了。但现在风气的洪流就这样,我们就算知道真理也没法逆转这洪流。就这么样吧,会有消停的一天。
你的意思 当今 的 大数据 就是一种泡沫?
也可以这么说。
因为所谓的大数据系统的应用领域决定了它不是有多大的应用范围,更多的业务处理系统用它就是没必要。就算有决策支持系统,但试问到底是决策支持系统多,还是业务处理系统多。而且很多决策分析是基于关系数据的。或者说是基于关系数据与非关系数据的混合。所谓大数据其实其性能是基于集群的负载均衡。但试问就算关系数据库如果用上虚拟机大集群,其性能就不会提高吗?这是明显的。你文件系统可以,人家关系数据库也可以。就是堆机器呗!只不过应用用场景不同而已。不可否认在非关系数据的情况下,基于hadoop的系统很出色,但这不能抹杀关系数据库在相关领域的功绩和成就特长。目前这股新鲜的风潮矫枉过正。等退潮之后,就会看到狼藉了。
事实上,Hadoop与传统关系型数据库不是互斥,而是互补。某些可预见增量非常恐怖,但查询/排序属性单一的事实表、窄表,用KV型非关系数据库(如HBase)相比RDB更有优势。但查询、排序属性较多,数据模型需要多表关联的,RDB还是有优势。又或者一些存量历史数据或逻辑删除的数据需要归档,Hadoop具有传统数据库无法比拟的优势。或者生产与决策分析需要分离的场景,自然冷热数据隔离。不是说刚起步的业务系统就不能用Hadoop,也不是庞大系统就非Hadoop不可,根据实际业务需求制定选型才是硬道理。
关键是hadoop系统其性能是依赖集群来实现的。也就是说单机性能很差。这一点与传统的RDBMS不一样。试问如果不考虑虚拟的话,对于一般性应用你觉得有多少可能会如此堆机器?明显不现实。就算用虚拟机,可羊毛出在羊身上,里外物理基础在那!所以,如果在非结构化数据领域应该还是很不错,但如果超出这个领域,其有多大的性价比就是一个问题了。
我不否认对于结构化数据与非结构化数据同时具备的需求领域,必然存在RDBMS与hadoop共用的场景。但放眼天下,到底哪种更多呢?现在很大数据系统都是用于互联网系统,因为互联网系统说到底就是网站,碎片化数据很多。这是应用的需求,但放眼天下,网站只是媒体的载体,信息化管理领域,相当多的还是管理系统。而且网站建设都考虑如何海量数据,但真的有多少网站真的火的。相对于更多的分母来说,分子太少。多数网站都不那么火才是事实。而如果网站不火,那数据又有多少?这hadoop系统又有多少是online飞奔的!如果多数都蔫了,那这hadoop又有多少市场了?
但是,有另一个问题。国内在RDBMS领域其实非常落后于国外,虽然自主产品有,但并不如何广泛应用,而且性能也差。基本上当用的RDBMS都掌握在国外厂商手里。但基于开源的hadoop系统的出现却极大地改变了这种局面。可以说从IT领域的国防安全角度,开源的hadoop系统很对路子。这倒是很可贵的。
首先大数据与DBA完全不是一回事。
传统意义上的DBA就是某个数据库的管理员。但现在的所谓大数据是一种应用系统。这种系统多数基于hadoop,使用java开发的,在linux之上运行。工作主要是应用开源代码做开发。
所以这不是相同的东西。现在有一种风气,就好像是个应用系统都得用hadoop、hbase来做数据库存取。如果不用hadoop存数据就不成其为应用系统了。这就是一个赶热门,一股风而已。等你真证明白了hadoop到底是什么,到底怎么工作,到底怎么个原理,你就明白我说的是怎么回事了。但现在风气的洪流就这样,我们就算知道真理也没法逆转这洪流。就这么样吧,会有消停的一天。
你的意思 当今 的 大数据 就是一种泡沫?
也可以这么说。
因为所谓的大数据系统的应用领域决定了它不是有多大的应用范围,更多的业务处理系统用它就是没必要。就算有决策支持系统,但试问到底是决策支持系统多,还是业务处理系统多。而且很多决策分析是基于关系数据的。或者说是基于关系数据与非关系数据的混合。所谓大数据其实其性能是基于集群的负载均衡。但试问就算关系数据库如果用上虚拟机大集群,其性能就不会提高吗?这是明显的。你文件系统可以,人家关系数据库也可以。就是堆机器呗!只不过应用用场景不同而已。不可否认在非关系数据的情况下,基于hadoop的系统很出色,但这不能抹杀关系数据库在相关领域的功绩和成就特长。目前这股新鲜的风潮矫枉过正。等退潮之后,就会看到狼藉了。
事实上,Hadoop与传统关系型数据库不是互斥,而是互补。某些可预见增量非常恐怖,但查询/排序属性单一的事实表、窄表,用KV型非关系数据库(如HBase)相比RDB更有优势。但查询、排序属性较多,数据模型需要多表关联的,RDB还是有优势。又或者一些存量历史数据或逻辑删除的数据需要归档,Hadoop具有传统数据库无法比拟的优势。或者生产与决策分析需要分离的场景,自然冷热数据隔离。不是说刚起步的业务系统就不能用Hadoop,也不是庞大系统就非Hadoop不可,根据实际业务需求制定选型才是硬道理。
关键是hadoop系统其性能是依赖集群来实现的。也就是说单机性能很差。这一点与传统的RDBMS不一样。试问如果不考虑虚拟的话,对于一般性应用你觉得有多少可能会如此堆机器?明显不现实。就算用虚拟机,可羊毛出在羊身上,里外物理基础在那!所以,如果在非结构化数据领域应该还是很不错,但如果超出这个领域,其有多大的性价比就是一个问题了。
我不否认对于结构化数据与非结构化数据同时具备的需求领域,必然存在RDBMS与hadoop共用的场景。但放眼天下,到底哪种更多呢?现在很大数据系统都是用于互联网系统,因为互联网系统说到底就是网站,碎片化数据很多。这是应用的需求,但放眼天下,网站只是媒体的载体,信息化管理领域,相当多的还是管理系统。而且网站建设都考虑如何海量数据,但真的有多少网站真的火的。相对于更多的分母来说,分子太少。多数网站都不那么火才是事实。而如果网站不火,那数据又有多少?这hadoop系统又有多少是online飞奔的!如果多数都蔫了,那这hadoop又有多少市场了?
但是,有另一个问题。国内在RDBMS领域其实非常落后于国外,虽然自主产品有,但并不如何广泛应用,而且性能也差。基本上当用的RDBMS都掌握在国外厂商手里。但基于开源的hadoop系统的出现却极大地改变了这种局面。可以说从IT领域的国防安全角度,开源的hadoop系统很对路子。这倒是很可贵的。
分布式不就是为了解决单机性能瓶颈而生的么?而且相对于传统RDBMS在负载压力高需要对机器的scale up,和分布式的scale out,从运维和成本的角度,哪个更合算?哦不要说什么主从同步读写分离,那是巨坑。而做分片,又和分布式数据的思想不谋而合了?而且如果一开始是单表无分片,后面迁移的成本?pinterest可是让十几名DBA连续奋战了好几个月,才把存量的单表分片分库。更何况HBase的分片完全是自动的呢?我前期可以投入2-3台服务器,1主N-1从。随着业务提升,只要加从节点就可以了。而MySQL则只存储某些维度表和关系表,真正巨量的事实表由更擅长抗海量数据的架构去做它该做的事,岂不美哉?
大数据之所以火,很大程度归功于移动互联网爆炸性增长,带来巨量的数据。而Hadoop生态就是解决如何在有限时间里快速完成传统RDB、BI无法解决的问题,并产生新的价值。正如阿里云的口号:为了无法计算的价值!
首先大数据与DBA完全不是一回事。
传统意义上的DBA就是某个数据库的管理员。但现在的所谓大数据是一种应用系统。这种系统多数基于hadoop,使用java开发的,在linux之上运行。工作主要是应用开源代码做开发。
所以这不是相同的东西。现在有一种风气,就好像是个应用系统都得用hadoop、hbase来做数据库存取。如果不用hadoop存数据就不成其为应用系统了。这就是一个赶热门,一股风而已。等你真证明白了hadoop到底是什么,到底怎么工作,到底怎么个原理,你就明白我说的是怎么回事了。但现在风气的洪流就这样,我们就算知道真理也没法逆转这洪流。就这么样吧,会有消停的一天。
首先大数据与DBA完全不是一回事。
传统意义上的DBA就是某个数据库的管理员。但现在的所谓大数据是一种应用系统。这种系统多数基于hadoop,使用java开发的,在linux之上运行。工作主要是应用开源代码做开发。
所以这不是相同的东西。现在有一种风气,就好像是个应用系统都得用hadoop、hbase来做数据库存取。如果不用hadoop存数据就不成其为应用系统了。这就是一个赶热门,一股风而已。等你真证明白了hadoop到底是什么,到底怎么工作,到底怎么个原理,你就明白我说的是怎么回事了。但现在风气的洪流就这样,我们就算知道真理也没法逆转这洪流。就这么样吧,会有消停的一天。
你的意思 当今 的 大数据 就是一种泡沫?
也可以这么说。
因为所谓的大数据系统的应用领域决定了它不是有多大的应用范围,更多的业务处理系统用它就是没必要。就算有决策支持系统,但试问到底是决策支持系统多,还是业务处理系统多。而且很多决策分析是基于关系数据的。或者说是基于关系数据与非关系数据的混合。所谓大数据其实其性能是基于集群的负载均衡。但试问就算关系数据库如果用上虚拟机大集群,其性能就不会提高吗?这是明显的。你文件系统可以,人家关系数据库也可以。就是堆机器呗!只不过应用用场景不同而已。不可否认在非关系数据的情况下,基于hadoop的系统很出色,但这不能抹杀关系数据库在相关领域的功绩和成就特长。目前这股新鲜的风潮矫枉过正。等退潮之后,就会看到狼藉了。
事实上,Hadoop与传统关系型数据库不是互斥,而是互补。某些可预见增量非常恐怖,但查询/排序属性单一的事实表、窄表,用KV型非关系数据库(如HBase)相比RDB更有优势。但查询、排序属性较多,数据模型需要多表关联的,RDB还是有优势。又或者一些存量历史数据或逻辑删除的数据需要归档,Hadoop具有传统数据库无法比拟的优势。或者生产与决策分析需要分离的场景,自然冷热数据隔离。不是说刚起步的业务系统就不能用Hadoop,也不是庞大系统就非Hadoop不可,根据实际业务需求制定选型才是硬道理。
关键是hadoop系统其性能是依赖集群来实现的。也就是说单机性能很差。这一点与传统的RDBMS不一样。试问如果不考虑虚拟的话,对于一般性应用你觉得有多少可能会如此堆机器?明显不现实。就算用虚拟机,可羊毛出在羊身上,里外物理基础在那!所以,如果在非结构化数据领域应该还是很不错,但如果超出这个领域,其有多大的性价比就是一个问题了。
我不否认对于结构化数据与非结构化数据同时具备的需求领域,必然存在RDBMS与hadoop共用的场景。但放眼天下,到底哪种更多呢?现在很大数据系统都是用于互联网系统,因为互联网系统说到底就是网站,碎片化数据很多。这是应用的需求,但放眼天下,网站只是媒体的载体,信息化管理领域,相当多的还是管理系统。而且网站建设都考虑如何海量数据,但真的有多少网站真的火的。相对于更多的分母来说,分子太少。多数网站都不那么火才是事实。而如果网站不火,那数据又有多少?这hadoop系统又有多少是online飞奔的!如果多数都蔫了,那这hadoop又有多少市场了?
但是,有另一个问题。国内在RDBMS领域其实非常落后于国外,虽然自主产品有,但并不如何广泛应用,而且性能也差。基本上当用的RDBMS都掌握在国外厂商手里。但基于开源的hadoop系统的出现却极大地改变了这种局面。可以说从IT领域的国防安全角度,开源的hadoop系统很对路子。这倒是很可贵的。
分布式不就是为了解决单机性能瓶颈而生的么?而且相对于传统RDBMS在负载压力高需要对机器的scale up,和分布式的scale out,从运维和成本的角度,哪个更合算?哦不要说什么主从同步读写分离,那是巨坑。而做分片,又和分布式数据的思想不谋而合了?而且如果一开始是单表无分片,后面迁移的成本?pinterest可是让十几名DBA连续奋战了好几个月,才把存量的单表分片分库。更何况HBase的分片完全是自动的呢?我前期可以投入2-3台服务器,1主N-1从。随着业务提升,只要加从节点就可以了。而MySQL则只存储某些维度表和关系表,真正巨量的事实表由更擅长抗海量数据的架构去做它该做的事,岂不美哉?
大数据之所以火,很大程度归功于移动互联网爆炸性增长,带来巨量的数据。而Hadoop生态就是解决如何在有限时间里快速完成传统RDB、BI无法解决的问题,并产生新的价值。正如阿里云的口号:为了无法计算的价值!
你说的是技术,我说的却不仅是技术。如果你是一个厂、矿、正傅单位的主管,你会选择哪个建设自己的信息系统呢?答案我想不言自明。移动互联网!:)真正火的网站有多少啊?建的时候都觉得自己能海量,天下有几个阿里京东?更多的还是分母。国内互联网的泡沫破灭从00年已经不止一次。退潮看裸泳的事还会有的。