热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

大数据,还是DBA?

本人现在不知道自己的职业该往哪个方向发展,求各路大神给点意见,在下感激不尽。现在市场大数据的缺口貌似比较大,而且是必然的发展趋势。DBA那块个人相对更感兴趣一些。
本人现在不知道自己的职业该往哪个方向发展,
求各路大神给点意见,在下感激不尽。
现在市场大数据的缺口貌似比较大,而且是必然的发展趋势。
DBA那块个人相对更感兴趣一些。

11 个解决方案

#1


首先大数据与DBA完全不是一回事。
传统意义上的DBA就是某个数据库的管理员。但现在的所谓大数据是一种应用系统。这种系统多数基于hadoop,使用java开发的,在linux之上运行。工作主要是应用开源代码做开发。

所以这不是相同的东西。现在有一种风气,就好像是个应用系统都得用hadoop、hbase来做数据库存取。如果不用hadoop存数据就不成其为应用系统了。这就是一个赶热门,一股风而已。等你真证明白了hadoop到底是什么,到底怎么工作,到底怎么个原理,你就明白我说的是怎么回事了。但现在风气的洪流就这样,我们就算知道真理也没法逆转这洪流。就这么样吧,会有消停的一天。

#2


引用 1 楼 cpx0971 的回复:
首先大数据与DBA完全不是一回事。
传统意义上的DBA就是某个数据库的管理员。但现在的所谓大数据是一种应用系统。这种系统多数基于hadoop,使用java开发的,在linux之上运行。工作主要是应用开源代码做开发。

所以这不是相同的东西。现在有一种风气,就好像是个应用系统都得用hadoop、hbase来做数据库存取。如果不用hadoop存数据就不成其为应用系统了。这就是一个赶热门,一股风而已。等你真证明白了hadoop到底是什么,到底怎么工作,到底怎么个原理,你就明白我说的是怎么回事了。但现在风气的洪流就这样,我们就算知道真理也没法逆转这洪流。就这么样吧,会有消停的一天。

你的意思  当今 的 大数据 就是一种泡沫?

#3


引用 2 楼 chenandczh 的回复:
Quote: 引用 1 楼 cpx0971 的回复:

首先大数据与DBA完全不是一回事。
传统意义上的DBA就是某个数据库的管理员。但现在的所谓大数据是一种应用系统。这种系统多数基于hadoop,使用java开发的,在linux之上运行。工作主要是应用开源代码做开发。

所以这不是相同的东西。现在有一种风气,就好像是个应用系统都得用hadoop、hbase来做数据库存取。如果不用hadoop存数据就不成其为应用系统了。这就是一个赶热门,一股风而已。等你真证明白了hadoop到底是什么,到底怎么工作,到底怎么个原理,你就明白我说的是怎么回事了。但现在风气的洪流就这样,我们就算知道真理也没法逆转这洪流。就这么样吧,会有消停的一天。

你的意思  当今 的 大数据 就是一种泡沫?


也可以这么说。
因为所谓的大数据系统的应用领域决定了它不是有多大的应用范围,更多的业务处理系统用它就是没必要。就算有决策支持系统,但试问到底是决策支持系统多,还是业务处理系统多。而且很多决策分析是基于关系数据的。或者说是基于关系数据与非关系数据的混合。所谓大数据其实其性能是基于集群的负载均衡。但试问就算关系数据库如果用上虚拟机大集群,其性能就不会提高吗?这是明显的。你文件系统可以,人家关系数据库也可以。就是堆机器呗!只不过应用用场景不同而已。不可否认在非关系数据的情况下,基于hadoop的系统很出色,但这不能抹杀关系数据库在相关领域的功绩和成就特长。目前这股新鲜的风潮矫枉过正。等退潮之后,就会看到狼藉了。

#4


引用 3 楼 cpx0971 的回复:
Quote: 引用 2 楼 chenandczh 的回复:

Quote: 引用 1 楼 cpx0971 的回复:

首先大数据与DBA完全不是一回事。
传统意义上的DBA就是某个数据库的管理员。但现在的所谓大数据是一种应用系统。这种系统多数基于hadoop,使用java开发的,在linux之上运行。工作主要是应用开源代码做开发。

所以这不是相同的东西。现在有一种风气,就好像是个应用系统都得用hadoop、hbase来做数据库存取。如果不用hadoop存数据就不成其为应用系统了。这就是一个赶热门,一股风而已。等你真证明白了hadoop到底是什么,到底怎么工作,到底怎么个原理,你就明白我说的是怎么回事了。但现在风气的洪流就这样,我们就算知道真理也没法逆转这洪流。就这么样吧,会有消停的一天。

你的意思  当今 的 大数据 就是一种泡沫?


也可以这么说。
因为所谓的大数据系统的应用领域决定了它不是有多大的应用范围,更多的业务处理系统用它就是没必要。就算有决策支持系统,但试问到底是决策支持系统多,还是业务处理系统多。而且很多决策分析是基于关系数据的。或者说是基于关系数据与非关系数据的混合。所谓大数据其实其性能是基于集群的负载均衡。但试问就算关系数据库如果用上虚拟机大集群,其性能就不会提高吗?这是明显的。你文件系统可以,人家关系数据库也可以。就是堆机器呗!只不过应用用场景不同而已。不可否认在非关系数据的情况下,基于hadoop的系统很出色,但这不能抹杀关系数据库在相关领域的功绩和成就特长。目前这股新鲜的风潮矫枉过正。等退潮之后,就会看到狼藉了。

毕竟蹭热点更容易忽悠投资人。老实做买卖还不如搞几页PPT来钱快

#5


引用 3 楼 cpx0971 的回复:
Quote: 引用 2 楼 chenandczh 的回复:

Quote: 引用 1 楼 cpx0971 的回复:

首先大数据与DBA完全不是一回事。
传统意义上的DBA就是某个数据库的管理员。但现在的所谓大数据是一种应用系统。这种系统多数基于hadoop,使用java开发的,在linux之上运行。工作主要是应用开源代码做开发。

所以这不是相同的东西。现在有一种风气,就好像是个应用系统都得用hadoop、hbase来做数据库存取。如果不用hadoop存数据就不成其为应用系统了。这就是一个赶热门,一股风而已。等你真证明白了hadoop到底是什么,到底怎么工作,到底怎么个原理,你就明白我说的是怎么回事了。但现在风气的洪流就这样,我们就算知道真理也没法逆转这洪流。就这么样吧,会有消停的一天。

你的意思  当今 的 大数据 就是一种泡沫?


也可以这么说。
因为所谓的大数据系统的应用领域决定了它不是有多大的应用范围,更多的业务处理系统用它就是没必要。就算有决策支持系统,但试问到底是决策支持系统多,还是业务处理系统多。而且很多决策分析是基于关系数据的。或者说是基于关系数据与非关系数据的混合。所谓大数据其实其性能是基于集群的负载均衡。但试问就算关系数据库如果用上虚拟机大集群,其性能就不会提高吗?这是明显的。你文件系统可以,人家关系数据库也可以。就是堆机器呗!只不过应用用场景不同而已。不可否认在非关系数据的情况下,基于hadoop的系统很出色,但这不能抹杀关系数据库在相关领域的功绩和成就特长。目前这股新鲜的风潮矫枉过正。等退潮之后,就会看到狼藉了。


事实上,Hadoop与传统关系型数据库不是互斥,而是互补。某些可预见增量非常恐怖,但查询/排序属性单一的事实表、窄表,用KV型非关系数据库(如HBase)相比RDB更有优势。但查询、排序属性较多,数据模型需要多表关联的,RDB还是有优势。又或者一些存量历史数据或逻辑删除的数据需要归档,Hadoop具有传统数据库无法比拟的优势。或者生产与决策分析需要分离的场景,自然冷热数据隔离。不是说刚起步的业务系统就不能用Hadoop,也不是庞大系统就非Hadoop不可,根据实际业务需求制定选型才是硬道理。

#6


引用 5 楼 link0007 的回复:
Quote: 引用 3 楼 cpx0971 的回复:

Quote: 引用 2 楼 chenandczh 的回复:

Quote: 引用 1 楼 cpx0971 的回复:

首先大数据与DBA完全不是一回事。
传统意义上的DBA就是某个数据库的管理员。但现在的所谓大数据是一种应用系统。这种系统多数基于hadoop,使用java开发的,在linux之上运行。工作主要是应用开源代码做开发。

所以这不是相同的东西。现在有一种风气,就好像是个应用系统都得用hadoop、hbase来做数据库存取。如果不用hadoop存数据就不成其为应用系统了。这就是一个赶热门,一股风而已。等你真证明白了hadoop到底是什么,到底怎么工作,到底怎么个原理,你就明白我说的是怎么回事了。但现在风气的洪流就这样,我们就算知道真理也没法逆转这洪流。就这么样吧,会有消停的一天。

你的意思  当今 的 大数据 就是一种泡沫?


也可以这么说。
因为所谓的大数据系统的应用领域决定了它不是有多大的应用范围,更多的业务处理系统用它就是没必要。就算有决策支持系统,但试问到底是决策支持系统多,还是业务处理系统多。而且很多决策分析是基于关系数据的。或者说是基于关系数据与非关系数据的混合。所谓大数据其实其性能是基于集群的负载均衡。但试问就算关系数据库如果用上虚拟机大集群,其性能就不会提高吗?这是明显的。你文件系统可以,人家关系数据库也可以。就是堆机器呗!只不过应用用场景不同而已。不可否认在非关系数据的情况下,基于hadoop的系统很出色,但这不能抹杀关系数据库在相关领域的功绩和成就特长。目前这股新鲜的风潮矫枉过正。等退潮之后,就会看到狼藉了。


事实上,Hadoop与传统关系型数据库不是互斥,而是互补。某些可预见增量非常恐怖,但查询/排序属性单一的事实表、窄表,用KV型非关系数据库(如HBase)相比RDB更有优势。但查询、排序属性较多,数据模型需要多表关联的,RDB还是有优势。又或者一些存量历史数据或逻辑删除的数据需要归档,Hadoop具有传统数据库无法比拟的优势。或者生产与决策分析需要分离的场景,自然冷热数据隔离。不是说刚起步的业务系统就不能用Hadoop,也不是庞大系统就非Hadoop不可,根据实际业务需求制定选型才是硬道理。


关键是hadoop系统其性能是依赖集群来实现的。也就是说单机性能很差。这一点与传统的RDBMS不一样。试问如果不考虑虚拟的话,对于一般性应用你觉得有多少可能会如此堆机器?明显不现实。就算用虚拟机,可羊毛出在羊身上,里外物理基础在那!所以,如果在非结构化数据领域应该还是很不错,但如果超出这个领域,其有多大的性价比就是一个问题了。
我不否认对于结构化数据与非结构化数据同时具备的需求领域,必然存在RDBMS与hadoop共用的场景。但放眼天下,到底哪种更多呢?现在很大数据系统都是用于互联网系统,因为互联网系统说到底就是网站,碎片化数据很多。这是应用的需求,但放眼天下,网站只是媒体的载体,信息化管理领域,相当多的还是管理系统。而且网站建设都考虑如何海量数据,但真的有多少网站真的火的。相对于更多的分母来说,分子太少。多数网站都不那么火才是事实。而如果网站不火,那数据又有多少?这hadoop系统又有多少是online飞奔的!如果多数都蔫了,那这hadoop又有多少市场了?
但是,有另一个问题。国内在RDBMS领域其实非常落后于国外,虽然自主产品有,但并不如何广泛应用,而且性能也差。基本上当用的RDBMS都掌握在国外厂商手里。但基于开源的hadoop系统的出现却极大地改变了这种局面。可以说从IT领域的国防安全角度,开源的hadoop系统很对路子。这倒是很可贵的。

#7


一个是开发岗,一个是管理岗,不是一回事吧

#8


引用 6 楼 cpx0971 的回复:
Quote: 引用 5 楼 link0007 的回复:

Quote: 引用 3 楼 cpx0971 的回复:

Quote: 引用 2 楼 chenandczh 的回复:

Quote: 引用 1 楼 cpx0971 的回复:

首先大数据与DBA完全不是一回事。
传统意义上的DBA就是某个数据库的管理员。但现在的所谓大数据是一种应用系统。这种系统多数基于hadoop,使用java开发的,在linux之上运行。工作主要是应用开源代码做开发。

所以这不是相同的东西。现在有一种风气,就好像是个应用系统都得用hadoop、hbase来做数据库存取。如果不用hadoop存数据就不成其为应用系统了。这就是一个赶热门,一股风而已。等你真证明白了hadoop到底是什么,到底怎么工作,到底怎么个原理,你就明白我说的是怎么回事了。但现在风气的洪流就这样,我们就算知道真理也没法逆转这洪流。就这么样吧,会有消停的一天。

你的意思  当今 的 大数据 就是一种泡沫?


也可以这么说。
因为所谓的大数据系统的应用领域决定了它不是有多大的应用范围,更多的业务处理系统用它就是没必要。就算有决策支持系统,但试问到底是决策支持系统多,还是业务处理系统多。而且很多决策分析是基于关系数据的。或者说是基于关系数据与非关系数据的混合。所谓大数据其实其性能是基于集群的负载均衡。但试问就算关系数据库如果用上虚拟机大集群,其性能就不会提高吗?这是明显的。你文件系统可以,人家关系数据库也可以。就是堆机器呗!只不过应用用场景不同而已。不可否认在非关系数据的情况下,基于hadoop的系统很出色,但这不能抹杀关系数据库在相关领域的功绩和成就特长。目前这股新鲜的风潮矫枉过正。等退潮之后,就会看到狼藉了。


事实上,Hadoop与传统关系型数据库不是互斥,而是互补。某些可预见增量非常恐怖,但查询/排序属性单一的事实表、窄表,用KV型非关系数据库(如HBase)相比RDB更有优势。但查询、排序属性较多,数据模型需要多表关联的,RDB还是有优势。又或者一些存量历史数据或逻辑删除的数据需要归档,Hadoop具有传统数据库无法比拟的优势。或者生产与决策分析需要分离的场景,自然冷热数据隔离。不是说刚起步的业务系统就不能用Hadoop,也不是庞大系统就非Hadoop不可,根据实际业务需求制定选型才是硬道理。


关键是hadoop系统其性能是依赖集群来实现的。也就是说单机性能很差。这一点与传统的RDBMS不一样。试问如果不考虑虚拟的话,对于一般性应用你觉得有多少可能会如此堆机器?明显不现实。就算用虚拟机,可羊毛出在羊身上,里外物理基础在那!所以,如果在非结构化数据领域应该还是很不错,但如果超出这个领域,其有多大的性价比就是一个问题了。
我不否认对于结构化数据与非结构化数据同时具备的需求领域,必然存在RDBMS与hadoop共用的场景。但放眼天下,到底哪种更多呢?现在很大数据系统都是用于互联网系统,因为互联网系统说到底就是网站,碎片化数据很多。这是应用的需求,但放眼天下,网站只是媒体的载体,信息化管理领域,相当多的还是管理系统。而且网站建设都考虑如何海量数据,但真的有多少网站真的火的。相对于更多的分母来说,分子太少。多数网站都不那么火才是事实。而如果网站不火,那数据又有多少?这hadoop系统又有多少是online飞奔的!如果多数都蔫了,那这hadoop又有多少市场了?
但是,有另一个问题。国内在RDBMS领域其实非常落后于国外,虽然自主产品有,但并不如何广泛应用,而且性能也差。基本上当用的RDBMS都掌握在国外厂商手里。但基于开源的hadoop系统的出现却极大地改变了这种局面。可以说从IT领域的国防安全角度,开源的hadoop系统很对路子。这倒是很可贵的。

分布式不就是为了解决单机性能瓶颈而生的么?而且相对于传统RDBMS在负载压力高需要对机器的scale up,和分布式的scale out,从运维和成本的角度,哪个更合算?哦不要说什么主从同步读写分离,那是巨坑。而做分片,又和分布式数据的思想不谋而合了?而且如果一开始是单表无分片,后面迁移的成本?pinterest可是让十几名DBA连续奋战了好几个月,才把存量的单表分片分库。更何况HBase的分片完全是自动的呢?我前期可以投入2-3台服务器,1主N-1从。随着业务提升,只要加从节点就可以了。而MySQL则只存储某些维度表和关系表,真正巨量的事实表由更擅长抗海量数据的架构去做它该做的事,岂不美哉?
大数据之所以火,很大程度归功于移动互联网爆炸性增长,带来巨量的数据。而Hadoop生态就是解决如何在有限时间里快速完成传统RDB、BI无法解决的问题,并产生新的价值。正如阿里云的口号:为了无法计算的价值!

#9


引用 8 楼 link0007 的回复:
Quote: 引用 6 楼 cpx0971 的回复:

Quote: 引用 5 楼 link0007 的回复:

Quote: 引用 3 楼 cpx0971 的回复:

Quote: 引用 2 楼 chenandczh 的回复:

Quote: 引用 1 楼 cpx0971 的回复:

首先大数据与DBA完全不是一回事。
传统意义上的DBA就是某个数据库的管理员。但现在的所谓大数据是一种应用系统。这种系统多数基于hadoop,使用java开发的,在linux之上运行。工作主要是应用开源代码做开发。

所以这不是相同的东西。现在有一种风气,就好像是个应用系统都得用hadoop、hbase来做数据库存取。如果不用hadoop存数据就不成其为应用系统了。这就是一个赶热门,一股风而已。等你真证明白了hadoop到底是什么,到底怎么工作,到底怎么个原理,你就明白我说的是怎么回事了。但现在风气的洪流就这样,我们就算知道真理也没法逆转这洪流。就这么样吧,会有消停的一天。

你的意思  当今 的 大数据 就是一种泡沫?


也可以这么说。
因为所谓的大数据系统的应用领域决定了它不是有多大的应用范围,更多的业务处理系统用它就是没必要。就算有决策支持系统,但试问到底是决策支持系统多,还是业务处理系统多。而且很多决策分析是基于关系数据的。或者说是基于关系数据与非关系数据的混合。所谓大数据其实其性能是基于集群的负载均衡。但试问就算关系数据库如果用上虚拟机大集群,其性能就不会提高吗?这是明显的。你文件系统可以,人家关系数据库也可以。就是堆机器呗!只不过应用用场景不同而已。不可否认在非关系数据的情况下,基于hadoop的系统很出色,但这不能抹杀关系数据库在相关领域的功绩和成就特长。目前这股新鲜的风潮矫枉过正。等退潮之后,就会看到狼藉了。


事实上,Hadoop与传统关系型数据库不是互斥,而是互补。某些可预见增量非常恐怖,但查询/排序属性单一的事实表、窄表,用KV型非关系数据库(如HBase)相比RDB更有优势。但查询、排序属性较多,数据模型需要多表关联的,RDB还是有优势。又或者一些存量历史数据或逻辑删除的数据需要归档,Hadoop具有传统数据库无法比拟的优势。或者生产与决策分析需要分离的场景,自然冷热数据隔离。不是说刚起步的业务系统就不能用Hadoop,也不是庞大系统就非Hadoop不可,根据实际业务需求制定选型才是硬道理。


关键是hadoop系统其性能是依赖集群来实现的。也就是说单机性能很差。这一点与传统的RDBMS不一样。试问如果不考虑虚拟的话,对于一般性应用你觉得有多少可能会如此堆机器?明显不现实。就算用虚拟机,可羊毛出在羊身上,里外物理基础在那!所以,如果在非结构化数据领域应该还是很不错,但如果超出这个领域,其有多大的性价比就是一个问题了。
我不否认对于结构化数据与非结构化数据同时具备的需求领域,必然存在RDBMS与hadoop共用的场景。但放眼天下,到底哪种更多呢?现在很大数据系统都是用于互联网系统,因为互联网系统说到底就是网站,碎片化数据很多。这是应用的需求,但放眼天下,网站只是媒体的载体,信息化管理领域,相当多的还是管理系统。而且网站建设都考虑如何海量数据,但真的有多少网站真的火的。相对于更多的分母来说,分子太少。多数网站都不那么火才是事实。而如果网站不火,那数据又有多少?这hadoop系统又有多少是online飞奔的!如果多数都蔫了,那这hadoop又有多少市场了?
但是,有另一个问题。国内在RDBMS领域其实非常落后于国外,虽然自主产品有,但并不如何广泛应用,而且性能也差。基本上当用的RDBMS都掌握在国外厂商手里。但基于开源的hadoop系统的出现却极大地改变了这种局面。可以说从IT领域的国防安全角度,开源的hadoop系统很对路子。这倒是很可贵的。

分布式不就是为了解决单机性能瓶颈而生的么?而且相对于传统RDBMS在负载压力高需要对机器的scale up,和分布式的scale out,从运维和成本的角度,哪个更合算?哦不要说什么主从同步读写分离,那是巨坑。而做分片,又和分布式数据的思想不谋而合了?而且如果一开始是单表无分片,后面迁移的成本?pinterest可是让十几名DBA连续奋战了好几个月,才把存量的单表分片分库。更何况HBase的分片完全是自动的呢?我前期可以投入2-3台服务器,1主N-1从。随着业务提升,只要加从节点就可以了。而MySQL则只存储某些维度表和关系表,真正巨量的事实表由更擅长抗海量数据的架构去做它该做的事,岂不美哉?
大数据之所以火,很大程度归功于移动互联网爆炸性增长,带来巨量的数据。而Hadoop生态就是解决如何在有限时间里快速完成传统RDB、BI无法解决的问题,并产生新的价值。正如阿里云的口号:为了无法计算的价值!


你说的是技术,我说的却不仅是技术。如果你是一个厂、矿、正傅单位的主管,你会选择哪个建设自己的信息系统呢?答案我想不言自明。移动互联网!:)真正火的网站有多少啊?建的时候都觉得自己能海量,天下有几个阿里京东?更多的还是分母。国内互联网的泡沫破灭从00年已经不止一次。退潮看裸泳的事还会有的。

#10


引用 1 楼 cpx0971 的回复:
首先大数据与DBA完全不是一回事。
传统意义上的DBA就是某个数据库的管理员。但现在的所谓大数据是一种应用系统。这种系统多数基于hadoop,使用java开发的,在linux之上运行。工作主要是应用开源代码做开发。

所以这不是相同的东西。现在有一种风气,就好像是个应用系统都得用hadoop、hbase来做数据库存取。如果不用hadoop存数据就不成其为应用系统了。这就是一个赶热门,一股风而已。等你真证明白了hadoop到底是什么,到底怎么工作,到底怎么个原理,你就明白我说的是怎么回事了。但现在风气的洪流就这样,我们就算知道真理也没法逆转这洪流。就这么样吧,会有消停的一天。



现在很多培训的就是hadoop系统的dba嘛23333

#11


引用 9 楼 cpx0971 的回复:
Quote: 引用 8 楼 link0007 的回复:

Quote: 引用 6 楼 cpx0971 的回复:

Quote: 引用 5 楼 link0007 的回复:

Quote: 引用 3 楼 cpx0971 的回复:

Quote: 引用 2 楼 chenandczh 的回复:

Quote: 引用 1 楼 cpx0971 的回复:

首先大数据与DBA完全不是一回事。
传统意义上的DBA就是某个数据库的管理员。但现在的所谓大数据是一种应用系统。这种系统多数基于hadoop,使用java开发的,在linux之上运行。工作主要是应用开源代码做开发。

所以这不是相同的东西。现在有一种风气,就好像是个应用系统都得用hadoop、hbase来做数据库存取。如果不用hadoop存数据就不成其为应用系统了。这就是一个赶热门,一股风而已。等你真证明白了hadoop到底是什么,到底怎么工作,到底怎么个原理,你就明白我说的是怎么回事了。但现在风气的洪流就这样,我们就算知道真理也没法逆转这洪流。就这么样吧,会有消停的一天。

你的意思  当今 的 大数据 就是一种泡沫?


也可以这么说。
因为所谓的大数据系统的应用领域决定了它不是有多大的应用范围,更多的业务处理系统用它就是没必要。就算有决策支持系统,但试问到底是决策支持系统多,还是业务处理系统多。而且很多决策分析是基于关系数据的。或者说是基于关系数据与非关系数据的混合。所谓大数据其实其性能是基于集群的负载均衡。但试问就算关系数据库如果用上虚拟机大集群,其性能就不会提高吗?这是明显的。你文件系统可以,人家关系数据库也可以。就是堆机器呗!只不过应用用场景不同而已。不可否认在非关系数据的情况下,基于hadoop的系统很出色,但这不能抹杀关系数据库在相关领域的功绩和成就特长。目前这股新鲜的风潮矫枉过正。等退潮之后,就会看到狼藉了。


事实上,Hadoop与传统关系型数据库不是互斥,而是互补。某些可预见增量非常恐怖,但查询/排序属性单一的事实表、窄表,用KV型非关系数据库(如HBase)相比RDB更有优势。但查询、排序属性较多,数据模型需要多表关联的,RDB还是有优势。又或者一些存量历史数据或逻辑删除的数据需要归档,Hadoop具有传统数据库无法比拟的优势。或者生产与决策分析需要分离的场景,自然冷热数据隔离。不是说刚起步的业务系统就不能用Hadoop,也不是庞大系统就非Hadoop不可,根据实际业务需求制定选型才是硬道理。


关键是hadoop系统其性能是依赖集群来实现的。也就是说单机性能很差。这一点与传统的RDBMS不一样。试问如果不考虑虚拟的话,对于一般性应用你觉得有多少可能会如此堆机器?明显不现实。就算用虚拟机,可羊毛出在羊身上,里外物理基础在那!所以,如果在非结构化数据领域应该还是很不错,但如果超出这个领域,其有多大的性价比就是一个问题了。
我不否认对于结构化数据与非结构化数据同时具备的需求领域,必然存在RDBMS与hadoop共用的场景。但放眼天下,到底哪种更多呢?现在很大数据系统都是用于互联网系统,因为互联网系统说到底就是网站,碎片化数据很多。这是应用的需求,但放眼天下,网站只是媒体的载体,信息化管理领域,相当多的还是管理系统。而且网站建设都考虑如何海量数据,但真的有多少网站真的火的。相对于更多的分母来说,分子太少。多数网站都不那么火才是事实。而如果网站不火,那数据又有多少?这hadoop系统又有多少是online飞奔的!如果多数都蔫了,那这hadoop又有多少市场了?
但是,有另一个问题。国内在RDBMS领域其实非常落后于国外,虽然自主产品有,但并不如何广泛应用,而且性能也差。基本上当用的RDBMS都掌握在国外厂商手里。但基于开源的hadoop系统的出现却极大地改变了这种局面。可以说从IT领域的国防安全角度,开源的hadoop系统很对路子。这倒是很可贵的。

分布式不就是为了解决单机性能瓶颈而生的么?而且相对于传统RDBMS在负载压力高需要对机器的scale up,和分布式的scale out,从运维和成本的角度,哪个更合算?哦不要说什么主从同步读写分离,那是巨坑。而做分片,又和分布式数据的思想不谋而合了?而且如果一开始是单表无分片,后面迁移的成本?pinterest可是让十几名DBA连续奋战了好几个月,才把存量的单表分片分库。更何况HBase的分片完全是自动的呢?我前期可以投入2-3台服务器,1主N-1从。随着业务提升,只要加从节点就可以了。而MySQL则只存储某些维度表和关系表,真正巨量的事实表由更擅长抗海量数据的架构去做它该做的事,岂不美哉?
大数据之所以火,很大程度归功于移动互联网爆炸性增长,带来巨量的数据。而Hadoop生态就是解决如何在有限时间里快速完成传统RDB、BI无法解决的问题,并产生新的价值。正如阿里云的口号:为了无法计算的价值!


你说的是技术,我说的却不仅是技术。如果你是一个厂、矿、正傅单位的主管,你会选择哪个建设自己的信息系统呢?答案我想不言自明。移动互联网!:)真正火的网站有多少啊?建的时候都觉得自己能海量,天下有几个阿里京东?更多的还是分母。国内互联网的泡沫破灭从00年已经不止一次。退潮看裸泳的事还会有的。

如果我是不懂技术的,上有去IOE的要求,下有“国产知识产权”挂着,的确是不用考虑。但我是做开发的,不太喜欢讲政治的,没有任何一种技术架构是万金油,灵活搭配才是硬道理。Oracle有它的适用场景,小型机有必要还是得上。完全取决于实际需求。
裸不裸泳我不知道,那是业务上的东西,更多是大佬们牛皮吹破了,而不是技术本身出什么偏差。业务有一万种实现形式,而技术每天在优胜劣汰。我作为技术选择合适的技术栈到架构选型上是我的职责。在一家公司干活当然希望它蓬勃发展早日跻身BAT,而不是反正不知哪天就倒了不如混吃等死。既然是这样,在满足需求的前提下,尽量将开发往潮流发展靠拢,哪怕公司跨了技术还在不是么?

推荐阅读
author-avatar
无心伤害2502907297
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有