近日,在一次微访谈活动中,SAP亚太区数据库解决方案技术总监卢东明回答了笔者的提问,分享了对大数据的几点看法,笔者整理如下:
▲SAP亚太区数据库解决方案技术总监卢东明
小数据是结构化的
几天和@赵国栋TMT 一起聊大数据,我说现在最难的问题就是“定义”什么是大数据。我认为大数据目前处于发展的早期,很多观点都不错,但是我不认为能够、也不喜欢用简单的几个标签来定义“什么是“大数据” 。“大数据”中最有活力的词是“大”,但是“大”是个相对的词,各个时期,各个阶段,各个角度所谈的大是不一样的,数据量也只是大数据中的一个指标,有点行业,例如互联网,电信,很容易收集到TB级,甚至百TB级的数据,但是并不等于有些深度挖掘的公司在百GB级不可能发掘出价值。大数据的时代了解何为“小数据”也许更可以帮助大家理解到底什么是“大数据”。我认为,“小数据”是结构化的、现有的IT技术能力上已经有效、充分地掌握,并且在人们生活、工作中持续地发挥着作用的信息都可以归为小数据的范畴,而所有超出现有能力的信息类型、信息技术都属于大数据。这样定义外延的方法也许比试图给一个充分而且必要的定义要容易理解一些。
不要盲目跟风Hadoop
Hadoop是大数据技术的一个优秀代表,但是同时,它只是优秀代表中的一个,有很多技术在帮助企业拓展数据的获取、存储、使用、分析能力,在这个问题上,千万不要人云亦云,千万不要跟风。 大数据的技术有很多,数据流分析技术CEP,机器学习技术Mahout,数据分析的软件R语言,列式数据库的技术Sybase IQ,SAP HANA等都是值得投入精力学习掌握的技术点。但是在这些技术点的学习中,需要多了解应用场景。Hadoop的应用在互联网公司很多,但是互联网业务数据完整性一致性要求都不是特别高,谷歌的搜索并不是真正实时的内容,也不要求严格一致,这些技术可以应付,如果生搬硬套,把Hadoop拿来支持电信、金融这样的强结构化数据的应用就不对。
对大数据未来的三点担忧
关于大数据的期待我就不多说了,大家都期望着无处不大数据,无处不分析,无处不方便。说说担忧吧:一是,大数据的发展如果没有相应的法律跟上的话,人们的隐私会受到前所未有的攻击;二是,政府的又一轮投资是必然的,但是担心政府又被忽悠了;三是,大数据分析的人才储备不足。
作者:小野
来源:IT168
原文链接:卢东明:Hadoop不能适用所有大数据场