热门标签 | HotTags
当前位置:  开发笔记 > 数据库 > 正文

卢东明:Hadoop不能适用所有大数据场

卢,东,明,hadoop,不能,适用
文章讲的是 卢东明:Hadoop不能适用所有大数据场“大数据”自诞生之日起,业界对它的概念、技术和应用就存在一定争议。究竟什么是大数据?有哪些大数据技术?大数据的未来是怎样的?每个人都有自己的理解。在2013大数据产品评选活动举办之际,笔者采访了此次担任评委的几位专家学者,看看专家眼中的“大数据”是什么样的?

近日,在一次微访谈活动中,SAP亚太区数据库解决方案技术总监卢东明回答了笔者的提问,分享了对大数据的几点看法,笔者整理如下:

卢东明:Hadoop不能适用所有大数据场景
▲SAP亚太区数据库解决方案技术总监卢东明

小数据是结构化的

几天和@赵国栋TMT 一起聊大数据,我说现在最难的问题就是“定义”什么是大数据。我认为大数据目前处于发展的早期,很多观点都不错,但是我不认为能够、也不喜欢用简单的几个标签来定义“什么是“大数据” 。“大数据”中最有活力的词是“大”,但是“大”是个相对的词,各个时期,各个阶段,各个角度所谈的大是不一样的,数据量也只是大数据中的一个指标,有点行业,例如互联网,电信,很容易收集到TB级,甚至百TB级的数据,但是并不等于有些深度挖掘的公司在百GB级不可能发掘出价值。大数据的时代了解何为“小数据”也许更可以帮助大家理解到底什么是“大数据”。我认为,“小数据”是结构化的、现有的IT技术能力上已经有效、充分地掌握,并且在人们生活、工作中持续地发挥着作用的信息都可以归为小数据的范畴,而所有超出现有能力的信息类型、信息技术都属于大数据。这样定义外延的方法也许比试图给一个充分而且必要的定义要容易理解一些。

不要盲目跟风Hadoop

Hadoop是大数据技术的一个优秀代表,但是同时,它只是优秀代表中的一个,有很多技术在帮助企业拓展数据的获取、存储、使用、分析能力,在这个问题上,千万不要人云亦云,千万不要跟风。 大数据的技术有很多,数据流分析技术CEP,机器学习技术Mahout,数据分析的软件R语言,列式数据库的技术Sybase IQ,SAP HANA等都是值得投入精力学习掌握的技术点。但是在这些技术点的学习中,需要多了解应用场景。Hadoop的应用在互联网公司很多,但是互联网业务数据完整性一致性要求都不是特别高,谷歌的搜索并不是真正实时的内容,也不要求严格一致,这些技术可以应付,如果生搬硬套,把Hadoop拿来支持电信、金融这样的强结构化数据的应用就不对。

对大数据未来的三点担忧

关于大数据的期待我就不多说了,大家都期望着无处不大数据,无处不分析,无处不方便。说说担忧吧:一是,大数据的发展如果没有相应的法律跟上的话,人们的隐私会受到前所未有的攻击;二是,政府的又一轮投资是必然的,但是担心政府又被忽悠了;三是,大数据分析的人才储备不足。


作者:小野

来源:IT168

原文链接:卢东明:Hadoop不能适用所有大数据场


推荐阅读
  • 国内BI工具迎战国际巨头Tableau,稳步崛起
    尽管商业智能(BI)工具在中国的普及程度尚不及国际市场,但近年来,随着本土企业的持续创新和市场推广,国内主流BI工具正逐渐崭露头角。面对国际品牌如Tableau的强大竞争,国内BI工具通过不断优化产品和技术,赢得了越来越多用户的认可。 ... [详细]
  • Hadoop入门与核心组件详解
    本文详细介绍了Hadoop的基础知识及其核心组件,包括HDFS、MapReduce和YARN。通过本文,读者可以全面了解Hadoop的生态系统及应用场景。 ... [详细]
  • 本文详细介绍了Python编程语言的学习路径,涵盖基础语法、常用组件、开发工具、数据库管理、Web服务开发、大数据分析、人工智能、爬虫开发及办公自动化等多个方向。通过系统化的学习计划,帮助初学者快速掌握Python的核心技能。 ... [详细]
  • MongoDB集群配置:副本集与分片详解
    本文详细介绍了如何在MongoDB中配置副本集(Replica Sets)和分片(Sharding),并提供了具体的步骤和命令,帮助读者理解并实现高可用性和水平扩展的MongoDB集群。 ... [详细]
  • 本文详细分析了Hive在启动过程中遇到的权限拒绝错误,并提供了多种解决方案,包括调整文件权限、用户组设置以及环境变量配置等。 ... [详细]
  • HBase运维工具全解析
    本文深入探讨了HBase常用的运维工具,详细介绍了每种工具的功能、使用场景及操作示例。对于HBase的开发人员和运维工程师来说,这些工具是日常管理和故障排查的重要手段。 ... [详细]
  • 本文探讨了2012年4月期间,淘宝在技术架构上的关键数据和发展历程。涵盖了从早期PHP到Java的转型,以及在分布式计算、存储和网络流量管理方面的创新。 ... [详细]
  • 福克斯新闻数据库配置失误导致1300万条敏感记录泄露
    由于数据库配置错误,福克斯新闻暴露了一个58GB的未受保护数据库,其中包含约1300万条网络内容管理记录。任何互联网用户都可以访问这些数据,引发了严重的安全风险。 ... [详细]
  • 简化报表生成:EasyReport工具的全面解析
    本文详细介绍了EasyReport,一个易于使用的开源Web报表工具。该工具支持Hadoop、HBase及多种关系型数据库,能够将SQL查询结果转换为HTML表格,并提供Excel导出、图表显示和表头冻结等功能。 ... [详细]
  • 创邻科技成功举办Graph+X生态合作伙伴大会,30余家行业领军企业共聚杭州
    9月22日,创邻科技在杭州举办“Graph+X”生态合作伙伴大会,汇聚了超过30家行业头部企业的50多位企业家和技术领袖,共同探讨图技术的前沿应用与发展前景。 ... [详细]
  • 智能投顾机器人:创业者如何应对新挑战?
    随着智能投顾技术在二级市场的兴起,针对一级市场的智能投顾也逐渐崭露头角。近日,一款名为阿尔妮塔的人工智能创投机器人正式发布,它将如何改变投资人的工作方式和创业者的融资策略? ... [详细]
  • 本文详细介绍了 Linux 系统中用户、组和文件权限的设置方法,包括基本权限(读、写、执行)、特殊权限(SUID、SGID、Sticky Bit)以及相关配置文件的使用。 ... [详细]
  • 深入解析Hadoop的核心组件与工作原理
    本文详细介绍了Hadoop的三大核心组件:分布式文件系统HDFS、资源管理器YARN和分布式计算框架MapReduce。通过分析这些组件的工作机制,帮助读者更好地理解Hadoop的架构及其在大数据处理中的应用。 ... [详细]
  • 智慧城市建设现状及未来趋势
    随着新基建政策的推进及‘十四五’规划的实施,我国正步入以5G、人工智能等先进技术引领的智慧经济新时代。规划强调加速数字化转型,促进数字政府建设,新基建政策亦倡导城市基础设施的全面数字化。本文探讨了智慧城市的发展背景、全球及国内进展、市场规模、架构设计,以及百度、阿里、腾讯、华为等领军企业在该领域的布局策略。 ... [详细]
  • 深入解析Spark核心架构与部署策略
    本文详细探讨了Spark的核心架构,包括其运行机制、任务调度和内存管理等方面,以及四种主要的部署模式:Standalone、Apache Mesos、Hadoop YARN和Kubernetes。通过本文,读者可以深入了解Spark的工作原理及其在不同环境下的部署方式。 ... [详细]
author-avatar
人走茶凉
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有