【杂谈】大数据主流技术简介

目的：
1、了解大数据主流技术的基本原理及技术特点，从而把握各种大数据计算框架及未来发展方向，在大数据时代能为企业的技术选型及架构设计提供决策参考。
2、了解主流大数据技术应用基础、技术特征和使用场景等。
3、了解最新的大数据系统工具以及大数据处理的基本过程和方法。

1）大数据关键技术介绍
√ 分三类：存储（如：分布式缓存、基于MPP的分布式数据库、分布式文件系统、各种NoSQL分布式存储方案,内存数据库等）、计算（如：MapReduce、流计算、图计算）、应用（如：HIVE,pig,mahout，Sqoop以及ETL工具，统计与报告工具等）
√ Hadoop 是目前最为流行的大数据技术。除了Hadoop，还有很多针对大数据的处理工具。这些工具有些是完整的平台，有些则是专门针对特定的大数据处理应用。下表归纳总结了现今一些主流的处理平台和工具：

2）离线计算框架和应用场景
√ 简    介：Hadoop分布式存储+分布式运算的框架，可以对海量数据进行统计分析，解决单节点极限性。
√ 示    例：通过编写MapReduce可以批量统计某个地域的车辆里程情况、道路等级，通过速度判断车型、车辆驾驶情况等，使用Hive做数据仓库，可以统计最近一年或者两年的数据，进行数据的建模和历史数据的统计和分析。
√ 应用场景：
   *大数据的处理：几GB，上TP的大量数据的计算。
   *非实时：应用在非实时处理的场景，离线处理是需要时间,一般是1小时，或者隔天。
   *高并发：大量数据的高并发，大量的处理和计算的进程数。

3）流式计算框架和应用场景
√ 来自于一个信念：数据的价值随着时间的流逝而降低，所以事件出现后必须尽快地对它们进行处理，最好数据出现时便立刻对其进行处理，发生一个事件进行一次处理，而不是缓存起来成一批再处理。
√ 流计算的概念：
   *流计算是针对流式数据的实时计算。
   *流式数据（流数据）：是指将数据看作数据流的形式来处理。数据流是在时间分布和数量上无限的一系列动态数据集合体；数据记录是数据流的最小组成单元。
   *流数据具有数据实时持续不断到达、到达次序独立、数据来源众多格式复杂、数据规模大且不十分关注存储、注重数据的整体价值而不关注个别数据等特点。
√ 流式计算产品：
   *Yahoo的S4：S4是一个通用的、分布式的、可扩展的、分区容错的、可插拔的流式系统，Yahoo！开发S4系统，主要是为了解决：搜索广告的展现、处理用户的点击反馈。
   *Twitter的storm：Twitter的storm：Storm是一个分布式的、容错的实时计算系统。
                  >>Storm用途：可用于处理消息和更新数据库（流处理），在数据流上进行持续查询，并以流的形式返回结果到客户端（持续计算），并行化一个类似实时查询的热点查询（分布式的RPC）。