热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

【杂谈】大数据主流技术简介

目的:1、了解大数据主流技术的基本原理及技术特点,从而把握各种大数据计算框架及未来发展方向,在大数据时代能为企业的技术选型及架构设计提供决策参考。2、了解主流大数据技术应用基础、技

目的:
1、了解大数据主流技术的基本原理及技术特点,从而把握各种大数据计算框架及未来发展方向,在大数据时代能为企业的技术选型及架构设计提供决策参考。
2、了解主流大数据技术应用基础、技术特征和使用场景等。
3、了解最新的大数据系统工具以及大数据处理的基本过程和方法。

1)大数据关键技术介绍
 √ 分三类:存储(如:分布式缓存、基于MPP的分布式数据库、分布式文件系统、各种NoSQL分布式存储方案,内存数据库等)、计算(如:MapReduce、流计算、图计算)、应用(如:HIVE,pig,mahout,Sqoop以及ETL工具,统计与报告工具等)
 √ Hadoop 是目前最为流行的大数据技术。除了Hadoop,还有很多针对大数据的处理工具。这些工具有些是完整的平台,有些则是专门针对特定的大数据处理应用。下表归纳总结了现今一些主流的处理平台和工具:


2)离线计算框架和应用场景
 √ 简    介:Hadoop分布式存储+分布式运算的框架,可以对海量数据进行统计分析,解决单节点极限性
 √ 示    例:通过编写MapReduce可以批量统计某个地域的车辆里程情况、道路等级,通过速度判断车型、车辆驾驶情况等,使用Hive做数据仓库,可以统计最近一年或者两年的数据,进行数据的建模和历史数据的统计和分析。
 √ 应用场景:
   *大数据的处理:几GB,上TP的大量数据的计算。
   *非实时:应用在非实时处理的场景,离线处理是需要时间,一般是1小时,或者隔天。
   *高并发:大量数据的高并发,大量的处理和计算的进程数。

3)流式计算框架和应用场景
 √ 来自于一个信念:数据的价值随着时间的流逝而降低,所以事件出现后必须尽快地对它们进行处理,最好数据出现时便立刻对其进行处理,发生一个事件进行一次处理,而不是缓存起来成一批再处理。
 √ 流计算 的 概念:
   *流计算是针对流式数据的实时计算。
   *流式数据(流数据):是指将数据看作数据流的形式来处理。数据流是在时间分布和数量上无限的一系列动态数据集合体;数据记录是数据流的最小组成单元。
   *流数据具有数据实时持续不断到达、到达次序独立、数据来源众多格式复杂、数据规模大且不十分关注存储、注重数据的整体价值而不关注个别数据等特点。
 √ 流式计算产品:
   *Yahoo的S4:S4是一个通用的、分布式的、可扩展的、分区容错的、可插拔的流式系统,Yahoo!开发S4系统,主要是为了解决:搜索广告的展现、处理用户的点击反馈。
   *Twitter的storm:Twitter的storm:Storm是一个分布式的、容错的实时计算系统。
                  >>Storm用途:可用于处理消息和更新数据库(流处理),在数据流上进行持续查询,并以流的形式返回结果到客户端(持续计算),并行化一个类似实时查询的热点查询(分布式的RPC)。

 √ 应用场景

 

 

 
4)内存计算框架和应用场景
 √ what:现今技术已可以实现在服务器的主内存中处理超大量的实时数据,从分析和交易中提供即时数据。
 √ 应用:

5)实时请求框架和应用场景
 √ what:低延迟的流式数据处理
   *离线计算的补充
   *业务发展和技术进步的必然需求
 √ 关键技术点:分布式数据、低延迟技术

 


推荐阅读
  • 一、Hadoop来历Hadoop的思想来源于Google在做搜索引擎的时候出现一个很大的问题就是这么多网页我如何才能以最快的速度来搜索到,由于这个问题Google发明 ... [详细]
  • 从0到1搭建大数据平台
    从0到1搭建大数据平台 ... [详细]
  • mapreduce源码分析总结
    这篇文章总结的非常到位,故而转之一MapReduce概述MapReduce是一个用于大规模数据处理的分布式计算模型,它最初是由Google工程师设计并实现的ÿ ... [详细]
  • 第二章:Kafka基础入门与核心概念解析
    本章节主要介绍了Kafka的基本概念及其核心特性。Kafka是一种分布式消息发布和订阅系统,以其卓越的性能和高吞吐量而著称。最初,Kafka被设计用于LinkedIn的活动流和运营数据处理,旨在高效地管理和传输大规模的数据流。这些数据主要包括用户活动记录、系统日志和其他实时信息。通过深入解析Kafka的设计原理和应用场景,读者将能够更好地理解其在现代大数据架构中的重要地位。 ... [详细]
  • Hadoop 2.6 主要由 HDFS 和 YARN 两大部分组成,其中 YARN 包含了运行在 ResourceManager 的 JVM 中的组件以及在 NodeManager 中运行的部分。本文深入探讨了 Hadoop 2.6 日志文件的解析方法,并详细介绍了 MapReduce 日志管理的最佳实践,旨在帮助用户更好地理解和优化日志处理流程,提高系统运维效率。 ... [详细]
  • PHP中元素的计量单位是什么? ... [详细]
  • Hadoop——实验七:MapReduce编程实践
    文章目录一.实验目的二.实验内容三.实验步骤及结果分析 1.基于ubuntukylin14.04(7)版本,安装hadoop-eclipse-kepler-plugi ... [详细]
  • Hadoop的分布式架构改进与应用
    nsitionalENhttp:www.w3.orgTRxhtml1DTDxhtml1-transitional.dtd ... [详细]
  • Hadoop源码解析1Hadoop工程包架构解析
    1 Hadoop中各工程包依赖简述   Google的核心竞争技术是它的计算平台。Google的大牛们用了下面5篇文章,介绍了它们的计算设施。   GoogleCluster:ht ... [详细]
  • HBase在金融大数据迁移中的应用与挑战
    随着最后一台设备的下线,标志着超过10PB的HBase数据迁移项目顺利完成。目前,新的集群已在新机房稳定运行超过两个月,监控数据显示,新集群的查询响应时间显著降低,系统稳定性大幅提升。此外,数据消费的波动也变得更加平滑,整体性能得到了显著优化。 ... [详细]
  • 阿里云大数据计算服务MaxCompute (原名 ODPS)
     MaxCompute是阿里EB级计算平台,经过十年磨砺,它成为阿里巴巴集团数据中台的计算核心和阿里云大数据的基础服务。去年MaxCompute做了哪些工作,这些工作背后的原因是什 ... [详细]
  • 大数据Hadoop生态(20)MapReduce框架原理OutputFormat的开发笔记
    本文介绍了大数据Hadoop生态(20)MapReduce框架原理OutputFormat的开发笔记,包括outputFormat接口实现类、自定义outputFormat步骤和案例。案例中将包含nty的日志输出到nty.log文件,其他日志输出到other.log文件。同时提供了一些相关网址供参考。 ... [详细]
  • 本文介绍了在sqoop1.4.*版本中,如何实现自定义分隔符的方法及步骤。通过修改sqoop生成的java文件,并重新编译,可以满足实际开发中对分隔符的需求。具体步骤包括修改java文件中的一行代码,重新编译所需的hadoop包等。详细步骤和编译方法在本文中都有详细说明。 ... [详细]
  • Maven构建Hadoop,
    Maven构建Hadoop工程阅读目录序Maven安装构建示例下载系列索引 序  上一篇,我们编写了第一个MapReduce,并且成功的运行了Job,Hadoop1.x是通过ant ... [详细]
  • 什么是大数据lambda架构
    一、什么是Lambda架构Lambda架构由Storm的作者[NathanMarz]提出,根据维基百科的定义,Lambda架构的设计是为了在处理大规模数 ... [详细]
author-avatar
多米音乐_34026248
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有