热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

大数据入门与Hadoop

概要大数据Hadoop详情大数据什么样的数据才能被称为“大数据”???1、海量:数据足够多。2、高增长率:单位时间内数据增长速度非常快。3、多

概要




  • 大数据




  • Hadoop






详情




  • 大数据



  什么样的数据才能被称为“大数据”???

    1、海量:数据足够多。

    2、高增长率:单位时间内数据增长速度非常快。

    3、多样化:数据的种类多种多样

  为什么要研究大数据?

    1、为了存储海量的数据。

    2、为了进行海量数据的分析与计算。

  重要的度量单位

    bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB

    一般来说,大数据指的是PB级别甚至更多的数据量。

      






  • Hadoop 



  Hadoop的概念

    狭义上来说hadoop相当于一款数据库软件。

    广义上来说hadoop是一个大数据神态圈。

    它于2006正式的诞生,标志着大数据时代的到来!

    图标是制作人儿子的大象

    

  Hadoop主要版本

    Hadoop一般有三种主要的版本系列Apache、Cloudera、Hortonworks。

    Apache
      最原始、最基础的版本,对于⼊⻔学习最好。2006发行

       

    Cloudera
      内部集成很多⼤数据框架,对应产品CDH。 2008发行
    Hortonworks
      ⽂档较好,对应产品HDP。 2011发行
  ps:Hortonworks已经被Cloudera公司收购推出新品牌CDP。

Hadoop版本号区别

Hadoop1.X
MapReduce
# 计算与资源调度
HDFS # 数据存储
Common # 辅助工具
Hadoop2.X与3.X(对计算与资源调度的功能做进一步拆分)
MapReduce
# 计算
Yarn # 资源调度
HDFS # 数据存储
Common # 辅助工具

HDFS架构组成

NameNode(nn): 存储文件的元数据。 # 相当于目录
DataNode(dn): 存储文件的真实数据。 # 当对于文本内容
Secondary NameNode(2nn): 辅助NameNode工作。 # 相当于备用设施

Yarn架构组成

# 做个比喻
Resource Manager: 大老板
Node Manager: 各部门经理
Application Master: 部门中真正干活的员工
Container: 每个部门拥有的各项资源

MapReduce架构组成

# 做个比喻
Map: 将复杂的任务拆分成多个小任务分发给不同的节点完成。
Reduce: 将每个节点完成的小任务汇总到一起。

技术生态圈

''' 数据来源层 '''
针对结构化数据(关系型数据库)采用sqoop进行数据同步
针对半结构化、非结构化数据(非关系型数据库)采用flume、kafka进行同步

 


原文链接:https://www.cnblogs.com/leguan001/p/15471227.html



推荐阅读
  • PHP中元素的计量单位是什么? ... [详细]
  • 秒建一个后台管理系统?用这5个开源免费的Java项目就够了
    秒建一个后台管理系统?用这5个开源免费的Java项目就够了 ... [详细]
  • 在Linux系统中避免安装MySQL的简易指南
    在Linux系统中避免安装MySQL的简易指南 ... [详细]
  • Hadoop 2.6 主要由 HDFS 和 YARN 两大部分组成,其中 YARN 包含了运行在 ResourceManager 的 JVM 中的组件以及在 NodeManager 中运行的部分。本文深入探讨了 Hadoop 2.6 日志文件的解析方法,并详细介绍了 MapReduce 日志管理的最佳实践,旨在帮助用户更好地理解和优化日志处理流程,提高系统运维效率。 ... [详细]
  • 一、Hadoop来历Hadoop的思想来源于Google在做搜索引擎的时候出现一个很大的问题就是这么多网页我如何才能以最快的速度来搜索到,由于这个问题Google发明 ... [详细]
  • Hadoop源码解析1Hadoop工程包架构解析
    1 Hadoop中各工程包依赖简述   Google的核心竞争技术是它的计算平台。Google的大牛们用了下面5篇文章,介绍了它们的计算设施。   GoogleCluster:ht ... [详细]
  •        在搭建Hadoop环境之前,请先阅读如下博文,把搭建Hadoop环境之前的准备工作做好,博文如下:       1、CentOS6.7下安装JDK,地址:http:b ... [详细]
  • 大数据的明天将驶向何方?
    http:www.infoq.comcnarticleswhere-will-big-data--tomorrow-sail-to大数据的明天将驶向何方?作者 36Kr 发布于20 ... [详细]
  • 本文介绍了如何使用Flume从Linux文件系统收集日志并存储到HDFS,然后通过MapReduce清洗数据,使用Hive进行数据分析,并最终通过Sqoop将结果导出到MySQL数据库。 ... [详细]
  • 如何在Java中使用DButils类
    这期内容当中小编将会给大家带来有关如何在Java中使用DButils类,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。D ... [详细]
  • Spark中使用map或flatMap将DataSet[A]转换为DataSet[B]时Schema变为Binary的问题及解决方案
    本文探讨了在使用Spark的map或flatMap算子将一个数据集转换为另一个数据集时,遇到的Schema变为Binary的问题,并提供了详细的解决方案。 ... [详细]
  • HBase在金融大数据迁移中的应用与挑战
    随着最后一台设备的下线,标志着超过10PB的HBase数据迁移项目顺利完成。目前,新的集群已在新机房稳定运行超过两个月,监控数据显示,新集群的查询响应时间显著降低,系统稳定性大幅提升。此外,数据消费的波动也变得更加平滑,整体性能得到了显著优化。 ... [详细]
  • 如何提升Python处理约1GB数据集时的运行效率?
    如何提升Python处理约1GB数据集时的运行效率?本文探讨了在后端开发中使用Python处理大规模数据集的优化方法。通过分析常见的性能瓶颈,介绍了多种提高数据处理速度的技术,包括使用高效的数据结构、并行计算、内存管理和代码优化策略。此外,文章还提供了在Ubuntu环境下配置和测试这些优化方案的具体步骤,适用于从事推荐系统等领域的开发者。 ... [详细]
  • 大数据Hadoop生态(20)MapReduce框架原理OutputFormat的开发笔记
    本文介绍了大数据Hadoop生态(20)MapReduce框架原理OutputFormat的开发笔记,包括outputFormat接口实现类、自定义outputFormat步骤和案例。案例中将包含nty的日志输出到nty.log文件,其他日志输出到other.log文件。同时提供了一些相关网址供参考。 ... [详细]
  • 什么是大数据lambda架构
    一、什么是Lambda架构Lambda架构由Storm的作者[NathanMarz]提出,根据维基百科的定义,Lambda架构的设计是为了在处理大规模数 ... [详细]
author-avatar
手机用户2502859733
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有