热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

大数据入门与Hadoop

概要大数据Hadoop详情大数据什么样的数据才能被称为“大数据”???1、海量:数据足够多。2、高增长率:单位时间内数据增长速度非常快。3、多

概要




  • 大数据




  • Hadoop






详情




  • 大数据



  什么样的数据才能被称为“大数据”???

    1、海量:数据足够多。

    2、高增长率:单位时间内数据增长速度非常快。

    3、多样化:数据的种类多种多样

  为什么要研究大数据?

    1、为了存储海量的数据。

    2、为了进行海量数据的分析与计算。

  重要的度量单位

    bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB

    一般来说,大数据指的是PB级别甚至更多的数据量。

      






  • Hadoop 



  Hadoop的概念

    狭义上来说hadoop相当于一款数据库软件。

    广义上来说hadoop是一个大数据神态圈。

    它于2006正式的诞生,标志着大数据时代的到来!

    图标是制作人儿子的大象

    

  Hadoop主要版本

    Hadoop一般有三种主要的版本系列Apache、Cloudera、Hortonworks。

    Apache
      最原始、最基础的版本,对于⼊⻔学习最好。2006发行

       

    Cloudera
      内部集成很多⼤数据框架,对应产品CDH。 2008发行
    Hortonworks
      ⽂档较好,对应产品HDP。 2011发行
  ps:Hortonworks已经被Cloudera公司收购推出新品牌CDP。

Hadoop版本号区别

Hadoop1.X
MapReduce
# 计算与资源调度
HDFS # 数据存储
Common # 辅助工具
Hadoop2.X与3.X(对计算与资源调度的功能做进一步拆分)
MapReduce
# 计算
Yarn # 资源调度
HDFS # 数据存储
Common # 辅助工具

HDFS架构组成

NameNode(nn): 存储文件的元数据。 # 相当于目录
DataNode(dn): 存储文件的真实数据。 # 当对于文本内容
Secondary NameNode(2nn): 辅助NameNode工作。 # 相当于备用设施

Yarn架构组成

# 做个比喻
Resource Manager: 大老板
Node Manager: 各部门经理
Application Master: 部门中真正干活的员工
Container: 每个部门拥有的各项资源

MapReduce架构组成

# 做个比喻
Map: 将复杂的任务拆分成多个小任务分发给不同的节点完成。
Reduce: 将每个节点完成的小任务汇总到一起。

技术生态圈

''' 数据来源层 '''
针对结构化数据(关系型数据库)采用sqoop进行数据同步
针对半结构化、非结构化数据(非关系型数据库)采用flume、kafka进行同步

 


原文链接:https://www.cnblogs.com/leguan001/p/15471227.html



推荐阅读
  • 大数据开发笔记(一):HDFS介绍
    ✨大数据开发笔记推荐:大数据开发面试知识点总结_GoAI的博客-CSDN博客_大数据开发面试​本文详细介绍大数据hadoop生态圈各部分知识,包括不限 ... [详细]
  • Hadoop之Yarn
    目录1Hadoop1.x和Hadoop2.x架构区别2Yarn概述3Yarn基本架构4Yarn工作机制5作业提交全过程6资源调度器7任务的推测执行1Hadoop1.x和Hadoo ... [详细]
  • Hadoop源码解析1Hadoop工程包架构解析
    1 Hadoop中各工程包依赖简述   Google的核心竞争技术是它的计算平台。Google的大牛们用了下面5篇文章,介绍了它们的计算设施。   GoogleCluster:ht ... [详细]
  • 我们在之前的文章中已经初步介绍了Cloudera。hadoop基础----hadoop实战(零)-----hadoop的平台版本选择从版本选择这篇文章中我们了解到除了hadoop官方版本外很多 ... [详细]
  • 本文介绍了在sqoop1.4.*版本中,如何实现自定义分隔符的方法及步骤。通过修改sqoop生成的java文件,并重新编译,可以满足实际开发中对分隔符的需求。具体步骤包括修改java文件中的一行代码,重新编译所需的hadoop包等。详细步骤和编译方法在本文中都有详细说明。 ... [详细]
  • Kylin 单节点安装
    软件环境Hadoop:2.7,3.1(sincev2.5)Hive:0.13-1.2.1HBase:1.1,2.0(sincev2.5)Spark(optional)2.3.0K ... [详细]
  •        在搭建Hadoop环境之前,请先阅读如下博文,把搭建Hadoop环境之前的准备工作做好,博文如下:       1、CentOS6.7下安装JDK,地址:http:b ... [详细]
  • 前言折腾了一段时间hadoop的部署管理,写下此系列博客记录一下。为了避免各位做部署这种重复性的劳动,我已经把部署的步骤写成脚本,各位只需要按着本文把脚本执行完,整个环境基本就部署 ... [详细]
  • Zookeeper为分布式环境提供灵活的协调基础架构。ZooKeeper框架支持许多当今最好的工业应用程序。我们将在本章中讨论ZooKeeper的一些最显着的应用。雅虎ZooKee ... [详细]
  • 本文_大数据之非常详细Sqoop安装和基本操作
    篇首语:本文由编程笔记#小编为大家整理,主要介绍了大数据之非常详细Sqoop安装和基本操作相关的知识,希望对你有一定的参考价值。大数据大数据之 ... [详细]
  • 当计算任务越来越多,作业提交越来越多,企业普通的做法是,在原有的系统架构上,不停地往上堆积硬件或者加服务器。的确,hadoop设计上的优秀和可扩展性可以方便的 ... [详细]
  • hive的本质是hadoop客户端通过写sql转换成MapReduce提交给yarn、hdfs执行hive的优点操作接口采用类sql语法提供快速开发能力避免了去写MapReduce ... [详细]
  • 升序|都会_Hive与优化方法
    篇首语:本文由编程笔记#小编为大家整理,主要介绍了Hive与优化方法相关的知识,希望对你有一定的参考价值。Hive与优化方法 ... [详细]
  • 不会搭建大数据平台,我被老板优化了...
    不会,搭建,大数,据,平台,我 ... [详细]
  • 前言本文隶属于专栏《1000个问题搞定大数据技术体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出, ... [详细]
author-avatar
手机用户2502859733
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有