热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

hadoop复习资料

大家好,我是曜耀,今天给大家带来的是hadoop系列的一些复习资料。废话不说,上才艺。hdfs分布式文件系统mapreduce大数据离线

大家好,我是曜耀,今天给大家带来的是hadoop系列的一些复习资料。

废话不说,上才艺。

hdfs 分布式文件系统
mapreduce  大数据离线数据处理框架
yarn  统一资源管理和调度平台
hive  数据分析
sqoop   数据导入导出
hbase  大数据存储 非关系型数据库
flume  日志采集系统
spark   实时流式数据计算框架


hdfs
架构原理    配置    使用
1.分布式文件系统和普通文件系统
2.hdfs中的几个组件,都有什么作用
namenode:存储文件的元数据,接收来自客户端的读写请求
datanode:存储文件数据
secondarynamenode:第二名字节点,定期的检查并且合并FSImage系统快照,editlog编辑日志
3.hdfs默认存储几块,每块大小、
3, 128M
4.seconderynamenode 和namenode之间的关系
SecondaryNameNode引导NameNode滚动更新编辑日志文件,并开始将新的内容写入EditLog.new.
SecondaryNameNode将NameNode的FSImage和编辑文件复制到本地的检查点的目录
SecondaryNameNode载入FSImage文件,回放编辑日志,将其合并到FSImage,将新的FSImage文件压缩后写入磁盘。
SecondaryNameNode将新的FSImage文件送回NameNode,NameNode在接收新的FSImage后,直接加载和应用该文件
NameNode将Edit Log.new更名为Edit Log

5.hdfs的容错机制
副本机制和心跳机制
6.hadoop 2.X  端口号是8020   1.X 版本端口是 9000
7.hdfs配置核心配置文件和配置内容
hadoop-env.sh  JAVA_HOME HADOOP_HOME
core-site.xml  dfs.default.name、
hdfs-site.xml  dfs.replication  dfs.name.dir dfs.data.dir
slaver 
8.hdfs的命令
创建目录 Hadoop fs -mkdir
删除目录  hadoop fs -rmdir 
列出文件或目录  hadoop fs -ls
上传/覆盖文件   hadoop fs -put (-f) 本地文件 上传路径   copyFromLocal
下载文件  hadoop fs -get/copyToLocal 文件地址 本地地址 
查看文件   hadoop fs -cat 
删除文件  hadoop fs -rm 
移动文件  hadoop fs -mv  


mapreduce
1.MapReduce执行流程  WordCount
2.Partitioner 和combinner
partitioner 是分组,将要清洗的数据按照key来对其进行分组,相同key的放在同一个输出文件中
combiner 是在进入reduce之前,先行合并一次,提高计算效率

yarn
1.yarn中有什么组件,各有什么作用
resourceManager 资源管理器,负责给各个节点分配计算和存储资源以及响应各个节点的计算请求
nodeManager 节点管理器  负责管理各个节点的container,以及开启map task 和reduce task
2.yarn的配置文件以及配置内容
mapred-site.xml   MapReduce的计算框架       mapreduce.framework.name
yarn-site.xml  resoursemanage 和 nodemanager 的节点地址
3.yarn的执行流程

hbase 
1.nosql 和mysql的区别
2.hbase的表结构
表名,行键,列族,列,时间戳
3.hbase 系统架构
4.hbase基础命令
1.列出所有表   list
2.创建表     create '表名','列族'...
3.添加数据    put '表名','行键','列族:列','值'
4.查询单行数据   get '表名','行键'
5.查询所有数据    scan '表名'
6.清空表   truncate '表名'

flume
1.flume三个组件以及作用
source   负责从源数据接收event 或者自己产生event,传递到下一层
channel   负责将event传递到sink,将数据缓存在管道中,保证数据的传输速率恒定
sink   负责将event传递到目的端,并且将event从channel中移除

sqoop
数据导出命令  
sqoop export --connect mysql连接 --username 数据库用户名 --password --数据库密码 --table mysql中的表 --export-dir 导出的文件地址 --fields-terminated-by 分割方式 --m 1
 
hive
数据库操作
创建数据库    create database 数据库名;
删除数据库    drop database 数据库名;
使用数据库   use 数据库名;
查看所有数据库  show databases;

表结构
创建表     create table 表名(字段名 字段类型,....) row format delimited fields terminated by 分隔符;
删除表     drop table 表名;

表内容
添加数据  load data inpath '文件路径(必须是hdfs上的)' into table 表名;
查询
1.查询所有   
select * from 表;
2.查询固定的字段
select ziduanming, 字段名2  from 表名;
3.按照条件查询
select * from 表 where 条件;
4.排序   升序 asc  降序 desc
select * from biao order by id asc;
5.分组聚合
sum 求和   count 计数  max 最大值   min 最小值  avg 平均值
select * from student group by sex; 按照xx进行统计就是group by xx  group by 后边的条件跟上的是having
6.多表查询   多表查询的条件是 两个表中的字段内容相等
select ziduan from t1, t2 where t1.ziduan1 = t2.ziduan1
select 字段 from t1 join t2 on t1.zidaun1 = t2.ziduan1
left join :以左边为主表,如果右边表的数据不存在,则填充null
right join :以右边为主表,如果左边表的数据不存在,则填充null
7.分组排序  distribute by   sort by
select * from biao distribute by sex sort by height;男女生分别按照身高排序
8.CTAS 创建新表
create table xx row format delimited fields terminated by '' as select ......
9.查询表结构  格式化查询
desc formatted biao;


 


推荐阅读
  • Hadoop的文件操作位于包org.apache.hadoop.fs里面,能够进行新建、删除、修改等操作。比较重要的几个类:(1)Configurati ... [详细]
  • 本文介绍如何通过整合SparkSQL与Hive来构建高效的用户画像环境,提高数据处理速度和查询效率。 ... [详细]
  • 本文探讨了使用Python实现监控信息收集的方法,涵盖从基础的日志记录到复杂的系统运维解决方案,旨在帮助开发者和运维人员提升工作效率。 ... [详细]
  • 从0到1搭建大数据平台
    从0到1搭建大数据平台 ... [详细]
  • Java虚拟机及其发展历程
    Java虚拟机(JVM)是每个Java开发者日常工作中不可或缺的一部分,但其背后的运作机制却往往显得神秘莫测。本文将探讨Java及其虚拟机的发展历程,帮助读者深入了解这一关键技术。 ... [详细]
  • ASP.NET 进度条实现详解
    本文介绍了如何在ASP.NET中使用HTML和JavaScript创建一个动态更新的进度条,并通过Default.aspx页面进行展示。 ... [详细]
  • 本文探讨了如何在 Spring MVC 框架下,通过自定义注解和拦截器机制来实现细粒度的权限管理功能。 ... [详细]
  • H5技术实现经典游戏《贪吃蛇》
    本文将分享一个使用HTML5技术实现的经典小游戏——《贪吃蛇》。通过H5技术,我们将探讨如何构建这款游戏的两种主要玩法:积分闯关和无尽模式。 ... [详细]
  • 大数据领域的职业路径与角色解析
    本文将深入探讨大数据领域的各种职业和工作角色,帮助读者全面了解大数据行业的需求、市场趋势,以及从入门到高级专业人士的职业发展路径。文章还将详细介绍不同公司对大数据人才的需求,并解析各岗位的具体职责、所需技能和经验。 ... [详细]
  • 本文详细介绍了 Spark 中的弹性分布式数据集(RDD)及其常见的操作方法,包括 union、intersection、cartesian、subtract、join、cogroup 等转换操作,以及 count、collect、reduce、take、foreach、first、saveAsTextFile 等行动操作。 ... [详细]
  • Hadoop 2.6 主要由 HDFS 和 YARN 两大部分组成,其中 YARN 包含了运行在 ResourceManager 的 JVM 中的组件以及在 NodeManager 中运行的部分。本文深入探讨了 Hadoop 2.6 日志文件的解析方法,并详细介绍了 MapReduce 日志管理的最佳实践,旨在帮助用户更好地理解和优化日志处理流程,提高系统运维效率。 ... [详细]
  • 本文介绍了一种在 Android 开发中动态修改 strings.xml 文件中字符串值的有效方法。通过使用占位符,开发者可以在运行时根据需要填充具体的值,从而提高应用的灵活性和可维护性。 ... [详细]
  • 初探Hadoop:第一章概览
    本文深入探讨了《Hadoop》第一章的内容,重点介绍了Hadoop的基本概念及其如何解决大数据处理中的关键挑战。 ... [详细]
  • 在Android应用开发过程中,开发者经常遇到诸如CPU使用率过高、内存泄漏等问题。本文将介绍几种常用的命令及其应用场景,帮助开发者有效定位并解决问题。 ... [详细]
  • 【漫画解析】数据已删,存储空间为何未减?揭秘背后真相
    在数据迁移过程中,即使删除了原有数据,存储空间却未必会相应减少。本文通过漫画形式解析了这一现象背后的真相。具体来说,使用 `mysqldump` 命令进行数据导出时,该工具作为 MySQL 的逻辑备份工具,通过连接数据库并查询所需数据,将其转换为 SQL 语句。然而,这种操作并不会立即释放存储空间,因为数据库系统可能保留了已删除数据的碎片信息。文章进一步探讨了如何优化存储管理,以确保数据删除后能够有效回收存储空间。 ... [详细]
author-avatar
仰望天空说再见
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有