热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

hadoop复习资料

大家好,我是曜耀,今天给大家带来的是hadoop系列的一些复习资料。废话不说,上才艺。hdfs分布式文件系统mapreduce大数据离线

大家好,我是曜耀,今天给大家带来的是hadoop系列的一些复习资料。

废话不说,上才艺。

hdfs 分布式文件系统
mapreduce  大数据离线数据处理框架
yarn  统一资源管理和调度平台
hive  数据分析
sqoop   数据导入导出
hbase  大数据存储 非关系型数据库
flume  日志采集系统
spark   实时流式数据计算框架


hdfs
架构原理    配置    使用
1.分布式文件系统和普通文件系统
2.hdfs中的几个组件,都有什么作用
namenode:存储文件的元数据,接收来自客户端的读写请求
datanode:存储文件数据
secondarynamenode:第二名字节点,定期的检查并且合并FSImage系统快照,editlog编辑日志
3.hdfs默认存储几块,每块大小、
3, 128M
4.seconderynamenode 和namenode之间的关系
SecondaryNameNode引导NameNode滚动更新编辑日志文件,并开始将新的内容写入EditLog.new.
SecondaryNameNode将NameNode的FSImage和编辑文件复制到本地的检查点的目录
SecondaryNameNode载入FSImage文件,回放编辑日志,将其合并到FSImage,将新的FSImage文件压缩后写入磁盘。
SecondaryNameNode将新的FSImage文件送回NameNode,NameNode在接收新的FSImage后,直接加载和应用该文件
NameNode将Edit Log.new更名为Edit Log

5.hdfs的容错机制
副本机制和心跳机制
6.hadoop 2.X  端口号是8020   1.X 版本端口是 9000
7.hdfs配置核心配置文件和配置内容
hadoop-env.sh  JAVA_HOME HADOOP_HOME
core-site.xml  dfs.default.name、
hdfs-site.xml  dfs.replication  dfs.name.dir dfs.data.dir
slaver 
8.hdfs的命令
创建目录 Hadoop fs -mkdir
删除目录  hadoop fs -rmdir 
列出文件或目录  hadoop fs -ls
上传/覆盖文件   hadoop fs -put (-f) 本地文件 上传路径   copyFromLocal
下载文件  hadoop fs -get/copyToLocal 文件地址 本地地址 
查看文件   hadoop fs -cat 
删除文件  hadoop fs -rm 
移动文件  hadoop fs -mv  


mapreduce
1.MapReduce执行流程  WordCount
2.Partitioner 和combinner
partitioner 是分组,将要清洗的数据按照key来对其进行分组,相同key的放在同一个输出文件中
combiner 是在进入reduce之前,先行合并一次,提高计算效率

yarn
1.yarn中有什么组件,各有什么作用
resourceManager 资源管理器,负责给各个节点分配计算和存储资源以及响应各个节点的计算请求
nodeManager 节点管理器  负责管理各个节点的container,以及开启map task 和reduce task
2.yarn的配置文件以及配置内容
mapred-site.xml   MapReduce的计算框架       mapreduce.framework.name
yarn-site.xml  resoursemanage 和 nodemanager 的节点地址
3.yarn的执行流程

hbase 
1.nosql 和mysql的区别
2.hbase的表结构
表名,行键,列族,列,时间戳
3.hbase 系统架构
4.hbase基础命令
1.列出所有表   list
2.创建表     create '表名','列族'...
3.添加数据    put '表名','行键','列族:列','值'
4.查询单行数据   get '表名','行键'
5.查询所有数据    scan '表名'
6.清空表   truncate '表名'

flume
1.flume三个组件以及作用
source   负责从源数据接收event 或者自己产生event,传递到下一层
channel   负责将event传递到sink,将数据缓存在管道中,保证数据的传输速率恒定
sink   负责将event传递到目的端,并且将event从channel中移除

sqoop
数据导出命令  
sqoop export --connect mysql连接 --username 数据库用户名 --password --数据库密码 --table mysql中的表 --export-dir 导出的文件地址 --fields-terminated-by 分割方式 --m 1
 
hive
数据库操作
创建数据库    create database 数据库名;
删除数据库    drop database 数据库名;
使用数据库   use 数据库名;
查看所有数据库  show databases;

表结构
创建表     create table 表名(字段名 字段类型,....) row format delimited fields terminated by 分隔符;
删除表     drop table 表名;

表内容
添加数据  load data inpath '文件路径(必须是hdfs上的)' into table 表名;
查询
1.查询所有   
select * from 表;
2.查询固定的字段
select ziduanming, 字段名2  from 表名;
3.按照条件查询
select * from 表 where 条件;
4.排序   升序 asc  降序 desc
select * from biao order by id asc;
5.分组聚合
sum 求和   count 计数  max 最大值   min 最小值  avg 平均值
select * from student group by sex; 按照xx进行统计就是group by xx  group by 后边的条件跟上的是having
6.多表查询   多表查询的条件是 两个表中的字段内容相等
select ziduan from t1, t2 where t1.ziduan1 = t2.ziduan1
select 字段 from t1 join t2 on t1.zidaun1 = t2.ziduan1
left join :以左边为主表,如果右边表的数据不存在,则填充null
right join :以右边为主表,如果左边表的数据不存在,则填充null
7.分组排序  distribute by   sort by
select * from biao distribute by sex sort by height;男女生分别按照身高排序
8.CTAS 创建新表
create table xx row format delimited fields terminated by '' as select ......
9.查询表结构  格式化查询
desc formatted biao;


 


推荐阅读
  • 什么是大数据lambda架构
    一、什么是Lambda架构Lambda架构由Storm的作者[NathanMarz]提出,根据维基百科的定义,Lambda架构的设计是为了在处理大规模数 ... [详细]
  • Azkaban(三)Azkaban的使用
    界面介绍首页有四个菜单projects:最重要的部分,创建一个工程,所有flows将在工程中运行。scheduling:显示定时任务executing:显示当前运行的任务histo ... [详细]
  • 《Spark核心技术与高级应用》——1.2节Spark的重要扩展
    本节书摘来自华章社区《Spark核心技术与高级应用》一书中的第1章,第1.2节Spark的重要扩展,作者于俊向海代其锋马海平,更多章节内容可以访问云栖社区“华章社区”公众号查看1. ... [详细]
  • Kylin 单节点安装
    软件环境Hadoop:2.7,3.1(sincev2.5)Hive:0.13-1.2.1HBase:1.1,2.0(sincev2.5)Spark(optional)2.3.0K ... [详细]
  • 我们在之前的文章中已经初步介绍了Cloudera。hadoop基础----hadoop实战(零)-----hadoop的平台版本选择从版本选择这篇文章中我们了解到除了hadoop官方版本外很多 ... [详细]
  • Java开发实战讲解!字节跳动三场技术面+HR面
    二、回顾整理阿里面试题基本就这样了,还有一些零星的问题想不起来了,答案也整理出来了。自我介绍JVM如何加载一个类的过程,双亲委派模型中有 ... [详细]
  • 一、Hadoop来历Hadoop的思想来源于Google在做搜索引擎的时候出现一个很大的问题就是这么多网页我如何才能以最快的速度来搜索到,由于这个问题Google发明 ... [详细]
  • 本文详细介绍了MysqlDump和mysqldump进行全库备份的相关知识,包括备份命令的使用方法、my.cnf配置文件的设置、binlog日志的位置指定、增量恢复的方式以及适用于innodb引擎和myisam引擎的备份方法。对于需要进行数据库备份的用户来说,本文提供了一些有价值的参考内容。 ... [详细]
  • 图解redis的持久化存储机制RDB和AOF的原理和优缺点
    本文通过图解的方式介绍了redis的持久化存储机制RDB和AOF的原理和优缺点。RDB是将redis内存中的数据保存为快照文件,恢复速度较快但不支持拉链式快照。AOF是将操作日志保存到磁盘,实时存储数据但恢复速度较慢。文章详细分析了两种机制的优缺点,帮助读者更好地理解redis的持久化存储策略。 ... [详细]
  • 本文介绍了在Python中使用zlib模块进行字符串的压缩与解压缩的方法,并探讨了其在内存优化方面的应用。通过压缩存储URL等长字符串,可以大大降低内存消耗,虽然处理时间会增加,但是整体效果显著。同时,给出了参考链接,供进一步学习和应用。 ... [详细]
  • 前言折腾了一段时间hadoop的部署管理,写下此系列博客记录一下。为了避免各位做部署这种重复性的劳动,我已经把部署的步骤写成脚本,各位只需要按着本文把脚本执行完,整个环境基本就部署 ... [详细]
  • 你知道Kafka和Redis的各自优缺点吗?一文带你优化选择,不走弯路 ... [详细]
  • bat大牛带你深度剖析android 十大开源框架_请收好!5大领域,21个必知的机器学习开源工具...
    全文共3744字,预计学习时长7分钟本文将介绍21个你可能没使用过的机器学习开源工具。每个开源工具都为数据科学家处理数据库提供了不同角度。本文将重点介绍五种机器学习的 ... [详细]
  • 本文讨论了在数据库打开和关闭状态下,重新命名或移动数据文件和日志文件的情况。针对性能和维护原因,需要将数据库文件移动到不同的磁盘上或重新分配到新的磁盘上的情况,以及在操作系统级别移动或重命名数据文件但未在数据库层进行重命名导致报错的情况。通过三个方面进行讨论。 ... [详细]
  • 本文分析了Wince程序内存和存储内存的分布及作用。Wince内存包括系统内存、对象存储和程序内存,其中系统内存占用了一部分SDRAM,而剩下的30M为程序内存和存储内存。对象存储是嵌入式wince操作系统中的一个新概念,常用于消费电子设备中。此外,文章还介绍了主电源和后备电池在操作系统中的作用。 ... [详细]
author-avatar
仰望天空说再见
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有