hadoop复习资料

作者：仰望天空说再见 | 来源：互联网 | 2023-09-10 19:25

大家好，我是曜耀，今天给大家带来的是hadoop系列的一些复习资料。废话不说，上才艺。hdfs分布式文件系统mapreduce大数据离线

大家好&＃xff0c;我是曜耀&＃xff0c;今天给大家带来的是hadoop系列的一些复习资料。

废话不说&＃xff0c;上才艺。

hdfs 分布式文件系统
mapreduce 大数据离线数据处理框架
yarn 统一资源管理和调度平台
hive 数据分析
sqoop 数据导入导出
hbase 大数据存储非关系型数据库
flume 日志采集系统
spark 实时流式数据计算框架

hdfs
架构原理配置使用
1.分布式文件系统和普通文件系统
2.hdfs中的几个组件&＃xff0c;都有什么作用
namenode:存储文件的元数据&＃xff0c;接收来自客户端的读写请求
datanode&＃xff1a;存储文件数据
secondarynamenode&＃xff1a;第二名字节点&＃xff0c;定期的检查并且合并FSImage系统快照&＃xff0c;editlog编辑日志
3.hdfs默认存储几块&＃xff0c;每块大小、
3&＃xff0c; 128M
4.seconderynamenode 和namenode之间的关系
SecondaryNameNode引导NameNode滚动更新编辑日志文件&＃xff0c;并开始将新的内容写入EditLog.new.
SecondaryNameNode将NameNode的FSImage和编辑文件复制到本地的检查点的目录
SecondaryNameNode载入FSImage文件,回放编辑日志&＃xff0c;将其合并到FSImage&＃xff0c;将新的FSImage文件压缩后写入磁盘。
SecondaryNameNode将新的FSImage文件送回NameNode,NameNode在接收新的FSImage后&＃xff0c;直接加载和应用该文件
NameNode将Edit Log.new更名为Edit Log

5.hdfs的容错机制
副本机制和心跳机制
6.hadoop 2.X 端口号是8020 1.X 版本端口是 9000
7.hdfs配置核心配置文件和配置内容
hadoop-env.sh JAVA_HOME HADOOP_HOME
core-site.xml dfs.default.name、
hdfs-site.xml dfs.replication dfs.name.dir dfs.data.dir
slaver
8.hdfs的命令
创建目录 Hadoop fs -mkdir
删除目录 hadoop fs -rmdir
列出文件或目录 hadoop fs -ls
上传/覆盖文件 hadoop fs -put (-f) 本地文件上传路径 copyFromLocal
下载文件 hadoop fs -get/copyToLocal 文件地址本地地址
查看文件 hadoop fs -cat
删除文件 hadoop fs -rm
移动文件 hadoop fs -mv

mapreduce
1.MapReduce执行流程 WordCount
2.Partitioner 和combinner
partitioner 是分组&＃xff0c;将要清洗的数据按照key来对其进行分组&＃xff0c;相同key的放在同一个输出文件中
combiner 是在进入reduce之前&＃xff0c;先行合并一次&＃xff0c;提高计算效率

yarn
1.yarn中有什么组件&＃xff0c;各有什么作用
resourceManager 资源管理器&＃xff0c;负责给各个节点分配计算和存储资源以及响应各个节点的计算请求
nodeManager 节点管理器负责管理各个节点的container&＃xff0c;以及开启map task 和reduce task
2.yarn的配置文件以及配置内容
mapred-site.xml MapReduce的计算框架 mapreduce.framework.name
yarn-site.xml resoursemanage 和 nodemanager 的节点地址
3.yarn的执行流程

hbase
1.nosql 和mysql的区别
2.hbase的表结构
表名&＃xff0c;行键&＃xff0c;列族&＃xff0c;列&＃xff0c;时间戳
3.hbase 系统架构
4.hbase基础命令
1.列出所有表 list
2.创建表 create &＃39;表名&＃39;,&＃39;列族&＃39;...
3.添加数据 put &＃39;表名&＃39;,&＃39;行键&＃39;,&＃39;列族:列&＃39;,&＃39;值&＃39;
4.查询单行数据 get &＃39;表名&＃39;,&＃39;行键&＃39;
5.查询所有数据 scan &＃39;表名&＃39;
6.清空表 truncate &＃39;表名&＃39;

flume
1.flume三个组件以及作用
source 负责从源数据接收event 或者自己产生event&＃xff0c;传递到下一层
channel 负责将event传递到sink&＃xff0c;将数据缓存在管道中&＃xff0c;保证数据的传输速率恒定
sink 负责将event传递到目的端&＃xff0c;并且将event从channel中移除

sqoop
数据导出命令
sqoop export --connect mysql连接 --username 数据库用户名 --password --数据库密码 --table mysql中的表 --export-dir 导出的文件地址 --fields-terminated-by 分割方式 --m 1

hive
数据库操作
创建数据库 create database 数据库名&＃xff1b;
删除数据库 drop database 数据库名;
使用数据库 use 数据库名;
查看所有数据库 show databases;

表结构
创建表 create table 表名(字段名字段类型&＃xff0c;....) row format delimited fields terminated by 分隔符;
删除表 drop table 表名;

表内容
添加数据 load data inpath &＃39;文件路径&＃xff08;必须是hdfs上的&＃xff09;&＃39; into table 表名&＃xff1b;
查询
1.查询所有
select * from 表;
2.查询固定的字段
select ziduanming&＃xff0c; 字段名2 from 表名;
3.按照条件查询
select * from 表 where 条件;
4.排序升序 asc 降序 desc
select * from biao order by id asc&＃xff1b;
5.分组聚合
sum 求和 count 计数 max 最大值 min 最小值 avg 平均值
select * from student group by sex; 按照xx进行统计就是group by xx group by 后边的条件跟上的是having
6.多表查询多表查询的条件是两个表中的字段内容相等
select ziduan from t1, t2 where t1.ziduan1 &＃61; t2.ziduan1
select 字段 from t1 join t2 on t1.zidaun1 &＃61; t2.ziduan1
left join :以左边为主表&＃xff0c;如果右边表的数据不存在&＃xff0c;则填充null
right join &＃xff1a;以右边为主表&＃xff0c;如果左边表的数据不存在&＃xff0c;则填充null
7.分组排序 distribute by sort by
select * from biao distribute by sex sort by height&＃xff1b;男女生分别按照身高排序
8.CTAS 创建新表
create table xx row format delimited fields terminated by &＃39;&＃39; as select ......
9.查询表结构格式化查询
desc formatted biao;

推荐阅读

text
HDFS API

Hadoop的文件操作位于包org.apache.hadoop.fs里面，能够进行新建、删除、修改等操作。比较重要的几个类：(1)Configurati ... [详细]

蜡笔小新 2024-11-13 17:31:50
text
构建用户画像环境：Hive与SparkSQL的高效整合

本文介绍如何通过整合SparkSQL与Hive来构建高效的用户画像环境，提高数据处理速度和查询效率。 ... [详细]

蜡笔小新 2024-11-19 09:44:24
web
Python 实现监控与运维自动化方案

本文探讨了使用Python实现监控信息收集的方法，涵盖从基础的日志记录到复杂的系统运维解决方案，旨在帮助开发者和运维人员提升工作效率。 ... [详细]

蜡笔小新 2024-11-23 11:25:14
web
从0到1搭建大数据平台

从0到1搭建大数据平台 ... [详细]

蜡笔小新 2024-11-12 15:26:03
web
Java虚拟机及其发展历程

Java虚拟机（JVM）是每个Java开发者日常工作中不可或缺的一部分，但其背后的运作机制却往往显得神秘莫测。本文将探讨Java及其虚拟机的发展历程，帮助读者深入了解这一关键技术。 ... [详细]

蜡笔小新 2024-11-23 08:59:58
text
ASP.NET 进度条实现详解

本文介绍了如何在ASP.NET中使用HTML和JavaScript创建一个动态更新的进度条，并通过Default.aspx页面进行展示。 ... [详细]

蜡笔小新 2024-11-22 15:00:08
go
Spring MVC 中利用拦截器与自定义注解实现权限控制

本文探讨了如何在 Spring MVC 框架下，通过自定义注解和拦截器机制来实现细粒度的权限管理功能。 ... [详细]

蜡笔小新 2024-11-22 14:35:02
web
H5技术实现经典游戏《贪吃蛇》

本文将分享一个使用HTML5技术实现的经典小游戏——《贪吃蛇》。通过H5技术，我们将探讨如何构建这款游戏的两种主要玩法：积分闯关和无尽模式。 ... [详细]

蜡笔小新 2024-11-21 20:16:59
web
大数据领域的职业路径与角色解析

本文将深入探讨大数据领域的各种职业和工作角色，帮助读者全面了解大数据行业的需求、市场趋势，以及从入门到高级专业人士的职业发展路径。文章还将详细介绍不同公司对大数据人才的需求，并解析各岗位的具体职责、所需技能和经验。 ... [详细]

蜡笔小新 2024-11-16 08:54:03
go
Spark 弹性分布式数据集详解

本文详细介绍了 Spark 中的弹性分布式数据集（RDD）及其常见的操作方法，包括 union、intersection、cartesian、subtract、join、cogroup 等转换操作，以及 count、collect、reduce、take、foreach、first、saveAsTextFile 等行动操作。 ... [详细]

蜡笔小新 2024-11-14 15:44:57
web
Hadoop 2.6 日志文件解析与MapReduce日志管理深入探讨

Hadoop 2.6 主要由 HDFS 和 YARN 两大部分组成，其中 YARN 包含了运行在 ResourceManager 的 JVM 中的组件以及在 NodeManager 中运行的部分。本文深入探讨了 Hadoop 2.6 日志文件的解析方法，并详细介绍了 MapReduce 日志管理的最佳实践，旨在帮助用户更好地理解和优化日志处理流程，提高系统运维效率。 ... [详细]

蜡笔小新 2024-11-03 16:23:38
go
Android 开发技巧：动态修改 strings.xml 文件中的字符串值

本文介绍了一种在 Android 开发中动态修改 strings.xml 文件中字符串值的有效方法。通过使用占位符，开发者可以在运行时根据需要填充具体的值，从而提高应用的灵活性和可维护性。 ... [详细]

蜡笔小新 2024-11-24 11:51:17
web
初探Hadoop：第一章概览

本文深入探讨了《Hadoop》第一章的内容，重点介绍了Hadoop的基本概念及其如何解决大数据处理中的关键挑战。 ... [详细]

蜡笔小新 2024-11-24 11:40:47
shell
Android应用调试中的实用命令与实践

在Android应用开发过程中，开发者经常遇到诸如CPU使用率过高、内存泄漏等问题。本文将介绍几种常用的命令及其应用场景，帮助开发者有效定位并解决问题。 ... [详细]

蜡笔小新 2024-11-22 09:50:34
shell
【漫画解析】数据已删，存储空间为何未减？揭秘背后真相

在数据迁移过程中，即使删除了原有数据，存储空间却未必会相应减少。本文通过漫画形式解析了这一现象背后的真相。具体来说，使用 `mysqldump` 命令进行数据导出时，该工具作为 MySQL 的逻辑备份工具，通过连接数据库并查询所需数据，将其转换为 SQL 语句。然而，这种操作并不会立即释放存储空间，因为数据库系统可能保留了已删除数据的碎片信息。文章进一步探讨了如何优化存储管理，以确保数据删除后能够有效回收存储空间。 ... [详细]

蜡笔小新 2024-11-04 17:11:49

仰望天空说再见

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章