当前位置: 开发笔记 > 编程语言 > 正文

hadoop面试常问知识点知识点

作者：阿贵 | 来源：互联网 | 2023-08-27 18:22

一：一个基本的Hadoop集群中的节点主要有•NameNode：负责协调集群中的数据存储•DataNode：存储被拆分的数据块•JobTracker：协调数据计算任务•TaskTr

一：一个基本的Hadoop集群中的节点主要有

•NameNode：负责协调集群中的数据存储
•DataNode：存储被拆分的数据块
•JobTracker：协调数据计算任务
•TaskTracker：负责执行由JobTracker指派的任务
•SecondaryNameNode：帮助NameNode收集文件系统运行的状态信息

2.分布式文件系统节点分类：

分布式文件系统在物理结构上是由计算机集群中的多个节点构成的，

这些节点分为两类，一类叫“主节点”(Master Node)或者也被称为“名称结点”(NameNode)，

另一类叫“从节点”（Slave Node）或者也被称为“数据节点”(DataNode).

在HDFS中，名称节点（NameNode）负责管理分布式文件系统的命名空间（Namespace），

保存了两个核心的数据结构，即FsImage和EditLog •FsImage用于维护文件系统树

以及文件树中所有的文件和文件夹的元数据 •操作日志文件EditLog中记录了

所有针对文件的创建、删除、重命名等操作 •名称节点记录了每个文件中各个块所在的数据节点的位置信息。

3 Hbase索引

HBase是一个稀疏、多维度、排序的映射表，这张表的索引是行键、列族、列限定符和时间戳

每个值是一个未经解释的字符串，没有数据类型

• 用户在表中存储数据，每一行都有一个可排序的行键和任意多的列

• 表在水平方向由一个或者多个列族组成，一个列族中可以包含任意多个列，同一个列族里面的数据存储在一起

• 列族支持动态扩展，可以很轻松地添加一个列族或列，无需预先定义列的数量以及类型，

所有列均以字符串形式存储，用户需要自行进行数据类型转换

• HBase中执行更新操作时，并不会删除数据旧的版本，而是生成一个新的版本，

旧有的版本仍然保留（这是和HDFS只允许追加不允许修改的特性相关的）

4 HBase的实现包括三个主要的功能组件：

（1）库函数：链接到每个客户端 – （2）一个Master主服务器 – （3）许多个Region服务器

• 主服务器Master负责管理和维护HBase表的分区信息，维护Region服务器列表，分配Region，负载均衡

• Region服务器负责存储和维护分配给自己的Region，处理来自客户端的读写请求

• 客户端并不是直接从Master主服务器上读取数据，而是在获得Region 的存储位置信息后，直接从Region服务器上读取数据

• 客户端并不依赖Master，而是通过Zookeeper来获得Region位置信息，大多数客户端甚至从来不和Master通信，这种设计方式使得Master 负载很小

五：HDFS常用命令

hdfs dfs -ls / 查看hdfs根目录

put命令：

hdfs dfs -put file1.txt /user/hive/warehouse (首先在Linux系统上进入file1.txt所对应的目录下面，然后执行该命令)

get命令

hdfs dfs -put /user/hive/warehouse/test.db (此时hdfs上面的文件会导出到当前目录下面)

六：hive创建表然后导入数据

create table if not exist haokan_ads_test02 ( user_id int, user_type int, day1 date, play_rate double, resource string ) row format delimited fields terminated by ' ' lines terminated by '\n';

导入数据

load data local inpath '/home/atguigu/bin/haokan_ads_test02.txt' into table haokan_ads_test02;

覆盖原数据就使用overwrite

推荐阅读

int
计算机网络四

大三上结束之际，从网上找来一些关于计算机网络的知识作为总结，本文四篇笔记全部转自猪头任（博客地址：http:www.cnbl ... [详细]

蜡笔小新 2024-09-26 20:26:13
int
什么是大数据lambda架构

一、什么是Lambda架构Lambda架构由Storm的作者[NathanMarz]提出，根据维基百科的定义，Lambda架构的设计是为了在处理大规模数 ... [详细]

蜡笔小新 2023-10-17 16:06:09
go
想搞清楚zlib,minizip,infozip,libbzip2这些库之间的关系.

是不是zlib是这些库的压缩算法的实现库，而这么多库它们只是在打包的时候使用了zlib进行压缩而已.而具体的打包格式就有ZIP，BZIP2,GZ之分?但是在我们在用gz压缩时候通常之前 ... [详细]

蜡笔小新 2024-09-29 17:00:30
string
C#学习教程：C＃按值复制数组分享

C＃按值复制数组我有一个类型化的数组MyType[]types;我想制作这个数组的独立副本。我试过这个MyType[]types2newMyType[types.Length];t ... [详细]

蜡笔小新 2024-09-29 13:08:34
int
文本生成图像简要回顾 text to image synthesis

摘要文本生成图像作为近几年的热门研究领域，其解决的问题是从一句描述性文本生成与之对应的图片。近一周来，我通过阅读了近几年发表于顶会的近10篇论文，做出本文中对该方向的 ... [详细]

蜡笔小新 2024-09-29 11:02:00
go
hdfs数据节点分发什么协议_HDFS主要节点解说(一)节点功能

HDFS是一个主从(MaterSlave)体系结构。从终于用户的角度来看，它就像传统的文件系统一样，能够通过文件夹路径对文件运行CRUD(Create、 ... [详细]

蜡笔小新 2024-09-27 21:44:59
int
DDD在微服务架构中落地应用

1DDDDomainDrivenDesign(领域驱动设计,DDD)，不是一种架构，而是一种架构方法论，是一种拆解业务、划分业务、确定业 ... [详细]

蜡笔小新 2024-09-27 12:58:00
go
每天收获一点点Hadoop概述

一、Hadoop来历Hadoop的思想来源于Google在做搜索引擎的时候出现一个很大的问题就是这么多网页我如何才能以最快的速度来搜索到，由于这个问题Google发明 ... [详细]

蜡笔小新 2023-12-14 18:58:01
int
HDFS2.x新特性

一、集群间数据拷贝scp实现两个远程主机之间的文件复制scp-rhello.txtroothadoop103:useratguiguhello.txt推pushscp-rr ... [详细]

蜡笔小新 2023-12-13 13:52:40
ip
Hadoop2.6.0 + 云centos +伪分布式只谈部署

3.0.3玩不好，现将2.6.0tar.gz上传到usr,chmod-Rhadoop:hadophadoop-2.6.0，rm掉3.0.32.在etcp ... [详细]

蜡笔小新 2023-10-17 19:28:24
go
Hadoop源码解析1Hadoop工程包架构解析

1 Hadoop中各工程包依赖简述 Google的核心竞争技术是它的计算平台。Google的大牛们用了下面5篇文章，介绍了它们的计算设施。 GoogleCluster：ht ... [详细]

蜡笔小新 2023-10-17 13:28:20
string
Flink使用java实现读取csv文件简单实例

Flink使用java实现读取csv文件简单实例首先我们来看官方文档中给出的几种方法：首先我们来看官方文档中给出的几种方法：第一种：Da ... [详细]

蜡笔小新 2023-10-17 10:21:46
int
伸缩性|发生_分布式文件系统设计，该从哪些方面考虑？

篇首语：本文由编程笔记#小编为大家整理，主要介绍了分布式文件系统设计，该从哪些方面考虑？相关的知识，希望对你有一定的参考价值。点击上方关注“ ... [详细]

蜡笔小新 2023-10-16 17:43:40
int
Kylin 单节点安装

软件环境Hadoop:2.7,3.1(sincev2.5)Hive:0.13-1.2.1HBase:1.1,2.0(sincev2.5)Spark(optional)2.3.0K ... [详细]

蜡笔小新 2023-10-16 16:09:42
php
Hadoop学习笔记1：伪分布式环境搭建

在搭建Hadoop环境之前，请先阅读如下博文，把搭建Hadoop环境之前的准备工作做好，博文如下： 1、CentOS6.7下安装JDK,地址：http:b ... [详细]

蜡笔小新 2023-10-16 16:04:04

阿贵

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章