热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

Hadoop2.7.3三种安装模式环境搭建

Hadoop的安装方式有三种模式:单机模式(StandalongMode)、伪分布模式(Pseudo-DistributedMode)、完全分布式模式(Fully-D

Hadoop的安装方式有三种模式:单机模式(Standalong Mode)、伪分布模式(Pseudo-Distributed Mode)、完全分布式模式(Fully-Distributed Mode)。


  • 单机模式:指运行在一台主机上, 按默认配置以非分布式模式运行的一个独立Java进程。单机模式的特点是:没有分布式文件系统,直接在本地操作系统的文件系统读写;不需要加载任何Hadoop的守护进程。它一般用于本地MapReduce程序的调试。单机模式是Hadoop的默认模式。
  • 伪分布式模式:指运行在一台主机上,使用多个Java进程,模仿完全分布式的各类节点。伪分布式模式具备完全分布式的主要功能,常用于调试程序。
  • 完全分布式模式:也叫集群模式,是将Hadoop运行在多台机器中,各个机器按照相关配置运行相应的Hadoop守护进程。完全分布式模式是真正的分布式环境,用于实际的生产环境。

安装前准备

Hadoop 是 一个用 Java 语言实现的开源软件框架,Hadoop的核心就是HDFSMapReduceYARNHDFS为海量数据提供了存储MapReduce为海量数据提供了计算框架YARN把计算框架与资源管理彻底分离,统一管理计算框架的资源调度。安装Hadoop所需软件列表如下:

相关软件包地址:阿里云盘


软件类型

名称

VMware虚拟机

VMware-workstation-full-14.0.0-6661328.exe

Linux 操作系统

CentOS-7-x86_64-DVD-1810.iso

JDK Java 语言的软件开发工具包

jdk-8u251-linux-x64.tar.gz

Hadoop分布式系统基础架构

hadoop-2.7.3.tar.gz

MoBaXterm远程访问工具

MobaXterm_20.0汉化


安装虚拟机

虚拟机是一种虚拟化技术,它能实现在现有的操作系统上多运行一个或多个操作系统。本课程采用WMware公司的虚拟机软件WMware Workstation Pro 14版本,并安装CentOS7操作系统。


关闭防火墙

如果不关闭CentOS操作系统的防火墙(firewalld),则可能会出现以下几种情况:


  1. 无法正常访问Hadoop HDFSWeb管理界面
  2. 会导致后台某些运行脚本(Hive程序)出现假死状态
  3. 在删除和增加节点的时候,会让数据迁移处理时间更长,甚至不能正常完成相关操作。

systemctl status firewalld # 查看防火墙状态
systemctl stop firewalld # 关闭防火墙(临时)
systemctl start firewalld # 开启防火墙
systemctl disable firewalld # 禁用防火墙(永久)

SSH安装

通过VMware Workstation工具操作虚拟机十分不方便,无法复制内容到虚拟机中,也无法开启多个虚拟机窗口进行操作,并且在实际工作中,服务器通常被放置在机房中,同时受到地域和管理的限制,实际开发是通过远程连接服务器进行相关操作。接下来,我们来配置SSH 实现远程登录和免密登录。

在配置SSH之前,需要完成 主机IP地址的映射操作 vim /etc/hosts

[root@node01 ~]# rpm -qa | grep openssh # 查看当前虚拟机是否安装 Open SSH , 如果没有则执行 yum install openssh-server 命令在线安装 OpenSSH
openssh-server-7.4p1-21.el7.x86_64
openssh-7.4p1-21.el7.x86_64
openssh-clients-7.4p1-21.el7.x86_64

[root@node01 ~]# systemctl status sshd # 查看当前虚拟机是否开启 Open SSH 服务 , 如果没有则通过 systemctl sshd start 命令开启 OpenSSH 服务
● sshd.service - OpenSSH server daemonLoaded: loaded (/usr/lib/systemd/system/sshd.service; enabled; vendor preset: enabled)Active: active (running) since 三 2022-02-23 14:42:52 CST; 14min agoDocs: man:sshd(8)man:sshd_config(5)Main PID: 890 (sshd)CGroup: /system.slice/sshd.service└─890 /usr/sbin/sshd -D2月 23 14:42:51 node01 systemd[1]: Starting OpenSSH server daemon...
2月 23 14:42:52 node01 sshd[890]: Server listening on 0.0.0.0 port 22.
2月 23 14:42:52 node01 sshd[890]: Server listening on :: port 22.
2月 23 14:42:52 node01 systemd[1]: Started OpenSSH server daemon.
2月 23 14:51:17 node01 sshd[1229]: Accepted password for root from 192.168.197.1 port 9073 ssh2
2月 23 14:51:17 node01 sshd[1233]: Accepted password for root from 192.168.197.1 port 9077 ssh2

通过 MobaXterm远程连接工具,输入IP地址、用户名和密码进行连接测试



配置SSH免密钥登录功能

配置SSH免密钥登录功能的具体操作步骤如下:


  1. 在需要进行集群统一管理的虚拟机上生成密钥,在操作界面输入 ssh-keygen -t rsa命令生成密钥(根据提示可以不用输入任何内容,连续按4次Enter键确认即可)。
  2. 生成密钥操作默认会在虚拟机node01root目录下生成一个包含密钥文件的.ssh隐藏目录。通过执行cd /root/.ssh命令进入.ssh隐藏目录,在该目录下执行ll -a命令查看当前目录下的所有文件内容,id_rsaid_rsa.pub文件分别是虚拟机node01的私钥文件和公钥文件。
  3. 为了便于文件配置和虚拟机通信,通常情况下会对主机名和IP做映射配置,在虚拟机node01执行vim /etc/hosts命令编辑映射文件hosts,分别将虚拟机node01node02node03的IP和主机名进行匹配映射。
  4. 在虚拟机node01上执行ssh-copy-id 主机名命令,将公钥复制到相关联的虚拟机(包括自身)。
  5. 在虚拟机node01上执行ssh node02命令连接虚拟机node02,进行验证免密钥登录操作,此时无需输入密码便可以直接登录到虚拟机node02进行操作,如需返回node01,执行exit命令即可。


JDK的部署

由于Hadoop是 一个用 Java 语言实现的开源软件框架,运行需要Java环境的支持,所以在部署Hadoop前需要在虚拟机中提前安装好JDK,具体操作步骤如下:


  1. 下载JDK:访问Oracle官网下载Linux x64操作系统的JDK安装包 jdk-8u161-linux-x64.tar.gz
  2. 上传JDK安装包:通过MobaXterm远程连接工具连接虚拟机node,进入Linux操作系统中存放应用安装包的目录/usr/local,勾选左侧的跟踪终端文件夹JDK安装包上传到该目录下
  3. 安装JDK:通过解压缩的方式安装JDK,将JDK安装到存放应用的目录/usr/local,并重命名为jdk
  4. 配置JDK环境变量:执行 vim ~/.bash_profile 命令编辑系统环境变量文件.bash_profile
  5. JDK环境验证:执行java -version命令查看JDK版本,验证虚拟机 node 中的JDK环境

# 解压 tar 包到当前目录
[root@node local]# tar -zxvf jdk-8u111-linux-x64.tar.gz
#文件夹重命名
[root@node local]# mv jdk1.8.0_111/ jdk
# 配置 jdk 环境变量
[root@node local]# vim + ~/.bash_profile
export JAVA_HOME=/usr/local/jdk
export PATH=$PATH:$JAVA_HOME/bin
# 重新加载 环境变量文件,使配置生效
[root@node local]# source ~/.bash_profile
# 测试配置是否OK
[root@node local]# java –version

Hadoop的安装


安装单机模式

Hadoop单机模式没有HDFS,只能测试MapReduce程序。MapReduce处理的是本地Linux的文件数据。官方软件下载地址


  1. 官网下载Hadoop安装包,下载版本为Hadoop2.7.3,上传到Linux系统的/usr/local目录下,并解压到当前目录。
  2. 设置Hadoop配置文件,修改hadoop-env.sh文件,配置JAVA_HOME真实环境路径。
  3. 测试Hadoop,在本机运行MapReduce WordCount例子。

# 解压 tar 包到当前目录
[root@node01 local]# tar -zxvf hadoop-2.7.3.tar.gz
#文件夹重命名
[root@node01 local]# mv hadoop-2.7.3 hadoop
# 配置 hadoop 环境变量
[root@node01 local]# vim + ~/.bash_profile
export HADOOP_HOME=/usr/local/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
# 重新加载 环境变量文件,使配置生效
[root@node01 local]# source ~/.bash_profile

# 准备测试MapReduce程序的数据文件
[root@node01 ~]# mkdir ~/input
[root@node01 ~]# cd ~/input
[root@node01 ~]# vim data.txt # yum install -y vim
Hello World
Hello Hadoop

# 运行MapReduce WordCount案例
[root@node01 ~]# cd ~/hadoop/share/hadoop/mapreduce
[root@node01 ~]# hadoop jar hadoop-mapreduce-examples-2.7.3.jar wordcount ~/input/data.txt ~/output
# 采用下面命令查看结果
[root@node01 ~]# cd ~/output
[root@node01 ~]# cat part-r-00000
Hadoop 1
Hello 2
World 1

安装伪分布式模式

官方Hadoop环境搭建教程 伪分布式其实是完全分布式的一种特例,但它只有一个节点,安装伪分布式模式所需要修改的文件、属性名称、属性值及含义如下所示:


文件名称

属性名称

属性值

含义

hadoop-env.sh|mapred-env.sh|yarn-env.sh

JAVA_HOME

/usr/local/jdk

指定JAVA_HOME安装地址

core-site.xml

fs.defaultFS

hdfs://:8020

配置NameNode地址,8020RPC通讯端口

hadoop.tmp.dir

/usr/local/hadoop/data

HDFS数据保存在Linux的那个目录,默认值是Linux/tmp目录

hdfs-site.xml

dfs.replication

1

副本数,默认是3

mapred-site.xml

mapreduce.framework.name

yarn

配置集群模式为yarn模式,local表示本地模式

yarn-site.xml

yarn.resourcemanager.hostname

ResourceManagerIP地址或主机名

yarn.nodemanager.aux-services

mapreduce_shuffle

NodeManager上运行的附属服务


nodeLinux操作系统的映射地址,通过修改/etc/hosts进行配置,也可以使用IP地址代替



修改 hadoop-env.sh|mapred-env.sh|yarn-env.sh 设置 Hadoop 环境对应的 JDK

export JAVA_HOME=/usr/local/jdk

修改 core-site.xml  配置文件

fs.defaultFShdfs://node:8020

hadoop.tmp.dir/usr/local/hadoop/data

修改 hdfs-site.xml 配置文件

dfs.replication1

dfs.namenode.secondary.http-addressnode:50090

修改 slaves 配置文件

# 替换 slaves 中的节点名称

[root@node local]# echo node > /usr/local/hadoop/etc/hadoop/slaves

格式化HDFS并启动

# 格式化 HDFS ,由于已经配置过 Hadoop 的 bin 环境变量,则该命令可以在任意目录下运行
[root@node local]# hdfs namenode -format # 启动 HDFS 分布式文件系统 - 启动 namenode 元数据节点,负责管理文件切片存储
[root@node local]# hadoop-daemon.sh start namenode # 启动 datanode 副本节点,负责存储文件切片,定时发送心跳和块状态报告
[root@node local]# hadoop-daemon.sh start datanode# 启动 secondarynamenode 镜像备份节点,同步元数据和操作日志
[root@node local]# hadoop-daemon.sh start secondarynamenode # 查看所有 java 进程,验证 HDFS 的节点是否启动成功
[root@node local]# jps
12176 DataNode
12085 NameNode
12270 SecondaryNameNode
12318 Jps

HDFS 分布式文件系统启动,可以使用一个统一命令 : [root@node local]# start-dfs.sh ,格式化失败,解决办法,停止集群,删除HDFS配置的data目录与临时目录下面的所有数据,重新格式化



HDFS 的Web 管理界面

HDFS 提供了Web 管理界面,可以很方便地查看HDFS 相关信息,在浏览器地址栏中输入HDFSNameNodeWeb 访问地址,默认端口是 50070YARNWeb管理界面,默认端口号为8088

可以使用 IP 地址访问 HDFS Web ,也可使用之前在 window 系统中配置的 C:\Windows\System32\drivers\etc\hosts 映射名称 node


安装完全分布式模式


集群规划

使用 Hadoop2.7.3jdk1.8 搭建3个节点的完全分布式一个namenode,3个datanode,集群规划如下:


主机名

IP地址

服务进程

node01

192.168.242.101

namenode   datanode  nodemanager  secondarynamenode   resourcemanager

node02

192.168.242.102

datanode  nodemanager

node03

192.168.242.103

datanode  nodemanager


集群配置

使用 VMware 工具克隆3个虚拟机,分别命名为node01node02node03,用于集群配置,注意:克隆需要先把节点关机

[root@node01 local]# poweroff

打开 VMware ,在关机状态,选中要克隆的节点,右键--> 管理 --> 克隆 , 或者直接找到要克隆的节点所在磁盘文件夹,直接复制三个个也可以。


  1. 完整克隆:完整克隆的虚拟机可以脱离原始虚拟机独立使用,不与原始虚拟机共享任何资源,是完全独立的虚拟机。
  2. 链接克隆:链接克隆的虚拟机需要和原始虚拟机共享同一虚拟磁盘文件,不能脱离原始虚拟机独立运行。

使用nmtui命令修改主机名称和网络IP地址。

使用 MobaXterm 进行连接测试配置是否 OK


配置 SSH 免密登录

在每个节点上都需要生成 SSH 免密登录的密钥对。输入命令 ssh-keygen ,然后 4 个回车即可。

可以使用 MoBaXterm的多会话功能,直接操作 3 个节点

[root@node01 ~]# ssh-keygen -t rsa
[root@node01 ~]#


JDK的部署


  1. 下载JDK:访问Oracle官网下载Linux x64操作系统的JDK安装包 jdk-8u161-linux-x64.tar.gz
  2. 上传JDK安装包:通过MobaXterm远程连接工具连接虚拟机node01,进入Linux操作系统中存放应用安装包的目录/usr/local/src,勾选左侧的跟踪终端文件夹JDK安装包上传到该目录下
  3. 安装JDK:通过解压缩的方式安装JDK,将JDK安装到存放应用的目录/usr/local,并重命名为jdk
  4. 配置JDK环境变量:执行 vim /etc/profile 命令编辑系统环境变量文件profile
  5. JDK环境验证:执行java -version命令查看JDK版本,验证虚拟机 node01 中的JDK环境

# 解压 tar 包到当前目录
[root@node01 local]# tar -zxvf jdk-8u111-linux-x64.tar.gz
#文件夹重命名
[root@node01 local]# mv jdk1.8.0_111/ jdk
# 配置 jdk 环境变量
[root@node01 local]# vim + ~/.bash_profile
export JAVA_HOME=/usr/local/jdk
export PATH=$PATH:$JAVA_HOME/bin
# 重新加载 环境变量文件,使配置生效
[root@node01 local]# source ~/.bash_profile
# 测试配置是否OK
[root@node01 local]# java –version
# JDK和环境文件分发
[root@node01 local]# scp -r jdk root@node02:/usr/local/
[root@node01 local]# scp -r jdk root@node03:/usr/local/
[root@node01 local]# scp /root/.bash_profile root@node02:/root/.bash_profile
[root@node01 local]# scp /root/.bash_profile root@node03:/root/.bash_profile

编写分发脚本xsync.sh

使用rsync远程分发工具实现本地主机和远程主机上的文件同步,检查发送方和接收方已有的文件,仅传输有变动的部分。(yum install -y rsync

#!/bin/bash#1. 判断是否传递了路径参数
pcount=$#
if ((pcount==0)); thenecho "no args"exit 1
fi# 2. 获取文件名称
fname=`basesname $1`# 3. 获取父级目录
pdir=`cd $(dirname $fname);pwd`
read -p "开始分发,文件目录为:${pdir}/${fname},y/n:" flg
if [ $flg == 'n' ];thenecho "停止分发..."exit 0
fi# 4. 循环分发
for node in node02 node03; doecho "分发:${node}=================="rsync -av $pdir/$fname root@$node:$pdirecho "${node}分发结束================"
done

# 修改脚本执行权限
[root@node01 ~]# chmod +x xsync.sh
# 移动到 /usr/bin 目录下
[root@node01 ~]# mv xsync.sh /usr/bin
# 远程分发 jdk 到 node02 和 node03 中
[root@node01 local]# xsync.sh jdk/

安装Hadoop


  1. 使用MobaXterm远程连接工具连接虚拟机node01,上传Hadoop安装包hadoop-2.7.3.tar.gz/usr/local目录下
  2. 通过解压缩的方式安装Hadoop,将Hadoop安装到存放应用的目录/usr/local,并重命名为hadoop
  3. 编辑文件.bash_profile,执行vim /root/.bash_profile命令编辑环境变量文件,配置Hadoop环境变量
  4. 重新加载环境配置文件,执行source /root/.bash_profile命令初始化系统环境变量使配置内容生效
  5. 执行hadoop version命令查看Hadoop版本

# 解压 tar 包到当前目录
[root@node01 local]# tar -zxvf hadoop-2.7.3.tar.gz
#文件夹重命名
[root@node01 local]# mv hadoop-2.7.3 hadoop
# 配置 hadoop 环境变量
[root@node01 local]# vim + ~/.bash_profile
export HADOOP_HOME=/usr/local/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
# 重新加载 环境变量文件,使配置生效
[root@node01 local]# source ~/.bash_profile
# 测试配置是否OK
[root@node01 local]# hadoop version

修改 hadoop-env.sh、yarn-env.sh、mapred-env.sh 设置 Hadoop 环境对应的 JDK

[root@node01 local]# vim /usr/local/hadoop/etc/hadoop/hadoop-env.sh
export JAVA_HOME=/usr/local/jdk[root@node01 local]# vim /usr/local/hadoop/etc/hadoop/yarn-env.sh
export JAVA_HOME=/usr/local/jdk[root@node01 local]# vim /usr/local/hadoop/etc/hadoop/mapred-env.sh
export JAVA_HOME=/usr/local/jdk

修改 core-site.xml  配置文件

[root@node01 local]# vim + /usr/local/hadoop/etc/hadoop/core-site.xml

fs.defaultFShdfs://node01:8020

hadoop.tmp.dir/usr/local/hadoop/data/tmp

修改 hdfs-site.xml 配置文件

[root@node01 local]# vim + /usr/local/hadoop/etc/hadoop/hdfs-site.xml

dfs.replication3

dfs.namenode.secondary.http-addressnode01:50090

修改 mapred-site.xml 配置文件

[root@node01 local]# cp /usr/local/hadoop/etc/hadoop/mapred-site.xml.template /usr/local/hadoop/etc/hadoop/mapred-site.xml
[root@node01 local]# vim /usr/local/hadoop/etc/hadoop/mapred-site.xml

mapreduce.framework.nameyarn

mapreduce.jobhistory.addressnode01:10020

mapreduce.jobhistory.webapp.addressnode01:19888

修改yarn-site.xml 配置文件

[root@node01 local]# vim /usr/local/hadoop/etc/hadoop/yarn-site.xml

yarn.nodemanager.aux-servicesmapreduce_shuffle

yarn.resourcemanager.hostnamenode01

yarn.log-aggregation-enabletrue

yarn.log-aggregation.retain-seconds604800

修改slaves 配置文件

# 替换 slaves 中的节点名称
[root@node01 local]# vim /usr/local/hadoop/etc/hadoop/slaves
node01
node02
node03

使用远程拷贝工具把Hadoop.bash_profile配置文件分发到另外两台机器

[root@node01 local]# xcall.sh hadoop/
[root@node01 ~]# xcall.sh .bash_profile

格式化 HDFS

在主节点 node01 上运行 HDFS 格式化命令

[root@node01 ~]# hdfs namenode -format
20/08/23 17:13:52 INFO common.Storage: Storage directory /usr/local/hadoop-2.7.3/data/namenode has been successfully formatted.

启动 Hadoop 服务测试

[root@node01 hadoop]# start-all.sh
[root@node01 hadoop]# jps
3537 Jps
2931 DataNode
3284 ResourceManager
3097 SecondaryNameNode
3385 NodeManager
2827 NameNode
[root@node01 hadoop]#

测试访问

这里使用的是 node01 服务名进行访问,需要在本机 C:\Windows\System32\drivers\etc\hosts 中配置地址映射。


推荐阅读
  • 本文详细介绍了HDFS的基础知识及其数据读写机制。首先,文章阐述了HDFS的架构,包括其核心组件及其角色和功能。特别地,对NameNode进行了深入解析,指出其主要负责在内存中存储元数据、目录结构以及文件块的映射关系,并通过持久化方案确保数据的可靠性和高可用性。此外,还探讨了DataNode的角色及其在数据存储和读取过程中的关键作用。 ... [详细]
  • 在搭建Hadoop集群以处理大规模数据存储和频繁读取需求的过程中,经常会遇到各种配置难题。本文总结了作者在实际部署中遇到的典型问题,并提供了详细的解决方案,帮助读者避免常见的配置陷阱。通过这些经验分享,希望读者能够更加顺利地完成Hadoop集群的搭建和配置。 ... [详细]
  • Presto:高效即席查询引擎的深度解析与应用
    本文深入解析了Presto这一高效的即席查询引擎,详细探讨了其架构设计及其优缺点。Presto通过内存到内存的数据处理方式,显著提升了查询性能,相比传统的MapReduce查询,不仅减少了数据传输的延迟,还提高了查询的准确性和效率。然而,Presto在大规模数据处理和容错机制方面仍存在一定的局限性。本文还介绍了Presto在实际应用中的多种场景,展示了其在大数据分析领域的强大潜力。 ... [详细]
  • 2012年9月12日优酷土豆校园招聘笔试题目解析与备考指南
    2012年9月12日,优酷土豆校园招聘笔试题目解析与备考指南。在选择题部分,有一道题目涉及中国人的血型分布情况,具体为A型30%、B型20%、O型40%、AB型10%。若需确保在随机选取的样本中,至少有一人为B型血的概率不低于90%,则需要选取的最少人数是多少?该问题不仅考察了概率统计的基本知识,还要求考生具备一定的逻辑推理能力。 ... [详细]
  • 第二章:Kafka基础入门与核心概念解析
    本章节主要介绍了Kafka的基本概念及其核心特性。Kafka是一种分布式消息发布和订阅系统,以其卓越的性能和高吞吐量而著称。最初,Kafka被设计用于LinkedIn的活动流和运营数据处理,旨在高效地管理和传输大规模的数据流。这些数据主要包括用户活动记录、系统日志和其他实时信息。通过深入解析Kafka的设计原理和应用场景,读者将能够更好地理解其在现代大数据架构中的重要地位。 ... [详细]
  • Zookeeper作为Apache Hadoop生态系统中的一个重要组件,主要致力于解决分布式应用中的常见数据管理难题。它提供了统一的命名服务、状态同步服务以及集群管理功能,有效提升了分布式系统的可靠性和可维护性。此外,Zookeeper还支持配置管理和临时节点管理,进一步增强了其在复杂分布式环境中的应用价值。 ... [详细]
  • 在前一篇文章《Hadoop》系列之“踽踽独行”(二)中,我们详细探讨了云计算的核心概念。本章将重点转向物联网技术,全面解析其基本原理、应用场景及未来发展前景。通过深入分析物联网的架构和技术栈,我们将揭示其在智能城市、工业自动化和智能家居等领域的广泛应用潜力。此外,还将讨论物联网面临的挑战,如数据安全和隐私保护等问题,并展望其在未来技术融合中的重要角色。 ... [详细]
  • Hadoop 2.6 主要由 HDFS 和 YARN 两大部分组成,其中 YARN 包含了运行在 ResourceManager 的 JVM 中的组件以及在 NodeManager 中运行的部分。本文深入探讨了 Hadoop 2.6 日志文件的解析方法,并详细介绍了 MapReduce 日志管理的最佳实践,旨在帮助用户更好地理解和优化日志处理流程,提高系统运维效率。 ... [详细]
  • 技术日志:Ansible的安装及模块管理详解 ... [详细]
  • 构建高可用性Spark分布式集群:大数据环境下的最佳实践
    在构建高可用性的Spark分布式集群过程中,确保所有节点之间的无密码登录是至关重要的一步。通过在每个节点上生成SSH密钥对(使用 `ssh-keygen -t rsa` 命令并保持默认设置),可以实现这一目标。此外,还需将生成的公钥分发到所有节点的 `~/.ssh/authorized_keys` 文件中,以确保节点间的无缝通信。为了进一步提升集群的稳定性和性能,建议采用负载均衡和故障恢复机制,并定期进行系统监控和维护。 ... [详细]
  • HBase在金融大数据迁移中的应用与挑战
    随着最后一台设备的下线,标志着超过10PB的HBase数据迁移项目顺利完成。目前,新的集群已在新机房稳定运行超过两个月,监控数据显示,新集群的查询响应时间显著降低,系统稳定性大幅提升。此外,数据消费的波动也变得更加平滑,整体性能得到了显著优化。 ... [详细]
  • NoSQL数据库,即非关系型数据库,有时也被称作Not Only SQL,是一种区别于传统关系型数据库的管理系统。这类数据库设计用于处理大规模、高并发的数据存储与查询需求,特别适用于需要快速读写大量非结构化或半结构化数据的应用场景。NoSQL数据库通过牺牲部分一致性来换取更高的可扩展性和性能,支持分布式部署,能够有效应对互联网时代的海量数据挑战。 ... [详细]
  • Hudi是一种数据湖的存储格式,在Hadoop文件系统之上提供了更新数据和删除数据的能力以及流式消费变化数据的能力。应用场景近实时数据摄取Hudi支持插入、更新和删除数据的能力。您 ... [详细]
  • 1、概述hdfs文件系统主要设计为了存储大文件的文件系统;如果有个TB级别的文件,我们该怎么存储呢?分布式文件系统未出现的时候࿰ ... [详细]
  • HDFS是什么?HDFS全称HadoopDistributedFileSystem,简称HDFS,是一个分布式文件系统。它是谷歌的GFS提出之后出现的另外一种文件系统。它有一定高 ... [详细]
author-avatar
建哥2502897913
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有