当前位置: 开发笔记 > 编程语言 > 正文

大数据集群快速安装教程

作者：Mr_维力_811 | 来源：互联网 | 2023-08-26 19:31

大数据集群快速安装教程俗话说：”工欲善其事，必先利其器“。这里推荐一个快速搭建大数据集群的工具。如果是刚刚接触大数据新人，建议还是自己

大数据集群快速安装教程

俗话说&＃xff1a;”工欲善其事&＃xff0c;必先利其器“。

这里推荐一个快速搭建大数据集群的工具。如果是刚刚接触大数据新人&＃xff0c;建议还是自己亲自动手配置下。

github地址&＃xff1a;https://github.com/yiluohan1234/vagrant_bigdata_cluster

一、简介

vagrant_bigdata_cluster 是一个利用 VirtualBox 虚拟机快速搭建大数据集群的工具。

本集群创建的组件如下表所示。

组件	hdp101	hdp102	hdp103
OS	centos7.6	centos7.6	centos7.6
JDK	jdk1.8	jdk1.8	jdk1.8
HDFS	NameNode DataNode	DataNode JobHistoryServer	DataNode SecondaryNameNode
YARN	NodeManager	ResourceManager NodeManager	NodeManager
Hive	Hive	NA	NA
HBase	HMaster HRegionServer	HRegionServer	HRegionServer
Spark	master worker	worker	worker
Flink	StandaloneSessionClusterEntrypoint TaskManagerRunner	TaskManagerRunner	TaskManagerRunner
Zookeeper	QuorumPeerMain	QuorumPeerMain	QuorumPeerMain
Kafka	kafka	Kafka	Kafka
Flume	flume	flume	flume
Scala	scala	scala	scala
Maven	mvn	NA	NA
Sqoop	sqoop	NA	NA
MySQL	NA	NA	MySQL Server
Nginx	Nginx	NA	NA
Redis	Redis	NA	NA
Elasticsearch	Elasticsearch	Elasticsearch	Elasticsearch
Kibana	Kibana	NA	NA

组件版本&＃xff1a;

Java: 1.8 Hadoop: 2.7.7 Hive: 2.3.4 Hbase: 1.6.0 Spark: 2.4.3 Flink: 1.12.4 Zookeeper: 3.6.3 Kafka: 2.10-0.10.2.2 Flume: 1.9.0 Scala: 2.11.11 Maven: 3.6.1 Sqoop: 1.4.7 MySQl Connector: 5.1.49 MySQL: 5.7.40&＃xff08;yum安装&＃xff09; Nginx: 1.20.1&＃xff08;yum安装&＃xff09; Redis: 3.2.12&＃xff08;yum安装&＃xff09; Elasticsearch: 6.6.0 Kibana: 6.6.0 Canal: 1.25.0 Maxwell: 3.84.4 Presto: 0.196 Kylin: 3.0.2

二、基本准备

集群默认启动三个节点&＃xff0c;每个节点的默认内存是2G&＃xff0c;所以你的机器至少需要6G&＃xff0c;我的机器是16G&＃xff0c;启动很多组件的话会卡。如果有条件&＃xff0c;建议升级机器为32G内存&＃xff0c;每台机器4G。
我的测试环境软件版本&＃xff1a;Vagrant 2.2.14&＃xff0c; Virtualbox 6.0.14
虚拟机默认用户名&＃xff1a;vagrant&＃xff0c;默认密码为&＃xff1a;vagrant
MySQL的 root 用户密码为&＃xff1a;199037

三、安装集群环境

下载和安装VirtualBOX
下载和安装Vagrant
克隆本项目到本地&＃xff0c;并cd到项目所在目录&＃xff08;备注&＃xff1a;我是下载了gitbash&＃xff0c;通过gitbash命令行操作&＃xff09;

git clone https://github.com/yiluohan1234/vagrant_bigdata_cluster cd vagrant_bigdata_cluster
执行vagrant up 创建虚拟机
可以通过执行 vagrant ssh 登录到你创建的虚拟机&＃xff0c;或通过SecureCRT等工具进行登录。默认创建用户为 vagrant&＃xff0c;root 和 vagrant 用户的密码为 vagrant
如果你想要删除虚拟机&＃xff0c;可以通过执行vagrant destroy 来实现

四、自定义集群环境配置

基本目录结构

resources scripts .gitignore README.md VagrantFile

你可以通过修改VagrantFile、scripts/common.sh文件和resources/组件名称目录下各个组件的配置文件文件来实现自定义集群。

VagrantFile
这个文件可以设置虚拟机的的版本、个数、名称、主机名、IP、内存、CPU等&＃xff0c;根据自己需要更改即可。
scripts/common.sh
这个文件可以设置各个组件的版本。

注意&＃xff1a;部分组件需要同步更改XXX_VERSION和XXX_MIRROR_DOWNLOAD&＃xff0c;保证能下载到组件版本。

五、集群安装完毕后相关组件初始化及启动

1、ssh免登陆

在每台机器上执行以下

setssh

2、启动hadoop与测试

1&＃xff09;启动

在 hdp101 机器上执行以下命令对hadoop集群进行格式化&＃xff0c;并启动hdfs和yarn。

hdfs namenode -format start-dfs.sh

在 hdp102 机器上执行以下命令&＃xff0c;启动yarn和jobhistory。

start-yarn.sh mr-jobhistory-daemon.sh start historyserver (mapred --damon)

或者

bigstart hdp format bigstart hdp start

2&＃xff09;测试

通过执行下列命令可以测试yarn是否安装成功。

yarn jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples*.jar pi 2 100

3、启动Spark&＃xff08;Standalone &＃xff09;与测试

1&＃xff09;启动

在 hdp101 机器上执行以下命令。

$SPARK_HOME/sbin/start-all.sh

或者

bigstart spark start

2&＃xff09;测试

通过执行下列命令可以测试spark是否安装成功。

hdfs dfs -mkdir /spark-log spark-submit --class org.apache.spark.examples.SparkPi \ --master yarn \ --num-executors 1 \ --executor-cores 2 \ $SPARK_HOME/examples/jars/spark-examples*.jar 100

4、启动Flink

1&＃xff09;启动

在 hdp101 机器上执行以下命令。

$FLINK_HOME/bin/start-cluster.sh

或者

bigstart flink start

2&＃xff09;测试

通过执行下列命令可以测试Flink是否安装成功。

# 批量WordCount flink run $FLINK_HOME/examples/batch/WordCount.jar

5、启动Hive与测试

1&＃xff09;启动

~~在 hdp103 节点登录MySQL数据库&＃xff0c;创建hive的元数据库。~~&＃xff08;已在mysql安装时完成&＃xff0c;mysql默认密码为199037&＃xff09;

# 创建hive的元数据库 mysql -uroot -p199037 -e "create user &＃39;hive&＃39;&＃64;&＃39;%&＃39; IDENTIFIED BY &＃39;hive&＃39;;GRANT ALL PRIVILEGES ON *.* TO &＃39;hive&＃39;&＃64;&＃39;%&＃39; WITH GRANT OPTION;grant all on *.* to &＃39;hive&＃39;&＃64;&＃39;localhost&＃39; identified by &＃39;hive&＃39;;flush privileges;"

在 hdp101 节点&＃xff0c;初始化元数据&＃xff0c;看到 schemaTool completed &＃xff0c;即初始化成功&＃xff01;

schematool -initSchema -dbType mysql

报错&＃xff1a;Exception in thread “main” java.lang.NoSuchMethodError: com.google.common.base.Preconditions.checkArgument(ZLjava/lang/String;Ljava/lang/Object;)V

hadoop和hive的两个guava.jar版本不一致

两个位置分别位于下面两个目录&＃xff1a;

/usr/local/hive/lib/
/usr/local/hadoop/share/hadoop/common/lib/

解决办法&＃xff1a;
删除低版本的那个&＃xff0c;将高版本的复制到低版本目录下

2&＃xff09;Hive服务启动与测试

在 hdp101 节点&＃xff0c;创建测试数据

# 创建数据文件 vi ~/stu.txt

内容如下&＃xff1a;

00001,zhangsan 00002,lisi 00003,wangwu 00004,zhaoliu

创建库表并加载数据到Hive表

# 启动hive [vagrant&＃64;hdp101 ~]$ hive # 创建表 hive (default)> CREATE TABLE stu(id INT,name STRING) ROW FORMAT DELIMITED FIELDS TERMINATED BY &＃39;,&＃39;; # 加载数据 hive (default)> load data local inpath &＃39;/root/stu.txt&＃39; into table stu; # 查看库表 hive (default)> select * from stu; OK 1 zhangsan 2 lisi 3 wangwu 4 zhaoliu Time taken: 3.301 seconds, Fetched: 4 row(s)

6、启动Zookeeper

在 hdp101 节点登录执行以下命令。&＃xff08;注意&＃xff1a;不能以root执行&＃xff09;

bigstart es start(或stop)

jpsall查看一下进程&＃xff1a;

[vagrant&＃64;hdp101 ~]$ jpsall --------------------- hdp101节点 --------------------- 2899 QuorumPeerMain --------------------- hdp102节点 --------------------- 25511 QuorumPeerMain --------------------- hdp103节点 --------------------- 25993 QuorumPeerMain

PrettyZoo

7、启动Elasticsearch

在 hdp101 节点登录执行以下命令。&＃xff08;注意&＃xff1a;不能以root执行&＃xff09;

bigstart es start(或stop)

jpsall查看一下进程&＃xff1a;

[vagrant&＃64;hdp101 ~]$ jpsall --------------------- hdp101节点 --------------------- 3185 Kafka 2899 QuorumPeerMain 3365 Elasticsearch --------------------- hdp102节点 --------------------- 25511 QuorumPeerMain 25800 Kafka 25964 Elasticsearch --------------------- hdp103节点 --------------------- 26276 Kafka 26440 Elasticsearch 25993 QuorumPeerMain

访问 http://hdp101:9200/_cat/nodes?v 查看节点状态。

8、启动Kibana

在 hdp101 节点登录执行以下命令。

bigstart kibana start(或stop)

WARN: Establishing SSL connection without server&＃39;s identity verification is not recommended. According to MySQL 5.5.45&＃43;, 5.6.26&＃43; and 5.7.6&＃43; requirements SSL connection must be established by default if explicit option isn&＃39;t set. For compliance with existing applications not using SSL the verifyServerCertificate property is set to &＃39;false&＃39;. You need either to explicitly disable SSL by setting useSSL&＃61;false, or set useSSL&＃61;true and provide truststore for server certificate verification.

访问 http://hdp101:5601/ 查看。

9、启动Kafka

1&＃xff09;启动

在 hdp101 节点登录执行以下命令&＃xff1a;

bigstart zookeeper start bigstart kibana start(或stop)

2&＃xff09;测试

在 hdp101 节点执行以下命令&＃xff0c;创建topic&＃xff1a;test

kafka-topics.sh --zookeeper hdp101:2181,hdp102:2181,hdp103:2181/kafka --create --topic test --replication-factor 1 --partitions 3

在 hdp101 节点执行以下命令&＃xff0c;生产者生产数据

kafka-console-producer.sh --broker-list hdp101:9092,hdp102:9092,hdp103:9092 --topic test hello world

在 hdp103 节点执行以下命令&＃xff0c;消费者消费数据

kafka-console-consumer.sh --bootstrap-server hdp101:9092,hdp102:9092,hdp103:9092 --topic test --from-beginning

10、启动Hbase

1&＃xff09;启动

在 hdp101 节点登录执行以下命令&＃xff1a;

bigstart zookeeper start bigstart hbase start(或stop)

2&＃xff09;测试

略

六. Web UI

可以通过以下链接访问大数据组件的web页面。

HDFS

ResourceManager

JobHistory

Spark

Flink

Elasticsearch

Kibana

Hbase

推荐阅读

filter
技术日志：深入探讨Spark Streaming与Spark SQL的融合应用

技术日志：深入探讨Spark Streaming与Spark SQL的融合应用 ... [详细]

蜡笔小新 2024-10-30 14:20:53
web
从0到1搭建大数据平台

从0到1搭建大数据平台 ... [详细]

蜡笔小新 2024-11-12 15:26:03
web
流处理中的计数挑战与解决方案

本文探讨了在流处理中进行计数的各种技术和挑战，并基于作者在2016年圣何塞举行的Hadoop World大会上的演讲进行了深入分析。文章不仅介绍了传统批处理和Lambda架构的局限性，还详细探讨了流处理架构的优势及其在现代大数据应用中的重要作用。 ... [详细]

蜡笔小新 2024-11-20 13:50:01
config
Kafka入门指南

本文将详细介绍如何在CentOS 7上安装和配置Kafka，包括必要的环境准备、JDK和Zookeeper的配置步骤。 ... [详细]

蜡笔小新 2024-11-18 17:41:13
uri
Centos7 Tomcat9 安装笔记

centos7,tom ... [详细]

蜡笔小新 2024-11-17 18:15:16
web
第二章：Kafka基础入门与核心概念解析

本章节主要介绍了Kafka的基本概念及其核心特性。Kafka是一种分布式消息发布和订阅系统，以其卓越的性能和高吞吐量而著称。最初，Kafka被设计用于LinkedIn的活动流和运营数据处理，旨在高效地管理和传输大规模的数据流。这些数据主要包括用户活动记录、系统日志和其他实时信息。通过深入解析Kafka的设计原理和应用场景，读者将能够更好地理解其在现代大数据架构中的重要地位。 ... [详细]

蜡笔小新 2024-11-06 11:10:03
config
在Linux系统中配置环境变量以切换不同版本Python的方法与实践

在Linux系统中，原本已安装了多个版本的Python 2，并且还安装了Anaconda，其中包含了Python 3。本文详细介绍了如何通过配置环境变量，使系统默认使用指定版本的Python，以便在不同版本之间轻松切换。此外，文章还提供了具体的实践步骤和注意事项，帮助用户高效地管理和使用不同版本的Python环境。 ... [详细]

蜡笔小新 2024-10-30 09:39:09
filter
解决sbt构建过程中遇到的“对象apache非org软件包”错误

在使用sbt构建项目时，遇到了“对象apache不是org软件包的成员”的错误。本文详细分析了该问题的原因，并提供了有效的解决方案，包括检查依赖配置、清理缓存和更新sbt插件等步骤，帮助开发者快速解决问题。 ... [详细]

蜡笔小新 2024-10-29 16:21:59
config
在Windows环境中优化提交Spark任务的方法与实践

在Windows环境中优化提交Spark任务的方法与实践 ... [详细]

蜡笔小新 2024-10-28 13:09:29
list
Storm集成Kakfa

一、整合说明Storm官方对Kafka的整合分为两个版本，官方说明文档分别如下：StormKafkaIntegratio ... [详细]

蜡笔小新 2024-10-16 20:20:41
main
两种方式实现Flink异步IO查询Mysql

如官网所描述的Flink支持两种方式实现异步IO查询外部系统http ... [详细]

蜡笔小新 2024-09-28 11:27:02
main
什么是大数据lambda架构

一、什么是Lambda架构Lambda架构由Storm的作者[NathanMarz]提出，根据维基百科的定义，Lambda架构的设计是为了在处理大规模数 ... [详细]

蜡笔小新 2023-10-17 16:06:09
config
CentOS 7 上安装与完全卸载 GitLab 的详细指南

本文详细介绍了如何在 CentOS 7 及其衍生发行版（如 Red Hat, Oracle, Scientific Linux 7）上安装和完全卸载 GitLab。包括安装必要的依赖关系、配置防火墙、安装 GitLab 软件包以及常见问题的解决方法。 ... [详细]

蜡笔小新 2024-11-17 17:42:51
uri
投融资周报 | Circle 达成 4 亿美元融资协议，唯一艺术平台 A 轮融资超千万美元

投融资周报 | Circle 达成 4 亿美元融资协议，唯一艺术平台 A 轮融资超千万美元 ... [详细]

蜡笔小新 2024-11-05 04:56:42
main
如何高效启动大数据应用之旅？

在前一篇文章中，我探讨了大数据的定义及其与数据挖掘的区别。本文将重点介绍如何高效启动大数据应用项目，涵盖关键步骤和最佳实践，帮助读者快速踏上大数据之旅。 ... [详细]

蜡笔小新 2024-11-04 18:30:38

Mr_维力_811

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章