热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

RedHat6.5安装Spark集群

版本号:RedHat6.5RHEL6.5系统安装配置图解教程(rhel-server-6.5)JDK1.8http:blog.csdn.netchongxin1articl

版本号:

RedHat6.5   RHEL 6.5系统安装配置图解教程(rhel-server-6.5)

JDK1.8      http://blog.csdn.net/chongxin1/article/details/68957808

Hadoop2.7.3   RedHat6.5上安装Hadoop集群

scala-2.11.8  

spark-2.1.1-bin-hadoop2.7

1 安装Spark依赖的Scala

          Hadoop的安装请参考上面提到的博文,因为Spark依赖scala,所以在安装Spark之前,这里要先安装scala。

在每个节点上都进行安装,本文主要是master、slave1、slave2三台机器。

1.1  下载和解压缩Scala

官网下载地址:https://downloads.lightbend.com/scala/2.11.8/scala-2.11.8.tgz 

百度云盘下载地址:链接:http://pan.baidu.com/s/1eSiVjO2 密码:y8b1 

linux在服务器的/usr/local目录下新建一个名为scala的文件夹,并将下载的压缩包上载上去

如图: 

执行命令,进入到该目录:

cd    /usr/local/scala

执行命令进行解压缩:

tar   -xvf   scala-2.11.8.tgz

1.2  配置环境变量

sudo gedit /et/profile

编辑/etc/profile这个文件,在文件中增加一行配置:

 
  1. #set Scala environment
  2. export SCALA_HOME=/usr/local/scala/scala-2.11.8
  3. export PATH=$SCALA_HOME/bin:$PATH

  添加完成后,我的/etc/profile的配置如下:

 
  1. #set Java environment
  2. export JAVA_HOME=/usr/local/java/jdk1.8
  3. export JRE_HOME=/usr/local/java/jdk1.8/jre
  4. export CLASSPATH=.:$JAVA_HOME/lib:$JRE_HOME/lib:$CLASSPATH
  5. export PATH=$JAVA_HOME/bin:$JRE_HOME/bin:$JAVA_HOME:$PATH
  6.  
  7. #set Hadoop enviroment
  8. export HADOOP_HOME=/usr/local/hadoop/hadoop-2.7.3
  9. export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH
  10. export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
  11. export YARN_CONF_DIR=$HADOOP_HOME/etc/hadoop
  12.  
  13. #set Scala environment
  14. export SCALA_HOME=/usr/local/scala/scala-2.11.8
  15. export PATH=$SCALA_HOME/bin:$PATH

环境变量配置完成后,执行下面的命令: 

source   /etc/profile  

1.3 验证Scala

    执行命令: scala     -version  

   如图:    


以上是在master机器上安装,将安装好的scala复制到slave1、slave2机器上:

scp -r /usr/local/scala root@slave1:/usr/local

scp -r /usr/local/scala root@slave2:/usr/local


修改slave1、slave2的/etc/profile环境变量配置文件,方法同1.2。

2 下载和解压缩Spark      

2.1 下载Spark压缩包

官网下载地址:http://mirrors.hust.edu.cn/apache/spark/spark-2.1.1/spark-2.1.1-bin-hadoop2.7.tgz  

百度云盘下载地址:链接:http://pan.baidu.com/s/1cGTtgU 密码:hciq      

2.2  解压缩Spark

       下载完成后,在Linux服务器的/usr/local目录下新建一个名为spark的文件夹,把刚才下载的压缩包,上传上去。

如图:

进入到该目录内,也就是执行下面的命令:

cd    /usr/local/spark

执行解压缩命令:

tar   -zxvf   spark-2.1.1-bin-hadoop2.7.tgz

3  Spark相关的配置

         说明:因为我们搭建的是基于hadoop集群的Spark集群,所以每个hadoop节点上我都安装了Spark,都需要按照下面的步骤做配置,启动的话只需要在Spark集群的Master机器上启动即可,我这里是在master上启动。

3.1  配置环境变量

sudo gedit /etc/profile

编辑/etc/profile文件,增加

 
  1. #set Spark environment
  2. export SPARK_HOME=/usr/local/spark/spark-2.1.1-bin-hadoop2.7
  3. export PATH=$SPARK_HOME/bin:$PATH

      注意:因为$SPARK_HOME/sbin目录下有一些文件名称和$HADOOP_HOME/sbin目录下的文件同名,为了避免同名文件冲突,这里不在PATH变量里添加$SPARK_HOME/sbin只添加了$SPARK_HOME/bin。

修改完成后,/etc/profile文件内容是:

 
  1. #set Java environment
  2. export JAVA_HOME=/usr/local/java/jdk1.8
  3. export JRE_HOME=/usr/local/java/jdk1.8/jre
  4. export CLASSPATH=.:$JAVA_HOME/lib:$JRE_HOME/lib:$CLASSPATH
  5. export PATH=$JAVA_HOME/bin:$JRE_HOME/bin:$JAVA_HOME:$PATH
  6.  
  7. #set Hadoop enviroment
  8. export HADOOP_HOME=/usr/local/hadoop/hadoop-2.7.3
  9. export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH
  10. export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
  11. export YARN_CONF_DIR=$HADOOP_HOME/etc/hadoop
  12.  
  13. #set Scala environment
  14. export SCALA_HOME=/usr/local/scala/scala-2.11.8
  15. export PATH=$SCALA_HOME/bin:$PATH
  16.  
  17. #set Spark environment
  18. export SPARK_HOME=/usr/local/spark/spark-2.1.1-bin-hadoop2.7
  19. export PATH=$SPARK_HOME/bin:$PATH

编辑完成后,执行命令:

source   /etc/profile

3.2 配置conf目录下的文件

         对/usr/local/spark/spark-2.1.1-bin-hadoop2.7/conf目录下的文件进行配置。

3.2.1  新建spark-env.h文件

        执行命令,进入到/usr/local/spark/spark-2.1.1-bin-hadoop2.7/conf目录内:

cd    /usr/local/spark/spark-2.1.1-bin-hadoop2.7/conf

       以spark为我们创建好的模板创建一个spark-env.h文件,命令是:

cp    spark-env.sh.template   spark-env.sh   

编辑spark-env.sh文件,在里面加入配置(具体路径以自己的为准):

 
  1. export JAVA_HOME=/usr/local/java/jdk1.8
  2. export SCALA_HOME=/usr/local/scala/scala-2.11.8
  3. export HADOOP_HOME=/usr/local/hadoop/hadoop-2.7.3
  4. export HADOOP_DIR=$HADOOP_HOME/etc/hadoop
  5. export SPARK_HOME=/usr/local/spark/spark-2.1.1-bin-hadoop2.7
  6. export SPARK_MASTER_IP=master
  7. export SPARK_EXECUTOR_MEMORY=1g

3.2.2 新建slaves文件

执行命令,进入到/usr/local/spark/spark-2.1.1-bin-hadoop2.7/conf目录内:

cd   /usr/local/spark/spark-2.1.1-bin-hadoop2.7/conf

以spark为我们创建好的模板创建一个slaves文件,命令是:

cp    slaves.template   slaves

编辑slaves文件,里面的内容为:

master

slave1

slave2 

如图:

3.3WorkerN节点:(slave1、slave2两台机器)

将配置好的spark文件复制到workerN节点

scp  -r  /usr/local/spark  root@slave1:/usr/local

scp  -r  /usr/local/spark  root@slave2:/usr/local

修改/etc/profile,增加spark相关的配置,如MASTER节点一样。(参考3.1)

4 启动和测试Spark集群

4.1 启动Spark

       因为spark是依赖于hadoop提供的分布式文件系统的,所以在启动spark之前,先确保hadoop在正常运行。

        在hadoop正常运行的情况下,在master(也就是hadoop的namenode,spark的marster节点)上执行命令:

 cd  /usr/local/spark/spark-2.1.1-bin-hadoop2.7/sbin

 执行启动脚本:

  ./start-all.sh 

  完整控制台输出内容是:

 
  1.    [root@master conf]# cd /usr/local/spark/spark-2.1.1-bin-hadoop2.7/sbin
  2. [root@master sbin]# ./start-all.sh
  3. starting org.apache.spark.deploy.master.Master, logging to /usr/local/spark/spark-2.1.1-bin-hadoop2.7/logs/spark-root-org.apache.spark.deploy.master.Master-1-master.out
  4. slave1: starting org.apache.spark.deploy.worker.Worker, logging to /usr/local/spark/spark-2.1.1-bin-hadoop2.7/logs/spark-root-org.apache.spark.deploy.worker.Worker-1-slave1.out
  5. slave2: starting org.apache.spark.deploy.worker.Worker, logging to /usr/local/spark/spark-2.1.1-bin-hadoop2.7/logs/spark-root-org.apache.spark.deploy.worker.Worker-1-slave2.out
  6. master: starting org.apache.spark.deploy.worker.Worker, logging to /usr/local/spark/spark-2.1.1-bin-hadoop2.7/logs/spark-root-org.apache.spark.deploy.worker.Worker-1-master.out
  7. master: failed to launch: nice -0 /usr/local/spark/spark-2.1.1-bin-hadoop2.7/bin/spark-class org.apache.spark.deploy.worker.Worker --webui-port 8081 spark://master:7077
  8. master: full log in /usr/local/spark/spark-2.1.1-bin-hadoop2.7/logs/spark-root-org.apache.spark.deploy.worker.Worker-1-master.out

注意:上面的命令中有./这个不能少,./的意思是执行当前目录下的start-all.sh脚本。

4.2  测试和使用Spark集群

4.2.1  访问Spark集群提供的URL

在浏览器里访问Mster机器,我的Spark集群里Master机器是master,IP地址是192.168.168.200,访问8080端口,URL是:

http://192.168.168.200:8080       

如图: 

参考资料:http://blog.csdn.net/pucao_cug/article/details/72353701 


推荐阅读
  • 本文介绍了在Win10上安装WinPythonHadoop的详细步骤,包括安装Python环境、安装JDK8、安装pyspark、安装Hadoop和Spark、设置环境变量、下载winutils.exe等。同时提醒注意Hadoop版本与pyspark版本的一致性,并建议重启电脑以确保安装成功。 ... [详细]
  • Apache Shiro 身份验证绕过漏洞 (CVE202011989) 详细解析及防范措施
    本文详细解析了Apache Shiro 身份验证绕过漏洞 (CVE202011989) 的原理和影响,并提供了相应的防范措施。Apache Shiro 是一个强大且易用的Java安全框架,常用于执行身份验证、授权、密码和会话管理。在Apache Shiro 1.5.3之前的版本中,与Spring控制器一起使用时,存在特制请求可能导致身份验证绕过的漏洞。本文还介绍了该漏洞的具体细节,并给出了防范该漏洞的建议措施。 ... [详细]
  • 2018-02-1420:07:13,610ERROR[main]regionserver.HRegionServerCommandLine:Regionserverexiting ... [详细]
  • 【转】腾讯分析系统架构解析
    TA(TencentAnalytics,腾讯分析)是一款面向第三方站长的免费网站分析系统,在数据稳定性、及时性方面广受站长好评,其秒级的实时数据更新频率也获得业界的认可。本文将从实 ... [详细]
  • CentOS 7配置SSH远程访问及控制
    nsitionalENhttp:www.w3.orgTRxhtml1DTDxhtml1-transitional.dtd ... [详细]
  • Skywalking系列博客1安装单机版 Skywalking的快速安装方法
    本文介绍了如何快速安装单机版的Skywalking,包括下载、环境需求和端口检查等步骤。同时提供了百度盘下载地址和查询端口是否被占用的命令。 ... [详细]
  • 如何在服务器主机上实现文件共享的方法和工具
    本文介绍了在服务器主机上实现文件共享的方法和工具,包括Linux主机和Windows主机的文件传输方式,Web运维和FTP/SFTP客户端运维两种方式,以及使用WinSCP工具将文件上传至Linux云服务器的操作方法。此外,还介绍了在迁移过程中需要安装迁移Agent并输入目的端服务器所在华为云的AK/SK,以及主机迁移服务会收集的源端服务器信息。 ... [详细]
  • Java在运行已编译完成的类时,是通过java虚拟机来装载和执行的,java虚拟机通过操作系统命令JAVA_HOMEbinjava–option来启 ... [详细]
  • 本文介绍了在Linux下安装和配置Kafka的方法,包括安装JDK、下载和解压Kafka、配置Kafka的参数,以及配置Kafka的日志目录、服务器IP和日志存放路径等。同时还提供了单机配置部署的方法和zookeeper地址和端口的配置。通过实操成功的案例,帮助读者快速完成Kafka的安装和配置。 ... [详细]
  • Java如何导入和导出Excel文件的方法和步骤详解
    本文详细介绍了在SpringBoot中使用Java导入和导出Excel文件的方法和步骤,包括添加操作Excel的依赖、自定义注解等。文章还提供了示例代码,并将代码上传至GitHub供访问。 ... [详细]
  • PHP组合工具以及开发所需的工具
    本文介绍了PHP开发中常用的组合工具和开发所需的工具。对于数据分析软件,包括Excel、hihidata、SPSS、SAS、MARLAB、Eview以及各种BI与报表工具等。同时还介绍了PHP开发所需的PHP MySQL Apache集成环境,包括推荐的AppServ等版本。 ... [详细]
  • Tomcat安装与配置教程及常见问题解决方法
    本文介绍了Tomcat的安装与配置教程,包括jdk版本的选择、域名解析、war文件的部署和访问、常见问题的解决方法等。其中涉及到的问题包括403问题、数据库连接问题、1130错误、2003错误、Java Runtime版本不兼容问题以及502错误等。最后还提到了项目的前后端连接代码的配置。通过本文的指导,读者可以顺利完成Tomcat的安装与配置,并解决常见的问题。 ... [详细]
  • ZooKeeper 学习
    前言相信大家对ZooKeeper应该不算陌生。但是你真的了解ZooKeeper是个什么东西吗?如果别人面试官让你给他讲讲ZooKeeper是个什么东西, ... [详细]
  • importorg.apache.hadoop.hdfs.DistributedFileSystem;导入方法依赖的package包类privatevoidtestHSyncOpe ... [详细]
  • LVS-DR直接路由实现负载均衡示例
    nsitionalENhttp:www.w3.orgTRxhtml1DTDxhtml1-transitional.dtd ... [详细]
author-avatar
粉爱_粉爱陈小翔
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有