ApacheSpark1.0.1集群搭建[转]

作者： | 来源：互联网 | 2023-08-06 17:40

ApacheSparkafastandgeneralengineforlarge-scaledataprocessingSpark是一个高效的分布式计算系统，相比Ha

　　Apache Spark a fast and general engine for large-scale data processing

　　Spark是一个高效的分布式计算系统&＃xff0c;相比Hadoop&＃xff0c;它在性能上比Hadoop要高100倍。Spark是发源于美国加州大学伯克利分校AMPLab的集群计算平台&＃xff0c;它克服了MapReduce在迭代式计算和交互式计算方面的不足&＃xff0c;通过引入RDD&＃xff08;Resilient Distributed Datasets&＃xff09;数据表示模型&＃xff0c;能够很好地解决MapReduce不易解决的问题。相比于MapReduce&＃xff0c;Spark能够充分利用内存资源提高计算效率。

一、基本环境

包含三个节点&＃xff1a;

master&＃xff08;Ubuntu Desktop版本&＃xff09; 192.168.145.128

slave1&＃xff08;Ubuntu Server版本&＃xff09; 192.168.145.129

slave2&＃xff08;Ubuntu Server版本&＃xff09; 192.168.145.130

操作系统&＃xff1a;Ubuntu14.04 x64

JDK版本&＃xff1a;jdk1.8.0_11

Hadoop版本&＃xff1a;Hadoop-2.2.0

Scala版本&＃xff1a;2.10.4&＃xff08;官网要求2.10.X&＃xff09;

Spark版本&＃xff1a;1.0.1

取得《Spark-1.0.1 的make-distribution.sh编译、SBT编译、Maven编译三种编译方法》中编译好的 spark-1.0.1-bin-2.2.0.tgz

Hadoop-2.2.0集群的安装见http://www.cnblogs.com/fesh/p/3766656.html

Scala的安装见 http://www.cnblogs.com/fesh/p/3805611.html

&＃xff08;注&＃xff1a;Scala在master节点上安装好后&＃xff0c;直接用scp命令分发到slave1、slave2&＃xff0c;并在slave1和slave2配置环境变量即可&＃xff09;

在master节点和slave1节点分别配置/etc/hosts和/etc/hostname&＃xff1a;&＃xff08;下面这些应该在安装Hadoop集群时已经配置好了&＃xff09;

/etc/hosts

192.168.145.128 master
192.168.145.129 slave1
192.168.145.130 slave2

/etc/hostname (master)

master

/etc/hostname (slave1)

slave1

/etc/hostname (slave2)

slave2

二、Spark配置

1、master节点文件配置

在master节点&＃xff1a;

解压spark-1.0.1-bin-2.2.0.tgz

tar -zxvf spark-1.0.1-bin-2.2.0.tgz

在/etc/profile中配置环境变量

#Set SPARK_HOME
export SPARK_HOME&＃61;/home/fesh/spark-1.0.1-bin-2.2.0
export PATH&＃61;$PATH:$SPARK_HOME/bin

在spark-1.0.1-bin-2.2.0/conf下配置文件spark-env.sh和slaves&＃xff1a;

cp spark-env.sh.template spark-env.sh
sudo gedit spark-env.sh

在文件spark-env.sh末尾添加&＃xff1a;

export HADOOP_CONF_DIR&＃61;/home/fesh/hadoop-2.2.0/etc/hadoop
export JAVA_HOME&＃61;/usr/lib/jvm/jdk1.8.0_11
export SCALA_HOME&＃61;/home/fesh/scala-2.10.4
export SPARK_MASTER_IP&＃61;master
export SPARK_WORKER_MEMORY&＃61;512M
export SPARK_EXECUTOR_MEMORY&＃61;512Mexport SPARK_EXECUTOR_INSTANCES&＃61;2 &＃xff08;下面这几项可以不配置&＃xff0c;采用默认就可以了&＃xff09;
export SPARK_EXECUTOR_CORES&＃61;1
export SPARK_DRIVER_MEMORY&＃61;512M
export SPARK_YARN_APP_NAME&＃61;"spark 1.0.1"

在文件slaves中去掉localhohst并设置

master
slave1
slave2

2、分发文件

分发spark-1.0.1-bin-2.2.0文件到slave1节点

scp -r spark-1.0.1-bin-2.2.0 slave1:~/

分发spark-1.0.1-bin-2.2.0文件到slave2节点

scp -r spark-1.0.1-bin-2.2.0 slave2:~/

三、启动Spark集群

首先启动Hadoop-2.2.0集群&＃xff0c;然后在spark-1.0.1-bin-2.2.0根目录下启动Spark集群

sbin/start-all.sh

对于slave1节点

对于slave2节点

四、查看信息

1、进入Spark集群的Web页面

在master节点上&＃xff0c;浏览器访问&＃xff1a; http://master:8080

2、控制台查看

进入{SPARK_HOME}/bin目录&＃xff0c;使用 spark-shell 控制台

3、Web查看SparkUI

在master节点&＃xff0c;浏览器进入 http://master:4040

五、停止Spark集群

sbin/stop-all.sh

参考&＃xff1a;

1、http://spark.apache.org/docs/latest/running-on-yarn.html

2、http://spark.apache.org/docs/latest/configuration.html

转:https://www.cnblogs.com/zjITgrow/p/7448327.html

推荐阅读

list
Nginx使用（server参数配置）

本文介绍了Nginx的使用，重点讲解了server参数配置，包括端口号、主机名、根目录等内容。同时，还介绍了Nginx的反向代理功能。 ... [详细]

蜡笔小新 2023-12-14 17:08:34
process
SpringMVC接收请求参数的方式总结

本文总结了在SpringMVC开发中处理控制器参数的各种方式，包括处理使用@RequestParam注解的参数、MultipartFile类型参数和Simple类型参数的RequestParamMethodArgumentResolver，处理@RequestBody注解的参数的RequestResponseBodyMethodProcessor，以及PathVariableMapMethodArgumentResol等子类。 ... [详细]

蜡笔小新 2023-12-11 19:55:40
process
DataTables插件介绍及使用方法

本文介绍了DataTables插件的官方网站以及其基本特点和使用方法，包括分页处理、数据过滤、数据排序、数据类型检测、列宽度自动适应、CSS定制样式、隐藏列等功能。同时还介绍了其易用性、可扩展性和灵活性，以及国际化和动态创建表格的功能。此外，还提供了参数初始化和延迟加载的示例代码。 ... [详细]

蜡笔小新 2023-12-09 17:40:33
process
SQL Server 内存中OLTP内部机制概述（一）

内存中OLTP（项目名为“Hekaton”）是一个新的完全集成到SQLServer中的数据库引擎组件。它专为访问内存常驻数据的OLTP工作负荷而进行优化。内存中OLTP有助于OLT ... [详细]

蜡笔小新 2023-12-09 10:10:23
js
AJAX的POST请求及实现数据修改功能的方法

本文介绍了使用AJAX的POST请求实现数据修改功能的方法。通过ajax-post技术，可以实现在输入某个id后，通过ajax技术调用post.jsp修改具有该id记录的姓名的值。文章还提到了AJAX的概念和作用，以及使用async参数和open()方法的注意事项。同时强调了不推荐使用async=false的情况，并解释了JavaScript等待服务器响应的机制。 ... [详细]

蜡笔小新 2023-12-14 16:12:01
io
Centos7.6安装Gitlab教程及注意事项

本文介绍了在Centos7.6系统下安装Gitlab的详细教程，并提供了一些注意事项。教程包括查看系统版本、安装必要的软件包、配置防火墙等步骤。同时，还强调了使用阿里云服务器时的特殊配置需求，以及建议至少4GB的可用RAM来运行GitLab。 ... [详细]

蜡笔小新 2023-12-14 14:01:06
io
如何使用Java获取服务器硬件信息和磁盘负载率

本文介绍了使用Java编程语言获取服务器硬件信息和磁盘负载率的方法。首先在远程服务器上搭建一个支持服务端语言的HTTP服务，并获取服务器的磁盘信息，并将结果输出。然后在本地使用JS编写一个AJAX脚本，远程请求服务端的程序，得到结果并展示给用户。其中还介绍了如何提取硬盘序列号的方法。 ... [详细]

蜡笔小新 2023-12-14 13:56:20
list
在mac环境下使用nginx配置nodejs代理服务器的步骤

本文介绍了在mac环境下使用nginx配置nodejs代理服务器的步骤，包括安装nginx、创建目录和文件、配置代理的域名和日志记录等。 ... [详细]

蜡笔小新 2023-12-13 10:34:21
io
WebSocket与Socket.io的理解

WebSocketprotocol是HTML5一种新的协议。它的最大特点就是，服务器可以主动向客户端推送信息，客户端也可以主动向服务器发送信息，是真正的双向平等对话，属于服务器推送 ... [详细]

蜡笔小新 2023-12-12 19:35:15
c语言
31.项目部署

目录1一些概念1.1项目部署1.2WSGI1.3uWSGI1.4Nginx2安装环境与迁移项目2.1项目内容2.2项目配置2.2.1DEBUG2.2.2STAT ... [详细]

蜡笔小新 2023-12-12 12:15:41
process
java实现rstp格式转换使用ffmpeg实现linux命令第一步安装node.js和ffmpeg第二步搭建node.js启动websocket接收服务

java实现rstp格式转换使用ffmpeg实现linux命令第一步安装node.js和ffmpeg第二步搭建node.js启动websocket接收服务第三步java实现 ... [详细]

蜡笔小新 2023-12-09 10:05:37
process
Ubuntu系统清理残余配置文件和无用内容的方法

本文介绍了在Ubuntu系统中清理残余配置文件和无用内容的方法，包括清理残余配置文件、清理下载缓存包、清理不再需要的包、清理无用的语言文件和清理无用的翻译内容。通过这些清理操作可以节省硬盘空间，提高系统的运行效率。 ... [详细]

蜡笔小新 2023-12-09 10:04:56
process
Redis的默认端口、数据库使用和多端口配置

本文介绍了Redis的默认端口、数据库使用和多端口配置的方法。通过选择不同的数据库和使用flushdb命令可以实现对不同数据库的访问和清除数据。同时，本文还介绍了在同一台机器上启用多个Redis实例的方法，并讨论了配置认证密码的步骤和注意事项。 ... [详细]

蜡笔小新 2023-12-09 08:27:30
process
Hadoop源码解析1Hadoop工程包架构解析

1 Hadoop中各工程包依赖简述 Google的核心竞争技术是它的计算平台。Google的大牛们用了下面5篇文章，介绍了它们的计算设施。 GoogleCluster：ht ... [详细]

蜡笔小新 2023-10-17 13:28:20
list
mapreduce源码分析总结

这篇文章总结的非常到位,故而转之一MapReduce概述MapReduce是一个用于大规模数据处理的分布式计算模型，它最初是由Google工程师设计并实现的ÿ ... [详细]

蜡笔小新 2023-10-17 12:36:35

Tags | 热门标签

RankList | 热门文章