热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

Hdoop分布式安装要点

2019独角兽企业重金招聘Python工程师标准1.Ubuntu上的准备1)合适的用户建议添加一个名为hadoop的用户方便记忆(其实什么用户都无

2019独角兽企业重金招聘Python工程师标准>>> hot3.png

1.Ubuntu上的准备

1)合适的用户

建议添加一个名为hadoop的用户方便记忆(其实什么用户都无大碍),不建议使用root!!具体方法自行检索,这里提供总体的过程梳理,下同。

2)合适的java版本

不建议使用Ubuntu自带的java版本,请自行下载并让当前用户使用。

3)openssh-server

Ubuntu默认只安装了ssh客户端,没有安装服务器端,安装ssh服务器端是必须的。

4)关闭防火墙

root权限用户:

iptables -F

 

2.用户的设置

1)修改hostname

Ubuntu的主机名(hostname)修改的位置是:/etc/hostname

建议修改为masterX或slaveX

2)修改hosts表

vi /etc/hosts  建立各集群主机名(hostname)与ip的对应关系

127.0.0.1这个本地回环地址只能映射为localhost,有多余的删除!(伪分布式可能使用,集群模式不能使用)

3)配置PATH、JAVA_HOME变量

配置~/.bashrc文件里的PATH、JAVA_HOME

 

3.hadoop2.7.3配置

修改几个配置文件:

core-site.xml

hdfs-site.xml

mapred-site.xml

yarn-site.xml

和DataNode结点的主机名文件:

slaves

 

4.hadoop文件复制

将配置好的整个hadoop文件(第三步)复制到集群里所有的机器中(避免重复操作的不二选择0.o)

建议使用scp命令

 

5.设置ssh免密登录

master主机可以ssh免密登录所有的主机包括自己(localhost)。

master主机的当前用户产生ssh公私钥,将公钥发给所有机器的当前用户,所有的用户将该公钥保存到允许列表(authorized_key)里,master用自己的私钥实现身份认证从而免密登录。

 

6.NameNode结点的格式化

maser主机上执行

hdfs namenode -format

--

以上


转:https://my.oschina.net/u/3673665/blog/1547844



推荐阅读
  • Hadoop2.6.0 + 云centos +伪分布式只谈部署
    3.0.3玩不好,现将2.6.0tar.gz上传到usr,chmod-Rhadoop:hadophadoop-2.6.0,rm掉3.0.32.在etcp ... [详细]
  •     这里使用自己编译的hadoop-2.7.0版本部署在windows上,记得几年前,部署hadoop需要借助于cygwin,还需要开启ssh服务,最近发现,原来不需要借助cy ... [详细]
  • Hadoop之Yarn
    目录1Hadoop1.x和Hadoop2.x架构区别2Yarn概述3Yarn基本架构4Yarn工作机制5作业提交全过程6资源调度器7任务的推测执行1Hadoop1.x和Hadoo ... [详细]
  • 2018年人工智能大数据的爆发,学Java还是Python?
    本文介绍了2018年人工智能大数据的爆发以及学习Java和Python的相关知识。在人工智能和大数据时代,Java和Python这两门编程语言都很优秀且火爆。选择学习哪门语言要根据个人兴趣爱好来决定。Python是一门拥有简洁语法的高级编程语言,容易上手。其特色之一是强制使用空白符作为语句缩进,使得新手可以快速上手。目前,Python在人工智能领域有着广泛的应用。如果对Java、Python或大数据感兴趣,欢迎加入qq群458345782。 ... [详细]
  • Java序列化对象传给PHP的方法及原理解析
    本文介绍了Java序列化对象传给PHP的方法及原理,包括Java对象传递的方式、序列化的方式、PHP中的序列化用法介绍、Java是否能反序列化PHP的数据、Java序列化的原理以及解决Java序列化中的问题。同时还解释了序列化的概念和作用,以及代码执行序列化所需要的权限。最后指出,序列化会将对象实例的所有字段都进行序列化,使得数据能够被表示为实例的序列化数据,但只有能够解释该格式的代码才能够确定数据的内容。 ... [详细]
  • Python语法上的区别及注意事项
    本文介绍了Python2x和Python3x在语法上的区别,包括print语句的变化、除法运算结果的不同、raw_input函数的替代、class写法的变化等。同时还介绍了Python脚本的解释程序的指定方法,以及在不同版本的Python中如何执行脚本。对于想要学习Python的人来说,本文提供了一些注意事项和技巧。 ... [详细]
  • 本文介绍了在Win10上安装WinPythonHadoop的详细步骤,包括安装Python环境、安装JDK8、安装pyspark、安装Hadoop和Spark、设置环境变量、下载winutils.exe等。同时提醒注意Hadoop版本与pyspark版本的一致性,并建议重启电脑以确保安装成功。 ... [详细]
  • 本文介绍了RPC框架Thrift的安装环境变量配置与第一个实例,讲解了RPC的概念以及如何解决跨语言、c++客户端、web服务端、远程调用等需求。Thrift开发方便上手快,性能和稳定性也不错,适合初学者学习和使用。 ... [详细]
  • 大数据Hadoop生态(20)MapReduce框架原理OutputFormat的开发笔记
    本文介绍了大数据Hadoop生态(20)MapReduce框架原理OutputFormat的开发笔记,包括outputFormat接口实现类、自定义outputFormat步骤和案例。案例中将包含nty的日志输出到nty.log文件,其他日志输出到other.log文件。同时提供了一些相关网址供参考。 ... [详细]
  • MR程序的几种提交运行模式本地模型运行1在windows的eclipse里面直接运行main方法,就会将job提交给本地执行器localjobrunner执行-- ... [详细]
  • Kylin 单节点安装
    软件环境Hadoop:2.7,3.1(sincev2.5)Hive:0.13-1.2.1HBase:1.1,2.0(sincev2.5)Spark(optional)2.3.0K ... [详细]
  •        在搭建Hadoop环境之前,请先阅读如下博文,把搭建Hadoop环境之前的准备工作做好,博文如下:       1、CentOS6.7下安装JDK,地址:http:b ... [详细]
  • MapReduce 切片机制源码分析
     总体来说大概有以下2个大的步骤1.连接集群(yarnrunner或者是localjobrunner)2.submitter.submitJobInternal()在该方法中会创建 ... [详细]
  • SparkOnYarn在YARN上启动Spark应用有两种模式。在cluster模式下,Spark驱动器(driver)在YARNApp ... [详细]
  • Yarn已过时!Kubeflow实现机器学习调度平台才是未来
    来源:AI前线本文约6700字,建议阅读10分钟。本文分析了建设分布式训练平台的过程中的痛点所在,为你介绍Kubeflow与其核心组件及其 ... [详细]
author-avatar
dcwzyb_271
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有