热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

开发笔记:大数据HDFS集群搭建

篇首语:本文由编程笔记#小编为大家整理,主要介绍了大数据---HDFS集群搭建相关的知识,希望对你有一定的参考价值。

篇首语:本文由编程笔记#小编为大家整理,主要介绍了大数据---HDFS集群搭建相关的知识,希望对你有一定的参考价值。



一、准备工作

  1.准备几台机器,我这里使用VMware准备了四台机器,一个name node,三个data node

  VMware安装虚拟机:https://www.cnblogs.com/nijunyang/p/12001312.html

  2.Hadoop生态几乎都是用的java开发的,因此四台机器还需要安装JDK

  3.集群内主机域名映射,将四台机器的IP和主机名映射分别写到hosts文件中(切记主机名不要带非法字符,图片中的下划线”_”请忽略)

  vim /etc/hosts

 

  配好一个之后可以直接将这个复制到其他机器上面去,不用每台都去配置:

 

  scp /etc/hosts nijunyang69:/etc/

 

  scp /etc/hosts nijunyang70:/etc/

 

  scp /etc/hosts nijunyang71:/etc/

 

 二、hdfs集群安装

 

  1.下载hadoop安装包到linux服务器上面,并进行解压,我这里使用的的2.8.5

 

  tar -zxvf hadoop-2.8.5.tar.gz

  2.hadoop指定java环境变量

  hadoop-2.8.5/etc/hadoop/hadoop-env.sh 文件中指定java环境变量:

  export JAVA_HOME=/soft/jdk1.8.0_191

 

 

 

 

  3.配置核心参数:

 默认参数:https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-hdfs/hdfs-default.xml

    1)指定hadoop的默认文件系统为:hdfs

 

    2)指定hdfsnamenode节点为哪台机器

 

    修改/etc/hadoop/core-site.xml 指定hadoop默认文件系统为hdfs,并且指定name node

 


    <configuration>
      <property>
        <name>fs.defaultFSname>
        <value>hdfs://nijunyang68:9000/value>
      property>
    configuration>

 

 

 

 

 

 

    3) 指定namenode存储数据的本地目录

    4) 指定datanode存放文件块的本地目录

    修改/etc/hadoop/hdfs-site.xml


<configuration>
<property>
<name>dfs.namenode.name.dirname>
<value>/hadoop/hdpdata/name/value>
property>
<property>
<name>dfs.datanode.data.dirname>
<value>/hadoop/hdpdata/datavalue>
property>
configuration>

 

 

 

 

 

     每台机器都执行同样的操作,配置好上述配置,可以使用scp -r /soft/hadoop-2.8.5 nijunyang69:/soft 这个命令将第一台机器配置好的全部打包拷贝到另外机器上面去。

  4.配置hadoop环境变量

  5.初始化namenodehadoop namenode -format

 

  这时我们设置的namenode数据目录下面就会初始化出来对应的文件夹

 

 

  6.启动namenode:在之前指定的namenode上面执行:hadoop-daemon.sh start namenode

 

  Jps查看可以看到一个namenodejava进程,同时通过默认的50070端口可以进行web访问

 

 

 

 

 

 

 

 

 

  可以看到现在HDFS的容量还是0,因为我还没有启动datanode

   7.依次启动datanodehadoop-daemon.sh start datanode

  同样可以看到一个datanodejava进程启动了,再看web页面这个时候的hdfs容量大小差不多就是三个datanode之和了。

 

 

 

 

 

 

 

   至此整个hdfs集群基本就搭建完毕了,中间的一个小插曲,主机名一定不要带”.” “/” “_”等特殊符号,否则启动无服务的时候可能报错无法启动:Does not contain a valid host

 

 

 

三、脚本一键启动集群

  1.在启动的机器上配置SSH免密登录集群所有机器,在任意一台机器配置都可以

  1)生成秘钥:ssh-keygen

  2)设置免密连接:

  ssh-copy-id nijunyang68

  ssh-copy-id nijunyang69

  ssh-copy-id nijunyang70

  ssh-copy-id nijunyang71

 

  设置好之后就可以当前机器直接通过SSH连接其他机器,不需要输入密码

  2. 修改文件hadoop-2.8.5/etc/hadoop/etc/hadoop/slaves,加入需要启动的datanode

    默认有个本机。如果不需要再本机启动datanode就把localhost删掉

 

 

  3.执行sbin目录下的集群启动脚本/停止脚本:start-dfs.sh/stop-dfs.sh

 

 

 

 

 

  虽然集群起来了,但是还有个Starting secondary namenodes 启动在本机上,这个时候我最好去将secondary namenodes配置到另外的机器上面去,修改之前的/etc/hadoop/hdfs-site.xml,加入secondary namenodes的配置:

  

  dfs.namenode.secondary.http-address

  nijunyang69:50090

  



推荐阅读
  • MySQL5.6.40在CentOS764下安装过程 ... [详细]
  • Nginx使用AWStats日志分析的步骤及注意事项
    本文介绍了在Centos7操作系统上使用Nginx和AWStats进行日志分析的步骤和注意事项。通过AWStats可以统计网站的访问量、IP地址、操作系统、浏览器等信息,并提供精确到每月、每日、每小时的数据。在部署AWStats之前需要确认服务器上已经安装了Perl环境,并进行DNS解析。 ... [详细]
  • 本文介绍了Python高级网络编程及TCP/IP协议簇的OSI七层模型。首先简单介绍了七层模型的各层及其封装解封装过程。然后讨论了程序开发中涉及到的网络通信内容,主要包括TCP协议、UDP协议和IPV4协议。最后还介绍了socket编程、聊天socket实现、远程执行命令、上传文件、socketserver及其源码分析等相关内容。 ... [详细]
  • 本文介绍了数据库的存储结构及其重要性,强调了关系数据库范例中将逻辑存储与物理存储分开的必要性。通过逻辑结构和物理结构的分离,可以实现对物理存储的重新组织和数据库的迁移,而应用程序不会察觉到任何更改。文章还展示了Oracle数据库的逻辑结构和物理结构,并介绍了表空间的概念和作用。 ... [详细]
  • Metasploit攻击渗透实践
    本文介绍了Metasploit攻击渗透实践的内容和要求,包括主动攻击、针对浏览器和客户端的攻击,以及成功应用辅助模块的实践过程。其中涉及使用Hydra在不知道密码的情况下攻击metsploit2靶机获取密码,以及攻击浏览器中的tomcat服务的具体步骤。同时还讲解了爆破密码的方法和设置攻击目标主机的相关参数。 ... [详细]
  • 图解redis的持久化存储机制RDB和AOF的原理和优缺点
    本文通过图解的方式介绍了redis的持久化存储机制RDB和AOF的原理和优缺点。RDB是将redis内存中的数据保存为快照文件,恢复速度较快但不支持拉链式快照。AOF是将操作日志保存到磁盘,实时存储数据但恢复速度较慢。文章详细分析了两种机制的优缺点,帮助读者更好地理解redis的持久化存储策略。 ... [详细]
  • 本文介绍了在Mac上搭建php环境后无法使用localhost连接mysql的问题,并通过将localhost替换为127.0.0.1或本机IP解决了该问题。文章解释了localhost和127.0.0.1的区别,指出了使用socket方式连接导致连接失败的原因。此外,还提供了相关链接供读者深入了解。 ... [详细]
  • 本文介绍了在mac环境下使用nginx配置nodejs代理服务器的步骤,包括安装nginx、创建目录和文件、配置代理的域名和日志记录等。 ... [详细]
  • Linux如何安装Mongodb的详细步骤和注意事项
    本文介绍了Linux如何安装Mongodb的详细步骤和注意事项,同时介绍了Mongodb的特点和优势。Mongodb是一个开源的数据库,适用于各种规模的企业和各类应用程序。它具有灵活的数据模式和高性能的数据读写操作,能够提高企业的敏捷性和可扩展性。文章还提供了Mongodb的下载安装包地址。 ... [详细]
  • Python已成为全球最受欢迎的编程语言之一,然而Python程序的安全运行存在一定的风险。本文介绍了Python程序安全运行需要满足的三个条件,即系统路径上的每个条目都处于安全的位置、"主脚本"所在的目录始终位于系统路径中、若python命令使用-c和-m选项,调用程序的目录也必须是安全的。同时,文章还提出了一些预防措施,如避免将下载文件夹作为当前工作目录、使用pip所在路径而不是直接使用python命令等。对于初学Python的读者来说,这些内容将有所帮助。 ... [详细]
  • 本文主要介绍关于linux文件描述符设置,centos7设置文件句柄数,centos7查看进程数的知识点,对【Linux之进程数和句柄数】和【linux句柄数含义】有兴趣的朋友可以看下由【东城绝神】投 ... [详细]
  • Hadoop源码解析1Hadoop工程包架构解析
    1 Hadoop中各工程包依赖简述   Google的核心竞争技术是它的计算平台。Google的大牛们用了下面5篇文章,介绍了它们的计算设施。   GoogleCluster:ht ... [详细]
  • 找到JDK下载URL当然去官网找了。目前最新的1.8的下载URL(RPM)如下:http:download.oracle.comotn-pubjavajdk8u161-b122f3 ... [详细]
  • 对于一般的扩展包,我们一般直接pipinstallxxx即可安装,但是unrar直接安装后,发现并不能通过Python程序实现解压的功能& ... [详细]
  • 基于SSL的mysql服务器的主从架构实现说明:本文选用172.16.22.1作为主服务器,172.16.22.3作为从服务器从服务器的mysql软件版 ... [详细]
author-avatar
deavilacampuzano
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有