热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

开发笔记:大数据HDFS集群搭建

篇首语:本文由编程笔记#小编为大家整理,主要介绍了大数据---HDFS集群搭建相关的知识,希望对你有一定的参考价值。

篇首语:本文由编程笔记#小编为大家整理,主要介绍了大数据---HDFS集群搭建相关的知识,希望对你有一定的参考价值。



一、准备工作

  1.准备几台机器,我这里使用VMware准备了四台机器,一个name node,三个data node

  VMware安装虚拟机:https://www.cnblogs.com/nijunyang/p/12001312.html

  2.Hadoop生态几乎都是用的java开发的,因此四台机器还需要安装JDK

  3.集群内主机域名映射,将四台机器的IP和主机名映射分别写到hosts文件中(切记主机名不要带非法字符,图片中的下划线”_”请忽略)

  vim /etc/hosts

 

  配好一个之后可以直接将这个复制到其他机器上面去,不用每台都去配置:

 

  scp /etc/hosts nijunyang69:/etc/

 

  scp /etc/hosts nijunyang70:/etc/

 

  scp /etc/hosts nijunyang71:/etc/

 

 二、hdfs集群安装

 

  1.下载hadoop安装包到linux服务器上面,并进行解压,我这里使用的的2.8.5

 

  tar -zxvf hadoop-2.8.5.tar.gz

  2.hadoop指定java环境变量

  hadoop-2.8.5/etc/hadoop/hadoop-env.sh 文件中指定java环境变量:

  export JAVA_HOME=/soft/jdk1.8.0_191

 

 

 

 

  3.配置核心参数:

 默认参数:https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-hdfs/hdfs-default.xml

    1)指定hadoop的默认文件系统为:hdfs

 

    2)指定hdfsnamenode节点为哪台机器

 

    修改/etc/hadoop/core-site.xml 指定hadoop默认文件系统为hdfs,并且指定name node

 


    <configuration>
      <property>
        <name>fs.defaultFSname>
        <value>hdfs://nijunyang68:9000/value>
      property>
    configuration>

 

 

 

 

 

 

    3) 指定namenode存储数据的本地目录

    4) 指定datanode存放文件块的本地目录

    修改/etc/hadoop/hdfs-site.xml


<configuration>
<property>
<name>dfs.namenode.name.dirname>
<value>/hadoop/hdpdata/name/value>
property>
<property>
<name>dfs.datanode.data.dirname>
<value>/hadoop/hdpdata/datavalue>
property>
configuration>

 

 

 

 

 

     每台机器都执行同样的操作,配置好上述配置,可以使用scp -r /soft/hadoop-2.8.5 nijunyang69:/soft 这个命令将第一台机器配置好的全部打包拷贝到另外机器上面去。

  4.配置hadoop环境变量

  5.初始化namenodehadoop namenode -format

 

  这时我们设置的namenode数据目录下面就会初始化出来对应的文件夹

 

 

  6.启动namenode:在之前指定的namenode上面执行:hadoop-daemon.sh start namenode

 

  Jps查看可以看到一个namenodejava进程,同时通过默认的50070端口可以进行web访问

 

 

 

 

 

 

 

 

 

  可以看到现在HDFS的容量还是0,因为我还没有启动datanode

   7.依次启动datanodehadoop-daemon.sh start datanode

  同样可以看到一个datanodejava进程启动了,再看web页面这个时候的hdfs容量大小差不多就是三个datanode之和了。

 

 

 

 

 

 

 

   至此整个hdfs集群基本就搭建完毕了,中间的一个小插曲,主机名一定不要带”.” “/” “_”等特殊符号,否则启动无服务的时候可能报错无法启动:Does not contain a valid host

 

 

 

三、脚本一键启动集群

  1.在启动的机器上配置SSH免密登录集群所有机器,在任意一台机器配置都可以

  1)生成秘钥:ssh-keygen

  2)设置免密连接:

  ssh-copy-id nijunyang68

  ssh-copy-id nijunyang69

  ssh-copy-id nijunyang70

  ssh-copy-id nijunyang71

 

  设置好之后就可以当前机器直接通过SSH连接其他机器,不需要输入密码

  2. 修改文件hadoop-2.8.5/etc/hadoop/etc/hadoop/slaves,加入需要启动的datanode

    默认有个本机。如果不需要再本机启动datanode就把localhost删掉

 

 

  3.执行sbin目录下的集群启动脚本/停止脚本:start-dfs.sh/stop-dfs.sh

 

 

 

 

 

  虽然集群起来了,但是还有个Starting secondary namenodes 启动在本机上,这个时候我最好去将secondary namenodes配置到另外的机器上面去,修改之前的/etc/hadoop/hdfs-site.xml,加入secondary namenodes的配置:

  

  dfs.namenode.secondary.http-address

  nijunyang69:50090

  



推荐阅读
  • 为什么多数程序员难以成为架构师?
    探讨80%的程序员为何难以晋升为架构师,涉及技术深度、经验积累和综合能力等方面。本文将详细解析Tomcat的配置和服务组件,帮助读者理解其内部机制。 ... [详细]
  • Python 数据可视化实战指南
    本文详细介绍如何使用 Python 进行数据可视化,涵盖从环境搭建到具体实例的全过程。 ... [详细]
  • Amoeba 通过优化 MySQL 的读写分离功能显著提升了数据库性能。作为一款基于 MySQL 协议的代理工具,Amoeba 能够高效地处理应用程序的请求,并根据预设的规则将 SQL 请求智能地分配到不同的数据库实例,从而实现负载均衡和高可用性。该方案不仅提高了系统的并发处理能力,还有效减少了主数据库的负担,确保了数据的一致性和可靠性。 ... [详细]
  • 在 CentOS 6.5 系统上部署 VNC 服务器的详细步骤与配置指南
    在 CentOS 6.5 系统上部署 VNC 服务器时,首先需要确认 VNC 服务是否已安装。通常情况下,VNC 服务默认未安装。可以通过运行特定的查询命令来检查其安装状态。如果查询结果为空,则表明 VNC 服务尚未安装,需进行手动安装。此外,建议在安装前确保系统的软件包管理器已更新至最新版本,以避免兼容性问题。 ... [详细]
  • 本文探讨了 Kafka 集群的高效部署与优化策略。首先介绍了 Kafka 的下载与安装步骤,包括从官方网站获取最新版本的压缩包并进行解压。随后详细讨论了集群配置的最佳实践,涵盖节点选择、网络优化和性能调优等方面,旨在提升系统的稳定性和处理能力。此外,还提供了常见的故障排查方法和监控方案,帮助运维人员更好地管理和维护 Kafka 集群。 ... [详细]
  • 在JavaWeb项目架构中,NFS(网络文件系统)的实现与优化是关键环节。NFS允许不同主机系统通过局域网共享文件和目录,提高资源利用率和数据访问效率。本文详细探讨了NFS在JavaWeb项目中的应用,包括配置、性能优化及常见问题的解决方案,旨在为开发者提供实用的技术参考。 ... [详细]
  • Cookie学习小结
    Cookie学习小结 ... [详细]
  • 2020年9月15日,Oracle正式发布了最新的JDK 15版本。本次更新带来了许多新特性,包括隐藏类、EdDSA签名算法、模式匹配、记录类、封闭类和文本块等。 ... [详细]
  • 本文详细介绍了如何在 Linux 系统上安装 JDK 1.8、MySQL 和 Redis,并提供了相应的环境配置和验证步骤。 ... [详细]
  • 深入解析HTML5字符集属性:charset与defaultCharset
    本文将详细介绍HTML5中新增的字符集属性charset和defaultCharset,帮助开发者更好地理解和应用这些属性,以确保网页在不同环境下的正确显示。 ... [详细]
  • 本文详细介绍了 InfluxDB、collectd 和 Grafana 的安装与配置流程。首先,按照启动顺序依次安装并配置 InfluxDB、collectd 和 Grafana。InfluxDB 作为时序数据库,用于存储时间序列数据;collectd 负责数据的采集与传输;Grafana 则用于数据的可视化展示。文中提供了 collectd 的官方文档链接,便于用户参考和进一步了解其配置选项。通过本指南,读者可以轻松搭建一个高效的数据监控系统。 ... [详细]
  • Vim 编辑器功能强大,但其默认的配色方案往往不尽如人意,尤其是注释颜色为蓝色时,对眼睛极为不友好。为了提升编程体验,自定义配色方案显得尤为重要。通过合理调整颜色,不仅可以减轻视觉疲劳,还能显著提高编码效率和兴趣。 ... [详细]
  • 服务器部署中的安全策略实践与优化
    服务器部署中的安全策略实践与优化 ... [详细]
  • 本文详细介绍了在CentOS 6.5 64位系统上使用阿里云ECS服务器搭建LAMP环境的具体步骤。首先,通过PuTTY工具实现远程连接至服务器。接着,检查当前系统的磁盘空间使用情况,确保有足够的空间进行后续操作,可使用 `df` 命令进行查看。此外,文章还涵盖了安装和配置Apache、MySQL和PHP的相关步骤,以及常见问题的解决方法,帮助用户顺利完成LAMP环境的搭建。 ... [详细]
  • Presto:高效即席查询引擎的深度解析与应用
    本文深入解析了Presto这一高效的即席查询引擎,详细探讨了其架构设计及其优缺点。Presto通过内存到内存的数据处理方式,显著提升了查询性能,相比传统的MapReduce查询,不仅减少了数据传输的延迟,还提高了查询的准确性和效率。然而,Presto在大规模数据处理和容错机制方面仍存在一定的局限性。本文还介绍了Presto在实际应用中的多种场景,展示了其在大数据分析领域的强大潜力。 ... [详细]
author-avatar
deavilacampuzano
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有