当前位置: 开发笔记 > 编程语言 > 正文

Windows下搭建hadoop搭建本地hadoop开发环境

作者：手机用户2502922083 | 来源：互联网 | 2023-08-30 22:28

一、下载所需文件1.JDK下载地址：点击打开链接2.Hadoop下载地址：点击打开链接3.Windows下安装Hadoop工具下载地址:点击打开链接密码：yk9u二、jdk安装1.

一、下载所需文件

1.JDK下载地址：点击打开链接

2.Hadoop下载地址：点击打开链接

3.Windows下安装Hadoop工具下载地址:点击打开链接密码：yk9u

二、jdk安装

1.不会看这里点击打开链接

三、Hadoop环境配置

1.下载Hadoop，并解压到你的本地目录，我下载的是hadoop-2.5.2版本，解压在D:\hadoop\hadoop-2.5.2。

四、配置Hadoop的环境变量

1.计算机 –>属性 –>高级系统设置 –>高级选项卡 –>环境变量 –> 单击新建HADOOP_HOME

注意：路径到bin的上级目录即可。

2.Path环境变量下配置【%HADOOP_HOME%\bin;】变量

五、配置Hadoop文件

1.编辑“D:\hadoop\hadoop-2.5.2\etc\hadoop”下的core-site.xml文件，将下列文本粘贴进去，并保存。

hadoop.tmp.dir

/D:/hadoop/workplace/tmp

dfs.name.dir

/D:/hadoop/workplace/name

fs.default.name

hdfs://localhost:9000

2.编辑“D:\hadoop\hadoop-2.5.2\etc\hadoop”目录下的mapred-site.xml(如果不存在将mapred-site.xml.template重命名为mapred-site.xml)文件，粘贴一下内容并保存。

mapreduce.framework.name

yarn

mapred.job.tracker

hdfs://localhost:9001

3.编辑“D:\hadoop\hadoop-2.5.2\etc\hadoop”目录下的hdfs-site.xml文件，粘贴以下内容并保存。

dfs.replication

dfs.data.dir

/D:/hadoop/workplace/data

4.编辑“D:\hadoop\hadoop-2.5.2\etc\hadoop”目录下的yarn-site.xml文件，粘贴以下内容并保存。

yarn.nodemanager.aux-services

mapreduce_shuffle

yarn.nodemanager.aux-services.mapreduce.shuffle.class

org.apache.hadoop.mapred.ShuffleHandler

5.编辑“D:\hadoop\hadoop-2.5.2\etc\hadoop”目录下的hadoop-env.cmd文件，将JAVA_HOME用 @rem注释掉，编辑为JAVA_HOME的路径，然后保存。

@rem set JAVA_HOME=%JAVA_HOME%

set JAVA_HOME=D:\java\jdk

六、替换文件

将1.3下载到的hadooponwindows-master.zip，解压，将全部bin目录文件替换至hadoop目录下的bin目录。

七、运行环境

1.运行cmd窗口，执行hdfs namenode -format。

2.运行cmd窗口，切换到hadoop的sbin目录，执行start-all.cmd，它将会启动以下4个进程窗口。

八、上传测试

根据你core-site.xml的配置，接下来你就可以通过：hdfs://localhost:9000来对hdfs进行操作了。

1.创建输入目录

C:\WINDOWS\system32>hadoop fs -mkdir hdfs://localhost:9000/user/

C:\WINDOWS\system32>hadoop fs -mkdir hdfs://localhost:9000/user/wcinput

2.上传数据到目录

C:\WINDOWS\system32>hadoop fs -put D:\personal\debug.loghdfs://localhost:9000/user/wcinput

C:\WINDOWS\system32>hadoop fs -put D:\personal\waz.txt hdfs://localhost:9000/user/wcinput

3.查看文件

QA常见问题：

1:启动hadoop可能提示找不到JAVA_HOME路径,是因为hadoop读取JAVA_HOME环境变量存在空格导致。

2:启动hadoop提示找不到HADOOP，是因为Hadoop环境变量没有配置好，请检查Hadoop环境变量配置。

hadoop自带的web控制台GUI

1.资源管理GUI:http://localhost:8088/；

2.节点管理GUI:http://localhost:50070/

推荐阅读

mapreduce
简述hdfs工作原理_HDFS原理概念扫盲

1、概述hdfs文件系统主要设计为了存储大文件的文件系统；如果有个TB级别的文件，我们该怎么存储呢？分布式文件系统未出现的时候࿰ ... [详细]

蜡笔小新 2024-10-12 13:16:56
format
Hadoop + Spark安装(三) —— 调hadoop

***************************测试hadoop及问题跟进***************************执行以下语句报错datahadoop-2.9. ... [详细]

蜡笔小新 2024-10-17 11:56:27
format
解决 Ubuntu 环境下 Hadoop 集群 SSH 密钥认证问题

本文详细介绍了在 Ubuntu 系统上搭建 Hadoop 集群时遇到的 SSH 密钥认证问题及其解决方案。通过本文，读者可以了解如何在多台虚拟机之间实现无密码 SSH 登录，从而顺利启动 Hadoop 集群。 ... [详细]

蜡笔小新 2024-11-13 09:14:02
bit
在CentOS 7环境中安装配置Redis及使用Redis Desktop Manager连接时的注意事项与技巧

在 CentOS 7 环境中安装和配置 Redis 时，需要注意一些关键步骤和最佳实践。本文详细介绍了从安装 Redis 到配置其基本参数的全过程，并提供了使用 Redis Desktop Manager 连接 Redis 服务器的技巧和注意事项。此外，还探讨了如何优化性能和确保数据安全，帮助用户在生产环境中高效地管理和使用 Redis。 ... [详细]

蜡笔小新 2024-11-11 18:27:44
bit
《Linux高性能服务器编程》深入解析：3.2 TCP报头结构与功能

在《Linux高性能服务器编程》一书中，第3.2节深入探讨了TCP报头的结构与功能。TCP报头是每个TCP数据段中不可或缺的部分，它不仅包含了源端口和目的端口的信息，还负责管理TCP连接的状态和控制。本节内容详尽地解析了TCP报头的各项字段及其作用，为读者提供了深入理解TCP协议的基础。 ... [详细]

蜡笔小新 2024-11-10 14:18:44
schema
Presto：高效即席查询引擎的深度解析与应用

本文深入解析了Presto这一高效的即席查询引擎，详细探讨了其架构设计及其优缺点。Presto通过内存到内存的数据处理方式，显著提升了查询性能，相比传统的MapReduce查询，不仅减少了数据传输的延迟，还提高了查询的准确性和效率。然而，Presto在大规模数据处理和容错机制方面仍存在一定的局限性。本文还介绍了Presto在实际应用中的多种场景，展示了其在大数据分析领域的强大潜力。 ... [详细]

蜡笔小新 2024-11-07 19:17:47
byte
Scala学习指南：从零开始掌握基础

本指南从零开始介绍Scala编程语言的基础知识，重点讲解了Scala解释器REPL（读取-求值-打印-循环）的使用方法。REPL是Scala开发中的重要工具，能够帮助初学者快速理解和实践Scala的基本语法和特性。通过详细的示例和练习，读者将能够熟练掌握Scala的基础概念和编程技巧。 ... [详细]

蜡笔小新 2024-11-07 18:07:59
ascii
2012年9月12日优酷土豆校园招聘笔试题目解析与备考指南

2012年9月12日，优酷土豆校园招聘笔试题目解析与备考指南。在选择题部分，有一道题目涉及中国人的血型分布情况，具体为A型30%、B型20%、O型40%、AB型10%。若需确保在随机选取的样本中，至少有一人为B型血的概率不低于90%，则需要选取的最少人数是多少？该问题不仅考察了概率统计的基本知识，还要求考生具备一定的逻辑推理能力。 ... [详细]

蜡笔小新 2024-11-06 15:25:14
ascii
Zookeeper在Hadoop生态系统中的关键作用与应用分析

Zookeeper作为Apache Hadoop生态系统中的一个重要组件，主要致力于解决分布式应用中的常见数据管理难题。它提供了统一的命名服务、状态同步服务以及集群管理功能，有效提升了分布式系统的可靠性和可维护性。此外，Zookeeper还支持配置管理和临时节点管理，进一步增强了其在复杂分布式环境中的应用价值。 ... [详细]

蜡笔小新 2024-11-04 15:48:51
ascii
Hadoop 2.6 日志文件解析与MapReduce日志管理深入探讨

Hadoop 2.6 主要由 HDFS 和 YARN 两大部分组成，其中 YARN 包含了运行在 ResourceManager 的 JVM 中的组件以及在 NodeManager 中运行的部分。本文深入探讨了 Hadoop 2.6 日志文件的解析方法，并详细介绍了 MapReduce 日志管理的最佳实践，旨在帮助用户更好地理解和优化日志处理流程，提高系统运维效率。 ... [详细]

蜡笔小新 2024-11-03 16:23:38
header
HBase在金融大数据迁移中的应用与挑战

随着最后一台设备的下线，标志着超过10PB的HBase数据迁移项目顺利完成。目前，新的集群已在新机房稳定运行超过两个月，监控数据显示，新集群的查询响应时间显著降低，系统稳定性大幅提升。此外，数据消费的波动也变得更加平滑，整体性能得到了显著优化。 ... [详细]

蜡笔小新 2024-10-31 14:06:06
hash
NoSQL 数据查询与检索技术解析

NoSQL数据库，即非关系型数据库，有时也被称作Not Only SQL，是一种区别于传统关系型数据库的管理系统。这类数据库设计用于处理大规模、高并发的数据存储与查询需求，特别适用于需要快速读写大量非结构化或半结构化数据的应用场景。NoSQL数据库通过牺牲部分一致性来换取更高的可扩展性和性能，支持分布式部署，能够有效应对互联网时代的海量数据挑战。 ... [详细]

蜡笔小新 2024-10-28 18:13:15
format
【原创】七、Hadoop 2.5.2+zookeeper高可用部署

一、原理（四大要点）（1）保证元数据一致（edits）namenode（fsimage edits）a、NFSb、journalnodec、zk（2）只有一台namenode对外提 ... [详细]

蜡笔小新 2024-10-15 12:25:58
format
Oracle ERP系统用户指南：涵盖MRP模块详细操作说明

《Oracle ERP系统用户指南》详细介绍了MRP模块的操作流程与功能。该手册涵盖了从基础设置到高级应用的全方位指导，旨在帮助用户高效地管理和优化物料需求计划。文档编号、受控状态及生效日期等信息均在手册中明确标注，确保内容的准确性和时效性。编制人忻滢对内容进行了全面审核与确认，以保障用户的使用体验。 ... [详细]

蜡笔小新 2024-11-11 14:59:17
format
05Hadoop的HA搭建

前期Linux环境准备1.修改Linux主机名2.修改IP3.修改主机名和IP的映射关系4.关闭防火墙5.ssh免登陆6.安装JDK，配置环境变量等集群规划主机 IP安装软件运行进 ... [详细]

蜡笔小新 2024-10-16 18:20:36

手机用户2502922083

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章