当前位置: 开发笔记 > 编程语言 > 正文

hadoop本地运行与集群运行

作者：爱情丫丫2502895047 | 来源：互联网 | 2023-09-15 19:00

开发环境：windows10+伪分布式（虚拟机组成的集群）+IDEA(不需要装插件)介绍：本地开发，本地debug,不需要启动集群，不需要在集群启动hdfsyarn需要准备什

开发环境：

　　windows10+伪分布式（虚拟机组成的集群）+IDEA(不需要装插件)

介绍：

　　本地开发，本地debug,不需要启动集群，不需要在集群启动hdfs yarn

需要准备什么：

　　1/配置win10的环境，path设置为hadoop/bin目录

　　2/将hadoop在win10系统下编译，替换hadoop/bin，hadoop/lib目录为对应的win10编译版本

本地运行详细步骤：

　　1/在run configurations里设置program arguments,即设置main方法的默认参数

　　2/直接运行main方法

public class WordCountDriver {
    public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
        Configuration cOnf= new Configuration();

        //是否运行为本地模式，就是看这个参数值是否为local，默认就是local
		/*conf.set("mapreduce.framework.name", "local");*/

        //本地模式运行mr程序时，输入输出的数据可以在本地，也可以在hdfs上
        //到底在哪里，就看以下两行配置你用哪行，默认就是file:///
		/*conf.set("fs.defaultFS", "hdfs://mini1:9000/");*/
		/*conf.set("fs.defaultFS", "file:///");*/



        //运行集群模式，就是把程序提交到yarn中去运行
        //要想运行为集群模式，以下3个参数要指定为集群上的值
        //如果是把程序打包成jar,hadoop jar运行，不需要写下面，因为hadoop jar脚本自动把集群中配置好的配置文件加载给该程序
		/*conf.set("mapreduce.framework.name", "yarn");
		conf.set("yarn.resourcemanager.hostname", "mini1");
		conf.set("fs.defaultFS", "hdfs://mini1:9000/");*/
        Job job = Job.getInstance(conf);
        //告诉yarn本程序的jar包在哪里
		/*job.setJar("/home/hadoop/wordcount.jar");*/
        //指定本程序的jar包所在的本地路径（获得类运行的目录）
        job.setJarByClass(WordCountDriver.class);

        //指定本业务job要使用的mapper/Reducer业务类
        job.setMapperClass(WordCountMapper.class);
        job.setReducerClass(WordCountReducer.class);

        //指定mapper输出数据的kv类型
        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(IntWritable.class);

        //指定最终输出的数据的kv类型
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class);

        //指定job的输入原始文件所在目录
        FileInputFormat.setInputPaths(job, new Path(args[0]));
        //指定job的输出结果所在目录
        FileOutputFormat.setOutputPath(job, new Path(args[1]));

        //将job中配置的相关参数，以及job所用的java类所在的jar包，提交给yarn去运行
		/*job.submit();*/
        //true把反馈信息打印出来
        boolean res = job.waitForCompletion(true);
        System.exit(res?0:1);
    }
}

报错1：

　　Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/hadoop/util/StopWatch

解决1：

　　1/把hadoop-client /hadoop-common从2.6.0改为2.7.0


    org.apache.hadoop
    hadoop-client
    2.7.0



    org.apache.hadoop
    hadoop-common
    2.7.0

　　2/可能是因为我本地的hadoop是windows下编译的2.6.4版本，把该版本的所有jar包放在一个lib里，并且放在最上面　　否则会报错Exception in thread "main" java.lang.UnsatisfiedLinkError: org.apache.hadoop.io.nativeio.NativeIO$Windows.createDirectoryWithMode0(Ljava/lang/String;I)V

本地运行模式

（1）mapreduce程序是被提交给LocalJobRunner在本地以单进程的形式运行

（2）而处理的数据及输出结果可以在本地文件系统，也可以在hdfs上

（3）怎样实现本地运行？写一个程序，不要带集群的配置文件（本质是你的mr程序的conf中是否有mapreduce.framework.name=local以及yarn.resourcemanager.hostname参数）

（4）本地模式非常便于进行业务逻辑的debug，只要在eclipse中打断点即可

　　　　如果在windows下想运行本地模式来测试程序逻辑，需要在windows中配置环境变量：

　　　　％HADOOP_HOME％ = d:/hadoop-2.6.1

　　　　%PATH% = ％HADOOP_HOME％\bin

　　　　并且要将d:/hadoop-2.6.1的lib和bin目录替换成windows平台编译的版本

================mac版本========================

idea+maven环境编写wordcount程序（运行在本地，没有用到hadoop集群，适合做调试）https://www.cnblogs.com/davidgu/p/6140927.html

1、看他的main方法怎么配置的

2、看他的运行参数怎么配置的

集群运行模式

（1）将mapreduce程序提交给yarn集群resourcemanager，分发到很多的节点上并发执行

（2）处理的数据和输出结果应该位于hdfs文件系统

（3）提交集群的三种方法：

　　　　A、将程序打成JAR包，然后在集群的任意一个节点上用hadoop命令启动

　　　　 $ hadoop jar wordcount.jar cn.itcast.bigdata.mrsimple.WordCountDriver inputpath outputpath

　　　　　 idea的hadooop的wordcount打成jar包放到linux执行步骤： https://blog.csdn.net/Andeve/article/details/78606461

　　　　　 main方法里不需要写mapreduce.frameword.name=yarn以及yarn的两个基本配置

　　　　　　整体思路参考 https://songlee24.github.io/2015/07/29/mapreduce-word-count/

　　　　B、直接在linux的eclipse中运行main方法，跑在本机的hadoop上/远程hadoop集群上

　　　　　（项目中要带参数：mapreduce.framework.name=yarn以及yarn的两个基本配置）

　　　　　　参考： idea向hadoop集群提交mapreduce作业 https://blog.csdn.net/shirukai/article/details/81021872

　　　　　　　　　　 的第六步导出jar，第七步连接配置

　　　　C、如果要在windows的eclipse中提交job给集群，则要修改YarnRunner类


MAVEN的pom.xml，hadoop版本是hadoop-2.6.0-cdh5.7.0

"1.0" encoding="UTF-8"?>
"http://maven.apache.org/POM/4.0.0"
         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    4.0.0

    com.sumeng
    cloudHadoop
    1.0-SNAPSHOT

    
        
            org.apache.hadoop
            hadoop-common
            2.6.0
        
        
            org.apache.hadoop
            hadoop-hdfs
            2.6.0
        
        
            org.apache.hadoop
            hadoop-mapreduce-client-core
            2.6.0
        
        
            org.apache.hadoop
            hadoop-client
            2.6.0

推荐阅读

io
如何安全地手动移除Exchange Server 2003以确保系统稳定性和数据完整性

本文详细介绍了如何安全地手动卸载Exchange Server 2003，以确保系统的稳定性和数据的完整性。根据微软官方支持文档（https://support.microsoft.com/kb833396/zh-cn），在进行卸载操作前，需要特别注意备份重要数据，并遵循一系列严格的步骤，以避免对现有网络环境造成不利影响。此外，文章还提供了详细的故障排除指南，帮助管理员在遇到问题时能够迅速解决，确保整个卸载过程顺利进行。 ... [详细]

蜡笔小新 2024-11-06 08:13:47
install
在Windows上使用Python 3.8.5编译支持CUDA 11和cuDNN 8.0.2的TensorFlow 2.3，并提供编译后的文件下载链接

本文详细介绍了在Windows操作系统上使用Python 3.8.5编译支持CUDA 11和cuDNN 8.0.2的TensorFlow 2.3的步骤。文章不仅提供了详细的编译指南，还分享了编译后的文件下载链接，方便用户快速获取所需资源。此外，文中还涵盖了常见的编译问题及其解决方案，确保用户能够顺利进行编译和安装。 ... [详细]

蜡笔小新 2024-10-24 13:06:46
java
您的数据库配置是否安全？DBSAT工具助您一臂之力！

本文探讨了Oracle提供的免费工具DBSAT，该工具能够有效协助用户检测和优化数据库配置的安全性。通过全面的分析和报告，DBSAT帮助用户识别潜在的安全漏洞，并提供针对性的改进建议，确保数据库系统的稳定性和安全性。 ... [详细]

蜡笔小新 2024-11-11 14:44:47
io
Zookeeper在Hadoop生态系统中的关键作用与应用分析

Zookeeper作为Apache Hadoop生态系统中的一个重要组件，主要致力于解决分布式应用中的常见数据管理难题。它提供了统一的命名服务、状态同步服务以及集群管理功能，有效提升了分布式系统的可靠性和可维护性。此外，Zookeeper还支持配置管理和临时节点管理，进一步增强了其在复杂分布式环境中的应用价值。 ... [详细]

蜡笔小新 2024-11-04 15:48:51
io
简述hdfs工作原理_HDFS原理概念扫盲

1、概述hdfs文件系统主要设计为了存储大文件的文件系统；如果有个TB级别的文件，我们该怎么存储呢？分布式文件系统未出现的时候࿰ ... [详细]

蜡笔小新 2024-10-12 13:16:56
java
Spring详解（六）AOP

原文网址：https:www.cnblogs.comysoceanp7476379.html目录1、AOP什么？2、需求3、解决办法1:使用静态代理4 ... [详细]

蜡笔小新 2024-11-12 14:40:40
java
Kafka安装与配置深度解析：程序员必备指南

Kafka 是由 Apache 软件基金会开发的高性能分布式消息系统，支持高吞吐量的发布和订阅功能，主要使用 Scala 和 Java 编写。本文将深入解析 Kafka 的安装与配置过程，为程序员提供详尽的操作指南，涵盖从环境准备到集群搭建的每一个关键步骤。 ... [详细]

蜡笔小新 2024-11-07 12:22:05
io
MongoDB核心概念与基础知识解析

MongoDB 是一种基于分布式文件存储的非关系型数据库系统，主要采用 C++ 语言开发。本文将详细介绍 MongoDB 的核心概念和基础知识，包括其与传统 SQL 数据库的区别，数据库及集合的基本操作，如数据的插入、更新、删除和查询等。通过本文，读者可以全面了解 MongoDB 的基本功能及其应用场景。 ... [详细]

蜡笔小新 2024-11-05 13:55:22
io
《Hadoop》系列深度探索（三）：物联网技术综述与应用前景

在前一篇文章《Hadoop》系列之“踽踽独行”（二）中，我们详细探讨了云计算的核心概念。本章将重点转向物联网技术，全面解析其基本原理、应用场景及未来发展前景。通过深入分析物联网的架构和技术栈，我们将揭示其在智能城市、工业自动化和智能家居等领域的广泛应用潜力。此外，还将讨论物联网面临的挑战，如数据安全和隐私保护等问题，并展望其在未来技术融合中的重要角色。 ... [详细]

蜡笔小新 2024-11-03 18:20:22
java
Hadoop + Spark安装(三) —— 调hadoop

***************************测试hadoop及问题跟进***************************执行以下语句报错datahadoop-2.9. ... [详细]

蜡笔小新 2024-10-17 11:56:27
io
数据湖风暴来袭，EMR重磅发布Apache Hudi

Hudi是一种数据湖的存储格式，在Hadoop文件系统之上提供了更新数据和删除数据的能力以及流式消费变化数据的能力。应用场景近实时数据摄取Hudi支持插入、更新和删除数据的能力。您 ... [详细]

蜡笔小新 2024-10-14 13:15:48
java
工作原理_一文理解 Spark 基础概念及工作原理

篇首语：本文由编程笔记#小编为大家整理，主要介绍了一文理解Spark基础概念及工作原理相关的知识，希望对你有一定的参考价值。 ... [详细]

蜡笔小新 2024-10-14 04:29:30
java
Hadoop之HDFS的概念理解

HDFS是什么？HDFS全称HadoopDistributedFileSystem，简称HDFS，是一个分布式文件系统。它是谷歌的GFS提出之后出现的另外一种文件系统。它有一定高 ... [详细]

蜡笔小新 2024-10-12 10:52:32
io
Hadoop的分布式架构改进与应用

nsitionalENhttp:www.w3.orgTRxhtml1DTDxhtml1-transitional.dtd ... [详细]

蜡笔小新 2024-10-11 14:10:35
java
Spark各组件功能简单理解（quick start）

各个组件confspark-env.sh配置spark的环境变量confspark-default.conf配置spark应用默认的配置项和spark-env.sh有重合之处，可在 ... [详细]

蜡笔小新 2024-09-29 10:05:20

爱情丫丫2502895047

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章