当前位置: 开发笔记 > 运维 > 正文

java结合HADOOP集群文件上传下载

作者：村头的小路_157 | 来源：互联网 | 2022-04-28 06:40

这篇文章主要介绍了java结合HADOOP集群文件上传下载的方法和示例，非常的实用，这里推荐给大家，希望大家能够喜欢。

对HDFS上的文件进行上传和下载是对集群的基本操作，在《HADOOP权威指南》一书中，对文件的上传和下载都有代码的实例，但是对如何配置HADOOP客户端却是没有讲得很清楚，经过长时间的搜索和调试，总结了一下，如何配置使用集群的方法，以及自己测试可用的对集群上的文件进行操作的程序。首先，需要配置对应的环境变量:

代码如下:

hadoop_HOME="/home/work/tools/java/hadoop-client/hadoop"

for f in $hadoop_HOME/hadoop-*.jar; do

        hadoop_CLASSPATH=${hadoop_CLASSPATH}:$f

done

for f in $hadoop_HOME/lib/*.jar; do

        hadoop_CLASSPATH=${hadoop_CLASSPATH}:$f

done

hadoopvfs_HOME="/home/work/tools/java/hadoop-client/hadoop-vfs"

for f in $hadoopvfs_HOME/lib/*.jar; do

        hadoop_CLASSPATH=${hadoop_CLASSPATH}:$f

done

export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/home/work/tools/java/hadoop-client/hadoop/lib/native/Linux-amd64-64/

其中LD_LIBRARY_PATH是在调用时需要用到的库的路径，hadoop_CLASSPATH则是我们hadoop客户端里各种jar包
有一点需要注意的是最好不要使用HADOOP_HOME这个变量，这个是一个系统使用的环境变量，最好不要和它冲突
编译类的方法：

代码如下:

javac -classpath $CLASSPATH:$hadoop_CLASSPATH HDFSUtil.java

运行的方法：

代码如下:

java -classpath $CLASSPATH:$hadoop_CLASSPATH HDFSUtil

但是在实际的使用过程中，会报No Permission之类的错误，或者你能保证代码没有问题的情况下，在运行的时候也会报一些奇奇怪怪的错误
那么问题来了，这是什么鬼？
答案：这是因为没有配置对应集群的配置文件
因为在《HADOOP权威指南》一书中，弱化了配置的东西，所以在具体使用集群的时候就会出现问题，如何解决呢，这样子：

代码如下:

this.cOnf= new Configuration(false);

conf.addResource("./hadoop-site.xml");

conf.addResource("./hadoop-default.xml");

conf.set("fs.hdfs.impl", org.apache.hadoop.hdfs.DistributedFileSystem.class.getName());conf.set("fs.file.impl", org.apache.hadoop.fs.LocalFileSystem.class.getName());

为什么会这样，书上只是很简单的：

this.cOnf= new Configuration();
那是因为默认你的集群在本地，所以不需要做配置，但是在实际使用的过程中，各个集群的配置是不同的，所以我们要引入集群的配置
这是非常重要的一点，因为实际使用的过程中我们都是使用的HADOOP的客户端，而且是已经搭好环境的集群，所以我们需要做好本地的配置
hadoop-site.xml和hadoop-default.xml这两个文件在所使用的客户端的conf目录下，在addResource的时候指定好目录就行了

将以上所提到的配置，全部配完之后，这个程序才能真正运行起来，所以配置是非常重要的一环。

以下是对应的工具的代码，有兴趣的看一下吧，使用的是文件流的方式来搞的，这样子也可以打通FTP和HDFS之间文件的互传：

import java.io.BufferedInputStream;
import java.io.FileInputStream;
import java.io.FileNotFoundException;
import java.io.FileOutputStream;
import java.io.IOException;
import java.io.InputStream;
import java.io.OutputStream;
import java.net.URI;
import java.net.URL;
import java.io.*;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FSDataInputStream;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IOUtils;
import org.apache.hadoop.util.Progressable;

public class HDFSUtil {
  private String hdfs_node = "";
  private String hdfs_path = "";
  private String file_path = "";
  private String hadoop_site = "";
  private String hadoop_default = "";
  private Configuration cOnf= null;

  public HDFSUtil(String hdfs_node) {
    this.hdfs_node = hdfs_node;
  }

  public String getHdfsNode() {
    return this.hdfs_node;
  }

  public void setHdfsPath(String hdfs_path){
    this.hdfs_path = hdfs_path;
  }

  public String getHdfsPath(){
    return this.hdfs_path;
  }

  public void setFilePath(String file_path){
    this.file_path = file_path;
  }

  public String getFilePath(){
    return this.file_path;
  }

  public void setHadoopSite(String hadoop_site){
    this.hadoop_site = hadoop_site;
  }

  public String getHadoopSite(){
    return this.hadoop_site;
  }

  public void setHadoopDefault(String hadoop_default){
    this.hadoop_default = hadoop_default;
  }

  public String getHadoopDefault(){
    return this.hadoop_default;
  }

  public int setConfigure(boolean flag) {
    if (flag == false){
      if (this.getHadoopSite() == "" || this.getHadoopDefault() == ""){
        return -1;
      }
      else {
        this.cOnf= new Configuration(false);
        conf.addResource(this.getHadoopDefault());
        conf.addResource(this.getHadoopSite());
        conf.set("fs.hdfs.impl", org.apache.hadoop.hdfs.DistributedFileSystem.class.getName());
        conf.set("fs.file.impl", org.apache.hadoop.fs.LocalFileSystem.class.getName());
        return 0;
      }
    }
    this.cOnf= new Configuration();
    return 0;
  }

  public Configuration getConfigure() {
    return this.conf;
  }

  public int upLoad(String localName, String remoteName) throws FileNotFoundException, IOException {
    InputStream inStream = null;
    FileSystem fs = null;
    try{
      inStream = new BufferedInputStream(new FileInputStream(localName));
      fs = FileSystem.get(URI.create(this.hdfs_node), this.conf);
      OutputStream outStream = fs.create(new Path(remoteName) ,new Progressable() {
        public void progress(){
          System.out.print('.');
        }
      });

      IOUtils.copyBytes(inStream, outStream, 4096, true);
      inStream.close();
      return 0;
    } catch (IOException e){
      inStream.close();
      e.printStackTrace();
      return -1;
    }
  }

  public int upLoad(InputStream inStream, String remoteName) throws FileNotFoundException, IOException {
    FileSystem fs = null;
    try{
      fs = FileSystem.get(URI.create(this.hdfs_node), this.conf);
      OutputStream outStream = fs.create(new Path(remoteName) ,new Progressable() {
        public void progress(){
          System.out.print('.');
        }
      });

      IOUtils.copyBytes(inStream, outStream, 4096, true);
      inStream.close();
      return 0;
    } catch (IOException e){
      inStream.close();
      e.printStackTrace();
      return -1;
    }
  }

  public int donwLoad(String remoteName, String localName, int lines) throws FileNotFoundException, IOException {
    FileOutputStream fos = null;
    InputStreamReader isr = null;
    BufferedReader br = null;
    String str = null;
    OutputStreamWriter osw = null;
    BufferedWriter buffw = null;
    PrintWriter pw = null;
    FileSystem fs = null;
    InputStream inStream = null;
    try {
      fs = FileSystem.get(URI.create(this.hdfs_node + remoteName), this.conf);
      inStream = fs.open(new Path(this.hdfs_node + remoteName));
      fos = new FileOutputStream(localName);
      osw = new OutputStreamWriter(fos, "UTF-8");
      buffw = new BufferedWriter(osw);
      pw = new PrintWriter(buffw);
      isr = new InputStreamReader(inStream, "UTF-8");
      br = new BufferedReader(isr);
      while((str = br.readLine()) != null && lines > 0){
        lines--;
        pw.println(str);
      }
    } catch (IOException e){
      throw new IOException("Couldn't write.", e);
    } finally {
      pw.close();
      buffw.close();
      osw.close();
      fos.close();
      inStream.close()
    }
    return 0;
  }

  //main to test
  public static void main(String[] args){
    String hdfspath = null;
    String localname = null;
    String hdfsnode = null;
    int lines = 0;

    if (args.length == 4){
      hdfsnode = args[0];
      hdfspath = args[1];
      localname = args[2];
      lines = Integer.parseInt(args[3]);
    }
    else{
      hdfsnode = "hdfs://nj01-nanling-hdfs.dmop.baidu.com:54310";
      hdfspath = "/app/ps/spider/wdmqa/wangweilong/test/HDFSUtil.java";
      localname = "/home/work/workspace/project/dhc2-0/dhc/base/ftp/papapa";
      lines = 5;
    }
    HDFSUtil hdfsutil = new HDFSUtil(hdfsnode);
    hdfsutil.setFilePath(hdfsutil.getHdfsNode()+hdfspath);
    hdfsutil.setHadoopSite("./hadoop-site.xml");
    hdfsutil.setHadoopDefault("./hadoop-default.xml");
    hdfsutil.setConfigure(false);
    try {
      hdfsutil.donwLoad(hdfspath, localname, lines);
    } catch (IOException e){
      e.printStackTrace();
    }
  }

如果想要了解FTP上文件的下载，请参考这篇文章：

ftp下载工具

如果想要打通FTP和HDFS文件互传，只要创建一个类，调用这两篇文章中的工具的接口就可以搞定，自己写的代码，实测有效。

以上就是本文的全部内容了，希望能够对大家熟练掌握java有所帮助。

请您花一点时间将文章分享给您的朋友或者留下评论。我们将会由衷感谢您的支持！

推荐阅读

容器
Hadoop入门与核心组件详解

本文详细介绍了Hadoop的基础知识及其核心组件，包括HDFS、MapReduce和YARN。通过本文，读者可以全面了解Hadoop的生态系统及应用场景。 ... [详细]

蜡笔小新 2024-12-26 13:12:48
shell
阿里云ecs怎么配置php环境,阿里云ecs配置选择

阿里云ecs怎么配置php环境,阿里云ecs配置选择 ... [详细]

蜡笔小新 2024-12-23 11:12:07
port
简化报表生成：EasyReport工具的全面解析

本文详细介绍了EasyReport，一个易于使用的开源Web报表工具。该工具支持Hadoop、HBase及多种关系型数据库，能够将SQL查询结果转换为HTML表格，并提供Excel导出、图表显示和表头冻结等功能。 ... [详细]

蜡笔小新 2024-12-22 11:11:28
port
从码农到创业者：我的职业转型之路

在观察了众多同行的职业发展后，我决定分享自己的故事。本文探讨了为什么大多数程序员难以成为架构师，并阐述了我从一家外企离职后投身创业的心路历程。 ... [详细]

蜡笔小新 2024-12-21 15:55:02
shell
Apache Spark 基础操作指南

本文详细介绍如何使用 Apache Spark 执行基本任务，包括启动 Spark Shell、运行示例程序以及编写简单的 WordCount 程序。同时提供了参数配置的注意事项和优化建议。 ... [详细]

蜡笔小新 2024-12-20 18:01:20
容器
深入解析Hadoop的核心组件与工作原理

本文详细介绍了Hadoop的三大核心组件：分布式文件系统HDFS、资源管理器YARN和分布式计算框架MapReduce。通过分析这些组件的工作机制，帮助读者更好地理解Hadoop的架构及其在大数据处理中的应用。 ... [详细]

蜡笔小新 2024-12-19 17:17:51
容器
深入解析BookKeeper的设计与应用场景

本文介绍了由Yahoo在2009年开发并于2011年开源的BookKeeper技术。BookKeeper是一种高效且可靠的日志流存储解决方案，广泛应用于需要高性能和强数据持久性的场景。 ... [详细]

蜡笔小新 2024-12-19 11:08:57
port
MapReduce原理是怎么剖析的

这期内容当中小编将会给大家带来有关MapReduce原理是怎么剖析的，文章内容丰富且以专业的角度为大家分析和叙述，阅读完这篇文章希望大家可以有所收获。1 ... [详细]

蜡笔小新 2024-12-16 18:23:06
ftp
在CentOS上构建Ntopng实时网络流量监控平台

本文详细介绍了如何在CentOS操作系统上安装和配置Ntopng，一个强大的网络流量监控工具。Ntopng能够提供实时的网络流量分析，并通过Web界面展示详细的流量报告。 ... [详细]

蜡笔小新 2024-12-07 12:28:45
ssh
深入解析Rsync的工作机制与部署实践

本文详细介绍了Rsync的数据同步工具，包括其核心算法、安装配置方法以及实际应用中的注意事项，适合IT运维人员和技术爱好者阅读。 ... [详细]

蜡笔小新 2024-12-06 12:00:01
ssh
HBase RegionServer 故障分析与解决

本文详细记录了一次 HBase RegionServer 异常宕机的情况，包括具体的错误信息和可能的原因分析。通过此案例，探讨了如何有效诊断并解决 HBase 中常见的 RegionServer 挂起问题。 ... [详细]

蜡笔小新 2024-12-01 16:21:27
port
探索Hive UDF的应用

本文介绍了在解决Hive表中复杂数据结构平铺化问题后，如何通过创建视图来准确计算广告日志的曝光PV，特别是针对用户对应多个标签的情况。同时，详细探讨了UDF的使用方法及其在实际项目中的应用。 ... [详细]

蜡笔小新 2024-11-26 11:08:12
port
如何使用Maven将依赖插件一并打包进JAR文件

本文详细介绍了在使用Maven构建项目时，如何将所需的依赖插件一同打包进最终的JAR文件中，以避免手动部署依赖库的麻烦。 ... [详细]

蜡笔小新 2024-11-23 22:51:34
port
ZooKeeper集群构建与详解

本文详细介绍了使用ZooKeeper构建高可用集群的方法，包括必要的软件环境准备、配置文件调整及集群启动等关键步骤。通常，一个ZooKeeper集群由奇数个节点组成，以确保Leader选举的有效性。 ... [详细]

蜡笔小新 2024-12-16 11:16:22
port
深入解析Spark核心架构与部署策略

本文详细探讨了Spark的核心架构，包括其运行机制、任务调度和内存管理等方面，以及四种主要的部署模式：Standalone、Apache Mesos、Hadoop YARN和Kubernetes。通过本文，读者可以深入了解Spark的工作原理及其在不同环境下的部署方式。 ... [详细]

蜡笔小新 2024-12-14 20:02:45

村头的小路_157

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章