hadoop学习笔记（一）

作者：范范范荣浩 | 来源：互联网 | 2023-09-13 20:52

Hadoop产生背景1、Hadoop最早起源于Nutch。Nutch的设计目标是构建一个大型的全网搜索引擎，包括网页抓取、索引、查询等功能，但随着抓取网页

Hadoop产生背景

1、Hadoop 最早起源于Nutch。Nutch的设计目标是构建一个大型的全网搜索引擎，包括网页抓取、索
引、查询等功能，但随着抓取网页数量的增加，遇到了严重的可扩展性问题 ——如何解决数十亿网页的
存储和索引问题
2、2003 -2004年谷歌发表的三篇论文为该问题提供了可行的解决方案

1、分布式文件系统 GFS，可用于处理海量网页的存储
2、分布式计算框架 MapReduce，可用于处理海量网页的索引计算问题
3、分布式数据库 BigTable，每一张表可以存储上 billions 行和 millions 列

3、Nutch的开发人员完成了相应的开源实现HDFS 和 MapReduce，并从Nutch中剥离成为独立项目
Hadoop，到 2008 年 1 月，Hadoop 成为Apache 顶级项目，迎来了它的快速发展期。

什么是Hadoop？

1、Hadoop 是 Apache 旗下的一套开源软件平台
2、Hadoop 提供的功能：利用服务器集群，根据用户的自定义业务逻辑，对海量数据进行分布式处理
存储+运算
3、Hadoop 的核心组件有：

A．Common（基础功能组件）
B．HDFS（Hadoop Distributed File System 分布式文件系统）
C．YARN（Yet Another Resources Negotiator 运算资源调度系统）
D．MapReduce（Map 和 Reduce 分布式运算编程框架）

4、广义上来说，Hadoop 通常是指一个更广泛的概念–Hadoop 生态圈

官方WordCount案例演示

1、创建一个wcinput文件夹，注意是在hdfs上面创建，不是在本地创建

hadoop fs -mkdir /wcinput

2、在本地任意文件夹下面创建文件并上传到hdfs上面，我这里是在本地的/home/test目录下面创建的wordcount.txt

3、任意目录下运行官方wordcount程序

[bigdata@bigdata02 test]$ hadoop jar /home/bigdata/apps/hadoop-2.7.7/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.7.jar wordcount /wcinput /wcoutput

4、去hdfs上面查看

官方求圆周率π案例

[bigdata@bigdata02 test]$ hadoop jar /home/bigdata/apps/hadoop-2.7.7/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.7.jar pi 5 5

注：
Number of Maps = 5
Samples per Map = 5
结果：

HDFS设计思路

HDFS 被设计成用来使用低廉的服务器来进行海量数据的存储，那是怎么做到的呢？
1、大文件被切割成小文件，使用分而治之的思想对同一个文件进行管理
2、每个切分之后的块都进行冗余存储，高可用不丢失

HDFS架构

1、namenode：掌管文件系统的目录树，处理客户端的请求，保存元数据信息
2、datanode：存储实际的数据的，处理真正的读写
3、secondnamenode：分担namenode压力的，协助合并元数据信息

HDFS优缺点

优点：
1、可构建在廉价机器上
通过多个副本来提高可靠性，文件切分多个块进行存储
2、高容错性
数据自动保存多个副本，副本丢失后，可以自动恢复
3、适合批处理
移动计算比移动数据方便
4、适合大数据处理
10k+节点规模
5、流式文件访问
一次写入，多次读取，可以保证数据的一致性

缺点：

不适于以下操作
1、要求高的数据访问
比如毫秒级
2、小文件存取
寻道时间超过读取时间
3、并发写入、文件随机修改
一个文件只能有一个写
仅仅支持追加
4、不适合存储小文件
存储一个1亿个小文件，大小仅仅1t，但是消耗掉20g左右的内存

HDFS常用命令

-help
功能：输出这个命令参数手册
[root@hadoop0 software]# hadoop fs -help
-ls
功能：显示目录信息
示例： hadoop fs -ls hdfs://hadoop0:9000/
备注：这些参数中，所有的 hdfs 路径都可以简写成 hadoop fs -ls / 等同上条命令的效果
-put
功能：等同于 copyFromLocal，进行文件上传
示例：hadoop fs -put /aaa/jdk.tar.gz /bbb/jdk.tar.gz
-get
功能：等同于 copyToLocal，就是从 hdfs 下载文件到本地
示例：hadoop fs -get /aaa/jdk.tar.gz
-cp
功能：从 hdfs 的一个路径拷贝到 hdfs 的另一个路径
示例： hadoop fs -cp /aaa/jdk.tar.gz /bbb/jdk.tar.gz.2
-mv
功能：在 hdfs 目录中移动文件
示例： hadoop fs -mv /aaa/jdk.tar.gz /
-rm
功能：删除文件或文件夹
示例：hadoop fs -rm -r /aaa/bbb/
-rmdir
功能：删除空目录
示例：hadoop fs -rmdir /aaa/bbb/ccc
-moveFromLocal
功能：从本地剪切到 hdfs
示例：hadoop fs - moveFromLocal /home/hadoop/a.txt /aa/bb/cc/dd
-moveToLocal
功能：从 hdfs 剪切到本地
示例：hadoop fs - moveToLocal /aa/bb/cc/dd /home/hadoop/a.txt
-copyFromLocal
功能：从本地文件系统中拷贝文件到 hdfs 文件系统去
示例：hadoop fs -copyFromLocal ./jdk.tar.gz /aaa/
-copyToLocal
功能：从 hdfs 拷贝到本地
示例：hadoop fs -copyToLocal /aaa/jdk.tar.gz
-appendToFile
功能：追加一个文件到已经存在的文件末尾
示例：hadoop fs -appendToFile ./hello.txt hdfs://hadoop0:9000/hello.txt
可以简写为：
hadoop fs -appendToFile ./hello.txt /hello.txt
-cat
功能：显示文件内容
hadoop fs -cat /hello.txt
-tail
功能：显示一个文件的末尾
示例：hadoop fs -tail /weblog/access_log.1
-text
功能：以字符形式打印一个文件的内容
示例：hadoop fs -text /weblog/access_log.1
-chgrp
-chmod
-chown
功能：linux 文件系统中的用法一样，对文件所属权限
示例：
hadoop fs -chmod 666 /hello.txt
hadoop fs -chown someuser:somegrp /hello.txt
-df
功能：统计文件系统的可用空间信息
示例：hadoop fs -df -h /
-du
功能：统计文件夹的大小信息
示例：hadoop fs -du -s -h /aaa/*
-count
功能：统计一个指定目录下的文件节点数量
示例：hadoop fs -count /aaa/
-setrep
功能：设置 hdfs 中文件的副本数量
示例：hadoop fs -setrep 3 /aaa/jdk.tar.gz

查看 dfs 集群工作状态的命令:
hdfs dfsadmin -report

获取hdfs端口号：
hdfs getconf -confKey fs.default.name

HDFS的API操作

注：
这里使用的是hadoop2.7.7版本

获取FileSystem
有4种方式：
（1）方式1：set+get方式

public void getFileSystem01() throws IOException {
        //1.创建Configuration对象
        Configuration cOnf= new Configuration();
        //2.设置文件系统类型
        conf.set("fs.defaultFS", "hdfs://bigdata02:8020");

        //3.获取指定文件系统fileSystem;
        FileSystem fileSystem = FileSystem.get(conf);
        //4.输出测试
        System.out.println(fileSystem);
    }

（2）方式2：set方式+newInstance

public void getFileSystem02() throws IOException {
        //1.创建Configuration对象
        Configuration cOnf= new Configuration();
        //2.设置文件系统类型
        conf.set("fs.defaultFS", "hdfs://bigdata02:8020");

        //3.获取指定文件系统fileSystem;
        FileSystem fileSystem = FileSystem.newInstance(conf);
        //4.输出测试
        System.out.println(fileSystem);
    }

（3）方式3：new URI+get

public void getFileSystem03() throws URISyntaxException, IOException {
        FileSystem fileSystem = FileSystem.get(new URI("hdfs://bigdata02:8020"), new Configuration());
        System.out.println(fileSystem);
    }

（4）方式4：new URI+newInstance

public void getFileSystem04() throws URISyntaxException, IOException {
        FileSystem fileSystem = FileSystem.newInstance(new URI("hdfs://bigdata02:8020"), new Configuration());
        System.out.println(fileSystem);
    }

文件的遍历

public void listFiles() throws Exception {
        //1.获取FileSystem实例
        FileSystem fileSystem = FileSystem.get(new URI("hdfs://bigdata02:9000"), new Configuration());
        //2、调用方法listFiles 获取/目录下的所有文件信息
        RemoteIterator iterator = fileSystem.listFiles(new Path("/"), true);

        //3、遍历迭代器
        while (iterator.hasNext()) {
            LocatedFileStatus fileStatus = iterator.next();

            //获取文件的绝对路径：hdfs://bigdata:8020/xxx
            System.out.println(fileStatus.getPath() +
                    "------------------" + fileStatus.getPath().getName());
            //文件的block信息
            BlockLocation[] blockLocatiOns= fileStatus.getBlockLocations();
            for (BlockLocation blockLocation : blockLocations) {
                String[] hosts = blockLocation.getHosts();
                for (String host : hosts) {
                    System.out.println("主机为："+host);
                }
            }
            System.out.println("block数量为："+blockLocations.length);
        }
    }

创建文件夹

public void mkdirs() throws Exception {
        //1、获取FileSystem实例
        FileSystem fileSystem = FileSystem.get(new URI("hdfs://bigdata02:9000"), new Configuration(), "bigdata");
        //2、创建文件夹
        boolean bl = fileSystem.mkdirs(new Path("guxiaohao/bbb/ccc"));
        fileSystem.create(new Path("guxiaohao/bbb/ccc/a.txt"));
        fileSystem.create(new Path("guxiaohao2/bbb/ccc/a.txt"));
        System.out.println(bl);
        //3、关闭FileSystem
        fileSystem.close();
    }

文件的上传

 public void uploadFile() throws Exception {
        //1.获取FileSystem
        FileSystem fileSystem = FileSystem.get(new URI("hdfs://bigdata02:9000"), new Configuration(), "bigdata");
        //2、调用方法实现上传
        fileSystem.copyFromLocalFile(new Path("G:\bigdata\bigdataDir\test3.txt"), new Path("/"));
        //3、关闭FileSystem
        fileSystem.close();
    }

文件的下载
(1)使用copyToLocalFile

public void downloadFile1() throws Exception {
        //1.获取FileSystem
        FileSystem fileSystem = FileSystem.get(new URI("hdfs://bigdata02:9000"), new Configuration());
        //2、调用方法实现下载
        //注意设置false和true两个参数，否则IDEA运行报错：
        //(null) entry in command string: null chmod 0644 G:bigdatabigdataDirtest_download.txt
        fileSystem.copyToLocalFile(false, new Path("/test.txt"), new Path("G:\bigdata\bigdataDir\test_download.txt"), true);
        //3、关闭FileSystem
        fileSystem.close();
    }

（2）通过输入输出流

public void downloadFile2() throws Exception {
        //1.获取FileSystem
        FileSystem fileSystem = FileSystem.get(new URI("hdfs://bigdata02:9000"), new Configuration());
        //2、获取hdfs输入流
        FSDataInputStream inputStream = fileSystem.open(new Path("/test.txt"));
        //3、获取本地路径输出流
        FileOutputStream outputStream = new FileOutputStream("G:\bigdata\bigdataDir\test_download2.txt");
        //4、文件的拷贝
        IOUtils.copy(inputStream, outputStream);
        //5、关闭流
        IOUtils.closeQuietly(inputStream);
        IOUtils.closeQuietly(outputStream);
        fileSystem.close();
    }

文件合并下载：通过命令方式

在根目录下面新建一个文件夹

hadoop fs -mkdir -p /test

将test1.txt和test2.txt移动到/test文件夹下面

[bigdata@bigdata02 ~]# hadoop fs -mv /test1.txt /test
[bigdata@bigdata02 ~]# hadoop fs -mv /test2.txt /test

通过getmerge命令合并下载文件到当前目录下面：

[bigdata@bigdata02 ~]# hadoop fs -getmerge /test/*.txt ./test_merge.txt
[bigdata@bigdata02 ~]# ll
total 8
-rw-r--r--. 1 root root 36 Jun 24 19:50 test2.txt
-rw-r--r--. 1 root root 74 Jun 24 20:34 test_merge.txt
[bigdata@bigdata02 ~]# cat test_merge.txt
hello world
hello hadoop
hello hbasehello world
hello hive
hello flume

文件合并下载：通过API方式

public void mergeFileDownload() throws Exception {
        //1.获取FileSystem
        FileSystem fileSystem = FileSystem.get(new URI("hdfs://bigdata02:9000"), new Configuration());

        //2、获取本地文件系统
        LocalFileSystem localFileSystem = FileSystem.getLocal(new Configuration());
        //3、获取本地路径输出流
        FileOutputStream outputStream = new FileOutputStream("G:\bigdata\bigdataDir\output_down.txt");

        //4、获取hdfs下所有的文件详情
        FileStatus[] fileStatuses = fileSystem.listStatus(new Path("/"));
        //5、遍历每个文件，获取每个文件的输入流，将输入流转为byte数组，写入（追加）输出流
        for (FileStatus fileStatus : fileStatuses) {
            //6、获取hdfs文件输入流
            FSDataInputStream inputStream = fileSystem.open(fileStatus.getPath());
            //7、将输入流转为byte数组，写入（追加）输出流
            byte[] bt = new byte[1024];
            int n = 0;
            while (-1 != (n = inputStream.read(bt))) {
                outputStream.write(bt, 0, n);
            }
            //8、关闭输入流·
            IOUtils.closeQuietly(inputStream);
        }
        //9、关闭流
        IOUtils.closeQuietly(outputStream);
        localFileSystem.close();
        fileSystem.close();
    }

文件合并上传：通过Java API方式

public void mergeFileUpload() throws Exception {
        //1.获取FileSystem
        FileSystem fileSystem = FileSystem.get(new URI("hdfs://bigdata02:9000"), new Configuration(), "bigdata");
        //2、获取hdfs大文件输出流
        FSDataOutputStream outputStream = fileSystem.create(new Path("/test.txt"));
        //3、获取一个本地文件系统
        LocalFileSystem localFileSystem = FileSystem.getLocal(new Configuration());
        //4、获取本地文件夹下所有的文件详情
        FileStatus[] fileStatuses = localFileSystem.listStatus(new Path("G:\bigdata\bigdataDir\input"));
        //5、遍历每个文件，获取每个文件的输入流
        for (FileStatus fileStatus : fileStatuses) {
            FSDataInputStream inputStream = localFileSystem.open(fileStatus.getPath());
            //6、将小文件的数据复制到大文件
            IOUtils.copy(inputStream, outputStream);
            IOUtils.closeQuietly(inputStream);
        }
        //7、关闭流
        IOUtils.closeQuietly(outputStream);
        localFileSystem.close();
        fileSystem.close();
    }

推荐阅读

io
秒建一个后台管理系统？用这5个开源免费的Java项目就够了

秒建一个后台管理系统？用这5个开源免费的Java项目就够了 ... [详细]

蜡笔小新 2024-11-12 03:21:33
io
IOS Run loop详解

为什么80%的码农都做不了架构师？转自http:blog.csdn.netztp800201articledetails9240913感谢作者分享Objecti ... [详细]

蜡笔小新 2024-11-13 12:14:35
replace
JavaWeb文件上传：前端实现与后端处理详解

在JavaWeb开发中，文件上传是一个常见的需求。无论是通过表单还是其他方式上传文件，都必须使用POST请求。前端部分通常采用HTML表单来实现文件选择和提交功能。后端则利用Apache Commons FileUpload库来处理上传的文件，该库提供了强大的文件解析和存储能力，能够高效地处理各种文件类型。此外，为了提高系统的安全性和稳定性，还需要对上传文件的大小、格式等进行严格的校验和限制。 ... [详细]

蜡笔小新 2024-11-11 19:50:46
request
Java并发编程指南：深入理解信号量机制

本文是Java并发编程系列的开篇之作，将详细解析Java 1.5及以上版本中提供的并发工具。文章假设读者已经具备同步和易失性关键字的基本知识，重点介绍信号量机制的内部工作原理及其在实际开发中的应用。 ... [详细]

蜡笔小新 2024-11-11 15:49:02
request
Juval Löwy：为何每个类都应被视为服务

Juval Löwy主张，每个类都应被视为服务，这并非是为了让服务无处不在，而是因为微服务是经过深思熟虑后系统分解的自然结果。在他的设计和构建的系统中，这种理念有助于提高模块化、可维护性和扩展性。通过将每个类视为独立的服务，系统能够更好地应对复杂性，实现更灵活的部署和更高的性能。 ... [详细]

蜡笔小新 2024-11-11 15:41:30
list
深入解析 Synchronized 锁的升级机制及其在并发编程中的应用

深入解析 Synchronized 锁的升级机制及其在并发编程中的应用 ... [详细]

蜡笔小新 2024-11-11 13:09:38
shell
Python错误重试让多少开发者头疼？高效解决方案出炉

### 优化后的摘要在处理 Python 开发中的错误重试问题时，许多开发者常常感到困扰。为了应对这一挑战，`tenacity` 库提供了一种高效的解决方案。首先，通过 `pip install tenacity` 安装该库。使用时，可以通过简单的规则配置重试策略。例如，可以设置多个重试条件，使用 `|`（或）和 `&`（与）操作符组合不同的参数，从而实现灵活的错误重试机制。此外，`tenacity` 还支持自定义等待时间、重试次数和异常处理，为开发者提供了强大的工具来提高代码的健壮性和可靠性。 ... [详细]

蜡笔小新 2024-11-11 10:33:20
chat
OpenAI首席执行官Sam Altman展望：人工智能的未来发展方向与挑战

OpenAI首席执行官Sam Altman展望：人工智能的未来发展方向与挑战 ... [详细]

蜡笔小新 2024-11-11 09:47:50
list
深入剖析Java中SimpleDateFormat在多线程环境下的潜在风险与解决方案

深入剖析Java中SimpleDateFormat在多线程环境下的潜在风险与解决方案 ... [详细]

蜡笔小新 2024-11-09 19:04:36
go
Python 数据可视化实战指南

本文详细介绍如何使用 Python 进行数据可视化，涵盖从环境搭建到具体实例的全过程。 ... [详细]

蜡笔小新 2024-11-13 06:03:30
go
并发控制与流程管理

本文详细介绍了几种常用的并发控制工具及其应用场景，帮助开发者更好地管理和协调多线程程序中的并发流程。 ... [详细]

蜡笔小新 2024-11-13 04:26:57
header
网站访问全流程解析

本文详细介绍了从用户在浏览器中输入一个域名（如www.yy.com）到页面完全展示的整个过程，包括DNS解析、TCP连接、请求响应等多个步骤。 ... [详细]

蜡笔小新 2024-11-12 18:13:16
header
从0到1搭建大数据平台

从0到1搭建大数据平台 ... [详细]

蜡笔小新 2024-11-12 15:26:03
list
Java高并发与多线程（二）：线程的实现方式详解

本文将深入探讨Java中线程的三种主要实现方式，包括继承Thread类、实现Runnable接口和实现Callable接口，并分析它们之间的异同及其应用场景。 ... [详细]

蜡笔小新 2024-11-12 14:31:23
list
开发中遇到的一些常见问题及解决方案

本文总结了一些开发中常见的问题及其解决方案，包括特性过滤器的使用、NuGet程序集版本冲突、线程存储、溢出检查、ThreadPool的最大线程数设置、Redis使用中的问题以及Task.Result和Task.GetAwaiter().GetResult()的区别。 ... [详细]

蜡笔小新 2024-11-12 08:20:05