当前位置: 开发笔记 > 编程语言 > 正文

Hive读取不到Flume正在写入的HDFS临时文件的解决办法

作者：吕小布 | 来源：互联网 | 2023-08-13 19:35

问题导读1.本文的应用场景是什么？2.Hive读取不到Flume正在写入的HDFS临时文件，该如何解决？实际工作遇到如下场景࿱

问题导读

1.本文的应用场景是什么&＃xff1f;
2.Hive读取不到Flume正在写入的HDFS临时文件&＃xff0c;该如何解决&＃xff1f;

实际工作遇到如下场景&＃xff1a;应用服务器收集到的日志信息&＃xff0c;通过Flume写入到HDFS指定目录&＃xff0c;而Hive将其映射到表&＃xff0c;进行离线统计。

计划

计划方式处理&＃xff1a;

Hive的表创建为外部分区表&＃xff0c;例如&＃xff1a;

USE mydb;
CREATE EXTERNAL TABLE mytable
(
c1 String,
c2 INT,
c3 INT,
create_time String
)
PARTITIONED BY (dt STRING);

然后创建分区&＃xff0c;如&＃xff1a;

ALTER TABLE mytable ADD PARTITION (dt &＃61; ’2013-09-25′) LOCATION ‘/data/mytable/2013-09-25/’;
ALTER TABLE mytable ADD PARTITION (dt &＃61; ’2013-09-26′) LOCATION ‘/data/mytable/2013-09-26/’;
ALTER TABLE mytable ADD PARTITION (dt &＃61; ’2013-09-27′) LOCATION ‘/data/mytable/2013-09-27/’;

即Hive的表按天进行分区。指定到相应目录。

而Flume中配置将数据保存到HDFS中,即HDFS sink。计划每天一个文件&＃xff0c;进行日切。如2013-09-25对应的文件就保存在&＃xff1a;

hdfs:///data/mytable/2013-09-25/FlumeData.xxx

这样&＃xff0c;只要文件生成&＃xff0c;就能直接通过操作Hive的mytable表来对文件进行统计了。

业务上要求统计工作是按照小时进行&＃xff0c;考虑到按照小时进行分区过于细化&＃xff0c;而且会导致过多的文件给NameNode造成内存压力&＃xff0c;所以如上Hive层面按天进行划分。

统计执行时首先指定天分区&＃xff0c;然后根据create_time&＃xff08;mm:hh:ss&＃xff09;指定统计时间段&＃xff0c;如&＃xff1a;

SELECT c1,
            SUM(c2),
            SUM(c3)
FROM mytable
WHERE dt &＃61; ’2013-09-25′
     AND create_time BETWEEN ’22:00:00′ AND ’22:59:59′
GROUP BY c1
;

但是&＃xff0c;但是&＃xff0c;计划始终赶不到遇到的变化&＃xff01;

在实践的过程中遇到如下两个问题&＃xff1a;

1.对于正在写入的文件&＃xff0c;通过hadoop fs -ls 命令查看&＃xff0c;其大小始终是0&＃xff0c;即使通过hadoop fs -cat可以看到实际已经有内容存在&＃xff01;通过hive处理的话也看不到其中的数据。

2.Flume正在写入的文件&＃xff0c;默认会有.tmp后缀。如果Hive在执行过程中&＃xff0c;Flume切换文件&＃xff0c;即将xxx.tmp重命名为xxx&＃xff0c;这时Hive会报错如file not found xxx.tmp。

了解一番后大致知道了缘由&＃xff0c;记录如下&＃xff1a;

针对问题1

首先了解HDFS的特点&＃xff1a;

HDFS中所有文件都是由块BLOCK组成&＃xff0c;默认块大小为64MB。在我们的测试中由于数据量小&＃xff0c;始终在写入文件的第一个BLOCK。而HDFS与一般的POSIX要求的文件系统不太一样&＃xff0c;其文件数据的可见性是这样的&＃xff1a;

如果创建了文件&＃xff0c;这个文件可以立即可见&＃xff1b;
写入文件的数据则不被保证可见了&＃xff0c;哪怕是执行了刷新操作(flush/sync)。只有数据量大于1个BLOCK时&＃xff0c;第一个BLOCK的数据才会被看到&＃xff0c;后续的BLOCK也同样的特性。正在写入的BLOCK始终不会被其他用户看到&＃xff01;
HDFS中的sync()保证数据持久化到了datanode上&＃xff0c;然后可以被其他用户看到。

针对HDFS的特点&＃xff0c;可以解释问题1中的现象&＃xff0c;正在写入无法查看。但是使用Hive统计时Flume还在写入那个BLOCK(数据量小的时候)&＃xff0c;那岂不是统计不到信息&＃xff1f;

解决方案&＃xff1a;

每天再按小时切分文件——这样虽然每天文件较多&＃xff0c;但是能够保证统计时数据可见&＃xff01;Flume上的配置项为hdfs.rollInterval。

如果文件数多&＃xff0c;那么还可以考虑对以前的每天的小时文件合并为每天一个文件&＃xff01;

针对问题2

原因比较明显&＃xff0c;Hive处理前获取了对应分区下的所有文件信息&＃xff0c;其中包含xxx.tmp文件&＃xff0c;而传递给MapReduce处理时&＃xff0c;由于Flume进行了切换&＃xff0c;导致原来的xxx.tmp变成了xxx&＃xff0c;新的.tmp名称又变成了yyy.tmp&＃xff0c;这样自然找不到xxx.tmp了。

解决方案&＃xff1a;

解决这个问题想法之一是想控制Hive的处理时机&＃xff0c;但是显然不是那么好控制。

进一步了解到HDFS的Java API读取HDFS文件时&＃xff0c;会忽略以”.”和”_”开头的文件&＃xff01;类似于Linux中默认.xx是隐藏的一样&＃xff0c;应用程序读取HDFS文件时默认也不读取.xxx和_xxx这样名称的文件&＃xff01;

这样就产生了针对问题2的处理方案一&＃xff09;配置Flume&＃xff0c;针对正在写入的文件&＃xff0c;以.号开头。涉及Flume配置项hdfs.inUsePrefix。

也有网友给出了处理方案二&＃xff09;:让应用程序也看不到.tmp结尾的文件&＃xff01;方法是继承PathFilter自定义自己的文件筛选类&＃xff0c;然后在Hive中设置使用这个类。具体如下&＃xff08;转自此文&＃xff09;

package com.twitter.util;
import java.io.IOException;
import java.util.ArrayList;
import java.util.List;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.fs.PathFilter;
public class FileFilterExcludeTmpFiles implements PathFilter {
public boolean accept(Path p) {
String name &＃61; p.getName();
return !name.startsWith(“_”) && !name.startsWith(“.”) && !name.endsWith(“.tmp”);
}
}

然后在hive-site.xml中加入&＃xff1a;

hive.aux.jars.path
file:///usr/lib/hadoop/hive-serdes-1.0-SNAPSHOT.jar,file:///usr/lib/hadoop/TwitterUtil.jar
mapred.input.pathFilter.class
com.twitter.util.FileFilterExcludeTmpFiles

Done!

推荐阅读

settings
Kafka 集群的高效部署与优化策略

本文探讨了 Kafka 集群的高效部署与优化策略。首先介绍了 Kafka 的下载与安装步骤，包括从官方网站获取最新版本的压缩包并进行解压。随后详细讨论了集群配置的最佳实践，涵盖节点选择、网络优化和性能调优等方面，旨在提升系统的稳定性和处理能力。此外，还提供了常见的故障排查方法和监控方案，帮助运维人员更好地管理和维护 Kafka 集群。 ... [详细]

蜡笔小新 2024-11-06 20:37:50
io
自定义 Android 圆形进度条视图，支持显示数字和中心文字

本文介绍了一种自定义的Android圆形进度条视图，支持在进度条上显示数字，并在圆心位置展示文字内容。通过自定义绘图和组件组合的方式实现，详细展示了自定义View的开发流程和关键技术点。示例代码和效果展示将在文章末尾提供。 ... [详细]

蜡笔小新 2024-11-10 13:04:42
jsp
Bootstrap 学习指南：全面掌握前端框架的核心知识点与实战技巧

### 优化后的摘要本学习指南旨在帮助读者全面掌握 Bootstrap 前端框架的核心知识点与实战技巧。内容涵盖基础入门、核心功能和高级应用。第一章通过一个简单的“Hello World”示例，介绍 Bootstrap 的基本用法和快速上手方法。第二章深入探讨 Bootstrap 与 JSP 集成的细节，揭示两者结合的优势和应用场景。第三章则进一步讲解 Bootstrap 的高级特性，如响应式设计和组件定制，为开发者提供全方位的技术支持。 ... [详细]

蜡笔小新 2024-11-09 16:58:21
io
使用 ListView 浏览安卓系统中的回收站文件

使用 ListView 浏览安卓系统中的回收站文件 ... [详细]

蜡笔小新 2024-11-09 16:34:55
io
求助：如何使用Pull方法解析标签内容，悬赏50分求完美解决方案

在处理 XML 数据时，如果需要解析 `` 标签的内容，可以采用 Pull 解析方法。Pull 解析是一种高效的 XML 解析方式，适用于流式数据处理。具体实现中，可以通过 Java 的 `XmlPullParser` 或其他类似的库来逐步读取和解析 XML 文档中的 `` 元素。这样不仅能够提高解析效率，还能减少内存占用。本文将详细介绍如何使用 Pull 解析方法来提取 `` 标签的内容，并提供一个示例代码，帮助开发者快速解决问题。 ... [详细]

蜡笔小新 2024-11-09 11:50:14
io
使用Maven JAR插件将单个或多个文件及其依赖项合并为一个可引用的JAR包

本文介绍了如何利用Maven中的maven-assembly-plugin插件将单个或多个Java文件及其依赖项打包成一个可引用的JAR文件。首先，需要创建一个新的Maven项目，并将待打包的Java文件复制到该项目中。通过配置maven-assembly-plugin，可以实现将所有文件及其依赖项合并为一个独立的JAR包，方便在其他项目中引用和使用。此外，该方法还支持自定义装配描述符，以满足不同场景下的需求。 ... [详细]

蜡笔小新 2024-11-09 01:59:29
io
基于CXF框架的Web服务开发详细示例

在Java Web服务开发中，Apache CXF 和 Axis2 是两个广泛使用的框架。CXF 由于其与 Spring 框架的无缝集成能力，以及更简便的部署方式，成为了许多开发者的首选。本文将详细介绍如何使用 CXF 框架进行 Web 服务的开发，包括环境搭建、服务发布和客户端调用等关键步骤，为开发者提供一个全面的实践指南。 ... [详细]

蜡笔小新 2024-11-08 18:43:17
io
Java项目中两个文件互相调用时出现函数错误，请求专业解决方案

在Java项目中，当两个文件进行互相调用时出现了函数错误。具体问题出现在 `MainFrame.java` 文件中，该文件位于 `cn.javass.bookmgr` 包下，并且导入了 `java.awt.BorderLayout` 和 `java.awt.Event` 等相关类。为了确保项目的正常运行，请求提供专业的解决方案，以解决函数调用中的错误。建议从类路径、依赖关系和方法签名等方面入手，进行全面排查和调试。 ... [详细]

蜡笔小新 2024-11-08 17:04:11
io
开发日志：201521044091 《Java编程基础》第11周学习心得与总结

开发日志：201521044091 《Java编程基础》第11周学习心得与总结 ... [详细]

蜡笔小新 2024-11-08 11:15:11
io
Java中不同类型的常量池（字符串常量池、Class常量池和运行时常量池）的对比与关联分析

在研究Java虚拟机的过程中，笔者发现存在多种类型的常量池，包括字符串常量池、Class常量池和运行时常量池。通过查阅CSDN、博客园等相关资料，对这些常量池的特性、用途及其相互关系进行了详细探讨。本文将深入分析这三种常量池的差异与联系，帮助读者更好地理解Java虚拟机的内部机制。 ... [详细]

蜡笔小新 2024-11-08 10:38:37
settings
深入解析C#中app.config文件的配置与修改方法

在C#开发过程中，经常需要对系统的配置文件进行读写操作，如系统初始化参数的修改或运行时参数的更新。本文将详细介绍如何在C#中正确配置和修改app.config文件，包括其结构、常见用法以及最佳实践。此外，还将探讨exe.config文件的生成机制及其在不同环境下的应用，帮助开发者更好地管理和维护应用程序的配置信息。 ... [详细]

蜡笔小新 2024-11-08 09:49:44
io
枚举类中enum关键字的常见应用与实践

在枚举类中，`enum`关键字具有重要的作用，本文探讨了其常见的应用场景与实践。特别指出，枚举对象必须置于枚举类的首行，否则将导致编译错误。通过具体的代码示例，详细解析了这一规则及其背后的原理，帮助开发者更好地理解和使用枚举类。 ... [详细]

蜡笔小新 2024-11-07 20:19:48
io
Scala学习指南：从零开始掌握基础

本指南从零开始介绍Scala编程语言的基础知识，重点讲解了Scala解释器REPL（读取-求值-打印-循环）的使用方法。REPL是Scala开发中的重要工具，能够帮助初学者快速理解和实践Scala的基本语法和特性。通过详细的示例和练习，读者将能够熟练掌握Scala的基础概念和编程技巧。 ... [详细]

蜡笔小新 2024-11-07 18:07:59
express
SSH集成过程中常见问题及解决方案

在使用SSH框架进行项目开发时，经常会遇到一些常见的问题。例如，在Spring配置文件中配置AOP事务声明后，进行单元测试时可能会出现“No Hibernate Session bound to thread”的错误。本文将详细探讨这一问题的原因，并提供有效的解决方案，帮助开发者顺利解决此类问题。 ... [详细]

蜡笔小新 2024-11-07 03:17:49
io
Hadoop集群搭建常见问题与解决方案（一）：避免配置过程中的常见陷阱

在搭建Hadoop集群以处理大规模数据存储和频繁读取需求的过程中，经常会遇到各种配置难题。本文总结了作者在实际部署中遇到的典型问题，并提供了详细的解决方案，帮助读者避免常见的配置陷阱。通过这些经验分享，希望读者能够更加顺利地完成Hadoop集群的搭建和配置。 ... [详细]

蜡笔小新 2024-11-03 19:59:23

吕小布

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章