作者:寒江大哥_599 | 来源:互联网 | 2023-08-26 22:33
为了提高自身业务性能,优化资源使用,该公司决定使用分钟表,即每五分
钟区间内,从 kafka-A 集群新消费过来的数据为一个批次,生成一个带有账期和
批次拼接的文件以 Load Data 的方式写入到 Hive 分区表中,其文件存储于 hdfs
上。再通过 sparkstream 进行 load 加工。Spark Streaming 程序会监控分钟表HDFS 路径下文件,如果有新增数据文件,则加载相应数据文件,进行实时处理,
但该公司开发团队在开发过程中,会发现 HDFS 路径下有 文件,但是 Spark
Streaming 程序却无法发现数据文件以及加载处理数据文件。
那么 HDFS 上明明有新增文件,为什么事实上却发生了数据丢失,只有少部
分数据可以加载进来。请根据所掌握的分布式集群相关知识,分析导致该问题的
具体原因。