热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

HBaseoldWALs:它是什么以及如何清理它?

如何解决《HBaseoldWALs:它是什么以及如何清理它?》经验,为你挑选了1个好方法。

我们的小型hadoop集群中的空间不足,所以我正在检查HDFS上的磁盘使用情况,我发现大部分空间都被/ hbase/oldWALs文件夹占用.

我已经检查了"HBase权威书"和其他书籍,网站,我也在谷歌搜索我的问题,但我没有找到正确的答案......

所以我想知道这个文件夹是什么,有什么用途,以及如何在不破坏所有内容的情况下从这个文件夹中释放空间......

如果它与特定版本相关......我们的集群在cloudera(hbase 0.98.6)的5.3.0-1.cdh5.3.0.p0.30下.

谢谢你的帮助!



1> mpiffaretti..:

FYI

我已在hbase用户列表中发布此问题.以下是EnisSöztutar(一个hbase提交者)的答案以及我如何解决它:

该文件夹由主人的杂务定期清理.当不再需要WAL文件用于恢复时(当HBase可以保证HBase已刷新WAL文件中的所有数据时),它将被移动到oldWALs文件夹进行存档.日志保持不变,直到完成对WAL文件的所有其他引用.目前有两种服务可以将文件保存在存档目录中.首先是TTL过程,它确保WAL文件至少保持10分钟.这主要用于调试.您可以通过在master中设置hbase.master.logcleaner.ttl配置属性来缩短此时间.它默认为600000.另一个是复制.如果您有复制设置,复制过程将挂起到WAL文件,直到它们被复制.即使您禁用了复制,仍会引用这些文件.

您可以从类(LogCleaner,TimeToLiveLogCleaner,ReplicationLogCleaner)查看master中的日志,以查看master是否实际运行此杂项以及是否获得任何异常.

复制确实无法在所有集群上进行,但过去它是启用的,因为我们使用hbase-indexer将数据从HBase复制到Solr,这种机制基于复制.

我在hbase shell上运行了这个命令:

hbase(main):005:0> list_peers
PEER_ID CLUSTER_KEY STATE TABLE_CFS
Indexer_profilesIndexer m1.prod.ps,m2.prod.ps,m3.prod.ps:2181:/ngdata/sep/hbase-slave/Indexer_profilesIndexer DISABLED nil
1 row(s) in 0.0070 seconds

hbase(main):006:0> remove_peer 'Indexer_profilesIndexer'
0 row(s) in 0.0050 seconds


hbase(main):007:0> list_peers
PEER_ID CLUSTER_KEY STATE TABLE_CFS
0 row(s) in 0.0020 seconds

最后我删除了hdfs上的oldsWALs文件夹!

该文件夹不再增长!


推荐阅读
  • Flume 开源分布式日志收集系统
    为什么80%的码农都做不了架构师?Flume--开源分布式日志收集系统Flume是Cloudera提供的一个高可用的、高可靠的开源分布式海量日志收集系统 ... [详细]
  • 一、Hadoop来历Hadoop的思想来源于Google在做搜索引擎的时候出现一个很大的问题就是这么多网页我如何才能以最快的速度来搜索到,由于这个问题Google发明 ... [详细]
  • 一、背景1、起源MapReduce编程模型的思想来源于函数式编程语言Lisp,由Google公司于2004年提出并首先应用于大型集群。同时,Google ... [详细]
  • 大数据学习路线!
    大数据如此火热的现在,想必许多小伙伴都想要加入这个行业。也是AI菌今天就要拿出收藏已久的大数据学习计划。帮助你不走弯路,迈向大数据之路。1大数据应用离不开基础软件的支撑,且大部分大 ... [详细]
  • 本文介绍了一种轻巧方便的工具——集算器,通过使用集算器可以将文本日志变成结构化数据,然后可以使用SQL式查询。集算器利用集算语言的优点,将日志内容结构化为数据表结构,SPL支持直接对结构化的文件进行SQL查询,不再需要安装配置第三方数据库软件。本文还详细介绍了具体的实施过程。 ... [详细]
  • 前言折腾了一段时间hadoop的部署管理,写下此系列博客记录一下。为了避免各位做部署这种重复性的劳动,我已经把部署的步骤写成脚本,各位只需要按着本文把脚本执行完,整个环境基本就部署 ... [详细]
  • 我们在之前的文章中已经初步介绍了Cloudera。hadoop基础----hadoop实战(零)-----hadoop的平台版本选择从版本选择这篇文章中我们了解到除了hadoop官方版本外很多 ... [详细]
  • hbase伪集群搭建
    hbase数据存储有三种跑法,跑在本地磁盘上、跑在伪分布式上、跑在完全分布式上--------额。。。官网的文档挺坑爹的,结合官网、百度、谷歌的各种 ... [详细]
  • 本文整理了Java中org.apache.hadoop.hbase.client.Append.size()方法的一些代码示例,展示了Append.size ... [详细]
  • 一:什么是solrSolr是apache下的一个开源项目,使用Java基于lucene开发的全文搜索服务器;Lucene是一个开放源代 ... [详细]
  • IDEA配置spark与pycharm配置spark教程
    eclipse配置spark1.6.0教程https:kevin12.iteye.comblog2274179这里注意修改,根据自己的修改com.JohnsonSpark_2.3. ... [详细]
  • solr倒排索引(转载)
    原文地址:http:blog.csdn.netchichengitarticledetails9235157http:blog.csdn.netnjpjsoftdevarticle ... [详细]
  • 使用clouderaquickstartvm无配置快速部署Hadoop应用
    http:zzj270919.blog.163.comblogstatic68997776201522561659999目录:通过CDH网站下载cloudera-vm ... [详细]
  • CDH4简介
    原文地址:CDH4简介作者:HadoopChinaWebelievethatduring2012,enterprisedistributionsofHa ... [详细]
  • Hadoop进军机器学习:Cloudera收购Myrrix共创“Big Learning”
    摘要:作为人工智能的一个分支机器学习已经实现商业化,并成为大数据的典型使用案例。Hadoop领头公司Cloudera收购了机器学习创业公司Myrrix& ... [详细]
author-avatar
酱油丸子-310
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有