作者:imjob1234_34706 | 来源:互联网 | 2023-05-20 10:56
我们正面临着Zoo Keeper的一个特殊问题,其中ZK突然失去与solr云的连接,并开始抛出一个异常,上面写着"无法与ZooKeeper对话 - 更新被禁用".
我们的应用程序在2个不同的数据中心分别设置了2个solr集群.这些集群中的每一个都具有相同的配置和数据,并且预计会采用相同的增量负载.应用程序用户需要他们所做的更改才能在搜索中反映几乎立即生效,因此我们每10秒运行一次增量加载.已经说过,在理想情况下,这10秒内的数据更新不会超过10000.
3动物园饲养员设置在法定人数中,每个数据中心都有专用服务器.现在,有了这样的设置,我们最近在其中一个数据中心遇到了前面提到的问题.ZK突然下降并且无法自行恢复.奇怪的是,这只发生在一个数据中心,而两个DC共享相同的负载.
虽然它没有影响搜索索引,但它正在用失败通知轰炸应用程序团队(因为应用程序特定的通知设置).
我们做了什么来处理这个?
答:为了阻止邮件的泛滥,我们已经停止增量工作约5分钟,然后恢复它们.
我们观察到了什么?(也可能是错误的理解.请更正)答:停止作业允许ZK有时恢复自身,这使得增量作业在恢复时能够正常运行.不需要重新启动Solr Cloud的ZK.
我们想知道什么?
问:在此期间,ZK超载方面没有任何异常情况发生.那么什么可能导致ZK自行关闭?
如果有人能帮助我理解这种意外行为的根本原因,那将是非常有帮助的.
提前致谢!