作者:hlfk77136 | 来源:互联网 | 2023-02-04 15:06
我们已经使用Sqoop实现了一个解决方案,用于将数据从RDBMS加载到我们的hadoop集群,仅用于附加数据,当维度数据到hbase时,它转到hive.
现在我们正在建立两个相同的Hadoop集群,它们是彼此的备份集群.我们希望将数据从RDBMS加载到两个集群.Sqoop不允许我们这样做.我们已经看到了一些流式解决方案,如流集或nifi,它允许从一个地方提取数据并一次性将其发送到多个目的地.此外,我们正在考虑使用sqoop将数据加载到一个集群,然后设置同步向上作业以定期将数据复制到另一个集群,考虑到我们拥有的数据量巨大,这听起来更合适.
有人可以分享一些真实的生活经历吗?