Apache Flume还是一项用于收集大量流数据(特别是日志)的服务.Flume使用其称为数据接收器的机制将数据推送给使用者。Flume可以立即将数据推送到许多流行的接收器,包括HDFS,HBase,Cassandra和一些关系数据库。
Apache Storm涉及流数据。Storm是批处理和流处理之间的桥梁,Hadoop本身并不是为处理而设计的。Storm连续运行,处理输入数据流并将其切成小块,因此Hadoop可以更轻松地提取它。数据源称为喷口,每个处理节点都是一个螺栓。螺栓对数据执行计算和处理,包括将输出推送到数据存储和其他服务。
如果您需要开箱即用的产品,请在确定推或拉更有意义之后选择Flume。如果到目前为止,如果流数据只是您已经开发的Hadoop环境的一小部分附加组件,那么Storm是一个不错的选择。
可以使用Storm将日志数据摄取到Hadoop集群中
是的,我们可以使用风暴代替水槽