热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

Sparkmetrics实现KafkaSink

背景监控是Spark非常重要的一部分。Spark的运行情况是由ListenerBus以及MetricsSystem来完成的。通过Spark的Metrics系统,我们可

背景

监控是Spark非常重要的一部分。Spark的运行情况是由ListenerBus以及MetricsSystem 来完成的。通过Spark的Metrics系统,我们可以把Spark Metrics的收集到的信息发送到各种各样的Sink,比如HTTP、JMX以及CSV文件。
目前支持的Sink包括:

  • ConsoleSink

  • CSVSink

  • JmxSink

  • MetricsServlet

  • GraphiteSink

  • GangliaSink

有时我们需要实时获取metrics数据通过spark分析展示等需求,这个时候若有个KafkaSink将metrics指标数据实时往kafka发送那就太方便了,故有了这篇博文。

实践

所有的Sink都需要继承Sink这个特质:

private[spark] trait Sink { def start(): Unit def stop(): Unit def report(): Unit}

当该Sink注册到metrics系统中时,会调用start方法进行一些初始化操作,再通过report方式进行真正的输出操作,stop方法可以进行一些连接关闭等操作。直接上代码:

package org.apache.spark.metrics.sink
import java.util.concurrent.TimeUnitimport java.util.{Locale, Properties}
import com.codahale.metrics.MetricRegistryimport org.apache.kafka.clients.producer.KafkaProducerimport org.apache.spark.SecurityManagerimport org.apache.spark.internal.Logging
private[spark] class KafkaSink(val property: Properties, val registry: MetricRegistry, securityMgr: SecurityManager) extends Sink with Logging{val KAFKA_KEY_PERIOD = "period" val KAFKA_DEFAULT_PERIOD = 10val KAFKA_KEY_UNIT = "unit" val KAFKA_DEFAULT_UNIT = "SECONDS"val KAFKA_TOPIC = "topic" val KAFKA_DEFAULT_TOPIC = "kafka-sink-topic"val KAFAK_BROKERS = "kafka-brokers" val KAFAK_DEFAULT_BROKERS = "XXX:9092"val TOPIC = Option(property.getProperty(KAFKA_TOPIC)).getOrElse(KAFKA_DEFAULT_TOPIC) val BROKERS = Option(property.getProperty(KAFAK_BROKERS)).getOrElse(throw new IllegalStateException("kafka-brokers is null!"))private val kafkaProducerCOnfig= new Properties() kafkaProducerConfig.put("bootstrap.servers",BROKERS) kafkaProducerConfig.put("key.serializer", "org.apache.kafka.common.serialization.StringSerializer") kafkaProducerConfig.put("value.serializer", "org.apache.kafka.common.serialization.StringSerializer")private val producer = new KafkaProducer[String, String](kafkaProducerConfig)private val reporter: KafkaReporter = KafkaReporter.forRegistry(registry) .topic(TOPIC) .build(producer)val pollPeriod = Option(property.getProperty(KAFKA_KEY_PERIOD)) match { case Some(s) => s.toInt case NOne=> KAFKA_DEFAULT_PERIOD }val pollUnit: TimeUnit = Option(property.getProperty(KAFKA_KEY_UNIT)) match { case Some(s) => TimeUnit.valueOf(s.toUpperCase(Locale.ROOT)) case NOne=> TimeUnit.valueOf(KAFKA_DEFAULT_UNIT) }override def start(): Unit = { log.info("I4 Metrics System KafkaSink Start ......") reporter.start(pollPeriod, pollUnit) }override def stop(): Unit = { log.info("I4 Metrics System KafkaSink Stop ......") reporter.stop() producer.close() }override def report(): Unit = { log.info("I4 Metrics System KafkaSink Report ......") reporter.report() }}

KafkaReporter类:

package org.apache.spark.metrics.sink;import com.alibaba.fastjson.JSONObject;
import com.codahale.metrics.*;
import com.twitter.bijection.Injection;
import com.twitter.bijection.avro.GenericAvroCodecs;
import org.apache.avro.Schema;
import org.apache.avro.generic.GenericData;
import org.apache.avro.generic.GenericRecord;
import org.apache.kafka.clients.producer.KafkaProducer;
import org.apache.kafka.clients.producer.ProducerRecord;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;import java.util.Map;
import java.util.SortedMap;
import java.util.concurrent.TimeUnit;public class KafkaReporter extends ScheduledReporter {private static final Logger LOGGER = LoggerFactory.getLogger(KafkaReporter.class);public static KafkaReporter.Builder forRegistry(MetricRegistry registry) {return new KafkaReporter.Builder(registry);}private KafkaProducer producer;private Clock clock;private String topic;private KafkaReporter(MetricRegistry registry,TimeUnit rateUnit,TimeUnit durationUnit,MetricFilter filter,Clock clock,String topic,KafkaProducer producer) {super(registry, "kafka-reporter", filter, rateUnit, durationUnit);this.producer = producer;this.topic = topic;this.clock = clock;}@Overridepublic void report(SortedMap gauges, SortedMap counters, SortedMap histograms, SortedMap meters, SortedMap timers) {final long timestamp = TimeUnit.MILLISECONDS.toSeconds(clock.getTime());// Gaugefor (Map.Entry entry : gauges.entrySet()) {reportGauge(timestamp,entry.getKey(), entry.getValue());}// Histogram
// for (Map.Entry entry : histograms.entrySet()) {
// reportHistogram(timestamp, entry.getKey(), entry.getValue());
// }}private void reportGauge(long timestamp, String name, Gauge gauge) {report(timestamp, name, gauge.getValue());}private void reportHistogram(long timestamp, String name, Histogram histogram) {final Snapshot snapshot = histogram.getSnapshot();report(timestamp, name, snapshot.getMax());}private void report(long timestamp, String name, Object values) {JSONObject jsOnObject= new JSONObject();jsonObject.put("name",name);jsonObject.put("timestamp",timestamp);jsonObject.put("value",values);producer.send(new ProducerRecord(topic,name, jsonObject.toJSONString()));}public static class Builder {private final MetricRegistry registry;private TimeUnit rateUnit;private TimeUnit durationUnit;private MetricFilter filter;private Clock clock;private String topic;private Builder(MetricRegistry registry) {this.registry = registry;this.rateUnit = TimeUnit.SECONDS;this.duratiOnUnit= TimeUnit.MILLISECONDS;this.filter = MetricFilter.ALL;this.clock = Clock.defaultClock();}/*** Convert rates to the given time unit.** @param rateUnit a unit of time* @return {@code this}*/public KafkaReporter.Builder convertRatesTo(TimeUnit rateUnit) {this.rateUnit = rateUnit;return this;}/*** Convert durations to the given time unit.** @param durationUnit a unit of time* @return {@code this}*/public KafkaReporter.Builder convertDurationsTo(TimeUnit durationUnit) {this.duratiOnUnit= durationUnit;return this;}/*** Use the given {@link Clock} instance for the time.** @param clock a {@link Clock} instance* @return {@code this}*/public Builder withClock(Clock clock) {this.clock = clock;return this;}/*** Only report metrics which match the given filter.** @param filter a {@link MetricFilter}* @return {@code this}*/public KafkaReporter.Builder filter(MetricFilter filter) {this.filter = filter;return this;}/*** Only report metrics which match the given filter.** @param topic a* @return {@code this}*/public KafkaReporter.Builder topic(String topic) {this.topic = topic;return this;}/*** Builds a {@link KafkaReporter} with the given properties, writing {@code .csv} files to the* given directory.** @return a {@link KafkaReporter}*/public KafkaReporter build(KafkaProducer producer) {return new KafkaReporter(registry,rateUnit,durationUnit,filter,clock,topic,producer);}}
}

其中的report方法就是获取各种类型指标,并进行对应的输出操作的时机。

如何使用

可在配置文件或者程序中设定需要注册的sink,并带上对应的参数即可:

spark.metrics.conf.*.sink.kafka.class=org.apache.spark.metrics.sink.KafkaSinkspark.metrics.conf.*.sink.kafka.kafka-brokers=XXX:9092

原文:https://www.jianshu.com/p/cee005368b61



推荐阅读
  • 本文介绍了在Python3中如何使用选择文件对话框的格式打开和保存图片的方法。通过使用tkinter库中的filedialog模块的asksaveasfilename和askopenfilename函数,可以方便地选择要打开或保存的图片文件,并进行相关操作。具体的代码示例和操作步骤也被提供。 ... [详细]
  • Spring源码解密之默认标签的解析方式分析
    本文分析了Spring源码解密中默认标签的解析方式。通过对命名空间的判断,区分默认命名空间和自定义命名空间,并采用不同的解析方式。其中,bean标签的解析最为复杂和重要。 ... [详细]
  • 本文讨论了一个关于cuowu类的问题,作者在使用cuowu类时遇到了错误提示和使用AdjustmentListener的问题。文章提供了16个解决方案,并给出了两个可能导致错误的原因。 ... [详细]
  • 本文介绍了如何使用python从列表中删除所有的零,并将结果以列表形式输出,同时提供了示例格式。 ... [详细]
  • Nginx使用(server参数配置)
    本文介绍了Nginx的使用,重点讲解了server参数配置,包括端口号、主机名、根目录等内容。同时,还介绍了Nginx的反向代理功能。 ... [详细]
  • 向QTextEdit拖放文件的方法及实现步骤
    本文介绍了在使用QTextEdit时如何实现拖放文件的功能,包括相关的方法和实现步骤。通过重写dragEnterEvent和dropEvent函数,并结合QMimeData和QUrl等类,可以轻松实现向QTextEdit拖放文件的功能。详细的代码实现和说明可以参考本文提供的示例代码。 ... [详细]
  • Java容器中的compareto方法排序原理解析
    本文从源码解析Java容器中的compareto方法的排序原理,讲解了在使用数组存储数据时的限制以及存储效率的问题。同时提到了Redis的五大数据结构和list、set等知识点,回忆了作者大学时代的Java学习经历。文章以作者做的思维导图作为目录,展示了整个讲解过程。 ... [详细]
  • 树莓派Linux基础(一):查看文件系统的命令行操作
    本文介绍了在树莓派上通过SSH服务使用命令行查看文件系统的操作,包括cd命令用于变更目录、pwd命令用于显示当前目录位置、ls命令用于显示文件和目录列表。详细讲解了这些命令的使用方法和注意事项。 ... [详细]
  • Mac OS 升级到11.2.2 Eclipse打不开了,报错Failed to create the Java Virtual Machine
    本文介绍了在Mac OS升级到11.2.2版本后,使用Eclipse打开时出现报错Failed to create the Java Virtual Machine的问题,并提供了解决方法。 ... [详细]
  • 本文介绍了在Win10上安装WinPythonHadoop的详细步骤,包括安装Python环境、安装JDK8、安装pyspark、安装Hadoop和Spark、设置环境变量、下载winutils.exe等。同时提醒注意Hadoop版本与pyspark版本的一致性,并建议重启电脑以确保安装成功。 ... [详细]
  • javascript  – 概述在Firefox上无法正常工作
    我试图提出一些自定义大纲,以达到一些Web可访问性建议.但我不能用Firefox制作.这就是它在Chrome上的外观:而那个图标实际上是一个锚点.在Firefox上,它只概述了整个 ... [详细]
  • importjava.util.ArrayList;publicclassPageIndex{privateintpageSize;每页要显示的行privateintpageNum ... [详细]
  • JavaScript和HTML之间的交互是经由过程事宜完成的。事宜:文档或浏览器窗口中发作的一些特定的交互霎时。能够运用侦听器(或处置惩罚递次来预订事宜),以便事宜发作时实行相应的 ... [详细]
  • 本文总结了使用不同方式生成 Dataframe 的方法,包括通过CSV文件、Excel文件、python dictionary、List of tuples和List of dictionary。同时介绍了一些注意事项,如使用绝对路径引入文件和安装xlrd包来读取Excel文件。 ... [详细]
  • Jboss的EJB部署描述符standardjaws.xml配置步骤详解
    本文详细介绍了Jboss的EJB部署描述符standardjaws.xml的配置步骤,包括映射CMP实体EJB、数据源连接池的获取以及数据库配置等内容。 ... [详细]
author-avatar
柠檬泪滴味道186
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有