热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

structure_2,StructuredStreaming的事件时间和窗口操作

本文由编程笔记#小编为大家整理,主要介绍了2,StructuredStreaming的事件时间和窗口操作相关的知识,希望对你有一定的参考价值。推荐阅读:1,Structured
本文由编程笔记#小编为大家整理,主要介绍了2,StructuredStreaming的事件时间和窗口操作相关的知识,希望对你有一定的参考价值。


推荐阅读:1,StructuredStreaming简介

使用Structured Streaming基于事件时间的滑动窗口的聚合操作是很简单的,很像分组聚合。在一个分组聚合操作中,聚合值被唯一保存在用户指定的列中。在基于窗口的聚合的情况下,对于行的事件时间的每个窗口,维护聚合值。

如前面的例子,我们运行wordcount操作,希望以10min窗口计算,每五分钟滑动一次窗口。也即,12:00 - 12:10, 12:05 - 12:15, 12:10 - 12:20 这些十分钟窗口中进行单词统计。12:00 - 12:10意思是在12:00之后到达12:10之前到达的数据,比如一个单词在12:07收到。这个单词会影响12:00 - 12:10, 12:05 - 12:15两个窗口。

结果表将如下所示。

技术分享图片

 

import org.apache.spark.sql.streaming.Trigger
import
java.sql.Timestamp
import
org.apache.spark.sql.functions._
import
spark.implicits._
val
lines=spark.readStream.format("socket").option("host", "127.0.0.1").option("port", 9999).option("includeTimestamp", true).load()
val
words=lines.as[(String, Timestamp)].flatMap(line=>line._1.split(" ").map(word=>
(word,
line._2))).toDF("word", "timestamp")
val
windowedCounts=words.withWatermark("timestamp", "30
seconds").groupBy(window($"timestamp", "30
seconds", "15
seconds"), $"word").count()
val
query=windowedCounts.writeStream.outputMode("Append").format("console").trigger(Trigger.ProcessingTime(5000)).option("truncate", "false").start()
query.awaitTermination()

 

推荐阅读:

Spark Structured Streaming高级特性

Spark Streaming 中管理 Kafka Offsets 的几种方式












推荐阅读
author-avatar
解忧花
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有