在GoogleDataflow中以groupby计算-countaftergroupbyinGoogleDataflow

作者：智勇双全882602900857_984 | 来源：互联网 | 2023-09-18 16:03

IhavethefollowinginmyGooglecloudstorage我在Google云存储中有以下内容Advertiser|Event______________

I have the following in my Google cloud storage

我在Google云存储中有以下内容

Advertiser | Event
__________________
100 | Click

101 | Impression

100 | Impression

100 | Impression

101 | Impression

My output of the pipeline should be something like

我的输出管道应该是这样的

Advertiser | Count

100 | 3

101 | 2

First I used groupByKey, the output is like

首先我使用了groupByKey，输出就像

100 Click, Impression, Impression

101 Impression, Impression

How to proceed from here?

怎么从这里开始？

2 个解决方案

#1

Instead of a GroupByKey, you may want to use a combine function, which is a composite that optimizes before and after the group by key. Your pipeline can look something like this:

您可能希望使用组合功能而不是GroupByKey，这是一种在按组分组之前和之后进行优化的组合。你的管道看起来像这样：

Python

蟒蛇

collection_cOntents= [(100, 'Click'), 
                       (101, 'Impression'), 
                       (100, 'Impression'), 
                       (100, 'Impression'), 
                       (101, 'Impression']

input_collection = pipeline | beam.Create(collection_contents)

counts = input_collection | Count.PerKey()

This should output a collection with the shape you are looking for. The Count series of transforms is available in the apache_beam.transforms.combiners.combine.Count module.

这应该输出一个您正在寻找的形状的集合。 Count系列转换可在apache_beam.transforms.combiners.combine.Count模块中找到。

Java

Java的

The same transforms exist for Java in the org.apache.beam.sdk.transforms package:

org.apache.beam.sdk.transforms包中存在相同的Java转换：

PCollection> resultColl = inputColl.apply(Count.perKey())

#2

This counting pattern has been described in the 'word count' sample of Apache Beam.

这种计数模式已经在Apache Beam的'word count'样本中描述。

Find the sample at Github apache beam sample: wordcount.py. The counting starts at line 95.

在Github apache beam sample中找到样本：wordcount.py。计数从第95行开始。

推荐阅读

string
详解Android连接MySQL数据库的操作流程及技术要点

在Android应用开发中，实现与MySQL数据库的连接是一项重要的技术任务。本文详细介绍了Android连接MySQL数据库的操作流程和技术要点。首先，Android平台提供了SQLiteOpenHelper类作为数据库辅助工具，用于创建或打开数据库。开发者可以通过继承并扩展该类，实现对数据库的初始化和版本管理。此外，文章还探讨了使用第三方库如Retrofit或Volley进行网络请求，以及如何通过JSON格式交换数据，确保与MySQL服务器的高效通信。 ... [详细]

蜡笔小新 2024-11-07 19:11:13
string
可直接使用的unity第三人称自由视角相机脚本

使用方法:将要控制的角色拖到TargetBody,将相机的焦点拖到CamerPivot,,建议CameraPivot是一个放在TargetBody下的子物体,并且位置应该是在Tar ... [详细]

蜡笔小新 2024-11-14 13:53:05
const
MySQL初级篇——字符串、日期时间、流程控制函数的相关应用

文章目录：1.字符串函数2.日期时间函数2.1获取日期时间2.2日期与时间戳的转换2.3获取年月日、时分秒、星期数、天数等函数2.4时间和秒钟的转换2. ... [详细]

蜡笔小新 2024-11-14 10:57:02
string
C#实现文件的压缩与解压

2019独角兽企业重金招聘Python工程师标准一、准备工作1、下载ICSharpCode.SharpZipLib.dll文件2、项目中引用这个dll二、文件压缩与解压共用类 ... [详细]

蜡笔小新 2024-11-14 10:37:34
process
Mac上安装Jupyter Notebook的详细步骤与技巧

本文将详细介绍如何在Mac上安装Jupyter Notebook，并提供一些常见的问题解决方法。通过这些步骤，您将能够顺利地在Mac上运行Jupyter Notebook。 ... [详细]

蜡笔小新 2024-11-12 00:45:51
config
InfluxDB、collectd与Grafana的详细安装与配置指南

本文详细介绍了 InfluxDB、collectd 和 Grafana 的安装与配置流程。首先，按照启动顺序依次安装并配置 InfluxDB、collectd 和 Grafana。InfluxDB 作为时序数据库，用于存储时间序列数据；collectd 负责数据的采集与传输；Grafana 则用于数据的可视化展示。文中提供了 collectd 的官方文档链接，便于用户参考和进一步了解其配置选项。通过本指南，读者可以轻松搭建一个高效的数据监控系统。 ... [详细]

蜡笔小新 2024-11-11 19:54:24
string
大类|电阻器_使用Requests、Etree、BeautifulSoup、Pandas和Path库进行数据抓取与处理 | 将指定区域内容保存为HTML和Excel格式

大类|电阻器_使用Requests、Etree、BeautifulSoup、Pandas和Path库进行数据抓取与处理 | 将指定区域内容保存为HTML和Excel格式 ... [详细]

蜡笔小新 2024-11-11 19:05:59
string
客户端与服务器之间的交互过程解析

本文详细解析了客户端与服务器之间的交互过程，重点介绍了Socket通信机制。IP地址由32位的4个8位二进制数组成，分为网络地址和主机地址两部分。通过使用 `ipconfig /all` 命令，用户可以查看详细的IP配置信息。此外，文章还介绍了如何使用 `ping` 命令测试网络连通性，例如 `ping 127.0.0.1` 可以检测本机网络是否正常。这些技术细节对于理解网络通信的基本原理具有重要意义。 ... [详细]

蜡笔小新 2024-11-11 15:09:25
string
在List和Set集合中存储Object类型的数据元素

在List和Set集合中存储Object类型的数据元素 ... [详细]

蜡笔小新 2024-11-09 18:55:32
uri
Python 程序转换为 EXE 文件：详细解析 .py 脚本打包成独立可执行文件的方法与技巧

在开发了几个简单的爬虫 Python 程序后，我决定将其封装成独立的可执行文件以便于分发和使用。为了实现这一目标，首先需要解决的是如何将 Python 脚本转换为 EXE 文件。在这个过程中，我选择了 Qt 作为 GUI 框架，因为之前对此并不熟悉，希望通过这个项目进一步学习和掌握 Qt 的基本用法。本文将详细介绍从 .py 脚本到 EXE 文件的整个过程，包括所需工具、具体步骤以及常见问题的解决方案。 ... [详细]

蜡笔小新 2024-11-09 14:59:47
uri
图像分类训练方案优化设计

针对图像分类任务的训练方案进行了优化设计。通过引入PyTorch等深度学习框架，利用其丰富的工具包和模块，如 `torch.nn` 和 `torch.nn.functional`，提升了模型的训练效率和分类准确性。优化方案包括数据预处理、模型架构选择和损失函数的设计等方面，旨在提高图像分类任务的整体性能。 ... [详细]

蜡笔小新 2024-11-07 16:45:46
string
Python 数据库操作指南：MySQL 与 Redis 实战技巧

本文详细介绍了使用 Python 进行 MySQL 和 Redis 数据库操作的实战技巧。首先，针对 MySQL 数据库，通过 `pymysql` 模块展示了如何连接和操作数据库，包括建立连接、执行查询和更新等常见操作。接着，文章深入探讨了 Redis 的基本命令和高级功能，如键值存储、列表操作和事务处理。此外，还提供了多个实际案例，帮助读者更好地理解和应用这些技术。 ... [详细]

蜡笔小新 2024-11-07 12:55:01
uri
SQL Server 连接故障总结与解决方案分析

在使用 SQL Server 时，连接故障是用户最常见的问题之一。通常，连接 SQL Server 的方法有两种：一种是通过 SQL Server 自带的客户端工具，例如 SQL Server Management Studio；另一种是通过第三方应用程序或开发工具进行连接。本文将详细分析导致连接故障的常见原因，并提供相应的解决策略，帮助用户有效排除连接问题。 ... [详细]

蜡笔小新 2024-11-07 08:30:13
format
【图像分类实战】利用DenseNet在PyTorch中实现秃头识别

本文详细介绍了如何使用DenseNet模型在PyTorch框架下实现秃头识别。首先，文章概述了项目所需的库和全局参数设置。接着，对图像进行预处理并读取数据集。随后，构建并配置DenseNet模型，设置训练和验证流程。最后，通过测试阶段验证模型性能，并提供了完整的代码实现。本文不仅涵盖了技术细节，还提供了实用的操作指南，适合初学者和有经验的研究人员参考。 ... [详细]

蜡笔小新 2024-11-06 15:21:35
string
Netty框架中运用Protobuf实现高效通信协议

在Netty框架中，通过引入Protobuf来实现高效的通信协议。为了使用Protobuf，需要先准备好环境，包括下载并安装Protobuf的代码生成器`protoc`以及相应的源码包。具体资源可从官方下载页面获取，确保版本兼容性以充分发挥其性能优势。此外，配置好开发环境后，可以通过定义`.proto`文件来自动生成Java类，从而简化数据序列化和反序列化的操作，提高通信效率。 ... [详细]

蜡笔小新 2024-11-05 17:06:20

智勇双全882602900857_984

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章