当前位置: 开发笔记 > 编程语言 > 正文

javasparkdataset_由：org.apache.spark.sql.Dataset上的java.lang

作者：xiaohigh | 来源：互联网 | 2023-08-31 07:41

下面我提供我的代码。我遍历DataFrame，prodRows并为每个product_PK找到了匹配的product_PKs子列表prodRows。numRecPro

下面我提供我的代码。我遍历DataFrame&＃xff0c;prodRows并为每个product_PK找到了匹配的product_PKs子列表prodRows。

numRecProducts &＃61; 10

var listOfProducts: Map[Long,Array[(Long, Int)]] &＃61; Map()

prodRows.foreach{ row : Row &＃61;>

val product_PK &＃61; row.get(row.fieldIndex("product_PK")).toString.toLong

val gender &＃61; row.get(row.fieldIndex("gender_PK")).toString

val selection &＃61; prodRows.filter($"gender_PK" &＃61;&＃61;&＃61; gender || $"gender_PK" &＃61;&＃61;&＃61; "UNISEX").limit(numRecProducts).select($"product_PK")

var productList: Array[(Long, Int)] &＃61; Array()

if (!selection.rdd.isEmpty()) {

productList &＃61; selection.rdd.map(x &＃61;> (x(0).toString.toLong,1)).collect()

}

listOfProducts &＃61; listOfProducts &＃43; (product_PK -> productList)

}

但是当我执行它时&＃xff0c;它给了我以下错误。selection在某些迭代中看起来像是空的。但是&＃xff0c;我不明白如何处理此错误&＃xff1a;

Driver stacktrace:

at org.apache.spark.scheduler.DAGScheduler.org$apache$spark$scheduler$DAGScheduler$$failJobAndIndependentStages(DAGScheduler.scala:1690)

at org.apache.spark.scheduler.DAGScheduler$$anonfun$abortStage$1.apply(DAGScheduler.scala:1678)

at org.apache.spark.scheduler.DAGScheduler$$anonfun$abortStage$1.apply(DAGScheduler.scala:1677)

at scala.collection.mutable.ResizableArray$class.foreach(ResizableArray.scala:59)

at scala.collection.mutable.ArrayBuffer.foreach(ArrayBuffer.scala:48)

at org.apache.spark.scheduler.DAGScheduler.abortStage(DAGScheduler.scala:1677)

at org.apache.spark.scheduler.DAGScheduler$$anonfun$handleTaskSetFailed$1.apply(DAGScheduler.scala:855)

at scala.Option.foreach(Option.scala:257)

at org.apache.spark.scheduler.DAGScheduler.handleTaskSetFailed(DAGScheduler.scala:855)

at org.apache.spark.scheduler.DAGSchedulerEventProcessLoop.doOnReceive(DAGScheduler.scala:1905)

这是什么意思&＃xff0c;我该如何处理&＃xff1f;

推荐阅读

require
如何使用 `org.eclipse.rdf4j.query.impl.MapBindingSet.getValue()` 方法及其代码示例详解

如何使用 `org.eclipse.rdf4j.query.impl.MapBindingSet.getValue()` 方法及其代码示例详解 ... [详细]

蜡笔小新 2024-11-11 02:42:52
client
使用JDBC实现ActiveMQ消息持久化机制深入解析

本文深入解析了通过JDBC实现ActiveMQ消息持久化的机制。JDBC能够将消息可靠地存储在多种关系型数据库中，如MySQL、SQL Server、Oracle和DB2等。采用JDBC持久化方式时，数据库会自动生成三个关键表：`activemq_msgs`、`activemq_lock`和`activemq_ACKS`，分别用于存储消息数据、锁定信息和确认状态。这种机制不仅提高了消息的可靠性，还增强了系统的可扩展性和容错能力。 ... [详细]

蜡笔小新 2024-11-10 14:41:02
match
C#编程指南：利用ASP.NET和JavaScript实现带有Fingerprint功能的Web应用登录系统

本指南介绍了如何在ASP.NET Web应用程序中利用C#和JavaScript实现基于指纹识别的登录系统。通过集成指纹识别技术，用户无需输入传统的登录ID即可完成身份验证，从而提升用户体验和安全性。我们将详细探讨如何配置和部署这一功能，确保系统的稳定性和可靠性。 ... [详细]

蜡笔小新 2024-11-09 18:14:37
list
Web开发框架概览：Java与JavaScript技术及框架综述

Web开发涉及服务器端和客户端的协同工作。在服务器端，Java是一种优秀的编程语言，适用于构建各种功能模块，如通过Servlet实现特定服务。客户端则主要依赖HTML进行内容展示，同时借助JavaScript增强交互性和动态效果。此外，现代Web开发还广泛使用各种框架和库，如Spring Boot、React和Vue.js，以提高开发效率和应用性能。 ... [详细]

蜡笔小新 2024-11-09 11:59:38
list
Apache Hadoop HDFS QJournalProtocol 中 getJournalCTime 方法的应用与代码实例分析

Apache Hadoop HDFS QJournalProtocol 中 getJournalCTime 方法的应用与代码实例分析 ... [详细]

蜡笔小新 2024-11-08 11:32:58
数组
JavaScript XML操作实用工具类：XmlUtilsJS技巧与应用

JavaScript XML操作实用工具类：XmlUtilsJS技巧与应用 ... [详细]

蜡笔小新 2024-11-06 15:15:26
数组
您的数据库配置是否安全？DBSAT工具助您一臂之力！

本文探讨了Oracle提供的免费工具DBSAT，该工具能够有效协助用户检测和优化数据库配置的安全性。通过全面的分析和报告，DBSAT帮助用户识别潜在的安全漏洞，并提供针对性的改进建议，确保数据库系统的稳定性和安全性。 ... [详细]

蜡笔小新 2024-11-11 14:44:47
install
使用Shell脚本高效部署MHA高可用集群

本文介绍了如何利用Shell脚本高效地部署MHA（MySQL High Availability）高可用集群。通过详细的脚本编写和配置示例，展示了自动化部署过程中的关键步骤和注意事项。该方法不仅简化了集群的部署流程，还提高了系统的稳定性和可用性。 ... [详细]

蜡笔小新 2024-11-10 10:15:46
jar
Maven进阶指南：高效管理项目外部依赖库

本文深入探讨了如何利用Maven高效管理项目中的外部依赖库。通过介绍Maven的官方依赖搜索地址（），详细讲解了依赖库的添加、版本管理和冲突解决等关键操作。此外，还提供了实用的配置示例和最佳实践，帮助开发者优化项目构建流程，提高开发效率。 ... [详细]

蜡笔小新 2024-11-09 11:17:43
client
Kafka 版本不兼容引发 TaskExecutor 启动故障分析与解决

在本地环境中部署了两个不同版本的 Flink 集群，分别为 1.9.1 和 1.9.2。近期在尝试启动 1.9.1 版本的 Flink 任务时，遇到了 TaskExecutor 启动失败的问题。尽管 TaskManager 日志显示正常，但任务仍无法成功启动。经过详细分析，发现该问题是由 Kafka 版本不兼容引起的。通过调整 Kafka 客户端配置并升级相关依赖，最终成功解决了这一故障。 ... [详细]

蜡笔小新 2024-11-08 14:13:56
client
Java能否直接通过HTTP将字节流绕过HEAP写入SD卡？

Java能否直接通过HTTP将字节流绕过HEAP写入SD卡？ ... [详细]

蜡笔小新 2024-11-08 09:14:47
client
Kafka安装与配置深度解析：程序员必备指南

Kafka 是由 Apache 软件基金会开发的高性能分布式消息系统，支持高吞吐量的发布和订阅功能，主要使用 Scala 和 Java 编写。本文将深入解析 Kafka 的安装与配置过程，为程序员提供详尽的操作指南，涵盖从环境准备到集群搭建的每一个关键步骤。 ... [详细]

蜡笔小新 2024-11-07 12:22:05
require
Kafka 集群的高效部署与优化策略

本文探讨了 Kafka 集群的高效部署与优化策略。首先介绍了 Kafka 的下载与安装步骤，包括从官方网站获取最新版本的压缩包并进行解压。随后详细讨论了集群配置的最佳实践，涵盖节点选择、网络优化和性能调优等方面，旨在提升系统的稳定性和处理能力。此外，还提供了常见的故障排查方法和监控方案，帮助运维人员更好地管理和维护 Kafka 集群。 ... [详细]

蜡笔小新 2024-11-06 20:37:50
list
Java 曾经有过配对类吗？—— 探讨 Java 中 Pair 类的历史与现状

本文探讨了 Java 中 Pair 类的历史与现状。虽然 Java 标准库中没有内置的 Pair 类，但社区和第三方库提供了多种实现方式，如 Apache Commons 的 Pair 类和 JavaFX 的 javafx.util.Pair 类。这些实现为需要处理成对数据的开发者提供了便利。此外，文章还讨论了为何标准库未包含 Pair 类的原因，以及在现代 Java 开发中使用 Pair 类的最佳实践。 ... [详细]

蜡笔小新 2024-11-06 18:56:35
list
如何在Eclipse中批量转换Java源代码文件的编码格式从GBK到UTF-8

在Eclipse中批量转换Java源代码文件的编码格式从GBK到UTF-8是一项常见的需求。通过编写简单的Java代码，可以高效地实现这一任务。该方法不仅适用于Java文件，还可以用于其他类型的文本文件编码转换。具体实现可以通过导入`java.io.File`类来操作文件系统，从而完成批量转换。此外，建议在转换过程中添加异常处理机制，以确保代码的健壮性和可靠性。 ... [详细]

蜡笔小新 2024-11-05 17:44:15

xiaohigh

Tags | 热门标签

RankList | 热门文章