当前位置: 开发笔记 > 运维 > 正文

在大型PySpark数据框的每一行中应用函数？

作者：刘少静mm_527 | 来源：互联网 | 2023-01-21 14:24

如何解决《在大型PySpark数据框的每一行中应用函数？》经验，如何解决这个问题？

我有一个大的数据框（约3000万行）。我有一个功能f。要做的事情f是遍历每一行，检查一些逻辑并将输出馈送到字典中。该功能需要逐行执行。

我试过了：

dic = dict() for row in df.rdd.collect(): f(row, dic)

但是我总是遇到错误OOM。我将Docker的内存设置为8GB。

如何有效开展业务？

非常感谢

spark
docker

推荐阅读

docker
Docker 自定义网络配置详解

本文详细介绍如何在 Docker 中自定义网络设置，包括网关和子网地址的配置。通过具体示例展示如何创建和管理自定义网络，以及容器间的通信方式。 ... [详细]

蜡笔小新 2024-12-16 20:26:24
service
Kubernetes 集群中 ETCD 数据库的部署指南

本文档详细介绍了在 Kubernetes 集群中部署 ETCD 数据库的过程，包括实验环境的准备、ETCD 证书的生成及配置、以及集群的启动与健康检查等关键步骤。 ... [详细]

蜡笔小新 2024-12-16 09:14:15
docker
Docker学习之部署GitLab

前言Git是目前最流行的版本控制系统，在它的基础之上，GitHub和GitLab成为当前最流行的代码托管平台，它们均提供的代码评审、项目管理、持续集成等功能，越来越多的互联网企业都 ... [详细]

蜡笔小新 2024-12-15 16:48:46
docker
Kubernetes与Docker cgroup驱动不匹配问题及解决方案

当Kubernetes (k8s) 的cgroup驱动设置为systemd，而Docker使用的是cgroupfs时，这种不一致性可能导致kubectl命令执行失败。本文将详细介绍如何检查和调整Docker的cgroup驱动以确保与Kubernetes兼容。 ... [详细]

蜡笔小新 2024-12-15 12:16:37
docker
CentOS环境下Docker服务启动失败及命令无响应问题的解决方案

本文探讨了在CentOS操作系统中遇到的Docker服务启动失败以及Docker命令无响应的问题，并提供了一套详细的排查与解决步骤。 ... [详细]

蜡笔小新 2024-12-15 01:27:21
docker
GitLab Runner 安装与配置指南

本文详细介绍了如何在Linux系统中安装和配置GitLab Runner，包括添加YUM源、安装GitLab Runner以及注册Runner的具体步骤。 ... [详细]

蜡笔小新 2024-12-14 20:11:58
docker
深入理解Docker网络机制

本文将详细介绍Docker的网络架构，包括Docker自带的几种网络模式及其创建方法，探讨容器间及容器与外部世界的通信方式。此外，还将简要介绍单主机环境下的容器网络配置。 ... [详细]

蜡笔小新 2024-12-14 19:44:37
docker
解决Windows Docker运行时未添加-d参数导致的交互模式退出问题

当在Windows环境下使用Docker运行容器时，如果忘记了添加-d参数，容器将以交互模式启动。本文将指导您如何安全地退出这种模式而不终止Docker容器。 ... [详细]

蜡笔小新 2024-12-14 12:58:17
service
Windows环境下部署Kubernetes Dashboard指南

本指南详细介绍了如何在Windows系统中部署Kubernetes Dashboard，包括下载最新配置文件、修改服务类型以支持NodePort访问、下载所需镜像并启动Dashboard服务等步骤。 ... [详细]

蜡笔小新 2024-12-13 18:18:00
service
Docker入门与实践指南

本文介绍了Docker的基础知识，包括其作为开源应用容器引擎的特点，以及如何利用Docker将应用程序及其依赖项打包成轻量级的容器镜像。同时，还详细讲解了Docker的核心概念、安装过程及基本命令操作。 ... [详细]

蜡笔小新 2024-12-13 13:58:05
service
亚马逊Go：无人零售的创新与挑战

本文探讨了亚马逊Go如何通过技术创新推动零售业的发展，以及面临的市场和隐私挑战。同时，介绍了亚马逊最新的‘刷手支付’技术及其潜在影响。 ... [详细]

蜡笔小新 2024-12-13 11:39:37
docker
如何从GRUB命令行启动Linux系统

GNU GRUB（简称GRUB）是一个来自GNU项目的支持多启动的引导加载程序。它允许用户在同一台计算机上安装多个操作系统，并在启动时选择希望启动的系统。 ... [详细]

蜡笔小新 2024-12-12 18:22:37
docker
如何在Docker容器中持久化MySQL数据

作为一名Docker初学者，我已经成功创建了一个基于Alpine Linux 3.4的Docker镜像，该镜像安装了MySQL、Apache和PHP及其相关扩展。本文将探讨如何确保MySQL数据在Docker容器重启后仍能被保留。 ... [详细]

蜡笔小新 2024-12-12 17:40:54
ubuntu
在Ubuntu 16.04中使用Anaconda安装TensorFlow

本文详细介绍了如何在Ubuntu 16.04系统上通过Anaconda环境管理工具安装TensorFlow。首先，需要下载并安装Anaconda，然后配置环境变量以确保系统能够识别Anaconda命令。接着，创建一个特定的Python环境用于安装TensorFlow，并通过指定的镜像源加速安装过程。最后，通过一个简单的线性回归示例验证TensorFlow的安装是否成功。 ... [详细]

蜡笔小新 2024-12-11 19:07:39
docker
Docker 初学者指南：从入门到精通

本文详细记录了 Docker 的初学体验，从基础安装到运行第一个容器，帮助新手快速掌握 Docker 的核心概念和操作。 ... [详细]

蜡笔小新 2024-12-11 19:05:45

刘少静mm_527

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章