etl调度工具ctm_为什么选择R而不是Python做ETL

作者：修竹 | 来源：互联网 | 2023-08-25 17:41

导读：1.打破R慢的印象，ETL效率显著优于Python，堪比spark，clickhouse2.对比python中的dat

导读&＃xff1a;

1. 打破R慢的印象&＃xff0c;ETL效率显著优于Python&＃xff0c;堪比spark&＃xff0c;clickhouse
2. 对比python中的datatable、pandas、dask、cuDF、modin&＃xff0c;R中data.table以及spark、clickhouse
3. 探讨R中的ETL体系

ETL在数据工作中起着至关重要的作用&＃xff0c;主要用途有两个&＃xff1a;&＃xff08;1&＃xff09;数据生产&＃xff08;2&＃xff09;为探索性数据分析与数据建模服务。

做过建模的小伙伴都知道&＃xff0c;70%甚至80%的工作都是在做数据清洗&＃xff1b;又如&＃xff0c;探索性数据分析中会涉及到各种转置、分类汇总、长宽表转换、连接等。因此&＃xff0c;ETL效率在整个项目中起着举足轻重的作用。

而日常数据生产中&＃xff0c;有时会牵扯到模型计算&＃xff0c;一般以R、python为主&＃xff0c;且1~100G左右的数据是常态。基于此&＃xff0c;于是想对比下R、Python中ETL的效率。

目前已有研究

H2O团队一直在运行这个测试项目&＃xff0c; 其中&＃xff1a;

Python用到了:(py)datatable, pandas, dask, cuDF&＃xff08;moding.pandas在下文作者亲自测试了下&＃xff09;;
R: data.table, dplyr;
julia: DataFrames.jl;
clickhouse;
spark

测试内容有groupby、join、sort等。测试数据长这样&＃xff1a;

废话不多说&＃xff0c;先看部分结果的截图吧。

5G数据

50G数据

详细报告见&＃xff1a;https://url.cn/5qTWlNQ

上图截取的是复杂的groupby问题中对于5G与50G数据各ETL工具的用时情况&＃xff0c;项目运行服务器的内存为128G&＃xff0c;核数40。可以看到&＃xff0c;无论是5G还是50G的数据&＃xff0c;data.table的性能都在python之上,堪比spark、clickhouse。

modin.pandas vs data.table

modin.pandas与data.table测试结果如下&＃xff0c;所用数据5G&＃xff0c;数据格式如上。服务器为32G、8核&＃xff0c;拉取Python3.6、R3.6.2两个docker分别测试。

1.读取

data.table用时89秒&＃xff0c;内存峰值消耗7G
modin.pandas用时58秒&＃xff0c;内存峰值消耗25G

本测试所用的是modin[ray]&＃xff0c;似乎modin.pandas一直有内存管理的问题&＃xff0c;参考&＃xff1a;

1.1 Fundamental memory leak in Modin&＃xff1a;https://url.cn/5HlosKF
1.2 modin read big csv failed&＃xff1a;https://url.cn/5cOdpVJ

2.分类汇总

测试内容&＃xff1a;对于id3, id4两列分类汇总求v3的中位数与标准差

data.table用时10.5秒

data[, .(median_v3 &＃61; median(v3), sd_v3 &＃61; sd(v3)), by &＃61; .(id4, id5)]

modin用时174秒&＃xff0c;由于modin暂不支持多列的groupby&＃xff0c;实际上还是用的pandas的groupby

x.groupby([‘id4’,‘id5’]).agg({‘v3’: [‘median’,‘std’]})
UserWarning: DataFrame.groupby_on_multiple_columns defaulting to pandas implementation.

3.长宽表变换

测试内容&＃xff1a;id1, id4不动&＃xff0c;对id5横向展开&＃xff0c;值为对v3求均值

data.table用时3.3秒

dcast.data.table(ans, id1 &＃43; id4 ~ id5, value.var &＃61; “v3”, fun.aggregate &＃61; mean)

R ETL开发框架

开发环境为docker版的Rstudio-server&＃xff0c;rstudio本身为最好用的IDE之一&＃xff0c;开发效率高&＃xff0c;debug方便。

并且&＃xff0c;rstudio-server为线上版本的rstudio&＃xff0c;后台就是linux环境&＃xff0c;前端为rstudio的ui&＃xff0c;因此无需为开发环境与生产环境不一致而苦恼&＃xff0c;更不会因为某些包只能linux使用而无法在windows使用而苦恼。

目前本人工作中负责一个项目的数据生产&＃xff0c;大致流程如下。首先&＃xff0c;用presto从hive中读取数据&＃xff0c;从ADB读取数据&＃xff0c;数据量在5G左右。中间涉及到PCA以及其他计算&＃xff0c;最后入库mysql&＃xff0c;该任务每天跑一次。

一个可行的实施方案为Rpresto、RMysql提供I/O支持&＃xff0c;data.table提供主体ETL&＃xff0c;crontab提供调度服务。

下图是个简易版R的ETL框架&＃xff0c;可处理G以下数据&＃xff0c;

##################################################

2020年1月14号更新&＃xff1a;关于应用场景&＃xff0c;再次说明下&＃xff0c;

G级别数据或以下&＃xff0c;频率低&＃xff08;如们每天跑一次&＃xff09;&＃xff0c;涉及到模型计算

调度请用crontab&＃xff0c;airflow&＃xff1b;
涉及到消息队列请用kafka&＃xff1b;
实时性高但数据量又大请用flink流计算&＃xff1b;
大量消息队列&＃xff0c;且每个都实时性要求高&＃xff0c;且数据量大&＃xff0c;请用kafka&＃43;flink&＃xff0c;如实时推荐系统。

标*的部分为还没有测试过。

##################################################

对R和数据科学感兴趣的小伙伴&＃xff0c;欢迎关注公众号&＃xff1a;R语言工程化

推荐阅读

ip
Mac上运行Windows应用程序：Parallels Desktop Mac版全面解析

Parallels Desktop for Mac 是一款功能强大的虚拟化软件，能够在不重启的情况下实现在同一台电脑上无缝切换和使用 Windows 和 macOS 系统中的各种应用程序。该软件不仅提供了高效稳定的性能，还支持多种高级功能，如拖放文件、共享剪贴板等，极大地提升了用户的生产力和使用体验。 ... [详细]

蜡笔小新 2024-11-09 13:40:12
select
Docker 环境下 MySQL 双主同步配置指南

本文介绍了如何在 Docker 环境中配置 MySQL 的双主同步，包括目录结构的创建、配置文件的编写、容器的创建与设置以及最终的验证步骤。 ... [详细]

蜡笔小新 2024-11-14 17:21:23
java
Java 15 发布，带来多项重要更新！

2020年9月15日，Oracle正式发布了最新的JDK 15版本。本次更新带来了许多新特性，包括隐藏类、EdDSA签名算法、模式匹配、记录类、封闭类和文本块等。 ... [详细]

蜡笔小新 2024-11-14 12:11:09
select
包含phppdoerrorcode的词条

包含phppdoerrorcode的词条 ... [详细]

蜡笔小新 2024-11-14 12:06:14
byte
Linux常用命令解析：ipcs与ipcrm

本文详细介绍了Linux系统中用于管理IPC（Inter-Process Communication）资源的两个重要命令：ipcs和ipcrm。通过这些命令，用户可以查看和删除系统中的消息队列、共享内存和信号量。 ... [详细]

蜡笔小新 2024-11-14 11:42:14
java
Linux 环境下 Java 及相关软件的安装指南

本文详细介绍了如何在 Linux 系统上安装 JDK 1.8、MySQL 和 Redis，并提供了相应的环境配置和验证步骤。 ... [详细]

蜡笔小新 2024-11-13 18:10:16
version
CentOS 6.4 安装 QT5 时无法找到 GLIBCXX_3.4.15 的解决方案

在 CentOS 6.4 上安装 QT5 并启动 Qt Creator 时，可能会遇到缺少 GLIBCXX_3.4.15 的问题。这是由于系统中的 libstdc++.so.6 版本过低。本文将详细介绍如何通过更新 GCC 版本来解决这一问题。 ... [详细]

蜡笔小新 2024-11-13 16:52:41
select
MDT2010实验部署手册（一）

MicrosoftDeploymentToolkit2010部署培训实验手册V1.0目录实验环境说明3实验环境虚拟机使用信息3注意：4实验手册正文说 ... [详细]

蜡笔小新 2024-11-12 20:02:27
install
Docker 中创建 CentOS 容器并安装 MySQL 进行本地连接

本文详细介绍了如何在 Docker 中创建 CentOS 容器，并在容器中安装 MySQL 以实现本地连接。文章内容包括镜像拉取、容器创建、MySQL 安装与配置等步骤。 ... [详细]

蜡笔小新 2024-11-12 10:27:52
instance
Keepalived VIP 漂移故障分析与解决

在分析和解决 Keepalived VIP 漂移故障的过程中，我们发现主备节点配置如下：主节点 IP 为 172.16.30.31，备份节点 IP 为 172.16.30.32，虚拟 IP 为 172.16.30.10。故障表现为监控系统显示 Keepalived 主节点状态异常，导致 VIP 漂移到备份节点。通过详细检查配置文件和日志，我们发现主节点上的 Keepalived 进程未能正常运行，最终通过优化配置和重启服务解决了该问题。此外，我们还增加了健康检查机制，以提高系统的稳定性和可靠性。 ... [详细]

蜡笔小新 2024-11-11 09:31:14
client
PHP 5.5.31 和 PHP 5.6.17 安全更新发布

PHP 5.5.31 和 PHP 5.6.17 已正式发布，主要包含多个安全修复。强烈建议所有用户尽快升级至最新版本以确保系统安全。 ... [详细]

蜡笔小新 2024-11-14 17:40:40
java
为什么多数程序员难以成为架构师？

探讨80%的程序员为何难以晋升为架构师，涉及技术深度、经验积累和综合能力等方面。本文将详细解析Tomcat的配置和服务组件，帮助读者理解其内部机制。 ... [详细]

蜡笔小新 2024-11-14 03:39:46
text
网站访问全流程解析

本文详细介绍了从用户在浏览器中输入一个域名（如www.yy.com）到页面完全展示的整个过程，包括DNS解析、TCP连接、请求响应等多个步骤。 ... [详细]

蜡笔小新 2024-11-12 18:13:16
sum
深入解析 Lifecycle 的实现原理

本文将详细介绍 Android Jetpack 中 Lifecycle 组件的实现原理，帮助开发者更好地理解和使用 Lifecycle，避免常见的内存泄漏问题。 ... [详细]

蜡笔小新 2024-11-12 14:05:19
select
SQL Server 存储过程开发与优化指南

本文总结了在SQL Server数据库中编写和优化存储过程的经验和技巧，旨在帮助数据库开发人员提升存储过程的性能和可维护性。 ... [详细]

蜡笔小新 2024-11-12 13:13:21

修竹

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章