如何在data.table中执行更快的列表列操作

作者：手机用户2502857587 | 来源：互联网 | 2022-10-18 15:42

如何解决《如何在data.table中执行更快的列表列操作》经验，为你挑选了1个好方法。

由于内存（和速度）问题，我希望在data.table内进行一些计算，而不是在data.table外进行。

以下代码有100.000行，但我正在处理4000万行。

library(tictoc)
library(data.table) # version 1.11.8
library(purrr)
library(furrr)
plan(multiprocess)

veryfing_function <- function(vec1, vec2){
  vector <- as.vector(outer(vec1, vec2, paste0))
  split(vector, ceiling(seq_along(vector)/length(vec1)))
}


dt <- data.table(letters = replicate(1e6, sample(letters[1:5], 3, TRUE), simplify = FALSE),
                 numbers = replicate(1e6, sample(letters[6:10], 3, TRUE), simplify = FALSE))



tic()
result1 <- future_map2(dt$letters, dt$numbers, veryfing_function)
toc()


tic()
result2 <- mapply(veryfing_function, dt$letters, dt$numbers, SIMPLIFY = FALSE)
toc()



tic()
dt[, result := future_map2(letters, numbers, veryfing_function)]
toc()


tic()
dt[, result2 := mapply(veryfing_function, letters, numbers, SIMPLIFY = FALSE)]
toc()



所有变体的输出都是相同的，并且符合预期。基准是：

26秒72秒38秒105秒，所以我看不到使用data.table内的函数或使用mapply的优势。 

我主要关心的是内存，future_map2解决方案无法解决该问题。 

我现在正在使用Windows，所以我希望找到除mclapply以外的其他速度解决方案，可能是一些data.table技巧，我没有看到（列表不支持键）


1> Cole..：
这确实是有关内存和数据存储类型的问题。我所有的讨论将针对100,000个数据元素，以便不会陷入困境。

让我们检查一个长度为100,000的向量与包含100,000个独立元素的列表的比较。

object.size(rep(1L, 1E5))
#400048 bytes
object.size(replicate(1E5, 1, simplify = F))
#6400048 bytes


通过将数据存储在不同的位置，我们从0.4 MB增长到6.4 MB！将其应用到函数Map(veryfing_function, ...)和仅1E5元素时：

dt <- data.table(letters = replicate(1e5, sample(letters[1:5], 3, TRUE), simplify = FALSE),
                 numbers = replicate(1e5, sample(letters[6:10], 3, TRUE), simplify = FALSE))

tic()
result2 <- Map(veryfing_function, dt[['letters']], dt[['numbers']])
toc()
# 11.93 sec elapsed
object.size(result2)
# 109,769,872 bytes
#example return:
[[1000]]
[[1000]]$`1`
[1] "cg" "bg" "cg"

[[1000]]$`2`
[1] "ch" "bh" "ch"

[[1000]]$`3`
[1] "ch" "bh" "ch"


我们可以对您的函数做一个简单的修改，以返回未命名列表而不是拆分，并且由于split()显示命名列表而节省了一点内存，我认为我们不需要这个名称：

verifying_function2 <- function(vec1, vec2) {
  vector <- outer(vec1, vec2, paste0) #not as.vector
  lapply(seq_len(ncol(vector)), function(i) vector[, i]) #no need to split, just return a list
}

tic()
result2_mod <- Map(verifying_function2, dt[['letters']], dt[['numbers']])
toc()
# 2.86 sec elapsed
object.size(result2_mod)
# 73,769,872 bytes

#example_output
[[1000]]
[[1000]][[1]]
[1] "cg" "bg" "cg"

[[1000]][[2]]
[1] "ch" "bh" "ch"

[[1000]][[3]]
[1] "ch" "bh" "ch"


下一步是为什么要完全返回列表列表。我lapply()在修改后的函数中使用的只是获得您的输出。松开该lapply()列表会代替矩阵列表，我认为这样会有所帮助：

tic()
result2_mod2 <- Map(function(x,y) outer(x, y, paste0), dt[['letters']], dt[['numbers']])
toc()
# 1.66 sec elapsed
object.size(result2_mod2)
# 68,570,336 bytes

#example output:
[[1000]]
     [,1] [,2] [,3]
[1,] "cg" "ch" "ch"
[2,] "bg" "bh" "bh"
[3,] "cg" "ch" "ch"


逻辑上的最后一步是只返回一个矩阵。请注意，在整个过程中，我们一直在与mapply(..., simplify = F)等同于的简化进行斗争Map()。

tic()
result2_mod3 <- mapply(function(x,y) outer(x, y, paste0), dt[['letters']], dt[['numbers']])
toc()
# 1.3 sec elapsed
object.size(result2_mod3)
# 7,201,616 bytes


如果需要某种尺寸，可以将大矩阵转换为3D数组：

tic()
result2_mod3_arr <- array(as.vector(result2_mod3), dim = c(3,3,1E5))
toc()
# 0.02 sec elapsed
result2_mod3_arr[,,1000]
     [,1] [,2] [,3]
[1,] "cg" "ch" "ch"
[2,] "bg" "bh" "bh"
[3,] "cg" "ch" "ch"
object.size(result2_mod3_arr)
# 7,201,624 bytes


我还查看了@marbel的答案-速度更快，并且仅占用略多的内存。通过将初始dt列表尽快转换为其他内容，我的方法可能会受益。

tic()
dt1 = as.data.table(do.call(rbind, dt[['letters']]))
dt2 = as.data.table(do.call(rbind, dt[['numbers']]))

res = data.table()

combs = expand.grid(names(dt1), names(dt2), stringsAsFactors=FALSE)

set(res, j=paste0(combs[,1], combs[,2]), value=paste0( dt1[, get(combs[,1])], dt2[, get(combs[,2])] ) )
toc()
# 0.14 sec elapsed
object.size(res)
# 7,215,384 bytes


tl; dr-将您的对象转换为矩阵或data.frame，以使其更易于存储。同样有意义的是data.table，您的函数版本需要更长的时间-可能比直接应用需要更多的开销mapply()。




    
        
                        windows
                    
    



    
        写下你的评论吧 !
        
            
                吐个槽吧,看都看了
            
            
                
                                        会员登录 | 用户注册
                                    
                
            
        

        
    

    
        推荐阅读
        
            
                                
                    
                        windows
                        深入探讨DB2数据库性能优化策略
                    

                    
                                                
                        本文详细介绍了IBM DB2数据库在大型应用系统中的应用，强调其卓越的可扩展性和多环境支持能力。文章深入分析了DB2在数据利用性、完整性、安全性和恢复性方面的优势，并提供了优化建议以提升其在不同规模应用程序中的表现。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2024-12-28 13:22:19
                    

                

                
                                
                    
                        windows
                        QUIC协议：快速UDP互联网连接
                    

                    
                                                
                            
                        
                                                
                        QUIC（Quick UDP Internet Connections）是谷歌开发的一种旨在提高网络性能和安全性的传输层协议。它基于UDP，并结合了TLS级别的安全性，提供了更高效、更可靠的互联网通信方式。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2024-12-28 12:33:18
                    

                

                                
                    
                    
                
                
                                
                    
                        windows
                        深入理解 Oracle 存储函数：计算员工年收入
                    

                    
                                                
                            
                        
                                                
                        本文介绍如何使用 Oracle 存储函数查询特定员工的年收入。我们将详细解释存储函数的创建过程，并提供完整的代码示例。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2024-12-28 09:49:42
                    

                

                
                                
                    
                        ide
                        编写有趣的VBScript恶作剧脚本
                    

                    
                                                
                        本文将介绍如何编写一些有趣的VBScript脚本，这些脚本可以在朋友之间进行无害的恶作剧。通过简单的代码示例，帮助您了解VBScript的基本语法和功能。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2024-12-28 09:46:23
                    

                

                
                                
                    
                        ide
                        PyCharm下载与安装指南
                    

                    
                                                
                            
                        
                                                
                        本文详细介绍如何从官方渠道下载并安装PyCharm集成开发环境（IDE），涵盖Windows、macOS和Linux系统，同时提供详细的安装步骤及配置建议。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2024-12-28 09:42:41
                    

                

                
                                
                    
                        visual
                        Windows 10 系统中禁用 F1 至 F12 功能键的方法
                    

                    
                                                
                        在 Windows 10 中，F1 至 F12 键默认设置为快捷功能键。本文将介绍几种有效方法来禁用这些快捷键，并恢复其标准功能键的作用。请注意，部分笔记本电脑的快捷键可能无法完全关闭。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2024-12-28 09:13:44
                    

                

                
                                
                    
                        windows
                        2018回顾与2019展望
                    

                    
                                                
                        本文总结了2018年的关键成就，包括职业变动、购车、考取驾照等重要事件，并分享了读书、工作、家庭和朋友方面的感悟。同时，展望2019年，制定了健康、软实力提升和技术学习的具体目标。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2024-12-28 09:10:26
                    

                

                
                                
                    
                        编辑器
                        Python配置文件读写指南
                    

                    
                                                
                        本文详细介绍如何使用Python进行配置文件的读写操作，涵盖常见的配置文件格式（如INI、JSON、TOML和YAML），并提供具体的代码示例。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2024-12-28 08:39:55
                    

                

                
                                
                    
                        windows
                        四载相伴，与51CTO学院共成长
                    

                    
                                                
                        在计算机技术的学习道路上，51CTO学院以其专业性和专注度给我留下了深刻印象。从2012年接触计算机到2014年开始系统学习网络技术和安全领域，51CTO学院始终是我信赖的学习平台。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2024-12-28 08:20:07
                    

                

                
                                
                    
                        windows
                        CSS 布局：液态三栏混合宽度布局
                    

                    
                                                
                            
                        
                                                
                        本文介绍了如何使用 CSS 实现液态的三栏布局，其中各栏具有不同的宽度设置。通过调整容器和内容区域的属性，可以实现灵活且响应式的网页设计。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2024-12-28 02:40:28
                    

                

                
                                
                    
                        windows
                        Linux 系统启动故障排除指南：MBR 和 GRUB 问题
                    

                    
                                                
                            
                        
                                                
                        本文详细介绍了 Linux 系统启动过程中常见的 MBR 扇区和 GRUB 引导程序故障及其解决方案，涵盖从备份、模拟故障到恢复的具体步骤。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2024-12-27 20:40:29
                    

                

                
                                
                    
                        windows
                        通过类型和标签选择元素
                    

                    
                                                
                        本文介绍了如何使用jQuery根据元素的类型（如复选框）和标签名（如段落）来获取DOM对象。这有助于更高效地操作网页中的特定元素。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2024-12-27 19:44:14
                    

                

                
                                
                    
                        windows
                        新浪笔试题
                    

                    
                                                
                        1:有如下一段程序：packagea.b.c;publicclassTest{privatestaticinti0;publicintgetNext(){return ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2024-12-27 19:32:17
                    

                

                
                                
                    
                        windows
                        深入理解Cookie与Session会话管理
                    

                    
                                                
                            
                        
                                                
                        本文详细介绍了如何通过HTTP响应和请求处理浏览器的Cookie信息，以及如何创建、设置和管理Cookie。同时探讨了会话跟踪技术中的Session机制，解释其原理及应用场景。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2024-12-27 18:20:43
                    

                

                
                                
                    
                        windows
                        Xcode 中多行代码缩进技巧
                    

                    
                                                
                        本文介绍如何在 Xcode 中使用快捷键和菜单命令对多行代码进行缩进，包括右缩进和左缩进的具体操作方法。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2024-12-27 17:52:34

















    

    
        
            
            
                
                
            

            
                手机用户2502857587            

            
                这个家伙很懒，什么也没留下！            


        
    

    
    

    
    

    
        Tags | 热门标签
        
            
                                
                    alias
                
                                
                    diff
                
                                
                    vim
                
                                
                    visual-studio
                
                                
                    sublime-text
                
                                
                    emacs
                
                                
                    windows
                
                                
                    github
                
                                
                    intellij-idea
                
                                
                    sublimetext
                
                                
                    macos
                
                                
                    terminal
                
                                
                    markdown
                
                                
                    clone
                
                                
                    protocols
                
                                
                    pycharm
                
                                
                    notepad++
                
                                
                    git
                
                                
                    webstorm
                
                                
                    编辑器
                
                                
                    visual
                
                                
                    eclipse
                
                                
                    visual-studio-code
                
                                
                    ide
                
                                
                    svn
                
                                
                    phpstorm
                
                                
            
        
    

    
    
        
            
            
        
        RankList | 热门文章
        
            
                                
                    12017机器人创想秀等你来战！它都有哪些亮点？
                
                                
                    2华为云_华为徐直军：华为云成为智能世界五朵云之一，2021年大力支持伙伴持续创新
                
                                
                    3关于暂停网上服务系统的通知
                
                                
                    4vue路由跳转传递参数方式
                
                                
                    5麻将与区块链
                
                                
                    6手机在线查看html图片文件夹,在线预览，安全又便捷地查看云端文件
                
                                
                    7mysql备份基础知识
                
                                
                    8MySQL数据库_MySQL数据库的my.ini文件
                
                                
                    9杨柳科杨柳目杨属杨树白毛杨杨絮：杨絮（杨树的种子）
                
                                
                    10TENSORFLOW_tensorflow资料.20200116
                
                                
                    11html线条属性代码,html 关于线的代码~
                
                                
                    12企业开发中选择logback而不是log4j的理由
                
                                
                    13测试版和正式版微信小程序共享存储空间问题
                
                                
                    14抖音怎么上传照片图集，抖音发照片集方法
                
                                
                    15联机事务处理与决策支持