热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

我想对很多数据帧进行相关性分析-Iwanttodocorrelationformanydataframe

ihavealmost13filesandiwanttoconductthreetypesofcorrelationstoit.allthefileshavet

i have almost 13 files and i want to conduct three types of correlations to it. all the files have the same content except the values.

我有大约13个文件,我想对它进行三种类型的关联。除了值之外,所有的文件都有相同的内容。

for example:

例如:

v1 v2 v3 v4 v5 v6 v7 v8 ........... v50

vv3 v4 v5 v7v50

first correclation between v6 and v20 second correlation between v7 and v21 third correlation between v8 and v22

v7和v21之间的第二次相关v8和v22之间的第三次相关

my data have missing values.

我的数据缺少值。

doing it manually for each file will leads to a too long scrip, i want to do a loop function for all the files ( unfortunately im not expert in loop function and i tried so much) I need help please

为每个文件手工操作将导致一个太长的脚本,我想为所有的文件做一个循环函数(不幸的是,我不是循环函数的专家,我尝试了很多)我需要帮助

2 个解决方案

#1


1  

If 'd1', 'd2', ...'d13' are the datasets and the columns are the in the same order, we can place the dataset in a list and get the cor for the specified columns. There are options in ?cor to compute the covariances in the presence of missing values. Here, I used na.or.complete. We can change it according to the need.

如果d1,d2,……“d13”是数据集,列是相同的顺序,我们可以将数据集放在一个列表中,并得到指定列的cor。在?cor中有一些选项可以在存在缺失值的情况下计算协方差。在这里,我使用na.or.complete。我们可以根据需要修改。

lapply(mget(paste0('d', 1:13)), function(x) 
      diag(cor(x[,6:8], x[,20:22], use='na.or.complete'))) 

It may be better to read the files into a list directly than creating individual data.frame objects in the global environment. Assuming that the files are all in the working directory.

直接将文件读入列表可能比在全局环境中创建单独的data.frame对象要好。假设文件都在工作目录中。

files <- list.files(pattern='file\\d+.txt')#change the pattern as needed
lapply(files, function(x) {
                x1 <- read.table(x, header=TRUE)
                diag(cor(x1[,6:8], x1[,20:22], use = 'na.or.complete'))}) 

#2


0  

Here's a brute force version (with data generation included), it'll probably work for your purpose, a little more information about the structure of your data/task could help make this more efficient:

这里有一个蛮力版本(包含数据生成),它可能适合您的目的,更多关于您的数据/任务结构的信息可能有助于提高效率:

N <- 10
k <- 50

d <- data.frame(matrix(runif(N * k), ncol = k))

sapply(20:k, function(col) cor(d[,col - 14], d[,col]))

Edit: Question has been edited, I'm not sure if this is actually what you're after now.

编辑:问题被编辑过了,我不确定这是不是你现在想要的。


推荐阅读
  • VScode格式化文档换行或不换行的设置方法
    本文介绍了在VScode中设置格式化文档换行或不换行的方法,包括使用插件和修改settings.json文件的内容。详细步骤为:找到settings.json文件,将其中的代码替换为指定的代码。 ... [详细]
  • Android Studio Bumblebee | 2021.1.1(大黄蜂版本使用介绍)
    本文介绍了Android Studio Bumblebee | 2021.1.1(大黄蜂版本)的使用方法和相关知识,包括Gradle的介绍、设备管理器的配置、无线调试、新版本问题等内容。同时还提供了更新版本的下载地址和启动页面截图。 ... [详细]
  • C++字符字符串处理及字符集编码方案
    本文介绍了C++中字符字符串处理的问题,并详细解释了字符集编码方案,包括UNICODE、Windows apps采用的UTF-16编码、ASCII、SBCS和DBCS编码方案。同时说明了ANSI C标准和Windows中的字符/字符串数据类型实现。文章还提到了在编译时需要定义UNICODE宏以支持unicode编码,否则将使用windows code page编译。最后,给出了相关的头文件和数据类型定义。 ... [详细]
  • 本文讨论了clone的fork与pthread_create创建线程的不同之处。进程是一个指令执行流及其执行环境,其执行环境是一个系统资源的集合。在调用系统调用fork创建一个进程时,子进程只是完全复制父进程的资源,这样得到的子进程独立于父进程,具有良好的并发性。但是二者之间的通讯需要通过专门的通讯机制,另外通过fork创建子进程系统开销很大。因此,在某些情况下,使用clone或pthread_create创建线程可能更加高效。 ... [详细]
  • 向QTextEdit拖放文件的方法及实现步骤
    本文介绍了在使用QTextEdit时如何实现拖放文件的功能,包括相关的方法和实现步骤。通过重写dragEnterEvent和dropEvent函数,并结合QMimeData和QUrl等类,可以轻松实现向QTextEdit拖放文件的功能。详细的代码实现和说明可以参考本文提供的示例代码。 ... [详细]
  • Linux重启网络命令实例及关机和重启示例教程
    本文介绍了Linux系统中重启网络命令的实例,以及使用不同方式关机和重启系统的示例教程。包括使用图形界面和控制台访问系统的方法,以及使用shutdown命令进行系统关机和重启的句法和用法。 ... [详细]
  • 本文介绍了解决二叉树层序创建问题的方法。通过使用队列结构体和二叉树结构体,实现了入队和出队操作,并提供了判断队列是否为空的函数。详细介绍了解决该问题的步骤和流程。 ... [详细]
  • CF:3D City Model(小思维)问题解析和代码实现
    本文通过解析CF:3D City Model问题,介绍了问题的背景和要求,并给出了相应的代码实现。该问题涉及到在一个矩形的网格上建造城市的情景,每个网格单元可以作为建筑的基础,建筑由多个立方体叠加而成。文章详细讲解了问题的解决思路,并给出了相应的代码实现供读者参考。 ... [详细]
  • 本文介绍了在mac环境下使用nginx配置nodejs代理服务器的步骤,包括安装nginx、创建目录和文件、配置代理的域名和日志记录等。 ... [详细]
  • MyBatis多表查询与动态SQL使用
    本文介绍了MyBatis多表查询与动态SQL的使用方法,包括一对一查询和一对多查询。同时还介绍了动态SQL的使用,包括if标签、trim标签、where标签、set标签和foreach标签的用法。文章还提供了相关的配置信息和示例代码。 ... [详细]
  • r2dbc配置多数据源
    R2dbc配置多数据源问题根据官网配置r2dbc连接mysql多数据源所遇到的问题pom配置可以参考官网,不过我这样配置会报错我并没有这样配置将以下内容添加到pom.xml文件d ... [详细]
  • IjustinheritedsomewebpageswhichusesMooTools.IneverusedMooTools.NowIneedtoaddsomef ... [详细]
  • JDK源码学习之HashTable(附带面试题)的学习笔记
    本文介绍了JDK源码学习之HashTable(附带面试题)的学习笔记,包括HashTable的定义、数据类型、与HashMap的关系和区别。文章提供了干货,并附带了其他相关主题的学习笔记。 ... [详细]
  • iOS超签签名服务器搭建及其优劣势
    本文介绍了搭建iOS超签签名服务器的原因和优势,包括不掉签、用户可以直接安装不需要信任、体验好等。同时也提到了超签的劣势,即一个证书只能安装100个,成本较高。文章还详细介绍了超签的实现原理,包括用户请求服务器安装mobileconfig文件、服务器调用苹果接口添加udid等步骤。最后,还提到了生成mobileconfig文件和导出AppleWorldwideDeveloperRelationsCertificationAuthority证书的方法。 ... [详细]
  • 安装Tensorflow-GPU文档第一步:通过Anaconda安装python从这个链接https:www.anaconda.comdownload#window ... [详细]
author-avatar
liuyidii
这个家伙很懒,什么也没留下!
Tags | 热门标签
RankList | 热门文章
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有