作者:黄秋华1219 | 来源:互联网 | 2023-08-12 08:54
刚开始学习TCGA数据处理和分析,记下来方便以后查看setwd(E:MyDataluadRNA-SEQ-20201028#把工作目录定位到manifest文件所在的位
刚开始学习TCGA数据处理和分析,记下来方便以后查看
setwd("E:/MyData/luadRNA-SEQ-20201028") #把工作目录定位到manifest文件所在的位置manifest= "gdc_manifest.2020-10-28.txt"x=read.table(manifest,header = T) #header为TRUE表示读取第一行作为变量名
表格已经建好了,可以view(x),发现长这样
接下来定义两个变量,一会儿要用:
manifest_length= nrow(x) #行数id= toString(sprintf('"%s"', x$id))
接下来运行脚本:(提取自https://docs.gdc.cancer.gov/API/Users_Guide/Search_and_Retrieval/)
Part1= '{"filters":{"op":"in","content":{"field":"files.file_id","value":[ ' Part2= '] }},"format":"TSV","fields":"file_id,file_name,cases.submitter_id,cases.case_id,data_category,data_type,cases.samples.tumor_descriptor,cases.samples.tissue_type,cases.samples.sample_type,cases.samples.submitter_id,cases.samples.sample_id,cases.samples.portions.analytes.aliquots.aliquot_id,cases.samples.portions.analytes.aliquots.submitter_id","size":' Part3= paste(shQuote(manifest_length),"}",sep="") Sentence= paste(Part1,id,Part2,Part3, collapse=" ") write.table(Sentence,"Payload.txt",quote=F,col.names=F,row.names=F)
得到了payload文件:
最后在RSTUDIO的terminal里面输入(需要安装cURL)一般在你的C:\Windows\system32目录下有curl.exe就是安装了,详细信息请参考https://stackoverflow.com/questions/9507353/how-do-i-install-and-use-curl-on-windows :
cd E:\MyData\luadRNA-SEQ-20201028 curl --request POST --header "Content-Type: application/json" --data @Payload.txt "https://api.gdc.cancer.gov/files" > File_metadata.txt
这样我们就得到了包含RNA-SEQ与CLINICAL对应关联的文件