热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

linux下载测序数据,利用SRA号从NCBI下载测序原始数据

生物或医学中涉及高通量测序的论文,一般会将原始测序数据上传到公开的数据库,上传方式见测序文章数据上传找哪里;并在文章末尾标明数据存储位置和

生物或医学中涉及高通量测序的论文,一般会将原始测序数据上传到公开的数据库,上传方式见测序文章数据上传找哪里;并在文章末尾标明数据存储位置和登录号,如 The data from this study was deposited in NCBI Sequence Read Archive under accession SRA: SRP114962.。

NCBI的SRA (Sequence Read Archive) 数据库(http://www.ncbi.nlm.nih.gov/sra/) 是最常用的存储测序数据的数据库。目前SRA数据的组织方式分为下面4个层次:

Studies–研究课题;

Experiments–实验设计;

Runs–测序结果集;

Samples–样品信息。

进入SRA官网:https://www.ncbi.nlm.nih.gov/sra, Search框中输入SRA编号(SRP114962),获得如下图的界面:

680e8d720516

点击第一个样品即可查看其详细信息。

680e8d720516

当样品比较多时,可以点击Send results to Run selector(图中画圈的位置)进入筛选页面。

680e8d720516

从图中可发现,测序平台是Illumina HiSeq 4000,5748个Runs,每个Run的名字、样本名、测序类型(全基因组/外显子组等)、tissue、treatment等。

680e8d720516

在如此多的Runs中,假设我们想获取其中两个病人的化疗前和化疗后的外显子组测序数据,观察其化疗前后究竟有哪些基因突变以及突变的频率怎么样。数据来自于文章 肿瘤化疗无效是对预先存在的突变的选择还是诱发新突变,Cell给你答案。

5748个Runs,有116Page,怎么找呢?

680e8d720516

在Facets下拉框中先勾选Assay Type,等待页面相应后勾选wxs,即全外显子组数据,等待页面相应。

在Facets下拉框中勾选Sample name,等待页面相应后勾选ktn102及ktn102两个病人的分别四个样本(四种treatment:pre、2cycleschemo、operative和blood),如图。等待页面相应。获得Run编号(蓝色框):SRR5908363、SRR5908362…

然后使用NCBI提供的工具SRAToolkit下载。

使用NCBI提供的SRA-toolkit中的工具fastq-dump直接下载SRR文件,并转换为FASTQ格式,--split-3参数表示如果是双端测序就自动拆分,如果是单端不受影响。--gzip转换fastq为压缩文件,节省空间。

下载的数据集一般比较大,放入后台不中断下载 (nohup cmd &)。

nohup fastq-dump -v --split-3 --gzip SRR5908360 &

nohup fastq-dump -v --split-3 --gzip SRR5908361 &

nohup fastq-dump -v --split-3 --gzip SRR5908362 &

nohup fastq-dump -v --split-3 --gzip SRR5908363 &

nohup fastq-dump -v --split-3 --gzip SRR5906250 &

nohup fastq-dump -v --split-3 --gzip SRR5906251 &

nohup fastq-dump -v --split-3 --gzip SRR5906252 &

nohup fastq-dump -v --split-3 --gzip SRR5906253 &

注意:如果数据量很大可能需要下载1-2天。数据下载完会在~/ncbi下面存在缓存的sra文件,记得定时清空。

Summary

按照上述步骤下载完毕后可看到很多个fastq.gz格式测序文件。

2019-03-07更新:Aspera Connect 工具在下载测序数据时的应用

1. 下载Aspera Connect:

2. 解压:

tar zxvf aspera-connect-3.7.4.147727-linux-64.tar.gz

3. 安装:

bash aspera-connect-3.7.4.147727-linux-64.sh

4. 查看是否有.aspera文件夹

去根目录

ls -a #如果看到.aspera文件夹,代表安装成功

PS: 在这一步时,我用" cd / " 命令切到根目录没有找到.aspera文件,

于是我cd到用户目录,通过" ll -h" 命令在主用户目录下找到。

680e8d720516

5. 永久添加环境变量

echo 'export PATH=~/.aspera/connect/bin:$PATH' >> ~/.bashrc source ~/.bashrc

6. 查看帮助文档,验证是否可以调用

ascp --help

PS:输入这个命令的时候,系统提示-bash: ascp: command not found,于是我进行了以下操作:

680e8d720516

之后我再使用 .aspera/connect/bin/ascp --help 命令之后就能正常开始Aspera Connect的使用了。

开启命令换成如下:~/.aspera/connect/bin/ascp -v -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh -k 1 -T -l200m anonftp@ftp-private.ncbi.nlm.nih.gov:/sra/sra-instant/reads/ByRun/sra/SRR/SRR347/SRR3474721/SRR3474721.sra ~/downloads

这样你的电脑或者服务器就可以开启神器了

下面是开启命令

ascp -v -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh -k 1 -T -l200m anonftp@ftp-private.ncbi.nlm.nih.gov:/sra/sra-instant/reads/ByRun/sra/SRR/SRR347/SRR3474721/SRR3474721.sra ~/downloads

上面命令中SRR后面的数字就是下载文件的代号,大家应该能看懂规律吧。按照👆🌰中的Access list就能够一个一个的下载到你要的文件。

你可以看一下速度,

680e8d720516

根据那个ascp帮助文档,你可以去调整速度,也不能太快了,四不四。



推荐阅读
  • 在Docker中,将主机目录挂载到容器中作为volume使用时,常常会遇到文件权限问题。这是因为容器内外的UID不同所导致的。本文介绍了解决这个问题的方法,包括使用gosu和suexec工具以及在Dockerfile中配置volume的权限。通过这些方法,可以避免在使用Docker时出现无写权限的情况。 ... [详细]
  • Linux如何安装Mongodb的详细步骤和注意事项
    本文介绍了Linux如何安装Mongodb的详细步骤和注意事项,同时介绍了Mongodb的特点和优势。Mongodb是一个开源的数据库,适用于各种规模的企业和各类应用程序。它具有灵活的数据模式和高性能的数据读写操作,能够提高企业的敏捷性和可扩展性。文章还提供了Mongodb的下载安装包地址。 ... [详细]
  • Go Cobra命令行工具入门教程
    本文介绍了Go语言实现的命令行工具Cobra的基本概念、安装方法和入门实践。Cobra被广泛应用于各种项目中,如Kubernetes、Hugo和Github CLI等。通过使用Cobra,我们可以快速创建命令行工具,适用于写测试脚本和各种服务的Admin CLI。文章还通过一个简单的demo演示了Cobra的使用方法。 ... [详细]
  • Skywalking系列博客1安装单机版 Skywalking的快速安装方法
    本文介绍了如何快速安装单机版的Skywalking,包括下载、环境需求和端口检查等步骤。同时提供了百度盘下载地址和查询端口是否被占用的命令。 ... [详细]
  • 本文介绍了数据库的存储结构及其重要性,强调了关系数据库范例中将逻辑存储与物理存储分开的必要性。通过逻辑结构和物理结构的分离,可以实现对物理存储的重新组织和数据库的迁移,而应用程序不会察觉到任何更改。文章还展示了Oracle数据库的逻辑结构和物理结构,并介绍了表空间的概念和作用。 ... [详细]
  • Centos7.6安装Gitlab教程及注意事项
    本文介绍了在Centos7.6系统下安装Gitlab的详细教程,并提供了一些注意事项。教程包括查看系统版本、安装必要的软件包、配置防火墙等步骤。同时,还强调了使用阿里云服务器时的特殊配置需求,以及建议至少4GB的可用RAM来运行GitLab。 ... [详细]
  • ZSI.generate.Wsdl2PythonError: unsupported local simpleType restriction ... [详细]
  • Webmin远程命令执行漏洞复现及防护方法
    本文介绍了Webmin远程命令执行漏洞CVE-2019-15107的漏洞详情和复现方法,同时提供了防护方法。漏洞存在于Webmin的找回密码页面中,攻击者无需权限即可注入命令并执行任意系统命令。文章还提供了相关参考链接和搭建靶场的步骤。此外,还指出了参考链接中的数据包不准确的问题,并解释了漏洞触发的条件。最后,给出了防护方法以避免受到该漏洞的攻击。 ... [详细]
  • phpcomposer 那个中文镜像是不是凉了 ... [详细]
  • uniapp开发H5解决跨域问题的两种代理方法
    本文介绍了uniapp开发H5解决跨域问题的两种代理方法,分别是在manifest.json文件和vue.config.js文件中设置代理。通过设置代理根域名和配置路径别名,可以实现H5页面的跨域访问。同时还介绍了如何开启内网穿透,让外网的人可以访问到本地调试的H5页面。 ... [详细]
  • 本文介绍了Python语言程序设计中文件和数据格式化的操作,包括使用np.savetext保存文本文件,对文本文件和二进制文件进行统一的操作步骤,以及使用Numpy模块进行数据可视化编程的指南。同时还提供了一些关于Python的测试题。 ... [详细]
  • Linuxchmod目录权限命令图文详解在Linux文件系统模型中,每个文件都有一组9个权限位用来控制谁能够读写和执行该文件的内容。对于目录来说,执行位的作用是控制能否进入或者通过 ... [详细]
  • [译]技术公司十年经验的职场生涯回顾
    本文是一位在技术公司工作十年的职场人士对自己职业生涯的总结回顾。她的职业规划与众不同,令人深思又有趣。其中涉及到的内容有机器学习、创新创业以及引用了女性主义者在TED演讲中的部分讲义。文章表达了对职业生涯的愿望和希望,认为人类有能力不断改善自己。 ... [详细]
  • 成功安装Sabayon Linux在thinkpad X60上的经验分享
    本文分享了作者在国庆期间在thinkpad X60上成功安装Sabayon Linux的经验。通过修改CHOST和执行emerge命令,作者顺利完成了安装过程。Sabayon Linux是一个基于Gentoo Linux的发行版,可以将电脑快速转变为一个功能强大的系统。除了作为一个live DVD使用外,Sabayon Linux还可以被安装在硬盘上,方便用户使用。 ... [详细]
  • 本文记录了在vue cli 3.x中移除console的一些采坑经验,通过使用uglifyjs-webpack-plugin插件,在vue.config.js中进行相关配置,包括设置minimizer、UglifyJsPlugin和compress等参数,最终成功移除了console。同时,还包括了一些可能出现的报错情况和解决方法。 ... [详细]
author-avatar
猫先生2502905417
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有