热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

STAR:转录组数据分析中的高效比对工具介绍

欢迎关注“生信修炼手册”!STAR是一款专为RNA-seq数据设计的高效比对工具,以其卓越的速度和高灵敏度著称。该软件在处理大规模转录组数据时表现出色,能够显著提高比对效率和准确性。此外,GATK推荐使用STAR进行预处理步骤,以确保后续分析的可靠性。

欢迎关注”生信修炼手册”!

STAR是一款RNA_seq数据专用的比对软件,比对速度非常快,最大的优势是灵敏度高,GATK推荐采用STAR比对,然后进行下游的SNP分析。软件的源代码保存在github上,地址如下

https://github.com/alexdobin/STAR

安装过程如下

wget https://github.com/alexdobin/STAR/archive/2.6.1b.tar.gz
tar xzvf 2.6.1b.tar.gz

解压缩之后,在bin/Linux_x86_64_static目录下,提供了编译好的可执行文件STAR。和hisat等软件不同,STAR将所有的功能整合在了同一个程序中,通过切换runMode来执行不同的任务。

1. 构建基因组索引

运行比对前,首先需要对基因组建立索引,建立索引对应的runMode为genomeGenerate, 基本用法如下

STAR --runMode genomeGenerate \
--runThreadN  20 \
--genomeFastaFiles hg19.fasta \
--genomeDir hg19_STAR_db \
--sjdbGTFfile hg19.gtf \
--sjdbOverhang  149

建立索引需要基因组的fasta和gtf文件,通过genomeFastaFilessjdbGTFfile这两个参数分别指定;STAR构建索引需要指定一个输出目录,这个目录必须事先创建好,在该目录下,会生成许多文件,所以必须有写权限;runThreadN指定线程数;sjdbOverhang的值默认为100, 在实际设置时,最佳取值为max(read_length) - 1

在构建索引时,还支持加入intron的区间信息,通过sjdbFileChrStartEnd指定对应的文件,多个文件用逗号分隔,这种格式的文件是由STAR比对产生的,通常用于2-pass比对模式。

官方推荐基因组的fasta采用primary_assembly版本, 不应该包含alt_scaffoldpatches。对于human而言,NCBI的链接如下

ftp://ftp.ncbi.nlm.nih.gov/genomes/refseq/vertebrate_mammalian/Homo_sapiens/latest_assembly_versions/GCF_000001405.38_GRCh38.p12/GCF_000001405.38_GRCh38.p12_assembly_structure/Primary_Assembly/

Ensembl链接如下

ftp://ftp.ensembl.org/pub/release-93/fasta/homo_sapiens/dna/Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz

2. 运行比对

STAR支持fasta/fastq格式的输入文件,如果序列文件是压缩之后的,需要用readFilesCommand参数指定文件解压缩的方法,对于gzip压缩的文件而言,有以下两种下写法

--readFilesCommand  zcat
--readFilesCommand  gzip -c

比对完成后,会输出许多文件,包含4个类别

  1. log文件

  2. sam文件

  3. bam文件

  4. 剪切位点文件

每个文件都有事先定义好的名字,当多个样本同时运行时,为了加以区分,可以通过outFileNamePrefix指定输出文件的前缀。前3种类型的文件都比较容易理解,剪切位点文件实际上是根据mapping情况,估算出来的intron区间的信息,默认的文件名称为SJ.out.tab

默认输出的比对文件为SAM格式,为了节省磁盘空间,方便下游分析,可以通过outSAMtype参数指定输出bam文件,该参数有两个字段值,第一个值指定文件类型, 取值有SAMBAM两种,第二个值指定是否排序,取值范围包括Unsorted, SortedByCoordinate, 写法如下

--outSAMtype BAM SortedByCoordinate

上述写法输出排序之后的bam文件。

单端数据比对的基本用法如下

STAR \
--runThreadN  20 \
--genomeDir hg19_STAR_db \
--readFilesIn reads.fq \
--sjdbGTFfile hg19.gtf \
--sjdbOverhang  149 \
--outFileNamePrefix sampleA \
--outSAMtype BAM SortedByCoordinate

双端数据比对的基本用法如下

STAR  \
--runThreadN  20 \
--genomeDir hg19_STAR_db \
--readFilesIn r1.fq.gz r2.fq.gz \
--readFilesCommand  zcat \
--sjdbGTFfile hg19.gtf \
--sjdbOverhang  149 \
--outFileNamePrefix sampleA \
--outSAMtype BAM SortedByCoordinate

以上只是基本的比对,STAR官方更推荐使用2-pass比对模式,即比对两次,有以下两种方式

  1. multi-sample 2-pass
    第一次比对和上述的用法一致,比对完之后,每个样本会产生一个intron的区间文件SJ.out.tab; 在第二次比对之前,重新构建一次基因组的索引,添加所有样本的SJ.out.tab文件,然后利用新的基因组索引重新比对。这种做法综合了多个样本的intron信息,比对的灵敏度会更高,缺点是操作比较繁琐。

  2. per-sample 2-pass
    对于单个样本,在比对时直接添加--twopassMode Basic参数,软件会自动进行两次比对,将第一次比对的SJ.out.tab加入到索引,然后重新比对。这种方法操作简单,适用于单个样本的2-pass 比对。

更多参数和用法请参考官方文档。

·end·

—如果喜欢,快分享给你的朋友们吧—

扫描关注微信号,更多精彩内容等着你!



推荐阅读
  • 在稀疏直接法视觉里程计中,通过优化特征点并采用基于光度误差最小化的灰度图像线性插值技术,提高了定位精度。该方法通过对空间点的非齐次和齐次表示进行处理,利用RGB-D传感器获取的3D坐标信息,在两帧图像之间实现精确匹配,有效减少了光度误差,提升了系统的鲁棒性和稳定性。 ... [详细]
  • 求助高手:下载的压缩包中包含CMake文件,如何在Windows环境下使用已安装的CMake GUI进行运行?
    从GitHub仓库 `https://github.com/vonmax007/RobotSimulation` 下载的代码包含多种算法,其中算法1的文件目录中包含了CMake文件。为了在Windows环境下使用已安装的CMake GUI运行这些文件,需要先确保CMake已正确安装,并按照以下步骤操作:打开CMake GUI,设置源代码路径和构建路径,点击“Configure”配置项目,然后点击“Generate”生成构建文件。最后,在生成的构建目录中使用命令行或IDE进行编译和运行。 ... [详细]
  • PHP中元素的计量单位是什么? ... [详细]
  • BZOJ4240 Gym 102082G:贪心算法与树状数组的综合应用
    BZOJ4240 Gym 102082G 题目 "有趣的家庭菜园" 结合了贪心算法和树状数组的应用,旨在解决在有限时间和内存限制下高效处理复杂数据结构的问题。通过巧妙地运用贪心策略和树状数组,该题目能够在 10 秒的时间限制和 256MB 的内存限制内,有效处理大量输入数据,实现高性能的解决方案。提交次数为 756 次,成功解决次数为 349 次,体现了该题目的挑战性和实际应用价值。 ... [详细]
  • 结语 | 《探索二进制世界:软件安全与逆向分析》读书笔记:深入理解二进制代码的逆向工程方法
    结语 | 《探索二进制世界:软件安全与逆向分析》读书笔记:深入理解二进制代码的逆向工程方法 ... [详细]
  • 在Hive中合理配置Map和Reduce任务的数量对于优化不同场景下的性能至关重要。本文探讨了如何控制Hive任务中的Map数量,分析了当输入数据超过128MB时是否会自动拆分,以及Map数量是否越多越好的问题。通过实际案例和实验数据,本文提供了具体的配置建议,帮助用户在不同场景下实现最佳性能。 ... [详细]
  • 本文详细探讨了C语言中`extern`关键字的简易编译方法,并深入解析了预编译、`static`和`extern`的综合应用。通过具体的代码示例,介绍了如何在不同的文件之间共享变量和函数声明,以及这些关键字在编译过程中的作用和影响。文章还讨论了预编译过程中宏定义的使用,为开发者提供了实用的编程技巧和最佳实践。 ... [详细]
  • 深入解析Gradle中的Project核心组件
    在Gradle构建系统中,`Project` 是一个核心组件,扮演着至关重要的角色。通过使用 `./gradlew projects` 命令,可以清晰地列出当前项目结构中包含的所有子项目,这有助于开发者更好地理解和管理复杂的多模块项目。此外,`Project` 对象还提供了丰富的配置选项和生命周期管理功能,使得构建过程更加灵活高效。 ... [详细]
  • 深入解析:RKHunter与AIDE在入侵检测中的应用与优势
    本文深入探讨了RKHunter与AIDE在入侵检测领域的应用及其独特优势。通过对比分析,详细阐述了这两种工具在系统完整性验证、恶意软件检测及日志文件监控等方面的技术特点和实际效果,为安全管理人员提供了有效的防护策略建议。 ... [详细]
  • 提升工作效率:掌握这些技巧,IDEA 使用效率翻倍 | IDEA 高效操作指南
    提升工作效率:掌握这些技巧,IDEA 使用效率翻倍 | IDEA 高效操作指南 ... [详细]
  • 在幼儿园中,有 \( n \) 个小朋友需要通过投票来决定是否午睡。尽管这个问题对每个孩子来说并不是特别重要,但他们仍然希望通过谦让的方式达成一致。每个人都有自己的偏好,但为了集体和谐,他们决定采用一种最小割的方法来解决这一问题。这种方法不仅能够确保每个人的意愿得到尽可能多的尊重,还能找到一个最优的解决方案,使整体满意度最大化。 ... [详细]
  • Python 数据分析领域不仅拥有高质量的开发环境,还提供了众多功能强大的第三方库。本文将介绍六个关键步骤,帮助读者掌握 Python 数据分析的核心技能,并深入探讨六款虽不广为人知但却极具潜力的数据处理库,如 Pandas 的替代品和新兴的可视化工具,助力数据科学家和分析师提升工作效率。 ... [详细]
  • 表面缺陷检测数据集综述及GitHub开源项目推荐
    本文综述了表面缺陷检测领域的数据集,并推荐了多个GitHub上的开源项目。通过对现有文献和数据集的系统整理,为研究人员提供了全面的资源参考,有助于推动该领域的发展和技术进步。 ... [详细]
  • NOI题库(noi.openjudge.cn):1.7 编程基础之字符串 T31 至 T35 详解与解析
    T31至T35题目详细解析了字符串处理的基础编程技巧。其中,T31涉及P型编码,要求将一个仅包含数字字符的字符串转换为特定格式的编码串。例如,输入字符串“111223”应输出相应的P型编码结果。其他题目则涵盖了字符串的多种操作和变换方法,包括但不限于子串提取、字符替换和模式匹配等,旨在提升编程者对字符串处理的综合能力。 ... [详细]
  • 深入浅出解析HTTP协议的核心功能与应用
    前言——协议是指预先设定的通信规则,确保双方能够按照既定标准进行有效沟通,从而实现准确的信息交换。例如,驯兽师通过拍手使动物坐下,这实际上是一种预设的协议。本文将详细探讨HTTP协议的核心功能及其广泛应用,解析其在现代网络通信中的重要作用。 ... [详细]
author-avatar
陈宏儒64721
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有