热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

STAR:转录组数据分析中的高效比对工具介绍

欢迎关注“生信修炼手册”!STAR是一款专为RNA-seq数据设计的高效比对工具,以其卓越的速度和高灵敏度著称。该软件在处理大规模转录组数据时表现出色,能够显著提高比对效率和准确性。此外,GATK推荐使用STAR进行预处理步骤,以确保后续分析的可靠性。

欢迎关注”生信修炼手册”!

STAR是一款RNA_seq数据专用的比对软件,比对速度非常快,最大的优势是灵敏度高,GATK推荐采用STAR比对,然后进行下游的SNP分析。软件的源代码保存在github上,地址如下

https://github.com/alexdobin/STAR

安装过程如下

wget https://github.com/alexdobin/STAR/archive/2.6.1b.tar.gz
tar xzvf 2.6.1b.tar.gz

解压缩之后,在bin/Linux_x86_64_static目录下,提供了编译好的可执行文件STAR。和hisat等软件不同,STAR将所有的功能整合在了同一个程序中,通过切换runMode来执行不同的任务。

1. 构建基因组索引

运行比对前,首先需要对基因组建立索引,建立索引对应的runMode为genomeGenerate, 基本用法如下

STAR --runMode genomeGenerate \
--runThreadN  20 \
--genomeFastaFiles hg19.fasta \
--genomeDir hg19_STAR_db \
--sjdbGTFfile hg19.gtf \
--sjdbOverhang  149

建立索引需要基因组的fasta和gtf文件,通过genomeFastaFilessjdbGTFfile这两个参数分别指定;STAR构建索引需要指定一个输出目录,这个目录必须事先创建好,在该目录下,会生成许多文件,所以必须有写权限;runThreadN指定线程数;sjdbOverhang的值默认为100, 在实际设置时,最佳取值为max(read_length) - 1

在构建索引时,还支持加入intron的区间信息,通过sjdbFileChrStartEnd指定对应的文件,多个文件用逗号分隔,这种格式的文件是由STAR比对产生的,通常用于2-pass比对模式。

官方推荐基因组的fasta采用primary_assembly版本, 不应该包含alt_scaffoldpatches。对于human而言,NCBI的链接如下

ftp://ftp.ncbi.nlm.nih.gov/genomes/refseq/vertebrate_mammalian/Homo_sapiens/latest_assembly_versions/GCF_000001405.38_GRCh38.p12/GCF_000001405.38_GRCh38.p12_assembly_structure/Primary_Assembly/

Ensembl链接如下

ftp://ftp.ensembl.org/pub/release-93/fasta/homo_sapiens/dna/Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz

2. 运行比对

STAR支持fasta/fastq格式的输入文件,如果序列文件是压缩之后的,需要用readFilesCommand参数指定文件解压缩的方法,对于gzip压缩的文件而言,有以下两种下写法

--readFilesCommand  zcat
--readFilesCommand  gzip -c

比对完成后,会输出许多文件,包含4个类别

  1. log文件

  2. sam文件

  3. bam文件

  4. 剪切位点文件

每个文件都有事先定义好的名字,当多个样本同时运行时,为了加以区分,可以通过outFileNamePrefix指定输出文件的前缀。前3种类型的文件都比较容易理解,剪切位点文件实际上是根据mapping情况,估算出来的intron区间的信息,默认的文件名称为SJ.out.tab

默认输出的比对文件为SAM格式,为了节省磁盘空间,方便下游分析,可以通过outSAMtype参数指定输出bam文件,该参数有两个字段值,第一个值指定文件类型, 取值有SAMBAM两种,第二个值指定是否排序,取值范围包括Unsorted, SortedByCoordinate, 写法如下

--outSAMtype BAM SortedByCoordinate

上述写法输出排序之后的bam文件。

单端数据比对的基本用法如下

STAR \
--runThreadN  20 \
--genomeDir hg19_STAR_db \
--readFilesIn reads.fq \
--sjdbGTFfile hg19.gtf \
--sjdbOverhang  149 \
--outFileNamePrefix sampleA \
--outSAMtype BAM SortedByCoordinate

双端数据比对的基本用法如下

STAR  \
--runThreadN  20 \
--genomeDir hg19_STAR_db \
--readFilesIn r1.fq.gz r2.fq.gz \
--readFilesCommand  zcat \
--sjdbGTFfile hg19.gtf \
--sjdbOverhang  149 \
--outFileNamePrefix sampleA \
--outSAMtype BAM SortedByCoordinate

以上只是基本的比对,STAR官方更推荐使用2-pass比对模式,即比对两次,有以下两种方式

  1. multi-sample 2-pass
    第一次比对和上述的用法一致,比对完之后,每个样本会产生一个intron的区间文件SJ.out.tab; 在第二次比对之前,重新构建一次基因组的索引,添加所有样本的SJ.out.tab文件,然后利用新的基因组索引重新比对。这种做法综合了多个样本的intron信息,比对的灵敏度会更高,缺点是操作比较繁琐。

  2. per-sample 2-pass
    对于单个样本,在比对时直接添加--twopassMode Basic参数,软件会自动进行两次比对,将第一次比对的SJ.out.tab加入到索引,然后重新比对。这种方法操作简单,适用于单个样本的2-pass 比对。

更多参数和用法请参考官方文档。

·end·

—如果喜欢,快分享给你的朋友们吧—

扫描关注微信号,更多精彩内容等着你!



推荐阅读
  • 嵌入式开发环境搭建与文件传输指南
    本文详细介绍了如何为嵌入式应用开发搭建必要的软硬件环境,并提供了通过串口和网线两种方式将文件传输到开发板的具体步骤。适合Linux开发初学者参考。 ... [详细]
  • 本文介绍了如何通过 Maven 依赖引入 SQLiteJDBC 和 HikariCP 包,从而在 Java 应用中高效地连接和操作 SQLite 数据库。文章提供了详细的代码示例,并解释了每个步骤的实现细节。 ... [详细]
  • Explore how Matterverse is redefining the metaverse experience, creating immersive and meaningful virtual environments that foster genuine connections and economic opportunities. ... [详细]
  • CentOS7源码编译安装MySQL5.6
    2019独角兽企业重金招聘Python工程师标准一、先在cmake官网下个最新的cmake源码包cmake官网:https:www.cmake.org如此时最新 ... [详细]
  • 使用 Azure Service Principal 和 Microsoft Graph API 获取 AAD 用户列表
    本文介绍了一段通用代码示例,该代码不仅能够操作 Azure Active Directory (AAD),还可以通过 Azure Service Principal 的授权访问和管理 Azure 订阅资源。Azure 的架构可以分为两个层级:AAD 和 Subscription。 ... [详细]
  • 深入探讨CPU虚拟化与KVM内存管理
    本文详细介绍了现代服务器架构中的CPU虚拟化技术,包括SMP、NUMA和MPP三种多处理器结构,并深入探讨了KVM的内存虚拟化机制。通过对比不同架构的特点和应用场景,帮助读者理解如何选择最适合的架构以优化性能。 ... [详细]
  • PostgreSQL 10 离线安装指南
    本文详细介绍了如何在无法联网的服务器上进行 PostgreSQL 10 的离线安装,并涵盖了从下载安装包到配置远程访问的完整步骤。 ... [详细]
  • 选择适合生产环境的Docker存储驱动
    本文旨在探讨如何在生产环境中选择合适的Docker存储驱动,并详细介绍不同Linux发行版下的配置方法。通过参考官方文档和兼容性矩阵,提供实用的操作指南。 ... [详细]
  • CentOS系统安装与配置常见问题及解决方案
    本文详细介绍了在CentOS系统安装过程中遇到的常见问题及其解决方案,包括Vi编辑器的操作、图形界面的安装、网络连接故障排除等。通过本文,读者可以更好地理解和解决这些常见问题。 ... [详细]
  • 在创建新的Android项目时,您可能会遇到aapt错误,提示无法打开libstdc++.so.6共享对象文件。本文将探讨该问题的原因及解决方案。 ... [详细]
  • CentOS 6.5 上安装 MySQL 5.7.23 的详细步骤
    本文详细介绍如何在 CentOS 6.5 系统上成功安装 MySQL 5.7.23,包括卸载旧版本、下载安装包、配置文件修改及启动服务等关键步骤。 ... [详细]
  • Windows 7 64位系统下Redis的安装与PHP Redis扩展配置
    本文详细介绍了在Windows 7 64位操作系统中安装Redis以及配置PHP Redis扩展的方法,包括下载、安装和基本使用步骤。适合对Redis和PHP集成感兴趣的开发人员参考。 ... [详细]
  • 优化ListView性能
    本文深入探讨了如何通过多种技术手段优化ListView的性能,包括视图复用、ViewHolder模式、分批加载数据、图片优化及内存管理等。这些方法能够显著提升应用的响应速度和用户体验。 ... [详细]
  • 深入理解Tornado模板系统
    本文详细介绍了Tornado框架中模板系统的使用方法。Tornado自带的轻量级、高效且灵活的模板语言位于tornado.template模块,支持嵌入Python代码片段,帮助开发者快速构建动态网页。 ... [详细]
  • 本文介绍了Java并发库中的阻塞队列(BlockingQueue)及其典型应用场景。通过具体实例,展示了如何利用LinkedBlockingQueue实现线程间高效、安全的数据传递,并结合线程池和原子类优化性能。 ... [详细]
author-avatar
陈宏儒64721
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有