作者:沙漏虎 | 来源:互联网 | 2023-07-21 16:28
GFF/GTF格式
01 格式
1.GFF(general feature format ): 通用特征格式,格式由每个特征一行组成,每行包含9 列数据,以及可选的轨道定义行; 2.GTF(gene transfer format ): 通用传输格式,与GFF版本2相同。
02 功能
1.GFF用来注释基因组 2.GTF用来注释基因,比如基因在染色体上的位置(coordinate)及这段区间的其他信息 3. GTF文件和GFF文件都是由9列信息组成,并且这两种文件的前8列基本上是相同的,最后一列信息显示不一致。
GTF的第九列,通常为: gene_id “At1g00001”; transcript_id “At1g00001.1”;
而GFF的第九列,通常还可以增加一些其他信息,通过分号分割 ID=mrna001;Name=abc ID=exon1;Parent=mrna001 ID=exon2;Parent=mrna001
gffread
01 软件介绍
gffread可用于验证、过滤、转换和对 GFF 文件执行各种其他操作,gffread是Cufflinks里面的一个子工具(TopHat+Cufflinks来用于转录组的组装,但HISAT2+Stingtie搭配使用效果更好,所以这里不介绍Cufflinks软件)。
02 安装 conda install -c bioconda gffread
03 用法:
gffread [-g | ][-s ] [-o ] [-t ] [-r [[]:].. [-R]][-CTVNJMKQAFPGUBHZWTOLE] [-w ] [-x ] [-y ][-i ] [--bed] [--table ] [--sort-by ]
04 常用功能:
gff与gtf转化
#gff2gtf gff转gtf gffread genome.gff3 -T -o genome.gtf #gtf2gff gtf转gff gffread genome.gtf -o- > genome.gff3
获取CDS序列
gffread genome.gff3 -g genome.fa -x cds.fa
获取蛋白序列
gffread genome.gff3 -g genome.fa -y protein.fa
获取转录本序列
gffread genome.gff3 -g genome.fa -w transcripts.fa
END
(关注“作图帮”公众号,获取更多精彩干货)