NGSCheckMate:数据配对检查好工具
求知若渴 没有BUG
背景
生信小灶
肿瘤NGS或者其它类似数据分析工作,大的前提就是样本使用的正确性,然而很多意外的情况都会导致样本的错误使用,对它们进行质控显得尤其重要。
原理
软件处理fasq、bam、vcf等格式,获得VAF的信息,通过计算VAF的相关性,来判断样本是否来自同一个样本。
如何实现fastq的VAF统计?
vcf文件中直接存在有VAF的信息,对于bam,可以转化成mpileup格式获得VAF信息,而对于未经比对的fastq,获得VAF是一件比较困难的事情,作者的处理非常巧妙:软件预构建了一个参考SNP的21-kmer的哈希表,通过reads提取的21-mer与哈希表匹配计算count,获得VAF的参考信息。
01
安装
安装NGScheckMate
软件非常容易安装,只需要拷贝源码即可。但是相关的环境与依赖需要进行配置一下。
安装
#下载源码
git clone https://github.com/parklab/NGSCheckMate.git
#配置环境变量
export NCM_HOME=/NGSCheckMate
配置
#在NGSCheckMate的软件目录,编辑ncm.conf的文件
#分别指定三个文件的绝对路径
#REF,参考序列的绝对路径,与生成bam指定为同一个;
#SAMTOOLS,samtools程序的绝对路径;
#BCFTOOLS,bcftools程序的绝对路径。
REF=
SAMTOOLS=
BCFTOOLS=
02
fastq模式
输入文件
#文件为三列,read1,read2,样本名
#不需要表头,此段注释也不要出现在文件中
/path/NC_1.fq.gz /path/NC_2.fq.gz NC
/path/T_1.fq.gz /path/T_2.fq.gz T
运行命令
#使用python2来运行
python2 /PathOfNGScheckmate/ncm_fastq.py -pt /path/SNP.pt -l /path/NGS.input.list -O ./check_result
03
vcf格式
输入文件
#每行是一个文件
/data1/public/GATK/03_1.NGScheckMate/NC.vcf
/data1/public/GATK/03_1.NGScheckMate/T.vcf
运行命令
python2 /PathOfNGScheckmate/ncm.py -V -l /path/vcf.input.list -bed /path/SNP_GRCh37_hg19_woChr.bed -O ./vcfout
Tips
1)BAM模式和VCF模式非常类似,只需要将-V参数换为-B参数,输入文件由vcf的list变为bam的list即可。
2)BAM模式最终仍是对各个样本进行变异检测,所以自己检测vcf然后使用软件检查也是一样的,而且可能更加灵活。
结果说明
最终的结果在输出目录中,*_all.txt,这个文件即是。文件一共五列:
样本1;
是否匹配的结论;
样本2;
相关性系数;
深度。
除此之外还有一些图表,一般情况没有什么大的价值。
04
软件评价
优缺点
软件比较好装,也容易配置和使用,结果易于解读。但是它只能检测出两个样本是否匹配,但是样本之间是否有相互的污染,则不能够进行质控,对于肿瘤的检测,这个方面的信息仍是需要留意的。
关
于
我
我是国产TESLA,专注于肿瘤及肿瘤新生抗原的生物信息工程师,这里记得着我的一些原创探索和心得,愿能给参与到这个领域的人一些参考。
提醒
“话题”在文章标题下方哦~