作者:零落曦_622 | 来源:互联网 | 2024-12-06 09:40
ClinVar是由美国国家生物技术信息中心(NCBI)维护的一个公开数据库,专注于收集与人类健康和疾病相关的基因组变异信息。它整合了来自多个权威来源的数据,如dbSNP、dbVar、PubMed和OMIM等,形成了一个标准化且高可信度的遗传变异与临床关联数据库。ClinVar不仅支持在线查询,还允许用户下载数据进行本地分析。
ClinVar数据库的开放性鼓励全球研究机构贡献数据,并设有一个专家团队对提交的信息进行审核评级。数据库中的每个变异位点根据注释信息的可靠性和详实程度被赋予1至4个星级,星级越高表明该信息越值得信赖。例如,四星级表示该变异的功能已由多位专家验证,而一星级或无星级则意味着信息来源较为单一,可能仅基于一项研究结果。
在线搜索功能
ClinVar提供了灵活多样的搜索选项,包括基因符号、HGVS表达式、蛋白质变化编号、疾病名称、提交者信息和染色体位置等七种方式。以PTEN基因为例,通过搜索可以获取该基因的总体统计信息、具体变异详情、相关疾病列表、变异频率以及临床意义等关键数据。临床意义通常分为致病、可能致病、良性、可能良性等几个等级,反映了变异对疾病潜在影响的程度。
数据下载与本地注释
用户可以通过FTP访问ClinVar提供的数据下载服务,下载地址为:ftp://ftp.ncbi.nlm.nih.gov/pub/clinvar/。这里包含了多种格式的数据文件,如vcf格式的变异信息、疾病名称列表等。下载后,可以使用工具如ANNOVAR或SnpEff进行本地注释,以进一步分析变异的生物学意义。
例如,使用ANNOVAR下载并处理ClinVar数据的命令如下:
mkdir -p ~/annotation/variation/human/clinvar
cd ~/annotation/variation/human/clinvar
wget ftp://ftp.ncbi.nlm.nih.gov/pub/clinvar/disease_names
mkdir vcf_GRCh37 && cd vcf_GRCh37
wget ftp://ftp.ncbi.nlm.nih.gov/pub/clinvar/vcf_GRCh37/clinvar_20170130.vcf.gz
wget ftp://ftp.ncbi.nlm.nih.gov/pub/clinvar/vcf_GRCh37/clinvar_20170228.vcf.gz
wget ftp://ftp.ncbi.nlm.nih.gov/pub/clinvar/vcf_GRCh37/clinvar_20170228.vcf.gz.tbi
随后,可以运行ANNOVAR进行注释:
~/biosoft/ANNOVAR/annovar/annotate_variation.pl -downdb -webfrom annovar -build hg19 -downdb clinvar_20170130 ~/biosoft/ANNOVAR/annovar/humandb/
~/biosoft/ANNOVAR/annovar/annotate_variation.pl --filter -buildver hg19 -out clinvar_20170130_anno -dbtype clinvar_20170130 jmzeng.annovar_input ~/biosoft/ANNOVAR/annovar/humandb/
此外,使用SnpEff进行注释的示例如下:
wget https://ftp.ncbi.nlm.nih.gov/pub/clinvar/vcf_GRCh38/clinvar_20180429.vcf.gz
wget https://ftp.ncbi.nlm.nih.gov/pub/clinvar/vcf_GRCh38/clinvar_20180429.vcf.gz.tbi
java -jar ~/biosoft/SnpEff/snpEff/SnpSift.jar annotate clinvar_20180429.vcf.gz merge_snpeff.vcf > merge_clinvar.vcf
参考资料:
http://www.biotrainee.com/thread-991-1-1.html
http://www.bio-info-trainee.com/3321.html
https://www.clinicalgenome.org/site/assets/files/1594/landrum_clinvar.pdf