热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

数据库原理及其应用:ClinVar数据库解析

本文将详细介绍ClinVar数据库的基本概念、数据结构、搜索方法以及如何利用FTP下载和本地注释等功能,帮助科研人员更好地理解和利用这一重要资源。

ClinVar是由美国国家生物技术信息中心(NCBI)维护的一个公开数据库,专注于收集与人类健康和疾病相关的基因组变异信息。它整合了来自多个权威来源的数据,如dbSNP、dbVar、PubMed和OMIM等,形成了一个标准化且高可信度的遗传变异与临床关联数据库。ClinVar不仅支持在线查询,还允许用户下载数据进行本地分析。



ClinVar数据库的开放性鼓励全球研究机构贡献数据,并设有一个专家团队对提交的信息进行审核评级。数据库中的每个变异位点根据注释信息的可靠性和详实程度被赋予1至4个星级,星级越高表明该信息越值得信赖。例如,四星级表示该变异的功能已由多位专家验证,而一星级或无星级则意味着信息来源较为单一,可能仅基于一项研究结果。



在线搜索功能



ClinVar提供了灵活多样的搜索选项,包括基因符号、HGVS表达式、蛋白质变化编号、疾病名称、提交者信息和染色体位置等七种方式。以PTEN基因为例,通过搜索可以获取该基因的总体统计信息、具体变异详情、相关疾病列表、变异频率以及临床意义等关键数据。临床意义通常分为致病、可能致病、良性、可能良性等几个等级,反映了变异对疾病潜在影响的程度。



数据下载与本地注释



用户可以通过FTP访问ClinVar提供的数据下载服务,下载地址为:ftp://ftp.ncbi.nlm.nih.gov/pub/clinvar/。这里包含了多种格式的数据文件,如vcf格式的变异信息、疾病名称列表等。下载后,可以使用工具如ANNOVAR或SnpEff进行本地注释,以进一步分析变异的生物学意义。



例如,使用ANNOVAR下载并处理ClinVar数据的命令如下:



mkdir -p ~/annotation/variation/human/clinvar
cd ~/annotation/variation/human/clinvar
wget ftp://ftp.ncbi.nlm.nih.gov/pub/clinvar/disease_names
mkdir vcf_GRCh37 && cd vcf_GRCh37
wget ftp://ftp.ncbi.nlm.nih.gov/pub/clinvar/vcf_GRCh37/clinvar_20170130.vcf.gz
wget ftp://ftp.ncbi.nlm.nih.gov/pub/clinvar/vcf_GRCh37/clinvar_20170228.vcf.gz
wget ftp://ftp.ncbi.nlm.nih.gov/pub/clinvar/vcf_GRCh37/clinvar_20170228.vcf.gz.tbi


随后,可以运行ANNOVAR进行注释:



~/biosoft/ANNOVAR/annovar/annotate_variation.pl -downdb -webfrom annovar -build hg19 -downdb clinvar_20170130 ~/biosoft/ANNOVAR/annovar/humandb/
~/biosoft/ANNOVAR/annovar/annotate_variation.pl --filter -buildver hg19 -out clinvar_20170130_anno -dbtype clinvar_20170130 jmzeng.annovar_input ~/biosoft/ANNOVAR/annovar/humandb/


此外,使用SnpEff进行注释的示例如下:



wget https://ftp.ncbi.nlm.nih.gov/pub/clinvar/vcf_GRCh38/clinvar_20180429.vcf.gz
wget https://ftp.ncbi.nlm.nih.gov/pub/clinvar/vcf_GRCh38/clinvar_20180429.vcf.gz.tbi
java -jar ~/biosoft/SnpEff/snpEff/SnpSift.jar annotate clinvar_20180429.vcf.gz merge_snpeff.vcf > merge_clinvar.vcf


参考资料:

http://www.biotrainee.com/thread-991-1-1.html

http://www.bio-info-trainee.com/3321.html

https://www.clinicalgenome.org/site/assets/files/1594/landrum_clinvar.pdf


推荐阅读
  • 利用Java与Tesseract-OCR实现数字识别
    本文深入探讨了如何利用Java语言结合Tesseract-OCR技术来实现图像中的数字识别功能,旨在为开发者提供详细的指导和实践案例。 ... [详细]
  • 本文介绍了一个使用Keras框架构建的卷积神经网络(CNN)实例,主要利用了Keras提供的MNIST数据集以及相关的层,如Dense、Dropout、Activation等,构建了一个具有两层卷积和两层全连接层的CNN模型。 ... [详细]
  • 一面问题:MySQLRedisKafka线程算法mysql知道哪些存储引擎,它们的区别mysql索引在什么情况下会失效mysql在项目中的优化场景&# ... [详细]
  • 本文提供了关于如何在 Java 中使用 `com.amazonaws.services.kinesis.model.StreamDescription.getRetentionPeriodHours()` 方法的详细说明,并附带了多个实际代码示例。 ... [详细]
  • MySQL中的Anemometer使用指南
    本文详细介绍了如何在MySQL环境中部署和使用Anemometer,以帮助开发者有效监控和优化慢查询性能。通过本文,您将了解从环境准备到具体配置的全过程。 ... [详细]
  • 本文介绍了K近邻分类器的实现及其在工程与科学研究中的广泛应用。该算法采用欧几里得距离作为相似度量标准,并提供了一个包含两个预设聚类示例的CSV文件,旨在通过这些聚类对新的数据点进行分类。 ... [详细]
  • 从 Windows 转向 Mac 的开发者指南:必备技巧与工具
    本文旨在帮助从 Windows 转向 Mac 的开发者们,提供一系列实用的技巧和工具,确保过渡过程顺畅。 ... [详细]
  • 深入理解IIS:全面解析与应用
    本文详细介绍了IIS(Internet Information Services)的功能及其在不同Windows系统中的应用,探讨了IIS如何支持多种网络服务,如Web、FTP、NNTP和SMTP,并解释了其在现代网站开发和服务器管理中的重要性。 ... [详细]
  • 本文详细介绍了RPM包构建过程中Spec文件的结构和各部分的作用,包括包描述、准备阶段、构建过程、安装步骤、清理操作以及文件列表等关键环节。同时,提供了关于RPM宏命令、打包目录结构及常见标签的深入解析。 ... [详细]
  • 目录介绍01.CoordinatorLayout滑动抖动问题描述02.滑动抖动问题分析03.自定义AppBarLayout.Behavior说明04.CoordinatorLayo ... [详细]
  • Linux环境下Redmine快速搭建指南
    本文将详细介绍如何在Linux操作系统中使用Bitnami Redmine安装包快速搭建Redmine项目管理平台,帮助读者轻松完成环境配置。 ... [详细]
  • Windows 消息循环是操作系统的一项核心机制,在 Win32 应用程序开发中,通过 WndProc 函数实现消息处理。本文将探讨如何在 C# WinForms 应用程序中自定义 Windows 消息处理,以实现特定功能。 ... [详细]
  • 本文将详细介绍在使用Python 3.4版本时遇到导入SQLite3模块失败的问题,并提供有效的解决方案,帮助开发者快速解决问题。 ... [详细]
  • 本文深入探讨了网络编程中的基本概念,如指针、引用和可重入函数,并详细介绍了OSI七层模型和TCP/IP四层模型的功能与协议。同时,文章还对比了HTTP与HTTPS的区别,分析了HTTP请求报文的结构,讨论了TCP与UDP的主要差异,以及滑动窗口协议的工作原理。 ... [详细]
  • JMeter使用指南与性能测试实践
    本文详细介绍了JMeter的功能特点及应用场景,包括其作为开源、免费且基于Java开发的压力测试工具的优势。文章还涵盖了JMeter的安装配置过程以及如何进行简单的性能测试,旨在帮助初学者快速掌握JMeter的使用。 ... [详细]
author-avatar
零落曦_622
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有