热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

全基因组数据CNV分析简介

欢迎关注”生信修炼手册”!除了利用aCGH和snp芯片来检测CNV之外,也可以通过NGS数据来分析CNV,比如全基因组和全外显子测序。针对全基因组CNV的检测

欢迎关注”生信修炼手册”!

除了利用aCGH和snp芯片来检测CNV之外,也可以通过NGS数据来分析CNV, 比如全基因组和全外显子测序。针对全基因组CNV的检测,还针对开发了一种称之为CNV_seq的测序策略,指的是低深度全基因组测序,只需要5X的测序深度,就可以有效的检测CNV。

本文根据一篇2015年的综述来简单介绍下全基因组CNV分析的策略,文章标题如下

Whole-genome CNV analysis: advances in computational approaches

链接如下

https://www.frontiersin.org/articles/10.3389/fgene.2015.00138/full

根据软件的基本原理,可以分为以下4大类别,图示如下

1. Read-Pair(RP)

RP是最早出现的算法,利用双端测序插入片段长度分布来检测CNV, 也称之为PEM,pair end mapping方法。双端测序插入片段长度分布如下图所示

当插入片段长度过长或者过短时,都代表着基因组发生了结构变异,如上图中的两个阈值,图示如下

以上两幅图来自文献Jan O. Korbel et al.Science 318, 420 (2007)

当计算出来的插入片段长度小于cutoff I时,说明相比reference, 实际检测样本中对应区域插入了部分碱基,相反地,如果计算出来的插入片段长度大于cutoff D时,说明相比reference, 实际检测样本对应区域插入了部分碱基。

受到测序读长的影响,该方法适用于检测中等长度的insertion和deletion, 对过小的插入不敏感,而且比较依赖比对的准确性,无法分析低复杂度的segmental duplication区域。

采用该策略的部分软件列表如下

  1. BreakDancer

  2. PEMer

  3. Ulysses

2. Split-read(SR)

SR方法利用一端能够比对,另外一端比对不上的reads来识别CNV。另外一端比对不上,可能是存在CNV, 通过将单独的reads进行拆分,使其能够正确比对到参考基因组上,拆分的点就是CNV的断裂点。

只利用了单端reasd, 读长进一步受到限制,所以该方法只适用于检测小规模的插入和缺失,采用该策略的部分软件列表如下

  1. Pindel

  2. PRISM

  3. SVseq2

  4. Gustaf

3. Read-Depth(RD)

RD方法利用拷贝数和对应区域测序深度的相关性来进行分析,基本模型是缺失区域的测序深度相对低,而插入区域的测序深度相对高。该算法采用滑动窗口的方式,统计每个窗口内的测序深度分布,然后根据不同窗口测序深度的分布来预测CNV区域,图示如下

上图来自文献Genome Res. 2011. 21: 974-984

类似芯片中的log ratio值,在RD方法中,会根据区域对应的测序深度来判断对应的CNV数目。在该类方法中,滑动窗口的大小对结果影响较大,当窗口很大时,一些长度很短的small  cnv信号就会被掩盖。

相比RP和SR两种方法,RD可以进行CNV分型,明确CNV的数目,RP和SR只能检测断点的位置, 而且RD可以检测大规模的CNV, 是目前较为主流的算法。采用该策略的部分软件列表如下

  1. CNVnator

  2. ERDS

  3. ReadDepth

  4. CNVrd2

4. Assembly(AS)

AS方法利用测序得到的短序列进行组装,将组装的contig与参考基因组进行比较,从而确定发生了结构变异的区域。组装的精确依赖测序读长和算法的准确度,而且组装对硬件资源的消耗特别大,并不是一个理想的CNV检测的算法,这里就不做过多的介绍了。

以上4种是最基本的算法理念,还有很多软件会综合其中的某几种算法来检测CNV, 比如speedseq中集成的lumpy软件,综合利用RP,SR, RD三种方式来检测CNV。

比对准确性是基于NGS的策略检测结果准确的前提,mapping的准确率和二代测序对基因组的覆盖度都会影响到CNV的检测结果,同时在计算测序深度时GC含量差异带来的PCR扩增偏移,也需要进行校正,通过设置对照样本,能够有效的减少系统误差的干扰,更好的进行CNV的检测。

综上所述,每种算法各有其优缺点,综合使用多种策略有助于提高检测结果的准确性和敏感性,同时设置对照样本,可以更加有效的分析拷贝数的变化。

·end·

—如果喜欢,快分享给你的朋友们吧—

扫描关注微信号,更多精彩内容等着你!


推荐阅读
  • 独家解析:深度学习泛化理论的破解之道与应用前景
    本文深入探讨了深度学习泛化理论的关键问题,通过分析现有研究和实践经验,揭示了泛化性能背后的核心机制。文章详细解析了泛化能力的影响因素,并提出了改进模型泛化性能的有效策略。此外,还展望了这些理论在实际应用中的广阔前景,为未来的研究和开发提供了宝贵的参考。 ... [详细]
  • 三角测量计算三维坐标的代码_双目三维重建——层次化重建思考
    双目三维重建——层次化重建思考FesianXu2020.7.22atANTFINANCIALintern前言本文是笔者阅读[1]第10章内容的笔记,本文从宏观的角度阐 ... [详细]
  • EST:西湖大学鞠峰组污水厂病原菌与土著反硝化细菌是多重抗生素耐药基因的活跃表达者...
    点击蓝字关注我们编译:祝新宇校稿:鞠峰、袁凌论文ID原名:PathogenicandIndigenousDenitrifyingBacte ... [详细]
  • 题目描述:牛客网新员工Fish每天早上都会拿着一本英文杂志,在本子上写下一些句子。他的同事Cat对这些句子非常感兴趣,但发现这些句子的单词顺序被反转了。例如,“student. a am I”实际上是“I am a student.”。Cat请求你帮助他恢复这些句子的正常顺序。 ... [详细]
  • 本文介绍了如何在 Spring 3.0.5 中使用 JdbcTemplate 插入数据并获取 MySQL 表中的自增主键。 ... [详细]
  • 利用python爬取豆瓣电影Top250的相关信息,包括电影详情链接,图片链接,影片中文名,影片外国名,评分,评价数,概况,导演,主演,年份,地区,类别这12项内容,然后将爬取的信息写入Exce ... [详细]
  • 本文介绍了几种常用的图像相似度对比方法,包括直方图方法、图像模板匹配、PSNR峰值信噪比、SSIM结构相似性和感知哈希算法。每种方法都有其优缺点,适用于不同的应用场景。 ... [详细]
  • Ihavetwomethodsofgeneratingmdistinctrandomnumbersintherange[0..n-1]我有两种方法在范围[0.n-1]中生 ... [详细]
  • 最详尽的4K技术科普
    什么是4K?4K是一个分辨率的范畴,即40962160的像素分辨率,一般用于专业设备居多,目前家庭用的设备,如 ... [详细]
  • 在多线程并发环境中,普通变量的操作往往是线程不安全的。本文通过一个简单的例子,展示了如何使用 AtomicInteger 类及其核心的 CAS 无锁算法来保证线程安全。 ... [详细]
  • 本文介绍如何使用 Python 的 DOM 和 SAX 方法解析 XML 文件,并通过示例展示了如何动态创建数据库表和处理大量数据的实时插入。 ... [详细]
  • 在使用 Cacti 进行监控时,发现已运行的转码机未产生流量,导致 Cacti 监控界面显示该转码机处于宕机状态。进一步检查 Cacti 日志,发现数据库中存在 SQL 查询失败的问题,错误代码为 145。此问题可能是由于数据库表损坏或索引失效所致,建议对相关表进行修复操作以恢复监控功能。 ... [详细]
  • 在机器学习领域,深入探讨了概率论与数理统计的基础知识,特别是这些理论在数据挖掘中的应用。文章重点分析了偏差(Bias)与方差(Variance)之间的平衡问题,强调了方差反映了不同训练模型之间的差异,例如在K折交叉验证中,不同模型之间的性能差异显著。此外,还讨论了如何通过优化模型选择和参数调整来有效控制这一平衡,以提高模型的泛化能力。 ... [详细]
  • 本文对比了杜甫《喜晴》的两种英文翻译版本:a. Pleased with Sunny Weather 和 b. Rejoicing in Clearing Weather。a 版由 alexcwlin 翻译并经 Adam Lam 编辑,b 版则由哈佛大学的宇文所安教授 (Prof. Stephen Owen) 翻译。 ... [详细]
  • 本文总结了在SQL Server数据库中编写和优化存储过程的经验和技巧,旨在帮助数据库开发人员提升存储过程的性能和可维护性。 ... [详细]
author-avatar
真实的阿凯123
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有