基因树是对一组序列进化关系真实模式的一个估计. 说基因树是一种估计,是因为在置换数目上存在随机变异,因而真实的基因树是未知的. 可以料到,在基因树中,短的分支比长的分支不可靠.
那么可用什么标准来评价某一特定分支顺序的可靠性呢?例如,在图17.1C中,那些数据是否真的可以将Mo/Ha谱系与Hu/Ba/Co/Sh谱系之前的共同祖先分割开呢?
评价基因树中某个节点的可靠性的一种常用方法,称为自举法(bootstrapping). 在该法中,通过随机选择位点,从实际数据中构造出1000个或更多个不同的数据集. 自举抽样是以放回式抽样的方式进行的,这意味着同一个位点可偶然被选中
两次或多次. 因而,来自图17.1A中的序列的一个自举样本,是一个以放回抽样方式随机选择的50个位点的样本. 在一个特定的容量为50的自举样本中,预计18个位点会出现1次,9个位点会出现2次,5个位点会出现3次或3次以上,而有18个位点根
本不会出现. 因此,如果基因树中的某种分支方式被序列中大多数的位点支持,则从大多数自举样本得来的基因树会包含同样的分支方式,但如果支持某种分支方式的位点数相对较少,则来自许多自举样本的基因树将不包括这种分支方式.
在图17.1C的基因树中,在1000个自举样本中,支持阴影区所包括的分支顺序的样本不足50%.从实践上来说,此结果表明,就该蛋白质的这一小段而言,Hu/Ba、Co/Sh和Mo/Ha类群分开的时间非常接近,尚不能解决哪一个分类单元首先分开
的问题。
以下是详细图解:
参考资料:
【1】Genetics Analysis of Genes and Genomes, Daniel L. Hartl,Maryellen Ruvolo
【2】西北农林科技大学庞红侠老师生物信息学课堂PPT