三种建树方法编程频道|福州电脑网

2024年6月11日发(作者：)

一、PC机建ML树（此篇文档中“↔”代表回车操作）

比对序列

1、搜集目的基因（单个或多个）的序列，（分别）以txt格式存放于记事本(此时没有必要

按字母顺序排列)

格式如下：

>Alophosia_azorica

TTTATTCATATGCTGTCTCAAAGATTAAGCCATGCATGTGTAAGTATAAATTCTTTTGTAC

TGTGAAACTGCGAATGGCTCATTAAATCAGTTATAGTTTCTTTGATGGTACCTTGCTACT

CGGATAACCGTAGTAATTNTAGAGTTAATACGTGCACAAACTCCCGACTTSTGGAAGGG

ACGTATTTATTAGATAAAAGGCCGATGCGGGCTTGCCCGGTATTGCGGTGACTCATGAT

AACTCGTCGAATCGCACGGCCTTAGCGCTGGCGATGTTTCATTCAAATTTCTGCCCTAT

CAACTTTCGATGGTAGGATAGAGGCCTACCATGGTGGTAACGGGTGACGGAG

2、将.txt文件用clustal进行alignment，关闭clustal。自动生成两个文件，.aln和.dnd，删

除后者。用bioedit打开aln文件，进行手动校对，直到整个序列矩阵排布合理且整齐。

在有必要时，用Gblocks对矩阵首尾和中间极难校对的模糊区域进行删减，但必须记录

所有删除区域。（alignment这一步骤也可用muscle进行，

/Tools/msa/muscle/，个人觉得大部分结果比clustal好。）

修改格式

3、如果是单基因建树，按照第8步骤将其转换成.nex和.fcgi格式即可，后续相同。

4、如果是联合多基因建树，将比对好的矩阵用Bioedit打开，所有物种按拉丁名字首字母

的顺序排列，操作为：Sequence→sortbytitle。然后拷贝整个矩阵到.txt文件中，操

作为：Selectallsequences－copy－粘贴至txt。然后使每个基因的矩阵里的物种数和

顺序严格一致，具体操作为：在该物种应在的位置，用等长的“E”替代其缺失的序列，

保存。并用E代替头尾的“—”（为什么是“E”而不用其他字母呢？因为兼并碱基字母

不含“E”，所以用其他非兼并碱基字母也可以。）

5、用Clustal打开上面的txt文档，保存。此时会自动生成一个aln文件。

6、用写字板打开aln文件，若有“*”，将其去除。

7、将所有用来建树的DNA序列格式处理到第6个步骤，再将所有序列合并（删除

“CLUSTALX(1.83)multiplesequencealignment”只保留第一份开头的文件说明，每个

矩阵之间空两个回车）。另存，可命名为“combined”。

8、用clustal打开文件，存为nex格式，再将“E”改回“？”。，再用Bioedit

打开combined文件，将整个矩阵复制到.txt文件中，可同样命名“combined”，将E换

成“？”。

9、将文件的扩展名手动改为“fcgi”，然后以写字板方式打开，调整内部格式，

标准如下：

（名称和序列同行，序列开头对齐，第一行是“空格序列数目空格矩阵长度”）

60500

T16

T789

T12345

ATTAATCAAAGTAGGCGGGGCGGCCGTAGATGCTAAGAAAATCGAGTTCGGTCAC

CTCCCATTGGGCAGCAGATCGCTAGGCTCTTTAGCCAGGTGGACGTAGAAGCGAA

ACGGATAGGTTCTTGAACAAAGCGTGGAGGTGTGTGAAGCAAAGCGTGGAGGTGT

10、将文件用写字板方式打开，删除标题行中

“

symbols="ABCDEFGHIKLMNPQRSTUVWXYZ"

”

估算参数（此方法适用于ML和BAYES树的估测）

11、在PAUP中依次打开nex矩阵文件和modeltest的命令文件（），此时自

动开始估算。

12、开始→程序→附件→命令提示符（由此进入DOS系统），输入modeltest所在文件

夹的路径。假设在H盘的话就按如下操作。

H：↔

DIR↔

CDmodeltest3.06folder↔

DIR↔

<>（其中“”由自己命名）↔

此时就生成了一个名为的文档保存在指定路径，在这个文件中会显示最适合这些数据

使用的模型，另外有三个参数是备用的：Nstshapepinvar

开始建树

13、

14、

15、

fcgi格式的矩阵拷入所在的文件夹。

双击打开，输入fcgi格式的完整文件名，如：

开始回答问题

D↔直到显示正确答案，这里我们选择DNA

I↔interleave（fcgi格式是不间断的，nex格式是间断的）

S↔no(只运算一个多基因矩阵)

B↔输入1000↔输入Y↔

M↔↔↔直至出现modeltest估算出的最适模型，或者选择GTR模型

E↔ML

V↔输入n↔输入modeltest估算的参数

R↔一般选4（太高或太低都会影响运算速度）

A↔输入n↔输入modeltest估算的shape值

剩余的UO不用管

输入y↔

开始运算，算完后程序会自动关闭。

三种建树方法

发布评论取消回复

最近发表

相关推荐

标签列表

三种建树方法

发布评论 取消回复

最近发表

相关推荐

标签列表

发布评论取消回复