2024年6月11日发(作者:)

一、PC机建ML树(此篇文档中“↔”代表回车操作)

比对序列

1、搜集目的基因(单个或多个)的序列,(分别)以txt格式存放于记事本(此时没有必要

按字母顺序排列)

格式如下:

>Alophosia_azorica

TTTATTCATATGCTGTCTCAAAGATTAAGCCATGCATGTGTAAGTATAAATTCTTTTGTAC

TGTGAAACTGCGAATGGCTCATTAAATCAGTTATAGTTTCTTTGATGGTACCTTGCTACT

CGGATAACCGTAGTAATTNTAGAGTTAATACGTGCACAAACTCCCGACTTSTGGAAGGG

ACGTATTTATTAGATAAAAGGCCGATGCGGGCTTGCCCGGTATTGCGGTGACTCATGAT

AACTCGTCGAATCGCACGGCCTTAGCGCTGGCGATGTTTCATTCAAATTTCTGCCCTAT

CAACTTTCGATGGTAGGATAGAGGCCTACCATGGTGGTAACGGGTGACGGAG

2、将.txt文件用clustal进行alignment,关闭clustal。自动生成两个文件,.aln和.dnd,删

除后者。用bioedit打开aln文件,进行手动校对,直到整个序列矩阵排布合理且整齐。

在有必要时,用Gblocks对矩阵首尾和中间极难校对的模糊区域进行删减,但必须记录

所有删除区域。(alignment这一步骤也可用muscle进行,

/Tools/msa/muscle/,个人觉得大部分结果比clustal好。)

修改格式

3、如果是单基因建树,按照第8步骤将其转换成.nex和.fcgi格式即可,后续相同。

4、如果是联合多基因建树,将比对好的矩阵用Bioedit打开,所有物种按拉丁名字首字母

的顺序排列,操作为:Sequence→sortbytitle。然后拷贝整个矩阵到.txt文件中,操

作为:Selectallsequences-copy-粘贴至txt。然后使每个基因的矩阵里的物种数和

顺序严格一致,具体操作为:在该物种应在的位置,用等长的“E”替代其缺失的序列,

保存。并用E代替头尾的“—”(为什么是“E”而不用其他字母呢?因为兼并碱基字母

不含“E”,所以用其他非兼并碱基字母也可以。)

5、用Clustal打开上面的txt文档,保存。此时会自动生成一个aln文件。

6、用写字板打开aln文件,若有“*”,将其去除。

7、将所有用来建树的DNA序列格式处理到第6个步骤,再将所有序列合并(删除

“CLUSTALX(1.83)multiplesequencealignment”只保留第一份开头的文件说明,每个

矩阵之间空两个回车)。另存,可命名为“combined”。

8、用clustal打开文件,存为nex格式,再将“E”改回“?”。,再用Bioedit

打开combined文件,将整个矩阵复制到.txt文件中,可同样命名“combined”,将E换

成“?”。

9、将文件的扩展名手动改为“fcgi”,然后以写字板方式打开,调整内部格式,

标准如下:

(名称和序列同行,序列开头对齐,第一行是“空格序列数目空格矩阵长度”)

60500

T16

T789

T12345

ATTAATCAAAGTAGGCGGGGCGGCCGTAGATGCTAAGAAAATCGAGTTCGGTCAC

CTCCCATTGGGCAGCAGATCGCTAGGCTCTTTAGCCAGGTGGACGTAGAAGCGAA

ACGGATAGGTTCTTGAACAAAGCGTGGAGGTGTGTGAAGCAAAGCGTGGAGGTGT

10、将文件用写字板方式打开,删除标题行中

symbols="ABCDEFGHIKLMNPQRSTUVWXYZ"

估算参数(此方法适用于ML和BAYES树的估测)

11、在PAUP中依次打开nex矩阵文件和modeltest的命令文件(),此时自

动开始估算。

12、开始→程序→附件→命令提示符(由此进入DOS系统),输入modeltest所在文件

夹的路径。假设在H盘的话就按如下操作。

H:↔

DIR↔

CDmodeltest3.06folder↔

DIR↔

<>(其中“”由自己命名)↔

此时就生成了一个名为的文档保存在指定路径,在这个文件中会显示最适合这些数据

使用的模型,另外有三个参数是备用的:Nstshapepinvar

开始建树

13、

14、

15、

fcgi格式的矩阵拷入所在的文件夹。

双击打开,输入fcgi格式的完整文件名,如:

开始回答问题

D↔直到显示正确答案,这里我们选择DNA

I↔interleave(fcgi格式是不间断的,nex格式是间断的)

S↔no(只运算一个多基因矩阵)

B↔输入1000↔输入Y↔

M↔↔↔直至出现modeltest估算出的最适模型,或者选择GTR模型

E↔ML

V↔输入n↔输入modeltest估算的参数

R↔一般选4(太高或太低都会影响运算速度)

A↔输入n↔输入modeltest估算的shape值

剩余的UO不用管

输入y↔

开始运算,算完后程序会自动关闭。