应用PHYLIP构建进化树的完整详细过程.docx
- 文档编号:2495398
- 上传时间:2023-05-03
- 格式:DOCX
- 页数:4
- 大小:23.81KB
应用PHYLIP构建进化树的完整详细过程.docx
《应用PHYLIP构建进化树的完整详细过程.docx》由会员分享,可在线阅读,更多相关《应用PHYLIP构建进化树的完整详细过程.docx(4页珍藏版)》请在冰点文库上搜索。
一、获取序列
一般自己通过测序得到一段序列(已知或未知的都可以),通过NCBI的BLAST获取相似性较高的一组序列,下载保存为FASTA格式。
用BIOEDIT等软件编辑序列名称,注意PHYLIP在DOS下运行,文件名不能超过10位,超过的会自动截留前面10位。
二、多序列比对
目前一般应用CLASTALX进行,注意输出格式选用PHY格式。
生成的指导树文件(DND文件)可以直接用TREEVIEW打开编辑,形式上和最终生成的进化树类似,但是注意不是真正的进化树。
三、构建进化树
1.N-J法建树
依次应用PHYLIP软件中的SEQBOOT.EXE、DNADIST.EXE、NEIGHBOR.EXE和CONSENSE.EXE打开。
具体步骤如下:
(1)打开seqboot.exe
输入文件名:
输入你用CLASTALX生成的PHY文件(*.phy)。
R为bootstrap的次数,一般为1000(设你输入的值为M,即下两步DNADIST.EXE、NEIGHBOR.EXE中的M值也为1000)
oddnumber:
(4N+1)(eg:
1、5、9…)
改好了y
得到outfile(在phylip文件夹内)
改名为2
(2)打开Dnadist.EXE
输入2
修改M值,再按D,然后输入1000(M值)
y
得到outfile(在phylip文件夹内)
改名为3
(3)打开Neighboor.EXE
输入3
M=1000(M值)
按Y
得到outfile和outtree(在phylip文件夹内)
改outtree为4,outfile改为402
(4)打开consense.exe
输入4
y
得到outfile和outtree(在phylip文件夹内)
Outfile可以改为*.txt文件,用记事本打开阅读。
四、进化树编辑和阅读
outtree可改为*.tre文件,直接双击在treeview里看;也可以不改文件扩展名,直接用treeview、PHYLODRAW、NJPLOT等软件打开编辑。
TREEVIEW可以显示BOOTSTRAN值,序列较多(60条以上)的时候打开直接显示有明显的重叠,可以在打印预览中显示,或输出为EMFWMF图片文件看,但是序列较多时BOOTSTRAN值的显示位置比较乱,和序列名称有重叠。
PHYLODRAW的编辑功能较强,可以自由调节X、Y轴的长度。
输出格式为BMP、PS格式。
缺点是不能直接显示BOOTSTRAN值,包括打开TREEVIEW输出的NEX文件,而且输出的BMP文件不全,类似截屏文件,我用PHOTOSHOP进行拼接合成,添加BOOTSTRAN值和注解符号等。
据说也可以将PS文件用记事本打开,改变其中的字号,然后通过ADOBE DISTRILLOR将PS转化为PDF,就可以解决问题。
如果发现还有重叠,可以再次改变PS文件中的字号大小,直到合适为止。
NJPLOT可以显示BOOTSTRAN值和分值长度。
但是不能调节图片X、Y轴的长度。
建MP,ML树将Dnadist和Neighboot两步分别改为Dnapars和Dnaml,其余步骤相同。
据说ML法序列较多是非常耗时,我没有尝试。
因为我的序列较多。
也可以用CLASTALX中的BOOTSTRANN-JTREE法生成进化树,TREE菜单输出格式选项(OUTPUTFORMATOPTION)中的BOOTSTRANLABELSON选NODE(节点)。
在treeview里,选择tree菜单,然后把showinternaledgelables的选项打勾了,直接打开生成的文件bootstrap的值就可以显示出来。
下面介绍几个软件的使用。
首先是PHYLIP。
其是多个软件的压缩包,下载
后双击则自动解压。
当你解压后就挥发现PHYLIP的功能极其强大,主要包括五
个方面的功能软件:
i,DNA和蛋白质序列数据的分析软件。
ii,序列数据转变
成距离数据后,对距离数据分析的软件。
iii,对基因频率和连续的元素分析的
软件。
iv,把序列的每个碱基/氨基酸独立看待(碱基/氨基酸只有0和1的状态
时,对序列进行分析的软件。
v,按照DOLLO简约性算法对序列进行分析的软
件。
vi,绘制和修改进化树的软件。
在此,我主要对前两种功能软件进行说明。
我们现在有几个序列如下:
Mo3 ATGTATTTCGTACATTACTGCCAGCCACCATGAATATTGCACGGTACCAT
Mo5 ATGTATTTCGTACATTACTGCCAGCCACCATGAATATTGTACGGTACCAT
Mo6 ATGTATTTCGTACATTACTGCCAGCCACCATGAATATTGTACGGTACCAT
Mo7 ATGTATTTCGTACATTACTGCCAGCCACCATGAATATTGTACAGTACCAT
Mo8 ATGTATTTCGTACATTACTGCCAGCCACCATGAATATTGTACAGTACCAT
Mo9 ATGTATCTCGTACATTACTGCCAGCCACCATGAATATTGTACGGTACCAT
Mo12 ATGTATTTCGTACATTACTGCCAGCCACCATGAATATTGTACGGTACCAT
Mo13 ATGTATCTCGTACATTACTGCCAGCCACCATGAATATTGTACGGTACCAT
要对这8个序列进行进化树分析,按照上面的步骤,首先用CLUSTALX排列序
列,输出格式为*.PHY。
用记事本打开如下图:
图中的8和50分别表示8个序列和每个序列有50个碱基。
然后,打开软件
SEQBOOT,如下图:
按路径输入刚才生成的*.PHY文件,并在Randomnumberseed(mustbeodd)?
的下面输入一个4N+1的数字后,屏幕显示如下:
图中的D、J、R、I、O、1、2代表可选择的选项,键入这些字母,程序的条件
就会发生改变。
D选项无须改变。
J选项有三种条件可以选择,分别是Bootstrap、
Jackknife和Permute。
文章上面提到用Bootstraping法对进化树进行评估,所谓
Bootstraping法就是从整个序列的碱基(氨基酸)中任意选取一半,剩下的一半
序列随机补齐组成一个新的序列。
这样,一个序列就可以变成了许多序列。
一个
多序列组也就可以变成许多个多序列组。
根据某种算法(最大简约性法、最大可
能性法、除权配对法或邻位相连法)每个多序列组都可以生成一个进化树。
将生
成的许多进化树进行比较,按照多数规则(majority-rule)我们就会得到一个最
“逼真”的进化树。
Jackknife则是另外一种随机选取序列的方法。
它与Bootstrap
法的区别是不将剩下的一半序列补齐,只生成一个缩短了一半的新序列。
Permute
是另外一种取样方法,其目的与Bootstrap和Jackknife法不同,这里不再介绍。
R选项让使用者输入republicate的数目。
所谓republicate就是用Bootstrap法生
成的一个多序列组。
根据多序列中所含的序列的数目的不同可以选取不同的
republicate。
当我们设置好条件后,键入Y按回车。
得到一个文件outfile
Outfile用记事本打开如下:
这个文件包括了100个republicate。
打开DNAPARS(最大简约性法)或DNAML(最大可能性法)软件。
将刚才生
成的outfile文件更名后输入。
如下图:
选项O是让使用者设定一个序列作为outgroup。
一般选择一个亲缘关系与所分析
序列组很接近的序列作为outgroup(本例子不选outgroup),outgroup选择的好坏
将直接影响到最后的进化树的好坏。
选项M是输入刚才设置的republicate的数
目。
设置好条件后,键入Y按回车。
生成两个文件outfile和treefile。
Outfile打开如下图:
该文件包括了227个进化树。
Treefile可以用TREEVIEW软件打开同样包含了这
227个进化树。
打开CONSENSE软件,将刚才生成的treefile文件更名后输入。
如下图:
键入Y按回车。
生成两个文件outfile和treefile。
Treefile用TREEVIEW打开,
如下图:
Outfile打开如下图:
我们看出两个树是同样的。
但在outfile的树上的数字表示该枝条的Bootstrap支
持率(除以100.6)。
到现在,8个序列的进化树分析(最大简约法)已经完成。
如果要用邻位相连法对这8个序列进行分析的话,也首先执行SEQBOOT软
件将这8个序列变成100个republicate。
然后,打开DNADIST软件,把SEQBOOT
生成的文件输入,如下图:
选项D有四种距离模式可以选择,分别是Kimura2-parameter、Jin/Nei、
Maximum-likelihood和Jukes-Cantor。
选项T一般键入一个15-30之间的数字。
选项M键入100。
运行后生成文件如下图:
这个文件包含了与输入文件相同的100个republicate,只不过每个republicate是
以两两序列的进化距离来表示。
文件中的每个republicate都省略了第一排的Mo3
Mo5 Mo6 Mo7 Mo8 Mo9 Mo12 Mo13。
以这个输出文件为输入文件,
执行NEIGHBOR软件。
如下图:
选项M键入100。
生成两个文件outfile和treefile用记事本和TREEVIEW打开
后,发现这两个文件都含有100个进化树。
再将treefile文件更名后输入
CONSENSE软件,又得到两个文件outfile和treefile,这就是最后的结果。
以上
是对DNA序列的分析,如果要对蛋白质序列进行分析,PROTDIST、PROTPARS
等软件。
其他软件的用法可以参照PHYLIP的documents。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 应用 PHYLIP 构建 进化 完整 详细 过程