Blast使用技巧.ppt
- 文档编号:18729812
- 上传时间:2023-10-21
- 格式:PPT
- 页数:39
- 大小:1.60MB
Blast使用技巧.ppt
《Blast使用技巧.ppt》由会员分享,可在线阅读,更多相关《Blast使用技巧.ppt(39页珍藏版)》请在冰点文库上搜索。
生物序列的相似性搜索blast简介及其应用,2,生物序列的相似性,相似性(similarity):
是指一种很直接的数量关系,比如部分相同或相似的百分比或其它一些合适的度量。
比如说,A序列和B序列的相似性是80,或者4/5。
这是个量化的关系。
当然可进行自身局部比较。
3,同源性(homology):
指从一些数据中推断出的两个基因或蛋白质序列具而共同祖先的结论,属于质的判断。
就是说A和B的关系上,只有是同源序列,或者非同源序列两种关系。
而说A和B的同源性为80都是不科学的。
生物序列的同源性,4,相似性和同源性关系,序列的相似性和序列的同源性有一定的关系,一般来说序列间的相似性越高的话,它们是同源序列的可能性就更高,所以经常可以通过序列的相似性来推测序列是否同源。
正因为存在这样的关系,很多时候对序列的相似性和同源性就没有做很明显的区分,造成经常等价混用两个名词。
所以有出现A序列和B序列的同源性为80一说。
5,数据库搜索目的,确定特定的蛋白质或核酸序列有哪些已知的直系同源或旁系同源序列。
确定哪些蛋白质和基因在特定的物种中出现。
确定一个DNA或蛋白质序列身份。
发现新基因。
寻找对于一个蛋白质的功能或结构起关键作用的氨基酸残基。
6,Blast简介
(一),BLAST是由美国国立生物技术信息中心(NCBI)开发的一个基于序列相似性的数据库搜索程序。
BLAST是“局部相似性基本查询工具”(BasicLocalAlignmentSearchTool)的缩写。
7,Blast是一个序列相似性搜索的程序包,其中包含了很多个独立的程序,这些程序是根据查询的对象和数据库的不同来定义的。
比如说查询的序列为核酸,查询数据库亦为核酸序列数据库,那么就应该选择blastn程序。
下表列出了主要的blast程序。
Blast简介
(二),8,9,ProgramInputDatabase,10,11,Blast程序评价序列相似性的两个数据,Score:
使用打分矩阵对匹配的片段进行打分,这是对各对氨基酸残基(或碱基)打分求和的结果,一般来说,匹配片段越长、相似性越高则Score值越大。
Evalue:
在相同长度的情况下,两个氨基酸残基(或碱基)随机排列的序列进行打分,得到上述Score值的概率的大小。
E值越小表示随机情况下得到该Score值的可能性越低。
12,NCBI提供的Blast服务,登陆ncbi的blast主页,核酸序列,蛋白序列,翻译序列,底下有其他一些针对特殊数据库的和查看以往的比对结果等,13,Blast任务提交表单
(一),1.序列信息部分,填入查询(query)的序列,序列范围(默认全部),选择搜索数据库,如果接受其他参数默认设置,点击开始搜索,14,Blast任务提交表单
(二),设置搜索的范围,entrez关键词,或者选择特定物种,2.设置各种参数部分,一些过滤选项,包括简单重复序列,人类基因组中的重复序列等,E值上限,窗口大小,如果你对blast的命令行选项熟悉的话,可以在这里加入更多的参数,15,Blast任务提交表单(三),3.设置结果输出显示格式,选择需要显示的选项以及显示的文件格式,显示数目,Alignment的显示方式,筛选结果,E值范围,其他一些显示格式参数,点击开始搜索,16,提交任务,返回查询号(requestid),可以修改显示结果格式,修改完显示格式后点击进入结果界面,17,结果页面
(一),图形示意结果,18,结果页面
(二),目标序列描述部分,带有genbank的链接,点击可以进入相应的genbank序列,匹配情况,分值,e值,19,结果页面(三),详细的比对上的序列的排列情况,查询序列和目标序列之间的字母表示两个氨基酸相同,加号+表示两个氨基酸相似。
空白表示既不相同也不相似。
20,一个具体的例子(blastp),假设以下为一未知蛋白序列query_seqMSDNGPQSNQRSAPRITFGGPTDSTDNNQNGGRNGARPKQRRPQGLPNNTASWFTALTQHGKEELRFPRGQGVPINTNSGPDDQIGYYRRATRRVRGGDGKMKELSPRWYFYYLGTGPEASLPYGANKEGIVWVATEGALNTPKDHIGTRNPNNNAATVLQLPQGTTLPKGFYAEGSRGGSQASSRSSSRSRGNSRNSTPGSSRGNSPARMASGGGETALALLLLDRLNQLESKVSGKGQQQQGQTVTKKSAAEASKKPRQKRTATKQYNVTQAFGRRGPEQTQGNFGDQDLIRQGTDYKHWPQIAQFAPSASAFFGMSRIGMEVTPSGTWLTYHGAIKLDDKDPQFKDNVILLNKHIDAYKTFPPTEPKKDKKKKTDEAQPLPQRQKKQPTVTLLPAADMDDFSRQLQNSMSGASADSTQA我们通过blast搜索来获取一些这个序列的信息。
21,具体步骤,1.登陆blast主页http:
/www.ncbi.nlm.nih.gov/BLAST/2.根据数据类型,选择合适的程序3.填写表单信息4.提交任务5.查看和分析结果,22,分析过程
(一),1.登陆ncbi的blast主页,2.选择程序,因为查询序列是蛋白序列可以选择blastp,点击进入,也可以选择tblastn,作为演示,我们这里选blastp,23,分析过程
(二),3.填入序列(copypaste)Fasta格式,或者纯序列,4.选择搜索区域,这里我们要搜索整个序列,不填,5.选择搜索数据库,这里我们选nr(非冗余的蛋白序列库)。
是否搜索保守区域数据库(cdd),蛋白序列搜索才有。
我们选上,24,分析过程(三),6.限制条件,我们限制在病毒里面找。
7.其他选项保持默认值,打分矩阵,25,分析过程(四),8.输出格式选项保持默认值,9.点击开始搜索,26,分析过程(五),10.查询序列的一些相关信息,在cdd库里面找到两个保守区域,点击可以进入,27,分析过程(六),图形结果,28,分析过程(七),匹配序列列表,29,序列同源性的判断方法:
搜索结果是否显著查看E值列表,是否显著.如果是核酸序列,E10-6为显著;如果是蛋白质序列,E10-3为显著查看同一性分值如果是核酸序列,Identity70%为显著;如果是蛋白质序列,Identity25%为显著两个蛋白是否具有近似的大小,30,两个蛋白是否有共同的模体或信号序列.两个蛋白质是不是一个合理的多序列比对的一部分两个蛋白质是否共有一个相似的生物学功能.两个蛋白质是否具有相似的三维结构.PSI-BLAST搜索,31,BLAST搜索策略调整,搜索结果过多情况加Entrez限制条件利用序列的一部分进行搜索调整记分矩阵调整期望值搜索结果过少情况去掉Entrez限制提高期望值使用更高PAM值或更低BLOSUM值的记分矩阵高级BLAST搜索,32,进一步深入Blast,1.blast22.Megablast3.Psi-blast4.PHI-blast5.其他(rpsblast,blastclust等),33,Blast2,两个序列的blast比对,给定两个序列,相互进行blast比对。
能快速检查两个序列是否存在相似性片断或者是否一致。
这比起全序列比对要快很多。
34,Megablast,megablast采用了贪婪算法(greedyalgorithm),它连接了多个查询序列进行一次搜索比对,这样节省了很多搜索数据库的时间。
主要针对核酸序列。
是blast经过优化后,适用于由于测序或者其他原因形成的轻微的差别的序列之间的比较,比一般的相似性搜索程序要快10倍,可以很快的完成两组大数据的比对。
35,PSI-blast,PositionspecificiterativeBLAST(PSI-BLAST)位点特异的迭代blast搜索,主要针对蛋白序列。
第一次blast搜索后,结果中最相似的序列重新构建PSSM(位点特异性打分矩阵),然后再使用该矩阵进行第二轮blast搜索,再调整矩阵,搜索,如此迭代。
最终高度保守的区域就会得到比较高的分值,而不保守的区域则分数降低,趋近0。
这样可以提高blast搜索的灵敏度,有助于寻找远源相关的蛋白。
36,PHI-BLAST,模式识别BLAST(PatternhitintiatedBLAST)PHI-BLAST能找到与查询序列相似的符合某种模式(pattern)的蛋白质序列,37,Blast的算法基础,基本思想是:
通过产生数量更少的但质量更好的增强点来提高速度。
BALST算法是建立在严格的统计学的基础之上的。
它集中于发现具有较高的相似性的局部比对,且局部比对中不能含有空位(blast2.0引入了允许插入gap的算法)。
由于局部比对的限制条件,在大多数情况下比对会被分解为若干个明显的HSP(High-scoreSequencePairs)。
38,Blast的算法流程,39,Theend,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- Blast 使用 技巧