欢迎来到冰点文库! | 帮助中心 分享价值,成长自我!
冰点文库
全部分类
  • 临时分类>
  • IT计算机>
  • 经管营销>
  • 医药卫生>
  • 自然科学>
  • 农林牧渔>
  • 人文社科>
  • 工程科技>
  • PPT模板>
  • 求职职场>
  • 解决方案>
  • 总结汇报>
  • ImageVerifierCode 换一换
    首页 冰点文库 > 资源分类 > DOCX文档下载
    分享到微信 分享到微博 分享到QQ空间

    生物信息学bioinformatics近完整版 Microsoft Word 文档 21.docx

    • 资源ID:3882731       资源大小:77.73KB        全文页数:20页
    • 资源格式: DOCX        下载积分:3金币
    快捷下载 游客一键下载
    账号登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录 QQ登录
    二维码
    微信扫一扫登录
    下载资源需要3金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP,免费下载
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    生物信息学bioinformatics近完整版 Microsoft Word 文档 21.docx

    1、生物信息学bioinformatics近完整版 Microsoft Word 文档 21一什么是生物信息学?Genome informatics is a scientific discipline that encompasses all aspects of genome information acquisition, processing, storage, distribution, analysis, and interpretation. ( 它是一个学科领域,包含着基因组信息的获取、处理、存储、分配 、分析和解释的所有方面。) (The U.S. Human Genome Pr

    2、oject: The First Five Years FY 1991-1995, by NIH and DOE) 生物信息学是把基因组DNA序列信息分析作为源头,破译隐藏在DNA序列中的遗传语言,特别是非编码区的实质;同时在发现了新基因信息之后进行蛋白质空间结构模拟和预测。生物信息学的研究目标是揭示“基因组信息结构的复杂性及遗传语言的根本规律”。它是本世纪自然科学和技术科学领域中“基因组、“信息结构”和“复杂性”这三个重大科学问题的有机结合。How to find the coding regions in rude DNA sequence?By signals or By content

    3、s Among the types of functional sites in genomic DNA that researchers have sought to recognize are splice sites, start and stop codons, branch points, promoters and terminators of transcription, polyadenylation sites, ribosomal binding sites, topoisomerase II binding sites, topoisomerase I cleavage

    4、sites, and various transcription factor binding sites. Local sites such as these are called signals and methods for detecting them may be called signal sensors.二新基因和新SNPs的发现与鉴定大部分新基因是靠理论方法预测出来的。比如啤酒酵母完整基因组 (约1300万bp) 所包含的 6千多个基因,大约 60 是通过信息分析得到的。a)、利用 EST( Expression Sequence Tag) 数据库 (dbEST) 发现新基因和

    5、新SNPs 国际上现已出现了几个基于EST的基因索引如UniGene (ftp:/ncbi.nlm.nih.gov/pub/schuler/ unigene) , Merck-Gene Index (http:/genome.wustl.edu/est/esthmpg.html ) , GenExpress-index ( http:/www.cshl.org ) ,这些基因索引数据库(即二次数据库)构建了基因框架,极大地方便了相关研究者。 超大规模计算b)、从基因组 DNA序列中预测新ORF两者区别:前者是利用EST数据库进行片段的拼接与组装,而后者是利用基因组数据库的基因序列进行识别、预测

    6、,三基因电脑克隆基因电脑克隆的实质: 以一个序列片段为线索, 通过它和整个数据库的比较, 还原出全序列原貌。原理:当测序获得一条EST序列时,它来自哪一个基因的哪个区域是未知的(随机的),所以属于同一个基因的不同EST序列之间常有交叠的区域。根据这种“交叠”现象,就能找出属于同一个基因的所有EST序列,进而将它们拼接成和完整基因相对应的全长cDNA序列。可行性:到目前为止, 公共EST数据库(dbEST)中已经收集到约800万条的人的EST序列。估计这些序列已覆盖了人类全部基因的95%以上,平均起来每个基因有10倍以上的覆盖率。 嵌合体cDNA是指来源于不同基因的序列,由于偶然因素被组装在一起

    7、形成的Contig。我们构建的神经网络能探测组装过程形成的嵌合体。4EST 利用 EST( Expression Sequence Tag) 数据库 (dbEST) 发现新基因和新SNPs EST数据库质量相对较低,就象许多文献报道,发现了许多内含子,克隆载体,多酶切点,ALU以及3、5非翻译序列(统称污染序列,也称载体序列或非insert序列)被包含在EST数据库中,这使得EST序列分析复杂化。因此在进行Contig电脑组装之前,需要探测并去除EST数据库中的污染序列。为探测并去除EST数据库中的污染序列,必须建立载体库,对种子库和人EST库中的每条序列扫描其前端和尾部检查上述非Insert

    8、序列,并去除。全长cDNA标注涉及到mRNA的5端即转录起始位点区、第一个ATG、开读框架、终止密码子和3端的确认。目前国际上各种二次数据库的建立和公布,使得我们有可能利用现有的数据源,通过同源性比较来预测mRNA的5端,最常用的与转录起始位点相关的数据库是真核启动子数据库(The TRADAT Project , Eukaryotic Promoter Database, EPD. http:/www.epd.unil.ch/ )。 开读框架(Open Reading Frame: ORF)的预测常与第一个ATG和终止密码子的确定相关,但由于EST序列相对较低的测序质量,在测序过程中出现的碱

    9、基删除或插入错误(称为indel错误)将引起读框移动,甚至出现假终止密码子,所以,仅凭第一个ATG和终止密码子是不足以确定ORF的。我们结合下述几种方法对Contigs进行标注,先用复合人工神经网络系统预测Contig编码蛋白的可能性,然后采用NCBI的ORF预测软件 ( ORF finder: http:/www.ncbi.nlm.nih.gov/gorf/orfig.cgi )初步判断ORF的可能范围。第一个ATG的确定则依据Kozak规则和信号肽分析软件(SignalP http:/www.cbs.dtu.dk/services/signalP )的结果。所谓Kozak规则,即第一个AT

    10、G侧翼序列的碱基分布所满足的统计规律,若将第一个ATG中的碱基A,T,G分别标为1,2,3位,则Kozak规则可描述如下:(1)第4位的偏好碱基为G;(2)ATG的5端约15bp范围的侧翼序列内不含碱基T;(3)在-3,-6和-9位置,G是偏好碱基;(4)除-3,-6和-9位,在整个侧翼序列区,C是偏好碱基。Kozak规则是基于已知数据的统计结果,为获得高可信度的结果,我们把预测过程中证实含完整mRNA 5端的Contig翻译为蛋白序列,然后用SignalP软件对前50个氨基酸序列(从第一个ATG对应的甲硫氨酸Met开始)进行评估,如果SignalP分析给出正面结果,则测试序列有可能为信号肽,

    11、假如在该测试序列的第一个Met 5端存在终止密码子,该序列为信号肽的可能性更大。3端的确认主要根据Poly(A)尾序列,若测试Contig不含Poly(A)序列,则根据加尾信号序列“AATAAA”和BLAST同源性比较结果共同判断。 嵌合体cDNA是指来源于不同基因的序列,由于偶然因素被组装在一起形成的Contig。我们构建的神经网络能探测组装过程形成的嵌合体。 EST数据也可用来帮助研究基因的可变剪接和发现非编码RNA。5完整基因组的比较研究是一个新方向研究生命是从哪里起源的?生命是如何进化的?遗传密码是如何起源的?估计最小独立生活的生物至少需要多少基因,这些基因是如何使它们活起来的?比如,

    12、鼠和人的基因组大小相似,都含有约三十亿碱基对,基因的数目也类似。可是鼠和人差异确如此之大,这是为什么?同样,有的科学家估计不同人种间基因组的差别仅为 0.1%;人猿间差别约为1%。但他们表型间的差异十分显著。 这又为什么?完整基因组序列的比较研究是解决这些问题的重要途径。六基于序列数据的生物进化研究当前面临的问题自1859年 Darwin 的物种起源 (Origin of Species) 发表以来,进化论成为对人类自然科学和自然哲学发展的最重大贡献之一。 进化论研究的核心是描述生物进化的历史(系统进化树)和探索进化过程的机制。自本世纪中叶以来,随着分子生物学的不断发展,进化论的研究也进入了分

    13、子水平。当前分子进化的研究已是进化论研究的重要手段,并建立了一套依赖于核酸、蛋白质序列信息的理论方法。建树步骤:序列相似性比较。就是将待研究序列与DNA或蛋白质序列库进行比较,用于确定该序列的生物属性,也就是找出与此序列相似的已知序列是什么。完成这一工作只需要使用两两序列比较算法。常用的程序包有BLAST、FASTA等;序列同源性分析。是将待研究序列加入到一组与之同源,但来自不同物种的序列中进行多序列同时比较,以确定该序列与其它序列间的同源性大小。这是理论分析方法中最关键的一步。完成这一工作必须使用多序列比较算法。常用的程序包有CLUSTAL等;构建系统进化树。根据序列同源性分析的结果,重建反

    14、映物种间进化关系的进化树。为完成这一工作已发展了多种软件包,象PYLIP、MEGA等;稳定性检验。为了检验构建好的进化树的可靠性,需要进行统计可靠性检验,通常构建过程要随机地进行成百上千次,只有以大概率(70以上)出现的分支点才是可靠的。通用的方法使用 Bootstrap算法,相应的软件已包括在构建系统进化树所用的软件包当中。为便于使用者查找表三给出了进化分析相关软件的因特网地址。 More and more LGT(Lateral Gene Transfer ) were discovered and reported. Some people guess 1.5%14.5% of gene

    15、s in a genome are related with LGT, even rRNA molecules are involved in LGT; Garcia-Vallv S, Romeu A, Palau J. ,Genome Res, 2000, 11, 17191725 Yap W H, Zhang Z, Wang Y. , J. Bacteriol. 1999, 181: 52015209 Some people argue it is impossible to reconstruct a universal life tree; Pennisi E. ,Science, 1

    16、999, 284: 13051307 Doolittle R F.,Nature, 1998, 392: 339342As more and more whole genome sequence and the related data become available, it is possible to re-consider the phylogeny and clustering properties of species in more broad measurements, even in level of whole genome.Phylogeny Based on Whole

    17、 Genome as inferred from Complete Information Set Analysis (CISA) we present a new method based on information theory to calculate the phylogenic distance between biological sequences, including 16s Ribosomal RNA, which is used for method proof-test, 24 completely sequenced genomes, as well as all p

    18、redicted ORF products of them, creating Phylogeny of genome and proteome using neighboring-joining algorithm. Scientists have already been conscious of that no other biological sequence can bring more phylogenetic information than the genome. However, previous algorithms dont have the ability to han

    19、dle such megabase level nucleic acid or amino acid sequences, whose length sizes are in most cases unequal. 七2000年基因组研究的三个突出方面1. 干细胞作为基因组研究的重要选材Celera Genomics And Geron Corporation Announce Collaboration For Human Pluripotent Stem Cell (Genomics June 12, 2000) The objective of the collaboration is

    20、to identify and assign function to genes important in early human development, and to utilize the information to develop small molecule pharmaceuticals, protein therapeutics, cell and gene therapies, diagnostics, and tools for use in drug discovery and testing. 2. SNP研究的国际大协作The SNP Consortium Ltd.

    21、is a non-profit foundation organized for the purpose of providing public genomic data. Its mission is to develop up to 300,000 SNPs distributed evenly throughout the human genome and to make the information related to these SNPs available to the public without intellectual property restrictions. 856

    22、,666 mapped SNPs,is now available.(July 11, 2000)Human Genome Project and SNP Consortium Announce Collaboration 3. DNA芯片的广泛使用8大规模基因功能表达谱的分析随着人类基因组测序逐渐接近完成,人们自然会提出如下的问题:即使我们已经获得了人的完整基因图谱,那我们对人的生命活动能说明到什么程度呢?人们进一步提出了一系列由上述数据所不能说明的问题,例如:基因表达的产物是否出现与何时出现;基因表达产物的量是多少;是否存在翻译后的修饰过程,若存在是如何修饰的;基因敲除(knock-out

    23、)或基因过度表达的影响是什么;多基因差异表达与表现型关系如何等等。概括这些问题,其实质应该是:知道了核酸序列和基因,我们依然不知道它们是如何发挥功能的,或者说它们是如何按照特定的时间、空间进行基因表达的,表达量有多少。 基因芯片Microarray:An arrayed series of thousands of tiny DNA oligonucleotide samples imprinted on a small chip.mRNAs can be hybridized to microarrays to asseess the amount and level of gene exp

    24、ression.(GENES X)通常芯片数据分析有如下的一些步骤,它们的每一步都与生物信息学相关:Scanning(扫描):读取芯片上的光密度。因为芯片上的点都是被荧光染料标记的(一般有红、绿两种颜色),荧光强度就代表了基因的表达量;Gridding(网格化):确定芯片每一个杂交点的位置。具体说来,它要做三件事情,即:发现每一个杂交点;按照信号的强弱等级分割信号和背景的边界;分别读取信号和背景的光强度。Normalization(标准化):对所有信号进行标准化,使光密度值能正确代表基因表达量。这是芯片数据分析中非常重要的一步。为什么要对数据进行标准化呢?这是因为很多因素都可影响芯片上的光密度

    25、,如:载体(象玻璃)表面不干净、染料不纯、空气中的灰尘污染;背景光的照射方式;光点大小以及对不同的杂交点荧光效率不同等;Clustering(聚类):将具有相同特征(如:相同功能、相同表达趋势)的基因聚集在一起。这只是芯片分析方法的一个代表,不同的方法还有很多。常用的方法有:Clustering 方法,也称聚类方法,它是无监管的学习方法。这是芯片分析中使用最广泛的方法 30,31 ,它比较适合分析具有某种共同表达特征的数据,象,由共同细胞类型产生的芯片数据,例如:对照和样品来自同一组织; Classification方法,也称分类方法,它是有监管的学习方法 32。它非常适用于基因按其生物学功能

    26、分类的情况,例如:肿瘤的分类 33 ;多变量统计也是芯片数据的常用分析方法 34 。其中单组分分析和多维标度可有效地减低系统的维数。这种方法常用于分析信号贫乏的数据集 35 来探测特定基因的表达概率 36 。尽管发展了很多方法,但基因表达模式的研究才刚刚开始,大量的问题尚未解决,例如:目前的分析还只能停留在一类基因或一组基因上,还不能有效地区分它们之间的关联,同时也很难获取非常重要也很有兴趣的若干低表达基因象,转录因子以及受体的信息。为此,将基因表达数据与序列数据、pathway数据以及生物医学实验数据结合起来共同分析可能是未来的发展趋势。用于基因芯片分析的重要软件有:TIGR(The Ins

    27、titute for Genomic Research)芯片数据分析软件包 41 :它由三个软件组成。MultipleExperimentViewer (TMEV)是用Java语言设计的。用于对芯片数据标准化及进行聚类和距离代数的分析。本软件还有图形显示界面。但要运行此软件必须Sun JRE 和 J3D 1.2版本以上的系统; ArrayViewer是一个简化的芯片数据分析软件,用于设备条件不允许使用TMEV时;Spotfinder是用于芯片信号收集和图象处理的。它是用C和C+写成在 PC Windows NT/98环境下运行的。这些软件是可以下载的。 尽管芯片技术有极为广泛的前景,但对海量芯

    28、片数据的分析依然存在很多尚未解决的问题。如:(1)芯片上光密度数据标准化的理论方法研究。 为了保证芯片上每一个杂交点的光密度值都能正确地代表基因产物的表达量,需要在整个芯片范围内同时对所有点的光密度值进行标准化。这是一个多点非线性的拟合问题,当前虽有很大进展,但仍需发展新的理论方法。(2) 含有大量无定义元的大规模矩阵数据处理的方法研究:当根据信噪比对芯片数据进行筛选时,可能有约60%杂交点的数值不可靠,要舍去,这样就导致大量矩阵元无定义。如何处理这种数据也要发展新方法。(3)大规模基因功能表达谱数据挖掘和知识发现:这是表达谱研究成功与否的关键。只有找到成百上千个表达水平发生变化基因之间在实现

    29、生物功能上的关联,才能充分揭示基因功能表达谱数据蕴含的丰富信息。 功能基因组信息分析的进一步工作必然是获取基因调节网络的知识。这在肿瘤研究中尤其重要,因为肿瘤往往是多基因病,只有了解了这些基因的内在关系后,才能对其病理有根本的认识,也才能有好的诊断、治疗方案。在基因调节网络这一领域已有了一些探索。 下一步,随着多层次、多类型的海量信息的增加,功能基因组研究将朝着复杂系统的方向发展,即:探讨生物系统中各部分、各层次的相互作用,从而进入系统生物学的领域。 蛋白质芯片与蛋白质组技术 二维电泳技术与质朴测序技术?蛋白质芯片的概念虽然在上一世纪八十年代就已提出,但进展较为缓慢。它主要研究蛋白与蛋白以及蛋

    30、白与配体(药物)的相互作用。近年来有了一定进展,哈佛大学的一个研究组已实现了包括一万多个蛋白样品的玻璃载体芯片。蛋白芯片研制的最大困难是同时得到数以万记的纯样品并保持它们的天然构象。蛋白质组学技术和基因芯片技术一样是功能基因组的研究手段,与基因芯片不同的是,它是在蛋白质水平获取基因功能表达谱。由于它使用二维凝胶电泳和测序质谱,所以在分析软件和数据库的使用上与基因芯片有所不同。按照蛋白质组的研究过程,使用的分析软件和数据库有:1.二维凝胶电泳分析,用于从胶图上鉴定蛋白位点;2.蛋白识别,用于从质谱相关数据,象,电荷数、分子量、氨基酸组分、序列标识和MS指纹图确定蛋白;3.DNA和蛋白质序列相互转

    31、换,包括通过EST的序列延长;4.序列相似性比较;5.特定模式的发现,象:预测信号肽、糖基化位点、磷酸化位点、酶切位点等;6.序列物理化学性质分析,象,PI、消光系数、疏水性等;7.二级结构预测;8.空间结构预测;9.膜蛋白过膜区预测;10.蛋白质亚细胞定位;11.蛋白代谢Pathway;12.蛋白相互作用等。相关网站有:http:/www.expasy.ch/melanie/;http:/www.expasy.ch/tools/; http:/prospector.ucsf.edu/ucsfhtml3.4/msfit.htm; http:/psort.nibb.ac.jp/; http:/e

    32、cocyc.org; http:/www.ebi.ac.uk/proteome/; 等。Protein Identification: HPLC-MS-MS蛋白质组鸟枪法策略用不同的酶水解同一蛋白得到不同的片断用De Novo方法测出蛋白质的片断将这些片断进行拼接给出较长(甚或全长)的蛋白序列。从而做到真正的database-independed蛋白测序。蛋白质鸟枪法策略可行性:我们目前得到最大的正确片断是8个氨基酸肽段。至少也能得到4个氨基酸肽段。氨基酸有20种,在序列拼接中我们可以只利用23个氨基酸的信息。因此序列是可以延长的。9干细胞研究进展的权威评述 Celeras agreement with Geron is important because we will be using human pluripotent stem cells-the most basic form of human cells that contain a diverse set of genes


    注意事项

    本文(生物信息学bioinformatics近完整版 Microsoft Word 文档 21.docx)为本站会员主动上传,冰点文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰点文库(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    copyright@ 2008-2023 冰点文库 网站版权所有

    经营许可证编号:鄂ICP备19020893号-2


    收起
    展开