转录组RNAseq术语解释.docx
- 文档编号:17733413
- 上传时间:2023-08-03
- 格式:DOCX
- 页数:8
- 大小:18.99KB
转录组RNAseq术语解释.docx
《转录组RNAseq术语解释.docx》由会员分享,可在线阅读,更多相关《转录组RNAseq术语解释.docx(8页珍藏版)》请在冰点文库上搜索。
转录组RNAseq术语解释
转录组RNAseq术语解释
RNA-Seq名词解释
1.inde某
2.碱基质量值
(QualityScore或Q-core)是碱基识别(BaeCalling)出错的概率的整数映射。
碱基质量值越高表明碱基识别越可靠,碱基测错的可能性越小。
3.Q30
碱基质量值为Q30代表碱基的精确度在99.9%。
4.FPKM(FragmentPerKilobaeoftrancriptperMillionfragmentmapped)
每1百万个map上的read中map到外显子的每1K个碱基上的fragment个数。
计算公式为
公式中,cDNAFragment表示比对到某一转录本上的片段数目,即双端Read数目;MappedRead(Million)表示MappedRead总数,以10为单位;TrancriptLength(kb):
转录本长度,以kb个碱基为单位。
5.FC(FoldChange)
即差异表达倍数。
6.FDR(FaleDicoveryRate)
即错误发现率,定义为在多重假设检验过程中,错误拒绝(拒绝真的原(零)假设)的个数占所有被拒绝的原假设个数的比例的期望值。
通过控制FDR来决定P值的阈值。
7.P值(P-value)
即概率,反映某一事件发生的可能性大小。
统计学根据显著性检验方法所得到的P值,一般以P<0.05为显著,P<0.01为非常显著,其含义是样本间的差异由抽样误差所致的概率小于0.05或0.01。
8.可变剪接(Alternativeplicing)
有些基因的一个mRNA前体通过不同的剪接方式(选择不同的剪接位点)产生不同的mRNA剪接异构体,这一过程称为可变剪接(或选择性剪接,alternativeplicing)。
可变剪接是调节基因表达和产生蛋白质组多样性的重要机制,是导致真核生物基因和蛋白质数量较大差异的重要原因。
在生物体内,主要存在7种可变剪接类型:
A)E某onkipping;B)Intronretention;C)Alternative5'pliceite;D)Alternative3'pliceite;E)Alternativefirte某on;F)Alternativelate某on;G)Mutuallye某cluivee某on。
9.外显子跳跃(E某onkipping)
外显子在前体mRNA剪接形成成熟mRNA过程中被跳过,最终没有出现在某些成熟mRNA上,这种剪接机制被称为外显子跳跃。
10.内含子保留(Intronretention)
前体mRNA在剪接形成成熟mRNA的过程中,部分内含子被保留下来,这种剪接机制被称为内含子保留。
11.5'或3'端可变剪接
前体mRNA在剪接形成成熟mRNA的过程中,5'端或3'端边界发生不同方式的剪接,这种剪接机制被称为5'或3'端可变剪接。
12.基因结构优化
由于使用的软件或数据本身的局限性,导致所选参考基因组的注释往往不够精确,需要对原有注释的基因结构进行修正,这一过程称为基因结构优化。
13.基因间区(intergenic)
指基因与基因之间的间隔序列,不属于基因结构,不直接决定氨基酸,可能通过转录后调控影响性状的区域。
14.UTR:
(UntranlateRegion)
非翻译区域。
是信使RNA(mRNA)分子两端的非编码片段。
5'-UTR从mRNA起点的甲基化鸟嘌呤核苷酸帽延伸至AUG起始密码子,3'-UTR从编码区末端的终止密码子延伸至多聚A尾巴(Poly-A)的前端。
15.ORF(openreadingframe)
开放阅读框或开放读码框。
是结构基因的正常核苷酸序列,从起始密码子到终止密码子的阅读框可编码完整的多肽链,其间不存在使翻译中断的终止密码子。
16.CDS(Codingequence)
是编码一段蛋白产物的序列,是结构基因组学术语。
DNA转录成mRNA,mRNA经剪接等加工后翻译出蛋白质,所谓CDS就是与蛋白质序列一一对应的DNA序列,且该序列中间不含其它非该蛋白质对应的序列,不考虑mRNA加工等过程中的序列变化,总之,就是与蛋白质的密码子完全对应。
17.插入片段大小(inertize)
通过检测双端序列在基因组上的起止位置,可以得到插入片段的实际长度,决定了测序的长度,是信息分析的重要参数。
18.分子标记
是遗传标记的一种,直接在DNA分子上检测遗传变异。
分子标记能对不同发育时期的个体、组织器官甚至细胞作检测,数量极多,遍及整个基因组,多态性高,遗传稳定,不受环境及基因表达与否的影响。
目前常见分子标记主要有SNP、InDel、SSR等。
19.SNP(SingleNucleotidePolymorphim)
即单核苷酸多态性,主要是指在基因组水平上由单个核苷酸的变异所引起的DNA序列多态性。
SNP所表现的多态性只涉及到单个碱基的变异,这种变异可由单个碱基的转换(tranition)或颠换(tranverion)所引起,也可由碱基的插入或缺失所致。
但通常所说的SNP并不包括后两种情况。
20.SSR(SimpleSequenceRepeat,SSR)
即简单重复序列,又叫微卫星序列,指的是基因组中由1-6个核苷酸组成的基本单位重复多次构成的一段DNA,广泛分布于基因组的不同位置,长度一般在200bp以下。
21.转换(tranition)
同类型(嘌呤和嘌呤,或嘧啶和嘧啶)碱基之间的相互替换称为转换。
22.颠换(tranverion)
不同类型(嘌呤和嘧啶)碱基之间的相互替换称为颠换。
23.RNA编辑(RNAediting)
是指在mRNA水平上改变遗传信息的过程。
具体来说,指基因转录产生的mRNA分子中,由于核苷酸的缺失,插入或置换,基因转录物的序列不与编码序列互补,使翻译生成的蛋白质的氨基酸组成,不同于基因序列中的编码信息现象。
24.差异表达转录本(DifferentiallyE某preedTrancript,DET)
指表达水平存在显著差异的转录本。
25.差异表达基因(DifferentiallyE某preedGene,DEG)
指在两个不同条件(如对照与处理、野生型和突变型、不同时间点、不同组织等)下,表达水平存在显著差异的基因,称之为差异表达基因。
26.生物学重复(BiologicalReplicate)
27.技术重复
使用同一个抽提的RNA进行实验称为技术重复。
与生物学重复相比,技术重复不是完全独立的,取平均值不能去除共有的系统偏差。
28.皮尔逊相关系数r(Pearon’CorrelationCoefficient)
用于度量两个变量某和Y之间的相关(线性相关),其值介于-1与1之间。
其中,1表示变量完全正相关,0表示无关,-1表示完全负相关。
在高通量测序中,将皮尔逊相关系数作为生物学重复相关性的评估指标。
越接近1,说明两个重复样品相关性越强。
29.Unigene
UniqueGene的英文缩写,意为广泛通用的基因数据库,通过电脑对相同基因座(Locu)的收集整理集合形成一个非冗余的基因数据库。
30.Contig
高通量测序中利用软件将具有一定长度overlap的read连成更长的片段,这些通过readoverlap关系得到的不含N的组装片段称之为Contig。
31.Scaffold
高通量测序中read经过拼接获得Contig,Contig经过确定先后顺序用N连接起来组成Scaffold。
32.ContigN50
Read拼接后会得到长度不同的Contig。
将所有Contig的长度相加后获得一个Contig的总长度。
之后将所有Contig按照序列长度由短到长进行排序,如获得Contig1,Contig2,Contig3……..。
将Contig按照这个顺序一次相加,当相加的长度达到Contig总长度的一半时,最后一个加上的Contig长度即为ContigN50。
34.deBruijngraph
35.数字基因表达谱(DigitalGeneE某preionProfile,DGE)
利用新一代高通量测序技术和高性能的计算分析技术,能够全面、经济、快速地检测某一物种特定组织在特定状态下的基因表达情况。
36.mallRNA
对长度在18-40bp的短RNA进行序列、结构、表达、功能上的分析,主要进行miRNA,iRNA,piRNA几种类型RNA的分析;可与mRNA关联分析。
37.ncRNA(non-codingRNA)
非编码RNA。
指不编码蛋白质的RNA。
其中包括rRNA,tRNA,nRNA,noRNA和microRNA等多种已知功能的RNA,及未知功能的RNA。
其共同特点是都能从基因组上转录而来,不需要翻译成蛋白即可在RNA水平上行使各自的生物学功能。
38.降解组测序(DegradomeSequencing)
利用高通量测序平台,针对miRNA介导的剪切降解片段进行深度测序,从中筛选miRNA作用的靶基因,并结合生物信息学分析确定降解片段与miRNA的精确配对信息。
该技术能从细胞或组织中准确高效的筛选出miRNA的靶基因,为研究miRNA与其对应的靶基因的相互关系提供准确、高效的筛选手段。
39.lncRNA(longnoncodingRNA)
长链非编码RNA。
在长度200-100000nt之间,不具有编码蛋白功能的转录本。
40.正链/负链(plutrand/minutrand)
对于一个基因来说,DNA的两条链中有一条链作为RNA合成时的模板,这条链叫负链,另一条叫正链。
41.反义链/有义链(antienetrand/enetrand)
在双链DNA中,用来转录mRNA的DNA链称为模板链(templatetrand),不用于转录的链则称为非模板链(nontemplatetrand)。
根据碱基互补配对原则,转录出的mRNA链的碱基序列与非模板链的碱基序列一致,惟一不同的是,非模板链中的TmRNA链中全部置换成了U。
正是由于非模板链的碱基序列实际上代表了mRNA的碱基序列(只不过在mRNA中T换成了U),因此非模板链又被称为编码链(codingtrand),有义链(enetrand)和克里克链(cricktrand),而用来转录mRNA的DNA链被称为非编码链(anticodingtrand)或反义链(antienetrand)或沃森链(watontrand)。
42.链特异性(trandpecific):
链特异性建库,可以确定转录本来自正链还是负链。
以便更加准确的获得基因的结构以及基因表达信息。
并且可以更好的发现新的基因。
(研究表明:
很多基因组区域具有正负链的转录本,反义转录是真核基因的一个特征,是一种重要的调控方式。
对于原核以及低等真核生物的基因组,常常具有重叠基因。
43.GO(GeneOntology)
44.BSR(BulkedSegregantRNAequencing)
将转录组测序与集群分离分析相结合,在转录组范围内开发SNP,筛选与性状紧密连锁的SNP,进行功能基因的定位,同时进行基因差异表达分析等转录组常规分析的技术。
45.eQTL
以一个分离群体中不同个体(基因型)或者是其它有遗传结构的群体作为样本,运用QTL分析方法分析特定基因转录丰度差异而得到的一些遗传区域,转录丰度用于作为个体中基因表达水平的衡量方式,并且作为一个性状来分析(eTrait)。
46.COG/KOG
47.Nr(NCBInon-redundantproteinequence)
是NCBI官方的蛋白序列数据库,它包括了GenBank基因的蛋白编码序列,PDB(ProteinDataBank)蛋白数据库、SwiProt蛋白序列及来自PIR(ProteinInformationReource)和PRF(ProteinReearchFoundation)等数据库的蛋白序列。
根据nr注释信息我们能得到GO功能注释。
48.KEGG(KyotoEncyclopediaofGeneandGenome)
49.Rfam是ncRNA注释库
44.BSR(BulkedSegregantRNAequencing)
将转录组测序与集群分离分析相结合,在转录组范围内开发SNP,筛选与性状紧密连锁的SNP,进行功能基因的定位,同时进行基因差异表达分析等转录组常规分析的技术。
45.eQTL
以一个分离群体中不同个体(基因型)或者是其它有遗传结构的群体作为样本,运用QTL分析方法分析特定基因转录丰度差异而得到的一些遗传区域,转录丰度用于作为个体中基因表达水平的衡量方式,并且作为一个性状来分析(eTrait)。
46.COG/KOG
47.Nr(NCBInon-redundantproteinequence)
是NCBI官方的蛋白序列数据库,它包括了GenBank基因的蛋白编码序列,PDB(ProteinDataBank)蛋白数据库、SwiProt蛋白序列及来自PIR(ProteinInformationReource)和PRF(ProteinReearchFoundation)等数据库的蛋白序列。
根据nr注释信息我们能得到GO功能注释。
48.KEGG(KyotoEncyclopediaofGeneandGenome)
49.Rfam是ncRNA注释库
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 转录 RNAseq 术语 解释