基因组测序技术和基因识别完整

基因组测序技术和基因识别完整

ID:27408268

大小:1.51 MB

页数:54页

时间:2018-12-02

基因组测序技术和基因识别完整_第1页
基因组测序技术和基因识别完整_第2页
基因组测序技术和基因识别完整_第3页
基因组测序技术和基因识别完整_第4页
基因组测序技术和基因识别完整_第5页
资源描述:

《基因组测序技术和基因识别完整》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、基因组测序技术和基因识别主要内容一、基因组测序技术二、基因识别一、基因组测序技术大规模DNA测序技术使全基因组的测序成为可能。现有测序仪所能测得的序列长度有限,一般500-1000bp。而基因组序列长度远大于此,必须经过下列过程才能测得:打碎测序拼接鸟枪法杂交测序法1、鸟枪法鸟枪法(shotgunmethod),也称霰弹法。将DNA分子打碎,得到长度在500-1000bp之间的小片段,对这些片段测序,然后根据他们之间的关系进行拼接,得到最终目标序列。序列片段覆盖待测序列序列片段之间也存在着相互覆盖或者重叠。目标序列序列碎片拼接过程以每个片段为顶点,在每个顶点之间

2、画有向边,有向边的权值代表交叠的字符d得到三发送个数,方向由交叠序列前片段指向后片段。AGGTCCTAAAAGGTCCTAAAAGGTCCTAAAAGGTCCTAAA1341113拼接过程查找能顺箭头方向依次经过各顶点的所有通路中权值之和最大的,即为拼接后的序列。1adbc,权值82bcad,权值73badc,权值54cadb,权值105dbca,权值8拼接结果:AGGTCCTAAA最大权的哈密顿路径问题(Hamiltontourproblem)AGGTCCTAAAAGGTCCTAAA1341113abcd2、杂交测序法杂交测序法(sequencingbyhyb

3、ridization,SBH)基本原理是:构建基因微阵列(microarray,也称基因芯片,genechip),让待测序列与其反应,然后由反应获得的信息确定待测序列的局部序列,最后根据这些局部序列重构目标序列。基因微阵列(microarray,也称基因芯片,genechip),将高密度DNA片段阵列以一定的排列方式使其附着在基片上而形成。AAATAGACTATTTGTCGAGTGGGCCACTCGCCAAATAGACTATTTGTCGAGTGGGCCACTCGCCGCACCTGAACTGCACT目标序列:CGTGACT互补序列:GCACTGA由测出的局部序列:

4、GCAC、ACTG、CTGA、CACT,可以重构目标序列的互补序列GCACTGA,从而得到目标序列CGTGACT。可用求最大权值的哈密顿路径的方法求解。也可用欧拉路径的方法求解,该算法较省时。3、拼接软件Phred、Phrap、Consedhttp://www.phrap.orgSequencherContigExpress>1aggtcc>2taaa>3agg>4tcctaaa二、基因识别基因组(genome)是指一个生物体、细胞或病毒的整套基因。基因组学(genomics)以基因组分析为手段,研究基因组的构成、时序表达模式和功能,并提供有关生物物种及其细胞功

5、能的进化信息。功能基因组学研究基因和非编码序列生物学功能。比较基因组学通过生物物种基因组之间的比较,研究基因的功能。基因识别是识别DNA序列上的具有生物学特征的片段,是基因组研究的基础。基因识别是生物信息学领域里的一个重要研究内容基因识别问题,在近几年受到广泛的重视当人类基因组研究进入一个系统测序阶段时,急需可靠自动的基因组序列翻译解释技术,以处理大量已测定的但未知功能或未经注释的DNA序列1、原核基因识别原核基因特点:基因密度高、简单(绝大多数不含内含子)。其重点在于识别编码区域非翻译区域(untranslatedregions,UTR)编码区域两端的DNA,

6、有一部分被转录,但是不被翻译,这一部分称为非翻译区域5’UTR---基因上游区域的非翻译区域3’UTR---基因下游区域的非翻译区域对于任何给定的核酸序列(单链DNA或mRNA),根据密码子的起始位置,可以按照三种方式进行解释。例如,序列ATTCGATCGCAA这三种阅读顺序称为阅读框(readingframes)CAAAATTCGATCGATTCGATCGCAAATTCGATCGCA(1)(3)(2)一个开放阅读框(ORF,openreadingframe)是一个没有终止编码的密码子序列。原核基因识别任务的重点是识别开放阅读框,或者说识别长的编码区域。基于基因

7、密码子特性的识别方法辨别编码区域与非编码区域的一种方法是检查终止密码子的出现频率终止密码子出现的期望次数为:每21个(64/3)密码子出现一次终止密码子基本思想:如果能够找到一个比较长的序列,其相应的密码子序列不含终止密码子,则这段序列可能就是编码区域。基本算法:扫描给定的DNA序列,在三个不同的阅读框中寻找较长的ORF。遇到终止密码子以后,回头寻找起始密码子。这种算法过于简单,不适合于处理短的ORF或者交叠的ORF。识别编码区域的另一种方法是分析各种密码子出现的频率将一个随机均匀分布的DNA序列翻译成氨基酸序列,则在氨基酸序列中上述3种氨基酸出现的比例应该为

8、6:4:1例如,亮氨酸、

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。