表达序列标签有关知识总结

表达序列标签有关知识总结

ID:12734304

大小:24.43 KB

页数:5页

时间:2018-07-18

表达序列标签有关知识总结_第1页
表达序列标签有关知识总结_第2页
表达序列标签有关知识总结_第3页
表达序列标签有关知识总结_第4页
表达序列标签有关知识总结_第5页
资源描述:

《表达序列标签有关知识总结》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、个人总结:我觉得要做好电子延伸,必须要把它上升到系统的高度。基本同意starrweb战友的提法(那个图8错)。电子延伸系统应该有以下几个部分组成:预处理(pre-processing)、聚类(clustering)、拼接(assembly)和分析(analysis)。一.预处理仅仅去除载体序列是不够的:1.去除载体序列,用crossmatch程序。载体序列库为ftp://ncbi.nlm.nih.gov/repository/vector2.将ESTs序列将与人重复序列库(RepBase,http://www.girinst.org)比较,去除

2、重复序列,这样可以提高拼接的效率。3.其它潜在的污染序列(如鼠DNA序列、线粒体、核糖体DNA序列等)前些时候就发现一些EST数据中存在线粒体序列污染(发了第一个SOS的帖子,得到了我在DXY的第一分),大家应该根据具体的数据来源来分析可能的污染.4.还有几种污染属于研究前沿,至今没有很好的解决。包括:来自基因组DNA的污染、来自pre-mRNA的污染、跨越非常规内含子(不是以GT或GC开头和AG结尾的内含子)的EST,这些都会影响拼接的成功率和正确率。二.聚类(clustering):在对大量ESTs数据进行分析时,情况比较复杂,从概念上区分

3、“聚类”和“拼接”是必要的。聚类过程的目的是将标记同一基因相同转录本的、具有重叠部分(over-lapping)的ESTs整合至单一的簇(cluster)中。用BLAST和fasta进行同源性搜索其实就是聚类的前导工作。搜索UNIGENE数据库也是一个完成聚类的捷径(本论坛http://www.dxy.cn/bbs/post/view?bid=73&id=1361500&sty=1&tpg=1&age=0讲了这个方法),但是我的经验是UNIGENE是一个错误比较多的数据库,最好在选取了unigene的某个cluster以后对它进行处理,再在基因

4、组上校正一下错误,我发现unigene的含错率还是比较高的,会对你的下一步拼接造成很大的影响。所以不可偷懒不校正。另外各种拼接软件拼接前其实也预先完成了一个聚类的过程。聚类分为不严格的和严格的聚类(looseandstringentclustering):不严格的聚类:不严格的聚类系统产生大的、“松散”的类。在所形成的每一类中,表达基因ESTs数据的覆盖率高,含有同一基因不同的转录形式,如各种选择性剪接体、由选择不同的多腺苷酸位点(polyadenylationsite)而产生的不同的转录本等。其主要缺点在于每一类中可能包含旁系同源基因(par

5、alogousexpressedgene)的转录本,信噪比低,序列的忠实性低。这种系统的代表,如STACK采用的基于字的聚类算法,即d-square聚类。严格的聚类:严格的聚类系统产生高度相关的聚类成员,因此忠实性更加可靠。但是,表达基因ESTs数据的覆盖率低,因此所含有的同一基因的不同转录形式少。这种系统的代表,如TIGR的GeneIndices所采用的类似于BLAST和FASTA的序列比对程序FLAST。三.几种拼接程序及其评价:前四个比较经典1.PHRAP(phragmentassemblyprogram)(http://bozeman.

6、genome.washington.edu/index.html)是一个拼接霰弹法产生的序列片断的程序。注意特征为:允许使用所判读的完整序列而不仅仅是经剪切的高质量部分;在重复序列出现时可以结合使用者提供的或内部计算的数据质量来提高拼接的正确性;构建一个由高质量部分镶嵌的拼接程序而不是所谓的一致序列;可提供广泛的包括质量值在内的关于拼接的信息,可控制非常大的数据集。但它单独不能提供编辑或浏览的功能。最佳搭配是PHREP+PHRAP+CONSED,该套系统就可以高效、规模化地进行EST序列的拼接延伸。缺点是如果以可变剪切的基因来试验,Phrap可

7、正确地拼接出它所产生的一个蛋白,但是不能发现其它可变剪切的结果,如AMP2基因。2.CAP3该软件是CAP(contigassemblyprogramme)的改进版本,可在线进行。该软件适用于EST拼接,可快速去除不能拼接在一起的序列,运用动态规划算法可容忍序列的部分错误,可剪切掉所判断序列中5·和3·端碱基质量不高的区域。它在计算重叠时使用碱基质量值加以控制,建立多重比对,产生一致序列。并且它可使用正反向约束修正拼接错误和连接片段重叠群。PHRAP可以产生较长的重叠群,而CAP3拼接起来的一致性错误比较少,同时它运用正反向约束机制来处理低质量

8、序列时更容易得到结构框架(scaffold)。但是它同样不能发现AMP2基因的可变剪切变体。CAP3在线服务:http://bioinfomatics

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。