《数据挖掘翻译》word版

《数据挖掘翻译》word版

ID:29657133

大小:1.38 MB

页数:10页

时间:2018-12-21

《数据挖掘翻译》word版_第1页
《数据挖掘翻译》word版_第2页
《数据挖掘翻译》word版_第3页
《数据挖掘翻译》word版_第4页
《数据挖掘翻译》word版_第5页
资源描述:

《《数据挖掘翻译》word版》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、15.1综述基因和蛋白质不是独立的存在于细胞中这一事实已经越来越被人接受。在细胞中,基因和蛋白质是细胞通路和生化反应与加工过程的一部分,并且他们的功能建立在除了个人属性外的细胞环境中。相对地,在生物信息学中,注释的焦点已经从分配功能转移到与功能有关的独立蛋白质的功能中。(定义:两个功能相关的蛋白质是指这两个蛋白质共同参加细胞的合成过程。功能联系:存在于很多的细胞活动中,是指在信号转导通路中两个蛋白质的相互作用,比如说蛋白质作为酶参与相同的代谢途径,作为被调节的蛋白质或者调节另外蛋白质的蛋白质)从理论角度的观点看,本章涉及一些

2、基本的与数据学习方法有关的问题,这些方法主要是统计学方法和机器处理数据的方法,运用统计学和机器处理数据的方法具有高效,强表达力和说服力的作用,通过对这些数据的分析,将具有特殊生物学功能的区域进行合并。在机器学习方法中,有一个固有张力:即在PPI(蛋白质和蛋白质间的相互作用)的上下文预测中,很多敏感的预测需要越多的信息,比如说系统发生的信息等;更多有特殊功能蛋白质的预测需要更多的细节信息,比如结构信息等。因此提取隐藏在数据中的信息并且将不同来源地和不同水平的数据在保持灵敏性和特异性平衡的条件下转化为生物学知识是很重要的。这也就

3、表明这一章的主要内容是:在主要部分以外的内容中获取更多的信息,然后返回来建立一个方法,这个方法仅仅需要主要序列的信息来做预测。为了这个目的,现有的学习模式已经不能满足,新的技术和模型被开发出来,比如说应用转化式学习最小二乘法支持向量方式的学习,在充分统计学的ipHMMs中制定一个新的费舍尔得分来促进特征选择。特别的,我们着重从以下三个方面来推断和预测蛋白质的功能关系。1.进化的观点:提取和整合进化方面的方法和模型,如距离矩阵和系统发育谱。信息量和系统发育树的拓扑结构之间的关系被用来学习和利用以供数据规则化的使用。作用机制被设

4、计用来发现不标准的进化事件,比如说基因水平转移,并且它的含义对PFL(蛋白质功能联系)的预测做出了合理的解释。2.结构的观点:结构方面的信息,比如说邦定残留被纳入模型,这样可以用于PFL的预测,尤其是PPI,对那些没有结构信息的蛋白质。特征选择被开发和利用在识别结构和功能特征以及提出有效的淘汰基因突变建议。3.网络的观点:预测细胞间相互作用的方法和模型涉及多种蛋白质,并且需要结合网络环境的图论的方法。在生物信息学和计算生物学中,最新的计算方法主要是一下两种类型中的一个。1.abinitio:即运用分子动力学的第一原则来解释和

5、预测生物分子过程。一个典型的例子就是abinitio方法在蛋白质折叠问题上的发展。2.表观现象:通过与功能相关的结构域检测表型的特征,并且建立模型来从没有功能联系的结构域中将它们区分出来。尽管PFL的理念问题最终应该用abinitio的方法解决,但是总是缺少充分的信息来将这些问题与分子动力学的解决方案联系在一起,或者即使这些信息是可供使用的,计算机也超过了他的最大内存容量。总的来说,像其他许多生物信息学的方法一样,为PFL开发的方法也属于表观现象的这一种类。从某种意义上来说,在将两个分子结合在一起的静电位的计算上,我们没有下

6、去一个水平,相反的,我们仍然保持在一个相对较高的并且有象征意义的水平上,在提取蛋白质作为一个序列中,用20个字母表示20种氨基酸,试着从不同的来源的蛋白质中提取可利用的信息,这些信息可以用于基因组测试,也用于在蛋白质的X射线晶体结构中残留位置的确定。比如说:如果知道这一组蛋白质有相同的功能,我们可已将他们的主要序列对齐,来观察他们相同的特征。由于生物的进化,比如说在进化过程中这些蛋白质中的一些发生了突变,而且这些突变一直保持着,那么这个序列就不是完全相同的。另一方面,这些结构和功能的区域相对来说是稳定的,并且在序列比对中这些

7、序列也会表现出高度的相似性。在已知功能的区域,可以在这些蛋白质区域构建概率模型,然后用不知道功能的蛋白质来识别这些区域。这样简化了的方法表明了一种典型的逻辑上很本质的被许多生物信息学分享的方法,在基因组和蛋白质组学中,这种方法在缺乏各种高通量计术产生巨大数据量的情况下,提取数据是非常的有用和高效。15.2生物背景和动机高通量技术的新发展,使得我们可以在大量的细胞和在生物反应的环境下研究分子实体成为可能。比如说:基因芯片技术可以同时的测试成千上万的基因的表达水平。在不同的条件下和不同的时间点下检测基因的表达可以对分子机制基本的

8、过程有深刻的理解,比如说基因调节。结合二维凝胶和质谱仪的方法,在直接测量蛋白质的表达水平中是一个很先进的方法。然而,没有有效的高通量技术方法对直接的观测PFL有效,比如说,两个蛋白质相互作用的方法,如Y2B系统(当前分类中的一种方法),就有很多的错误。由于这些困难和由实验方法造成的高成本,

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。