基于基因表达谱数据和氨基酸序列的特征提取方法研究

基于基因表达谱数据和氨基酸序列的特征提取方法研究

ID:26767739

大小:1.47 MB

页数:63页

时间:2018-11-29

基于基因表达谱数据和氨基酸序列的特征提取方法研究_第1页
基于基因表达谱数据和氨基酸序列的特征提取方法研究_第2页
基于基因表达谱数据和氨基酸序列的特征提取方法研究_第3页
基于基因表达谱数据和氨基酸序列的特征提取方法研究_第4页
基于基因表达谱数据和氨基酸序列的特征提取方法研究_第5页
资源描述:

《基于基因表达谱数据和氨基酸序列的特征提取方法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、学校代码10530学号200611021184分类号TP3密级硕士学位论文基于基因表达谱数据和氨基酸序列的特征提取方法研究学位申请人孙晶京指导教师王力波教授学院名称信息工程学院学科专业计算机软件与理论研究方向生物信息学二○○九年五月五日FeatureSelectionMethodsStudyBasedonGeneExpressionDataandAminoAcidsSequencesCandidateJingjingSunSupervisorProf.LipoWangCollegeCollegeofInformationEngineeringProgramComputerSoftw

2、areandTheorySpecializationBioinformaticsDegreeMasterofEngineeringUniversityXiangTanUniversityDateMay2009湘潭大学学位论文原创性声明本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所取得的研究成果。除了文中特别加以标注引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律后果由本人承担。作者签名:日期:年月日学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使

3、用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权湘潭大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。涉密论文按学校规定处理。作者签名:日期:年月日导师签名:日期:年月日湘潭大学硕士论文基于基因表达谱数据和氨基酸序列的特征提取方法研究摘要人类基因组计划实施以来已积累了海量的生物序列数据。随着现代生物技术的快速发展,高通量检测工具日趋完善,后基因组研究的瓶颈已不再是生物序列 数据的产生和获取,而是如何对现有的生物序列数据进行有效的信息挖掘和分 析。只有利用新的

4、、有效的数据挖掘和分析工具才能从海量的生物学数据中提炼出有用的生物学知识,才能弄清楚它们所蕴含的结构和功能信息,进而彻底了解 它们所表达的生物学意义。模式识别技术是揭示核酸和蛋白质序列数据中所蕴含的生物学意义的基本方法之一。其出发点是找出不同序列间的相似片段,从而归结出序列片段中蕴含 的特征模式,进而推断出该特征模式与已知的结构和功能之间的内在联系。对于 基因表达谱数据而言,模式识别就是利用基因的数据分布特征信息找出相关的特征基因。对于蛋白质序列而言,模式识别就是利用蛋白质序列的某些特征模式识别相关蛋白质的性质。本文通过生物信息学领域三个比较热点的问题介绍了自己在这方面的相关研究和

5、工作。特征基因提取方法对肿瘤检测来说已经成为当今研究肿瘤分子诊断的热点,但由于基因表达谱数据存在维数过高、样本量很小以及噪音很大等特点,使得肿 瘤特征基因选择成为一件有挑战性的工作。本章提出一种新的寻找特征基因的方法,首先基于区间间隔或覆盖比的方法来初步选出一些特征基因,而后删掉其中 的冗余基因,达到以最少的基因数得到更高的分类准确率。实验采用了三种肿瘤样本集来验证新算法的有效性。针对这三个样本集,只要2或3个特征基因就能得到100%的5-折交叉验证识别准确率。基于氨基酸序列的特征向量提取方法对研究蛋白质的结构和功能有着重要的作用。不论在原核生物还是真核生物中,信号肽几乎控制着所有

6、蛋白质的分泌 途径,为此它的发现对现代细胞生物学研究有着重大的影响。在建立它的特征向量时,我们在伪氨基酸模型的基础上加入了局部氨基酸信息,使实验结果有了很大的提高,整体预测结果达到了97%以上。在其剪切点的判断问题上考虑到数据的不平衡性,对位置权矩阵进行了改进,结果也有所改善。酶作为一种重要的生物催化剂在生物代谢过程中扮演着非常重要的角色,并且一种酶的功能与它所属的类或子类有着密切的关系。所以,酶的分类问题就显得非常有用。对于酶的 特征向量,我们是在伪氨基酸模型的基础上引入相邻氨基酸信息同时融入更多的生物化学特征来建立的,同时结合优良的多分类器-最优证据理论-KNN分类 器,使分类

7、性能达到83%以上。关键字:模式识别,基因表达谱,伪氨基酸,支持向量机,最优证据理论-K近邻算法I湘潭大学硕士论文基于基因表达谱数据和氨基酸序列的特征提取方法研究AbstractAlarge-scalebiologicalsequencedatahavebeengeneratedsincehumangenome project.Withtherapiddevelopmentofmodernbiologicaltechniquesandhigh through-putd

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。