基因表达数据的聚类算法设计与分析

基因表达数据的聚类算法设计与分析

ID:32181445

大小:4.10 MB

页数:57页

时间:2019-02-01

基因表达数据的聚类算法设计与分析_第1页
基因表达数据的聚类算法设计与分析_第2页
基因表达数据的聚类算法设计与分析_第3页
基因表达数据的聚类算法设计与分析_第4页
基因表达数据的聚类算法设计与分析_第5页
资源描述:

《基因表达数据的聚类算法设计与分析》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、天津大学硕士学位论文基因表达数据的聚类算法设计与分析姓名:姜中博申请学位级别:硕士专业:计算机应用技术指导教师:赵政20080501中文摘要DNA的微阵列技术(microarray)使得在重要的生物过程中同时检测大量的基因表达水平变得可能。揭示隐藏在基因表达数据中的基因模式可以提供一个可以加深对功能性基因的理解的重要机会。但是,巨大的基因数目和生物网络的复杂性增加了理解和解释这些基因的挑战。而解决这个挑战的第一步工作就是利用聚类技术,因为它是从底层的数据中揭示自然结构和识别有意义的模式的数据过程中的重要步骤。本文的工作就是设计并研究针对基因表达数据的有效的聚类算法。本文

2、的主要工作为两部分内容:第一部分工作中,本文提出一个基于最小生成树的聚类算法,叫做基于最小生成树的不定划分的聚类算法(aMST-basedUncertainPartitionclusteringalgorithm,MUP)。它能够快速有效地聚类分析基因表达数据。MUP算法的最大特点是:1,与其他基于最小生成树的算法的不同之处是不相容边的确定方法。MUP算法采用两个连续的步骤来完成:滑动窗口来识别当前簇的潜在的不相容边和利用目标函数来确定真正的将被剪断的不相容边。2,在没有先验知识的情况下,能够自动确定簇的数量。3,在具有噪声的背景中仍然能够发现有意义的基因模式。在用MU

3、P算法分别分析两个公开的且流行的基因表达数据集,Wen的数据集和lyer的数据集时,得到了很好的聚类结果。这说明MUP算法对大规模的基因表达数据是有效的。第二部分工作中,本文研究多视图的正交子空间聚类算法在应用基因表达数据时的聚类质量。正交子空间聚类算法已经成功地应用在其他一些领域,比如文本聚类,图像数据聚类等。理论上它可以用于分析基因表达数据,所以本文采用另一个公开的且流行的基因表达数据,Cho的数据集,来研究分析正交子空间聚类算法在基因表达数据集上的聚类效果和意义。通过实验分析,本文得出结论,正交子空间算法也能够从多个侧面很好的分析基因表达数据集。本文中的MUP算法

4、和多视图的正交子空间聚类算法都能够有效的分析基因表达数据,它们为基因表达数据的研究和下一步的其他工作提供了有力的支持。关键词:基因表达数据聚类算法最小生成树MUP聚类算法正交子空间聚类ABSTRACTDNAmicroarraytechnologyhasnOWmadeitpossibletosimultaneouslymonitortheexpressionlevelsofthousandsofgenesduringbiologicalprocesses.Elucidatingthepatternsingenesoffersatremendousopportunityfo

5、rallenhancedunderstandingoffunctionalgenomics.However,thelargenumberofgenesandthecomplexityofbiologicalnetworksgreatlyincreasethechallengesofinterpretinggenes.Afirststeptowardaddressingthischallengeistheuseofclustering,whichisanessentialprocesstorevealnaturalstructuresandidentifyinterest

6、ingpaRemsintheunderlyingdata.Theworkofthispaperistogudyclusteringalgorithmsappliedongeneexpressiondata.Inthefirstpart,thispaperproposesaclusteringalgorithmbasedonminimumspanningtrees(MST),calledaMST-basedUncertainPartitionclusteringalgorithm,MUEItcanfastandeffectivelyfinishclusteringanal

7、ysisongeneexpressiondata.ThefeaturesofMUPalgorithmare:First,itsdifferencewithotherMST-basedclusteringalgorithmsisthemethodtodetermineinconsistentedges.Ittakestwosteps:slidingawindowtosearchpotentialinconsistentedgesanddeterminingrealinconsistentedgesbyusingtheobjectivefun

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。