基因表达数据若干挖掘方法的研究

基因表达数据若干挖掘方法的研究

ID:32075463

大小:1.97 MB

页数:66页

时间:2019-01-31

基因表达数据若干挖掘方法的研究_第1页
基因表达数据若干挖掘方法的研究_第2页
基因表达数据若干挖掘方法的研究_第3页
基因表达数据若干挖掘方法的研究_第4页
基因表达数据若干挖掘方法的研究_第5页
资源描述:

《基因表达数据若干挖掘方法的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、唐小丽:基因表达数据若干挖掘方法的研究摘要微阵列技术是近年来分子生物学实验技术的一个突破,利用该技术可以对成千上万个基因的表达进行平行分析。这些基因表达数据通常构成一个数据矩阵,对这些矩阵进行分析和挖掘,才能得到潜在的生物学过程信息。基因表达数据的挖掘是生物信息学的研究热点和难点。在对基因表达数据分析中,双向聚类与频繁模式的挖掘是非常重要的操作。通过双向聚类技术,对基因进行聚类。在同一簇中的基因都具有类似的特征,根据己知的功能基因,能得出同聚类中其他基因的功能。同时,基因表达数据的关联规则分析还可以发现若干个基因在多个样本之间的强弱关联关系。挖掘基因表达的频繁模式能找出它们之间的关联

2、关系。由于基因表达数据的数据量多,计算量大的特点,对数据的处理要求较高。本文主要对如下几个方面的问题进行了深入研究,提出了相应的解决算法。实验表明这些方法简明有效。首先,提出了解决确定性双向聚类问题的ACAbiclustering算法。将蚁群算法ACA运用到双向聚类问题中,给定参数K,找到K个满足阈值的聚类。将Ⅳ行与M列编码成一个长度为Ⅳ+M的字符串。字符串表示出了基因表达数据矩阵中包含的聚类,聚类所在的行或列编码成1,否则0,每个字符表示一个节点。某一节点上聚集的信息素越多,则该节点被选择的概率就越大。首先,列出了初始的K个字符串。根据添加/移除此节点是否能最好提高聚类的质量为标准

3、,从第一列的置个节点中选择出某个节点,直至最后一列Ⅳ十肘。这样,每只蚂蚁的结果对应了对K个初始聚类质量的改进。比较所有蚂蚁的执行结果,保留最优解。再进行下一轮的选择,直到解的质量不再提高为止。与其他类似的算法相比,本算法不仅能够得到精确的结果,而且在速度和效率上也有了很大的提高。其次,为了解决不确定性双向聚类问题,提出了基于合并的确定性双向聚类算法MDBC算法。基因表达数据的行数远远大于列数,我们的算法仅对每两列聚类。应用剪枝策略对得到的这些聚类进行筛选。再建立索引树,根据此类聚类的反单调性,采用合并的方法对这些包含列数最少的小聚类进行合并,得出所有满足阈值的聚类。对增量数据问题,无

4、需对所有数据重新聚类。仍采用合并的方法,11扬州大学硕士学位论文只需聚类增量数据,再和已有聚类进行合并,这样能快速得出数据增加下的所有聚类。最后,对基因表达数据的频繁闭合模式的挖掘问题进行了深入的研究,提出了高维数据频繁闭合模式挖掘算法EMHCP。将事务集的概念应用到基因表达数据中,不同的实验条件对应了不同事件集。针对基因表达数据维度高的特点,首先建立位图转化表,快速得到在两个事务中出现的项目集,根据这些项目集,建立行集项目集混合树。在构建混合树的同时,采用剪枝策略,来缩小搜索空间。再对混合搜索树,采用深度优先的方法挖掘出所有的频繁闭合模式。关键字:基因表达数据,数据挖掘,双向聚类,

5、关联规则,频繁模式挖掘,蚁群算法唐小丽:基因表达数据若干挖掘方法的研究IIIAbstractMieroarraysareoneofthelatestbreakthroughsinexperimentalmolecularbiology,whichallowmonitoringofgeneexpressionfortensofthousandsofgenesinparallel.Thegeneexpressiondataareorganizedasmatrices.Thesematriceshavetobeanalyzedfurther,ifanyknowledgeabouttheun

6、derlyingbiologicalprocessesistobeextracted.ThegeneexpressiondataminingisahotanddifficulttopicinBioinformatics.Inthegeneexpressiondataanalysis,biclusteringandminingfrequentpatternsareimportantoperations.Bybiclustering,genesaregroupedintodifferentclusters.Thegenesinthesameclusterhavethesamefeatur

7、e.Accordingtotheknownfunctiongenes,functionofothergenesinthesanleclusterisconcluded.BytheanalysisofaSsociationrulesingeneexpressiondata,thestrongorpoorrelationsofgenesinseveralsamplesarefound.TherelationsamongthemCanbegoaenbyminin

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。