基于基因表达谱的肿瘤识别方法的研究

基于基因表达谱的肿瘤识别方法的研究

ID:6807402

大小:2.84 MB

页数:32页

时间:2018-01-26

基于基因表达谱的肿瘤识别方法的研究_第1页
基于基因表达谱的肿瘤识别方法的研究_第2页
基于基因表达谱的肿瘤识别方法的研究_第3页
基于基因表达谱的肿瘤识别方法的研究_第4页
基于基因表达谱的肿瘤识别方法的研究_第5页
资源描述:

《基于基因表达谱的肿瘤识别方法的研究》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、全国第七届研究生数学建模竞赛题目基于基因表达谱的肿瘤识别方法的研究摘要:本文基于基因表达谱讨论了肿瘤识别方法的问题。首先建立分类数学模型对样本分类识别:即在对原始数据进行处理的基础上,利用主成分分析的方法进行降维处理;并将提取的主成分数据输入支持向量机模型训练学习,从而实现对样本的有效分类。其中模型对样本正确分类识别率接近90%,并且对模型进行敏感性和稳定性检验测试。其次,通过Relief算法对基因进行排序和筛选,在此基础上运用留一交叉检验法确定了一组“基因标签”,并利用随机重复试验检验了“基因标签”的样本分类能力。在上述模型运算分析结果的基础上分析了影响肿瘤识别效果的噪声

2、来源,对数据中存在的噪声样本和重复数据进行降噪,建立了噪声模型,进而得到了一组新的基因“标签”,从而使肿瘤识别精度提高到了92.65%;最后融入临床生物学信息,综合运用支持向量机等数学理论建立了肿瘤诊断识别的数学模型,肿瘤识别率提高到了99.8%。关键词:基因表达谱肿瘤支持向量机主成分分析Relief算法参赛密码(由组委会填写)参赛队号队员姓名杨振华刘爱兰邢秉昆中山大学承办一、问题重述癌症起源于正常组织在物理或化学致癌物的诱导下基因组发生的突变,即基因在结构上发生碱基对的组成或排列顺序的改变,因而改变了基因原来的正常分布。所以探讨基因分布的改变与癌症发生之间的关系具有深远的

3、意义。从DNA芯片所测量的成千上万个基因中,找出决定样本类别的一组基因“标签”取出“信息基因”是正确识别肿瘤类型、给出可靠诊断和简化实验分析的关键所在,同时也为抗癌药物的研制提供了捷径。下面我们参考基因表达谱及肿瘤识别问题方面的研究成果,利用附件所给数据并结合相关资料,就提取基因图谱信息方法研究如下问题:1、由于基因表示之间存在着很强的相关性,所以对于某种特定的肿瘤,似乎会有大量的基因都与该肿瘤类型识别相关,但一般认为与一种肿瘤直接相关的突变基因数目很少。对于给定的数据,如何从上述观点出发,选择最好的分类因素?2、相对于基因数目,样本往往很小,如果直接用于分类会造成小样本的

4、学习问题,如何减少用于分类识别的基因特征是分类问题的核心,事实上只有当这种特征较少时,分类的效果才更好些。对于给定的结肠癌数据如何从分类的角度确定相应的基因“标签”?3、基因表达谱中不可避免地含有噪声(见1999年Golub在《Science》发表的文章),有的噪声强度甚至较大,对含有噪声的基因表达谱提取信息时会产生偏差。通过建立噪声模型,分析给定数据中的噪声能否对确定基因标签产生有利的影响?4、在肿瘤研究领域通常会已知若干个信息基因与某种癌症的关系密切,建立融入了这些有助于诊断肿瘤信息的确定基因“标签”的数学模型。比如临床有下面的生理学信息:大约90%结肠癌在早期有5号染

5、色体长臂APC基因的失活,而只有40%~50%的ras相关基因突变。二、问题分析2.1寻找与肿瘤相关的突变基因的分类因素我们认为“分类因素”可理解为由基因的某种组合得到的潜在因素。针对这一问题,我们设计了一种有效的算法作为样本分类识别的依据。具体内容如下:首先利用修正后的信噪比公式对原始数据中的无关基因进行剔除,同时对保留下来的基因进行主成分分析,既可以实现有效的降维,同时便于计算;然后引入支持向量机分类器,对提取的主成分进行学习训练,得到基于支持向量机的分类模型。在此基础上,我们对算法进行了敏感性检验和稳定性检验。2.2从分类的角度确定基因“标签”相对于基因个数来说62个

6、样本非常小,如果直接用于分类会造成小样本的学习问题。我们用Relief算法为每个基因赋予一个权重,然后设定相应的阈值,高于这个阈值的基因被留下;然后用留一交叉检验法来检验我们设定的阈值的合理性,通过检验不断地调整阈值,最终确定哪些基因被留下,而这些基因便是我们分类所依据的基因“标签”。2.3基因表达谱中噪声模型的建立32基因表达谱中不可避免地含有噪声,对含有噪声的基因表达谱提取信息会产生偏差。为了解决这个问题,我们分析发现GenbankAccname中含有存在重复数据的基因,运用方差分析来对这种基因的normal样本和cancer样本分别进行显著性检验,发现该种基因在同类样

7、本间存在显著差异,进而推断其显著性差异并不直接作用于样本的分类,应予以剔除。同时,在对第二问中得到的“基因标签”的检验过程中,发现来源于样本的噪声,故对这些样本进行去噪处理。最后,应用第二问的模型对去噪后的数据重新进行运算,得到新的“基因标签”并对其进行检验。2.4融入临床信息的诊断肿瘤确定基因标签的数学模型的建立在确定某种肿瘤的基因标签时如能融入与临床问题相关的主要生理学信息,也许可以纠正现有研究中基因低水平表达、差异不大的表达被忽略的倾向。我们利用问题三中经过降噪处理后的样本数据,利用最终筛选出的基因标签和所给

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。