应用数据挖掘算法研究多发性硬化症基因表达谱

应用数据挖掘算法研究多发性硬化症基因表达谱

ID:34332225

大小:2.16 MB

页数:75页

时间:2019-03-05

应用数据挖掘算法研究多发性硬化症基因表达谱_第1页
应用数据挖掘算法研究多发性硬化症基因表达谱_第2页
应用数据挖掘算法研究多发性硬化症基因表达谱_第3页
应用数据挖掘算法研究多发性硬化症基因表达谱_第4页
应用数据挖掘算法研究多发性硬化症基因表达谱_第5页
资源描述:

《应用数据挖掘算法研究多发性硬化症基因表达谱》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、学位论文原创性声明本论文是我个人在导师指导下进行的工作研究及取得的研究成果。论文中除了特别加以标注和致谢的地方外,不包含其他人或其它机构已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体,均已在论文中以明确方式标明。本人完全意识到本声明的法律责任由本人承担。作者签名:日期:年月日学位论文使用授权声明本人授权汕头大学保存本学位论文的电子和纸质文档,允许论文被查阅和借阅;学校可将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或其它复制手段保存和汇编论文;学校可以向国家有

2、关部门或机构送交论文并授权其保存、借阅或上网公布本学位论文的全部或部分内容。对于保密的论文,按照保密的有关规定和程序处理。作者签名:导师签名:日期:年月日日期:年月日汕头大学硕士学位论文应用数据挖掘算法研究多发性硬化症基因表达谱申请人:郭貔指导教师:李克教授院系:医学院专业:流行病与卫生统计学中国汕头二一三年五月UsingdataminingalgorithmstostudygeneexpressionprofilesofmultiplesclerosisDissertationSubmitte

3、dtoGraduateSchoolofShantouUniversityApplyingfortheMasterDegreeofMedicine,MajorinEpidemiologyandHealthStatisticsByGuoPiUndertheGuidanceandSupervisionofProf.LiKeShantouUniversityMedicalCollegeMay,2013汕头大学医学院硕士学位论文中文摘要背景与目的:多发性硬化症(multiplesclerosis)是一种慢性

4、、炎症性中枢神经系统失调疾病,其临床症状主要表现为病灶性脱髓鞘、轴突损伤和髓鞘再生受限。大多数多发性硬化症患者的发病结局是慢性多病灶性硬化斑块。多发性硬化症的群体发病率在全球范围的分布不均匀,依不同国家和特定族群发病率介于每十万人中两人至一百五十人之间。不同族群的多发性硬化症发病率的差异反映了该病的遗传易感基因在不同群体的差异分布。遗传性因子在多发性硬化症发生过程中的作用非常重要,并受到环境因素的影响。现有研究缺乏对多发性硬化症特征基因的了解。虽有一些研究利用基因芯片技术探索多发性硬化症的基因表达

5、模式,但大多数研究所识别基因的数目较多,在实际中难以应用。对多发性硬化症的具有重要生物功能的特征基因进行研究是更好地了解该疾病发病机制的途径。在临床上,腰椎穿刺或核磁共振成像扫描大脑是当前主要的多发性硬化症临床诊断方式,但这两种诊断方式具有损伤性和费用昂贵的缺点。本研究应用数据挖掘算法分析多发性硬化症基因表达谱,寻找与多发性硬化症潜在相关的基因,并基于所识别的基因构建数学模型对样本进行分类,评估模型的分类性能,并确定性能最优的样本分类模型,以辅助临床上对多发性硬化症样本的判定。材料与方法:本研究以

6、公共的多发性硬化症基因表达谱数据库作为基础。首先,从基因表达数据库GEO获得支持数据源,并对基因表达谱数据集进行预处理,主要包括背景校正、归一化和过滤等步骤。接着,使用多种特征选择算法筛选疾病特征基因。特征选择算法的基本任务是从众多特征中抽取出那些对分类识别最有效的特征,进而实现特征空间维数的压缩,实际上是寻找将一个高维空间变换为低维空间的最优映射。本研究综合地应用三种著名的特征选择算法(递归特征删除法、ROC特征选择算法与Boruta算法),产生一个特征基因筛选的混成算法程序,识别出一组稳定的多

7、发性硬化症关联基因。然后,应用生物信息学工具对基因的功能进行分析。最后,根据所筛选的基因,构建多种疾病分类预测模型,用交叉验证方法评估模型,并最终确定最优的疾病分类模型,并使用面对对象语言编写界面操作软件,用于新样本数据分类预测。结果:综合地应用特征选择算法对预处理后的数据集筛选重要基因,根据特征算法对基因I汕头大学医学院硕士学位论文重要性的排序结果,在第一个数据集和第二个数据集中分别确定八个和二十三个基因多发性硬化症潜在相关基因。对两个不同数据集进行基因集合取交集运算,计算结果显示基因TNFSF

8、10是重叠的基因。通过应用GeneCard生物信息数据库分析该基因的生物学功能,进一步确定基因TNFSF10与多发性硬化症的密切关系。本研究通过数据挖掘技术和生物信息学分析方法也发现基因Ccr3与多发性硬化症的相关性高。基因TNFSF10和Ccr3分别涉及的生物功能包括细胞因子激活、信号转导激活等,参与的生物过程涉及包括介导细胞凋亡、信号传导、炎性反应等。在所识别的基因中,其余基因对多发性硬化症样本的分类性能良好,它们与多发性硬化症的关联性证据有待进一步挖掘。对数学模型的分类性能进

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。