基于关联规则和聚类的数据挖掘在临床检验信息系统中的应用研究

基于关联规则和聚类的数据挖掘在临床检验信息系统中的应用研究

ID:37415092

大小:2.34 MB

页数:59页

时间:2019-05-23

基于关联规则和聚类的数据挖掘在临床检验信息系统中的应用研究_第1页
基于关联规则和聚类的数据挖掘在临床检验信息系统中的应用研究_第2页
基于关联规则和聚类的数据挖掘在临床检验信息系统中的应用研究_第3页
基于关联规则和聚类的数据挖掘在临床检验信息系统中的应用研究_第4页
基于关联规则和聚类的数据挖掘在临床检验信息系统中的应用研究_第5页
资源描述:

《基于关联规则和聚类的数据挖掘在临床检验信息系统中的应用研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基于关联规则和聚类的数据挖掘在临床检验信息系统中的应用研究硕士研究生:苏凯指导教师:李伟鹏摘要临床检验信息系统(C1iniCLaboratoryInformationSystem,CLIS)是医院信息系统的一个重要组成部分。它基于数据库,利用网络和计算机实现软件和仪器的无缝连接,模拟检验科的工作流程,实现检验信息的电子化和检验信息管理自动化。临床检验信息系统的应用产生了大量的数据,采用数据挖掘方法对这些数据进行分析开采,发现有用知识,是目前亟待开展的工作。但目前国内尚无这方面的报道,国际上也处于探索阶段。本文结合糖耐量试验和血细胞计数两项检验数据,详述了在检验信息系统基础上进行的数据预处理

2、,数据挖掘和知识发现的全过程。并重点阐述了关联规则挖掘和聚类分析两种数据挖掘方法在实际中的应用。本文重点介绍了对糖耐量试验数据的预处理,以及关联规则挖掘在糖尿病诊断方面的应用。糖耐量试验数据来自医院信息系统中的病人基本信息,从检验信息系统中提取的糖耐量试验数据,以及从一些调查表中得到其他辅助信息。在填补了空缺值、对定性数据量化处理、属性范围变换、统一量纲、以及删除了无关孤立点之后,文中采用SQLSERVERDTS将其引入数据仓库,以SQLSERVERANALYSISMANAGER为平台将数据集成,构造多维数据立方体。为提高数据挖掘的效率,必须针对主题对数据属性进行维规约,排除无关属性,保留

3、相关属性。维规约采用贪心算法,逐步向前选择有用属性。在属性的相关性分析中采用了熵增益技术,设定最小信息增益,引入新的属性后计算熵增益值,和最小信息增益阈值比较,来决定属性的有用性。关联规则挖掘是数据挖掘中的重要应用之一。本文采用了经典的Apriori算法,并且在原有关联规则中支持度和可信度的概念基础上,引入了兴趣度概念,衡量规则的趣味性。本文在对比了客观兴趣度函数的基础上,提出了主观兴趣度函数interest(A=亨B)=e(a)×P(anB)X(1一P(B))并进一步演化为:int删fr4j曰1:!二!!皇!、’(1一P(4))×(1一P(AnB))该函数耦合性、新奇性、简洁性兼顾,显得

4、概念更全面,意义更突出。在阐述了经典Apriori算法及其改进措施后,本文列出了实际运用于糖耐量试验数据关联规则挖掘的详细算法实现。算法流程祥见正文。现实世界的数据复杂性决定了数据挖掘必须针对主题,而且由其发现的知识必须是基于约束的,有特定的意义,本文的规则形式约束如下:置(工,_)^只(工,艺)^⋯^只(x,E)jhave—disease(X,diabetes)在用MATLAB6.5完成算法后,得到满足最小支持度和可信度的最终频繁项集{空腹血糖浓度高,2h血糖浓度高,家族糖尿病史,糖尿病}。进一步计算兴趣度,并以主客观兴趣度为标准筛选,最后得出一系列有用规则,例如:空腹血糖浓度高j糖尿病

5、2h血糖浓度高j糖尿病符合世界卫生组织对糖尿病的诊断要求,反映了糖耐量试验对诊断的实际意义,为糖尿病的诊断提供了有效的辅助依据。在血细胞分析的十几项指标中,粒细胞百分数GRAN%和淋巴细胞百分数LYM%的组合被认为有临床诊断意义:GRAN%高而LYM%低表征细菌性感染;GRAN%低而LYM%高表征病毒性感染。本文采用基于模型的方法,分析血细胞计数试验的数据,来验证其临床意义。本文假定病人血常规(只包括LYM%和GRAN%两项)检验报告指标数据是一个■维正态混合模型,那么可以采用EM算法将其聚类。EM算法是基于划分的方法k-平均方法的扩展。它不把对象分配给一个确定的簇,而是根据对象与簇之间隶

6、属关系发生的概率P(kx)来分配对象。根据医学经验知识,事先将数据分为细菌性感染、正常和病毒性感染3类,设定起始参数,代入算法程序迭代计算。算法流程详见正文。迭代过程如下:事先根据知识经验认为数据集可分为三类,即k=3,选择三个分类中心胁:Ⅱ{(0.05,0.9),(0.3,0.55),(0.6,0.2)},选取盯,的起始值:{(0.1,0.1),(0.1,0.1),(0.1,0.1)),巩取平均值t/3,执行E步骤:估计P(klx);然后进行M步骤:更新参数向量p(以,以,%);然后再返回用更新的参数进行下一轮迭代,直到收敛(参数达到稳定,即满足{(幺,。一ok川)/以.。

7、代表迭代次数)。得到稳定的参数后,在散点图上标出聚类中心肌和3吼椭圆,以示最终聚类结果。最后结果较好的分为3类,表明聚类结果符合医学意义,同时验证了粒细胞百分数GRAN%和淋巴细胞百分数LYM%的组合具有临床诊断意义。该方法对临床检验中的其他散点图结果的聚类分析同样有指导意义。目前针对检验信息系统的数据挖掘在国内外尚且少有人涉及,本文也只是就其一方面进行了探讨,而数据挖掘本身是一个交互的过程,随着用户的要求不断提高以及挖

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。