基于电子病历数据的疾病预测模型构建研究

基于电子病历数据的疾病预测模型构建研究

ID:77669473

大小:2.04 MB

页数:91页

时间:2024-02-04

上传者:笑似︶ㄣ無奈
基于电子病历数据的疾病预测模型构建研究_第1页
基于电子病历数据的疾病预测模型构建研究_第2页
基于电子病历数据的疾病预测模型构建研究_第3页
基于电子病历数据的疾病预测模型构建研究_第4页
基于电子病历数据的疾病预测模型构建研究_第5页
基于电子病历数据的疾病预测模型构建研究_第6页
基于电子病历数据的疾病预测模型构建研究_第7页
基于电子病历数据的疾病预测模型构建研究_第8页
基于电子病历数据的疾病预测模型构建研究_第9页
基于电子病历数据的疾病预测模型构建研究_第10页
资源描述:

《基于电子病历数据的疾病预测模型构建研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

分类号:G353单位代码:10183研究生学号:2014722043密级:公开吉林大学硕士学位论文(学术学位)基于电子病历数据的疾病预测模型构建研究ResearchontheConstructionofDiseaseForecastingModelBasedonElectronicMedicalRecordData作者姓名:王萍专业:医学信息学研究方向:卫生信息技术与应用指导教师:牟冬梅教授培养单位:公共卫生学院2017年06月 基于电子病历数据的疾病预测模型构建研究ResearchontheConstructionofDiseaseForecastingModelBasedonElectronicMedicalRecordData作者姓名:王萍专业名称:医学信息学指导教师:牟冬梅教授学位类别:理学硕士答辩日期:2017年6月1日 未经本论文作者的书面授权,依法收存和保管本论文书面版本、电子版本的任何单位和个人,均不得对本论文的全部或部分内容进行任何形式的复制、修改、发行、出租、改编等有碍作者著作权的商业性使用(但纯学术性使用不在此限)。否则,应承担侵权的法律责任。吉林大学硕士学位论文原创性声明本人郑重声明,是本人在指导教师的指导下,:所呈交学位论文独立进行研宄工作所取得的成果。除文中己经注明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的作品成果。对本文的研宄做出重要贡献的个人和集体,均己在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。学位论文作者签名:曰期:年6月U日 摘要基于电子病历数据的疾病预测模型构建研究目的:本研究从医学信息学的视角出发,以搭建疾病预测模型构建策略为目的,探究海量异构的电子病历数据中隐性知识到显性知识的发现途径。同时,进行糖尿病视网膜病变预测模型构建的实证研究,论证理论策略的科学性、合理性、可操作性、可拓展性,并为疾病的预防、诊断、控制、治疗提供决策支持。方法:首先通过文献调研综述国内外该领域的研究现状,再以知识发现、信息链、决策支持理论为指导,探究疾病预测模型构建策略。然后,利用国家科技资源平台之一的人口健康分平台,提供的糖尿病患者的诊疗数据集进行实证研究。在实证研究过程中,数据预处理过程分析处理缺失数据,采用分层均值填补法,对目标数据集中的缺失数据进行先分层再填补;数据降维阶段,利用主成分分析法提取特征根大于1的因子、累计贡献率大于85%的因子及logistic回归方法提取差异有显著性的因子分别进行降维,选取特征向量;预测模型构建阶段,首先平衡数据集并确定基线精度,以决策树算法构建预测模型,以logistic回归算法、支持向量机、朴素贝叶斯、径向基函数神经网络算法构建对照实验模型。最后,根据查准率、召回率、正确率、F值、ROC曲线下面积、Kappa值综合评价所构建预测模型的效果。结果:⑴在知识发现、信息链、决策支持理论的指导下,从数据集成与清洗、数据填补与降维、模型构建与评价等环节出发,制定了基于医疗大数据的疾病预测模型构建策略;⑵缺失数据填补阶段,制定了缺失数据填补方法,先将目标数据按不同性别、不同年龄段是否患病划分为多个子集,通过X2检验后得到目标数据集在不同性别及不同年龄段上是否患病的差异具有显著性。因此,将数据集按照性别、年龄段、是否患病进行分层,再利用分层均值填补法进行填补;I ⑶数据降维阶段,用同种方法分析三种降维数据集和未降维原始数据集,经方差分析发现四种结果差异具有显著性,且第一种降维方法得到的模型准确率更高,预测效果更好;⑷预测模型构建及评价阶段,经SMOTE方法对分类不平衡的未降维数据进行平衡,并确定预测模型基线精度为71.9166%。以第一种降维方法处理后的数据集为研究对象,利用决策树算法构建预测模型,得到模型的真阳性率(TP)为0.975、假阳性率(FP)为0.045、查准率(Precision)为0.974、召回率(Recall)为0.975、F值(F-Measure)为0.974、ROC曲线下面积(ROCArea)为0.975,一致性检验(Kappa)值为0.936;⑸对照试验模型评价阶段,选择logistic回归、支持向量机、朴素贝叶斯、径向基函数神经网络构建对照试验模型,经方差分析得到对照实验模型结果与决策树算法结果具有显著性差异,再经组间两两多重比较,得到决策树算法效果更好。结论:⑴理论研究中,制定了疾病预测模型构建策略,该策略构建了有效的数据填补方案,选择出最优的数据降维方法,能灵活高效的指导海量异构电子病历数据挖掘的过程,具体环节包括:数据集成与整合、清洗与规范化、缺失值处理、数据筛选与降维、数据平衡、模型构建与评价等过程。⑵实证研究结果契合理论策略的流程和原理,预测模型经一系列指标评价及对照试验模型的验证,得到了效果最优的预测模型。证明基于电子病历数据的疾病预测模型构建策略科学、合理、有效,该策略能够为医学信息知识发现、整合利用、决策支持提供参考。关键词:数据挖掘,知识发现,糖尿病,视网膜病变,预测模型II AbstractResearchontheConstructionofDiseaseForecastingModelBasedonElectronicMedicalRecordDataObjectives:Thisstudydoesresearchfromtheperspectiveofmedicalinformatics,aimstoconstructthestrategyofdiseasepredictionmodel,soastoexplorethediscoverytreatmentfromimplicitknowledgetoexplicitdataofhugeamountsheterogeneouselectronicmedicalrecorddata.Atthesametime,theempiricalstudyontheconstructionofpredictivemodelofdiabeticretinopathyiscarriedouttodemonstratethescientificity,rationality,operabilityandextensibilityofthetheoreticalstrategy,andprovidedecisionsupportfordiseaseprevention,diagnosis,controlandtreatment.Methods:Firstofall,throughtheliteratureresearchtosummarizetheresearchsituationinvariousfieldsathomeandabroad,thenregardknowledgediscovery,informationchain,decisionsupporttheoryasguidestoexplorethediseaseconstructionstrategyofpredictionmodel.Then,usingoneofthenationalscienceandtechnologyresourcesplatforms,populationhealthsub-platform,whichprovidesmedicaldatasetsofdiabetespatientsforempiricalresearch.Intheprocessofempiricalresearch,fordatapreprocessinganalyzedthemissingdata,andthelayeredmeanfillmethodisusedtoclassifyandfillthemissingdatainthetargetdataset.Usingthreemethodsfordimensionreductionrespectively,theprincipalcomponentanalysismethodtoextractthefactorwiththeeigenvaluegreaterthan1,extractthefactorswhichcumulativecontributionrategreaterthan85%,usinglogisticregressionmethodtoextractfactorswithsignificantdifferences,toselectthefeaturevectors.Inthephaseofbuildingtheforecastmodel,first,adjustedthedatasetanddeterminedthebaselineprecision.Then,constructingpredictivemodelwithdecisiontreealgorithm,logisticregressionalgorithm,supportvectormachine,naiveBayesianandradialbasisfunctionneuralnetworkalgorithmareusedtoconstructIII thecontrolexperimentmodel.Finally,onthebasisoftheaccuracyrate,recallrate,correctrate,Fvalue,areaundertheROCcurve,Kappavaluetoevaluatetheeffectoftheforecastmodelsynthetically.Results:(1)Undertheguidanceoftheoriesofknowledgediscovery,informationlinkanddecisionsupport,developedamodelofdiseasepredictionbasedonmedicaldatafromtheaspectsofdataintegrationandcleaning,datafillinganddimensionreduction,modelconstructionandevaluation;(2)Atthemissingdatafillingstage,madethemissingdatafillscheme,firstdividedtargetdataintomanysubsetsaccordingtogender,agegroupsandwhetherhasdiseases,throughtheX2test,itwasfoundthattherewasasignificantdifferenceintheprevalenceofthetargetdatasetindifferentsexesandindifferentagegroups.Therefore,classifythedataaccordingtogender,age,whetherhavedisease,andthenusethelayeredmeanfillmethodtofill;(3)Inthedimensionreductionphase,usingthesamemethodtoanalyzethreekindsofdimensionalityreductiondatasetsandnon-dimensionedoriginaldatasets,thevarianceanalysisshowedthatthedifferencesamongthefourresultsweresignificant,andthefirstdimensionalityreductionmethodismoreaccurateandthepredictioneffectisbetter;(4)Forecastingmodelconstructionandevaluationstage,theSMOTEmethodisusedtobalancetheunbalanceddimensionlessdata,anddeterminingthebaselinepredictionaccuracyofthemodelis71.9166%.Thedatasetprocessedbythefirstdimensionreductionmethodistakenastheresearchobject,andthepredictionmodelisconstructedbyusingthedecisiontreealgorithm,getthetruepositiverate(TP)ofthemodelwas0.975,thefalsepositiverate(FP)was0.045,theprecisionwas0.974,therecallwas0.975,theFvaluewas0.974,theareaundertheROCcurve(ROCArea)of0.975andaconsistencytest(Kappa)of0.936;(5)Thecontrolledtrialmodelevaluationstage,selectionoflogisticregression,supportvectormachine,naivebayesian,radialbasisfunctionneuralnetworktoconstructcontrolledtrialmodeles,analysisbyvariance,theresultsofthecontrolledIV modelsanddecisiontreeweresignificantlydifferent,andthenthroughmultiplecomparisonsbetweentwogroups,getthedecisiontreealgorithmisbetter.Conclusions:(1)Inthephaseoftheoreticalresearch,thestrategyofdiseasepredictionmodelwasestablished.Thestrategybuiltaneffectivedatafillingscheme,selectedtheoptimaldatadimensionreductionmethod,canbeflexibleandefficientguidethedataminingprocessofmassiveheterogeneouselectronicmedicalrecorddata,thespecificlinksinclude:dataintegrationandintegration,cleaningandstandardization,missingvalueprocessing,datafilteringanddimensionalityreduction,databalance,modelbuildingandevaluationprocess.(2)Theresultsofempiricalresearchfittheprocessandprincipleoftheoreticalstrategy,thepredictionmodelwasvalidatedbyaseriesofindexevaluationandcontrolexperimentmodel,andgetthemosteffectivepredictionmodel.Itwasprovedthatthestrategyofdiseasepredictionmodelbasedonelectronicmedicalrecorddataisscientific,reasonableandeffective.Thestrategycanprovidereferenceforknowledgediscovery,integrationanddecisionsupportofmedicalinformation.Keywords:Datamining,Knowledgediscovery,Diabetes,Retinopathy,PredictionmodelV 目录第1章绪论...........................................11.1研究背景与意义.......................................................................11.1.1研究背景.........................................................................11.1.2研究目的.........................................................................31.1.3研究意义.........................................................................41.2国内外研究现状.......................................................................41.2.1国外研究现状.................................................................41.2.2国内研究现状.................................................................51.2.3国内外研究现状述评.....................................................81.3研究内容及技术路线...............................................................91.3.1研究内容.........................................................................91.3.2拟解决的关键问题.......................................................101.3.3研究方法.......................................................................111.3.4研究思路.......................................................................12第2章相关理论、方法与工具............................142.1数据挖掘相关理论.................................................................142.1.1信息链...........................................................................142.1.2决策支持.......................................................................152.1.3数据挖掘与知识发现...................................................172.2相关方法.................................................................................182.2.1文献调研法...................................................................18VI 2.2.2统计分析法...................................................................192.2.3数据挖掘方法...............................................................202.3数据挖掘工具.........................................................................252.3.1Weka..............................................................................252.3.2R....................................................................................272.3.3SPSS..............................................................................28第3章疾病预测模型构建策略研究........................303.1预测模型构建过程关键问题解析.........................................303.1.1数据集成与清洗阶段...................................................303.1.2数据填补与降维阶段...................................................313.1.3模型构建与评价阶段...................................................333.2数据集成与清洗方案.............................................................343.3数据填补与降维方案.............................................................353.3.1变量选取原则...............................................................353.3.2缺失数据处理...............................................................353.3.3数据降维.......................................................................353.4模型构建与评价方案.............................................................363.5疾病预测模型构建策略.........................................................37第4章电子病历数据疾病预测模型构建实证研究............394.1数据来源.................................................................................394.2数据清洗与规范化.................................................................404.3缺失数据填补.........................................................................41VII 4.3.1原始数据描述统计.......................................................414.3.2男女患病差异显著性分析...........................................424.3.3男女不同年龄段患病差异显著性分析.......................434.3.4经分层均值填补后数据统计分析...............................444.4数据降维处理.........................................................................464.4.1根据主成分特征根降维...............................................474.4.2根据主成分的累计贡献率降维...................................504.4.3根据Logistic回归降维................................................534.5构建糖尿病视网膜病变预测模型.........................................544.5.1确定基线精度...............................................................544.5.2构建预测模型...............................................................554.5.3模型评价.......................................................................574.6对照实验模型.........................................................................614.7讨论.........................................................................................634.7.1数据填补的讨论...........................................................634.7.2数据降维的讨论...........................................................634.7.3不同算法的讨论...........................................................644.7.4预测模型构建的讨论...................................................64第5章结论与展望......................................655.1研究结论.................................................................................655.2研究局限性.............................................................................665.3展望.........................................................................................66VIII 参考文献................................................68作者简介及科研成果......................................76致谢................................................77IX 图表目录图1.1研究思路.....................................................................................13图2.1SMOTE合成5个少数类新样本示意图..................................22表2.1Explorer界面及功能简介.........................................................25图3.1疾病预测模型构建策略............................................................38表4.1数据内容及特征简介................................................................39表4.2不同性别不同年龄段DR患病频数统计表.............................41表4.3不同性别不同年龄段DR患病频率统计表.............................42表4.4男女患DR与否的比较.............................................................42表4.5不同性别是否患DR行*列表...................................................43表4.6性别年龄分组频数统计表........................................................43表4.7同性别不同年龄组行*列表......................................................44表4.8不同年龄段患病与未患病均值(男性)................................45表4.9不同年龄段患病与未患病均值(女性)................................46表4.10各指标的共同度......................................................................47表4.11主成分统计分析(特征根、贡献率、累计贡献率)..........48表4.12旋转后主成分因子载荷..........................................................49表4.13各指标的共同度......................................................................51表4.14主成分统计信息(特征根、贡献率、累计贡献率)..........52表4.15旋转后主成分因子负荷............................................................53表4.16Logistic回归输出结果............................................................54表4.17未平衡数据ZeroR分类混淆矩阵..........................................55X 表4.18SMOTE算法插补结果............................................................55表4.19ZeroR算法分析未降维数据的混淆矩阵...............................55表4.20平衡后J48算法分析第一种降维数据混淆矩阵...................56表4.21平衡后J48算法分析第二种降维数据混淆矩阵...................56表4.22平衡后J48算法分析第三种降维数据混淆矩阵...................56表4.23基线精度及J48算法构建模型的结果...................................56表4.24J48算法第一种降维交叉列表结果........................................58表4.25J48算法第二种降维交叉列表结果........................................58表4.26J48算法第三种降维交叉列表结果........................................59表4.27未降维与三种降维结果间差异显著性检验..........................59表4.28组间方差齐性检验..................................................................60表4.29四组之间的两两多重比较结果..............................................60表4.30五中算法模型构建结果..........................................................61表4.31五种算法分析降维方法1数据组间差异显著性检验..........61表4.32五种算法组间方差齐性检验..................................................62表4.33五种算法组间两两多重比较结果..........................................62图4.1决策树可视化模型...............................................................................57XI 第1章绪论本章首先从数据积累奠定研究数据保障、数据挖掘工具提供技术支持、糖尿病患病率逐年上升三个方面阐述了研究的时代背景、研究目的及研究意义,并由此确立研究主题;然后,搜集国内外相关研究文献,从数据来源、使用的工具、研究的内容,综述国内外相关的研究现状;最后,提炼总结了主要研究内容,亟待解决的关键问题,并梳理了统领全文的研究思路和研究方法。1.1研究背景与意义1.1.1研究背景⑴海量电子病历奠定坚实的数据基础此前,医学数据挖掘的数据来源大多以实验数据为主,需要人工采集数据,耗费大量的人力、物力及时间成本。近年来,随着各阶层医院信息系统的广泛使用与逐步完善,使得病人的各项诊疗记录得以经过电子病历的方式进行完整的保存、传输、管理和共享。电子病历包含患者个人信息(姓名、性别、年龄、住址、医疗保险号等)、生理指标、化验结果、非文字记录(CT、心电图、录音等)、既往史、遗传史、诊疗费用等。医院信息化建设过程中,电子病历数据作为标志性产物,不仅完成了病例记录形式上的转变,还承载着医疗领域的信息化共享平台的功能,链接起医院各个部门、各级医院、各级卫生管理系统,搭建起卫生信息系统的信息网络。电子病历除了能直观提供患者诊疗过程中的各项指标数据,其中还蕴含着大量隐含的有价值的信息,比如某种疾病患病危险因素、易发年龄、未标明的药物副作用、疾病与疾病之间隐含关联等。目前主要应用如下领域:临床治疗方面,能够起到辅助医生诊断治疗,减轻医生工作量,降低医疗差错率的作用;医院管理方面,优化医院工作流程,各部门不仅各司其职,各部门间的衔接方便快捷,实现一体化的工作模式;卫生事业管理方面,实时获取各地区各机构的最新信息,有助于突发事件宏观调控,对于慢性病、传染性疾病的实时监控有很大帮助;科研方面,随着时间推移累积了大量的数据,为数据挖掘工作奠定了坚实的数据基础,正因为有了电1 子病历数据量的积累,才能促进当前医疗水平质的飞跃。⑵成熟的挖掘工具提供技术保障所谓工欲善其事必先利其器,数据挖掘的过程有异曲同工之妙,选择合适的工具、方法、策略,能够达到事半功倍的效果。功能强大的数据挖掘工具,不仅能提高数据挖掘的效率,还能提升数据挖掘结果的可信度,同时减少研究人员的工作量和工作难度。由怀卡托大学开发的Weka,又称怀卡托智能分析环境,就是一款集成多种算法和功能的软件,它的全称为WaikatoEnvironmentforKnowledgeAnalysis,具有开源的、免费的、非商业化的特征。该软件的开发设计语言是java,集成了大多数常用的数据挖掘算法,算法包括分类算法、聚类算法、回归算法、关联规则、人工神经网络等,提供了人机交互界面,可以根据用户需求调整算法参数。还包含可视化分析功能,能满足绝大多数情况的分析需求。在2005年8月,在关于数据挖掘与知识探索领域的第11届ACMSIGKDD国际学术会议上,Weka软件研发团队荣获了最高服务奖。凭借此次获奖,Weka的知名度进一步提高,被誉为当前最为完善的数据挖掘工具之一。因此将其利用到实证研究当中,用于构建糖尿病视网膜病变预测模型。⑶糖尿病患病率逐年上升根据国内相关研究及调查结果显示,目前,我国糖尿病患者以及糖尿病前期患者的比例正在逐年升高。于2010年,中华医学会糖尿病学分会公布了最新的调查报告[1],报告中明确指出,我国20岁以上人口的总体患病率为9.7%。与此同时,还计算了男性和女性的患病率,分别为10.6%、8.8%,男性患者的比例明显高于女性,表明了患者中可能存在性别差异。调查结果也同时统计了糖尿病前期的患者,结果不容乐观,已经占据总人口的15.5%。根据目前的调查结果推测,未来几年,我国患糖尿病的总人数或将突破9200万人,糖尿病前期的人数极有可能突破1亿人。基于当前迫切严峻的实际情况,已经成为严重威胁我国居民健康的慢性疾病,因此糖尿病的预防和治疗工作刻不容缓。着眼于全球范围,糖尿病的患病情况依旧非常严峻,根据国际糖尿病联盟(InternationalDiabetesFederation,IDF)最新统计结果显示,我国的糖尿病患者的绝对数量和相对比例已经超越了印度,成为了全球糖尿病患者数量最多的国家,而且还在以每年新增100万人的速度持续增长[2]。除此之外,在患者年2 龄构成上发现,糖尿病患者逐渐朝低龄化发展,患者年龄越来越低龄化[3]。除了糖尿病疾病本身给健康带来的危害之外,糖尿病的一系列并发症所引发的健康问题也是不容忽视的,由糖尿病可以诱发多种器官病变,引起一系列并发症,例如糖尿病合并心脏病、肾病、足病,以及周围血管病变、神经病变等,都是当前致残致死的重要疾病,严重影响人类的预期平均寿命。在众多并发症中,糖尿病视网膜病变是较为严重的一种,视力的丧失对病人的生活影响较大,而且通常是不可逆转的损害,因此该并发症的预防工作就显得尤为重要。糖尿病性视网膜病变(diabeticretinopathy,DR),又称糖尿病视网膜病变,是一种由糖尿病引起的常见的微血管并发症。随着全世界范围糖尿病患病率的升高,糖尿病视网膜病变作为主要并发症之一,患病率也随之明显升高,由此造成的视力损害和经济负担,影响着全世界约上百万的人口。糖尿病性视网膜病变的发病位置是眼部的微血管,但并非单一的并发症,一旦出现病[4、5、6]变,往往伴随其他宏观的周围血管病变。当前,国内外糖尿病患者的人数呈现逐年递增的趋势,由此引发的糖尿病视网膜病变患者的数量和比例也呈现快速增长趋势。因此,亟需采取有效的预防和治疗措施来改善当前的现状,缓解因糖尿病视网膜病变给患者带来的沉重经济负担、严重心理影响以及生活质量的下降等问题。基于以上数据基础、技术保障、社会需求背景,可见基于医疗大数据进行糖尿病视网膜病变的知识发现研究时机成熟。当下,就糖尿病视网膜病变而言,亟需有效预防和治疗措施,以缓解该病所造成的社会压力。而有了大量医疗数据资源作为数据保障、有相关数据挖掘理论作为理论指导、有完善的机器学习工具和数据挖掘方法作为技术支持,三者合一能够共同保证研究主题的科学性、研究方法策略的合理性以及研究进展的可行性。1.1.2研究目的首先,以信息链、决策支持、数据挖掘与知识发现为理论指导,制定基于电子病历数据的疾病预测模型构建策略,从数据集成过程、缺失数据处理方法、数据降维处理、模型构建与评价等维度,指导电子病历数据知识发现过程;其次,探究机器学习方法中决策树、支持向量机、朴素贝叶斯、Logistic回归、3 人工神经网络方法应用于疾病预测模型构建的效果;最终,改善当前医疗大数据资源数据量大、种类多、价值密度低、处理速度快的现状,实现医疗大数据知识发现过程的可共享、可交换、可互联,发掘医疗大数据在临床诊疗、医学科研、诊疗决策支持、循证医学知识库构建中的应用价值。1.1.3研究意义⑴理论意义探索基于医疗大数据疾病预测构建模型的新策略,寻找适应医疗大数据“4V特性”的数据处理流程及方法,进而促进医学信息中隐性知识发现、丰富循证医学知识库、辅助临床诊疗决策支持、指导科学研究方向,为医学信息学领域的知识发现创造新的理论增长点、数据挖掘实践过程提供参考依据。⑵实践意义以真实的医疗数据集构建疾病预测模型,可以在临床诊疗过程中,辅助医生诊断或筛查糖尿病视网膜病变患者、指导患者有针对性的预防该病、降低糖尿病发展为合并视网膜病变的风险,从而改善患者的生活质量。1.2国内外研究现状1.2.1国外研究现状⑴国外相关研究常使用的工具国外相关研究中,使用的分析工具主要以统计学工具为主,常见分析方法有系统回顾[7]、meta分析[8]、Logistic回归等,其中Logistic回归使用频率最高,曾被用于探究糖尿病致黄斑水肿的主要原因[9]、微血管并发症与左心室体积关联[10]等多项研究中。通常用于流行病学领域、临床试验数据、基础医学数据的数据分析,检验数据与标准值之间的差异显著性。⑵国外相关研究主要数据来源当前,有关医疗大数据的知识发现研究,数据分析对象主要分为两类:试验数据、文献数据或调研数据。试验数据包括临床试验数据[11]和动物实验数据[12];文献数据主要为国内外各类数据库中的文献数据:用于研究该疾病关联因素的回顾性分析,常用的数据源有MEDLINE和Embase数据库;调研数据:4 以社区患者为研究对象,选定某个时间段进行数据采集[13]除文本数据和数值数据以外,还包括图像数据。例如:眼部图像数据包括眼底微动脉图像[14]、荧光素血管造影和光学相干断层扫描临床成像[15]、激光扫描检查[16]等,数据具有清晰、直观、准确的特征。单张图像数据具有实时全面的特征,能够揭示眼部的所有病变,避免人工主观臆断造成的误差;纵向时间轴能够全程记录病程的发生发展,动态立体的展示眼部病变的整个过程。眼底镜像检查是诊断眼部并发症类型、病程严重程度的重要诊断标准,是眼部数据的另一重要组成部分,能够直观准确的为医生提供诊断治疗参考的有力依据。⑶糖尿病视网膜病变常见关联因素经查阅国外相关研究发现,与DR相关的因素可以概括为以下三类:①生化指标因素:白细胞介素-6[17]、血管内皮生长因子(VEGF)[18]、血清脂联素[19]、糖化终端产品[20]、促红细胞生成素(EPO)[21]、多巴胺[22]、尿酸[23]等与糖尿病眼病的发病密切相关。有研究表明,促红细胞生成素(EPO)具有促进血管生成的潜力,功能与促血管生成素类似[24],因此,同样与DR病变相关。②生理指[25、26、27]标因素:超重和肥胖是糖尿病的重要危险因素,高体重指数(BMI)是[28、29][30]衡量心血管疾病发病率和死亡率另一重要指标。眼部黄斑光学密度变低是另一个能直观反映眼部病变的生理指标。③心血管疾病:糖尿病导致的眼部疾病,主要由微血管病变引起,有人据此探究了其他微血管、大血管病变疾病与糖尿病眼病间关联关系和关联程度,发现诸如下肢动脉粥样硬化、中风、心肌梗死、下肢截肢等疾病[31]与糖尿病黄斑水肿之间存在关联。1.2.2国内研究现状⑴国内相关研究常用工具国内也有众多学者对该疾病展开研究,所选择的工具和方法多集中于统计学领域,通过分析指标与正常值之间是否有显著性差异,判断与疾病关联性及关联强度,进而判定是否为疾病的危险因素。①统计分析工具和方法:统计学[32、33][34]中最常用的工具是SPSS。安徽医科大学的董琳利用统计学研究中的对比分析方法,发现该并发症的发生发展不仅与糖尿病的病程相关,也与糖化血红蛋白和促甲状腺激素密切相关。大连医科大学的徐云[35]利用SPSS软件,采5 用回顾性研究方法追溯相关因素。研究中,以糖尿病各阶段患者的多项生理指标为研究对象,进行Logistic回归分析,发现除了常见的年龄、血压、病程以及尿酸与DR密切相关外,糖尿病的其他并发症同样也与DR的发生发展相关,例如糖尿病性心脏病、肾病、周围血管病变等。②数据挖掘工具:国内也有学者将Weka应用与医学领域的数据挖掘研究中,例如张瑞等[36]使用机器学习算法进行研究,采用分类、聚类、关联规则探究糖尿病的发病规律,描述各关联元素间的相互关联关系,探测隐性知识。天津医科大学的李戈[37]从算法创新的角度对糖尿病并发症进行研究时将逻辑回归与人工神经网络相结合,开发了一种新的人工神经网络算法。⑵国内相关研究主要数据来源国内对于DR的研究数据来源主要分为三大类:通过临床试验搜集的病例数据、通过基础实验获得的实验数据、通过调查问卷获得的调查数据。临床病例数据主要是医院患者的病例数据,包括病人的病史、家族史、服药史等信息。临床病例数据的数量有137例、562例、1090例[38]不等;临床试验数据是以住院患者为研究对象,根据研究者目的给予患者不同的干预得到的数据,如从基因学的角度出发,安徽医科大学的郑雨钱[39]发现对氧磷酶1(PON1)基因多态性与DR有着一定的关联影响;天津大学的陈拥军[40],证实了Smad3基因在糖尿病视网膜病变中的作用,从遗传学角度揭示了糖尿病视网膜病变的遗传规律;除此之外,还有来自问卷调查的数据[41],问卷内容即包含被调查者的患病情况,涵盖了实验数据所不具有的被调查者的基本信息问卷,调查内容包括姓名、性别、出生年月、民族、文化程度、婚姻状况、生育情况、从事职业、吸烟饮酒情况、既往史、相关疾病家族史等、DM高血压危险因素问卷、眼病意识问卷、治疗意识和方法问卷,共计四部分[42]。与国外相对比,缺乏关于图像数据的有关知识发现。⑶国内相关研究中常见关联因素通过搜集整理国内学者的相关研究发现,DR的关联因素可概括分为三类,即生化指标、血管病变因素、基因水平因素。①生化指标:糖尿病并发症的出现,被普遍认可的关联因素是血糖含量[43]。除此之外,还有众多生理生化因素与之相关。酶类中的基质蛋白酶(MMP-9)6 的生理功能是调节各种细胞的生物学进程,其中就包括细胞的凋亡及血管的生成,经试验研究证明,该酶在DR病变的发生发展过程中也发挥了作用[44]。2013年吉林大学的郑福伟[45]发现离子也与DR相关,并证实了镁离子与DR的发生与发展呈负相关性,研究证实在一定范围内,镁离子的含量越低,DR的发生率就会越高。罗晓寒[46]除了证实DR的发病率与患者的性别无关,还发现患者身体过度肥胖,以及由此引发的长期高血糖、高血压、高血脂,都是诱发DR的重要因素。在血常规检测中,DR患者的血尿素氮、β2-微球蛋白、血肌酐的含量都高于未患该病的人。2014年,浙江大学王兴木[47]通过实验研究,确定了血管内皮生长因子(VEGF)在DR病变过程具有一定影响。②血管病变因素:糖尿病的一系列并发症的病理学表现都是血管病变,血管按类型又分为大血管和微血管,不同类型不同部位的血管病变,又可导致不同器官的并发症。例如,当大血管病发生病变时,通常合并的并发症为动脉粥样硬化、脑部血管病变等;当微血管发生病变时,会导致视网膜病变、足部病变等。2013年,吉林大学的学者王立芳[48]根据不同并发症,发生病变的血管位于不同的部位,进一步深入探究反映血管病变的标志物,发现了代表血管是否有炎症的标志物C反应蛋白,可以用来间接监测DR病变。与此类似,2013年郑州大学的衡欣[49]对血管相关因素研究发现了转化生长因子(TGF-β)参与了血管新生的形成过程,以及血管的纤维化、增殖化过程,由此推断,TFG-β与DR病变相关。③基因:无论是临床试验研究还是基础实验研究,都证实了糖尿病具有一定的遗传倾向,据此推测,糖尿病及其系列并发症都与基因有着密切的关联,而针对相关基因展开的研究也层出不穷。2013年,天津医科大学的吕佳等人[50],利用基因检测技术,通过筛选与实验验证,发现TOX和SMAD3基因的多态性与DR病变有密切的联系。在以往研究证实高血糖与糖尿病发病有关的基础上,有学者据此探究与糖还原、氧化等化学反应有关的基因,同DR病变的关系程度。2014年,张建丽[51]发现位于基因启动子区域的基因C(-106)T的多态性,与糖还原酶的表达程度息息相关,进而推断其与DR病变的发生发展的严重程度有关。7 1.2.3国内外研究现状述评通过对近年国内外有关本研究文献的总结和梳理发现,围绕医疗大数据展开知识发现研究一直备受关注。在医疗大数据挖掘中,有关疾病危险因素的研究和预测模型的构建较为常见,且各类研究通常基于特定的情景或研究视角。数据来源层面,国内外研究医疗大数据知识发现的数据主要来源于文献数据、临床试验数据、调查数据,较常见的是动物实验和临床试验的实验数据,这种类型数据存在搜集周期长、数据量较少、干扰因素多等缺陷。在当前国内新医改背景下,医疗大数据的数据源有了新的变化。随着医院信息系统在各级医疗卫生机构中的广泛应用与逐步完善,医院积累的海量电子病历数据,为医学领域的知识发现奠定了扎实的数据基础。与其他类型数据相比,具有数据量大、客观真实、便于存储传输的特点。因此,对电子病历数据的分析与利用,逐渐成为该领域的研究热点。数据挖掘所用工具层面,传统分析研究中经常使用的是统计学的分析方法,但也有实践研究表明,机器学习能够在医学数据分析中取得较好效果,由此可见,将统计分析方法与机器学习相结合,能够更加科学精准的解决医学数据挖掘中各环节的问题。数据挖掘研究的内容层面,当前研究重点多集中在以动物模型为基础的疾病危险因素分析,或从生理生化指标、基因改变、病理组织改变角度分析疾病病变的危险因素,多数是对单一因素的分析,较少揭示各因素之间的关联关系。未见从医疗大数据特征出发,对整个数据挖掘流程进行探讨,从制定数据预处理策略、将数据从高维降到低维、模型构建与评价各环节处理策略及效果评价的研究。因此,本研究以电子病历数据为研究对象,将统计分析与机器学习方法相结合,从数据集成与清洗、数据填补与降维、模型构建与评价环节出发,逐步制定疾病预测模型构建的策略,并以糖尿病视网膜病变数据为研究对象,进行实证研究,构建糖尿病视网膜病变预测模型,再通过多维度评价指标及对照实验模型,综合评价模型的科学性、预测结果的准确性及各处理方法所得结果的差异显著性。8 1.3研究内容及技术路线1.3.1研究内容本文的研究内容主要分为五个章节,各章节的主要内容如下:第1章绪论。解析与本研究相关的背景知识及国内外研究现状,阐述本研究的研究目的、理论意义及实践意义。从国内外相关研究的数据来源、研究方法及工具、研究内容方面介绍糖尿病视网膜病变当前研究现状。最后,简析本文的研究方法、拟解决的关键问题、遵循的研究思路及技术路线。第2章相关理论、方法与工具。本章首先介绍了医疗大数据相关的理论基础,包括知识发现、信息链、决策支持理论,并简述了其嵌入在数据挖掘流程的具体环节及发挥的作用。概述了与数据挖掘过程相关的数据降维、过度拟合的概念,辨析了数据挖掘与知识发现概念的联系和差别。最后,简要介绍了较为常用的数据挖掘算法的工作原理,以及三种数据挖掘工具的来源、功能及优缺点。第3章疾病预测模型构建策略。本章首先解析了医疗大数据背景下,疾病预测模型构建过程中数据集成与规范化、数据填补与降维、模型构建与评价三个环节的关键问题。然后,针对问题制定了对应的数据集成与规范方案、缺失数据填补方案、数据降维方法及模型构建与评价方案,制定了疾病预测模型构建策略。第4章糖尿病视网膜病变预测模型构建实证研究。本章首先对数据进行集成与清洗,接着判断不同性别在患病结果的差异显著性、同一性别在不同年龄段患病结果的差异显著性,据此对目标数据集中的缺失数据进行分层均值填补。然后,分别采用主成分分析提取特征根大于1的因子、提取累计贡献率大于85%的因子、Logistic回归提取患病结果差异有显著性的因子,据此对数据进行降维。最后,通过机器学习确定原始数据基线精度,再利用决策树算法构建未降维与三种降维方法的疾病预测模型,并检验三种降维方法结果差异显著性。通过评价指标和对照实验模型对所建模型进行评估,并分析对照试验模型与所建模型结果差异显著性。第5章结论与展望。根据研究所做的各项工作,得出研究相关结论。探9 讨缺失数据填补方案、不同降维方法、不同机器算法对疾病预测模型构建结果的影响,以及该策略的优势及面临的挑战。1.3.2拟解决的关键问题⑴缺失数据处理缺失数据是指原始数据中没有回答的、空缺的或者不可用的数据。通常情况下,原始数据中都会存在数据缺失的现象,而数据缺失数量的差异,给数据分析带来了不同程度的困难。数据预处理过程中在原始信息不丢失的前提下处理缺失数据,是保证数据分析结果的准确性的关键因素,也是数据挖掘分析工作的重要环节。⑶数据降维原始数据中存在着许多冗余的信息,影响计算的时间及准确度,给数据挖掘的效率造成了严重的阻碍,这种阻碍造成了维数灾难。医疗大数据中电子病历数据的挖掘工作中同样面临着数据降维的问题,本研究探究如何将数据从高维度降到低维度,最大程度的保留原始数据信息的同时,提高数据挖掘的效率及分析结果的准确性,并发掘其内在的有价值信息、识别隐含的规律和模式。⑶数据分类不平衡在机器学习任务中,当训练集中存在某个或某些类别下的样本数远大于另一些类别下的样本数目时,即类别不平衡。此时,分类器倾向于将所有的样本都归为大类中,导致分类过程中分类器并没有发挥作用。为了使机器学习过程呈现出更好的效果,因此需要解决目标数据中类别不平衡的问题。一般情况下,训练样本中类目1与类目2的比例超过20:1时,就会出现分类不平衡问题。原始数据中,未患DR与患DR病历数远远超过20:1,由此可见,在构建预测模型之前,首先要解决目标数据的分类不平衡问题。⑷数据过度拟合过度拟合(overfitting)又称为过适现象,是指在调适并构建一个预测模型的过程中,使用过多参数使模型更适应目标数据,但是这种情况下只要模型足够复杂,即使是错误的模型也可以很完美地适应目标数据,但是将构建的模型应用于未知的数据集上,就不能很好的适应新的数据。此时,这个假设出现了10 过度拟合的现象。在模型过适的过程中,随着训练数据构建模型的准确性越来越高,相反,其应用在未知数据集上的效果就会更差。因此,过度拟合会减少或破坏模型一般化的能力,不能更广泛的适应其他资料。反观出现这种现象的原因,常见的情况是训练数据存在过多的噪音或者冗余,亦或是训练样本的数据量过少。常用的解决方法有两种:一种是提前停止决策分支的增长;另一种是在决策树生成之后,按照一定的规则进行后剪枝。1.3.3研究方法⑴文献调研法通过搜集、鉴别、整理、综合、分析和研究相关文献形成对医疗大数据、Weka研究现状、糖尿病视网膜病变的科学认识。包括提出研究问题、展开研究设计、搜集筛选文献、归纳总结文献并对其内容进行深度加工形成文献五个基本环节。⑵统计分析法①卡方检验(X2检验):对原始数据进行统计描述,分析缺失数据的数量及频数,男女是否患DR的频数、频率及差异显著性,不同性别在不同年龄段是否患DR的频数、频率及差异显著性,为缺失数据的填补提供依据。②主成分分析法:分析目标数据集中各属性的特征根及贡献率,分别提取特征根大于1的因子和累计贡献率大于85%的因子进行数据降维,为构建预测模型做准备。③分层均值填补法:首先将原始数据集按照是否患DR划分为两组,其次每组中再按照男女性别划分,然后将每部分按照年龄组划分,共计分成20层,最后分别对每层求平均值进行填补。⑶数据挖掘法①过采样法:解决数据分类不平衡问题,数据集中患病与未患病数据量相差悬殊,导致机器学习算法失效,通过SMOTE算法平衡目标数据集,修正数据不平衡分类造成的预测偏倚,达到降低数据过度拟合的可能性。②决策树:利用决策树的归纳,由上至下的逐层分类原理,形成可读的模型分类规则和决策树,然后对决策树进行剪枝,构建糖尿病视网膜病变预测模11 型。③Logistic回归法:利用逻辑回归分析各指标在是否患DR上的差异显著性,筛选在是否患病上有显著性差异的属性进行特征向量选取,实现对原始数据的降维。此外,在模型评价过程中,应用于构建对照实验模型,评价预测模型的效果。④支持向量机:选择支持向量机算法中的SMO算法,因该算法是最快的二次规划优化算法,尤其是当目标数据集数据稀疏时,性能更优。将改算法用于构建对照实验模型,横向评价预测模型效果。⑤贝叶斯算法:选择算法中的NaiveBayes算法,构建对照实验模型,评价预测模型效果。⑥人工神经网络:选择人工神经网络方法中的RBFNetwork算法,即径向基函数神经网络算法,构建对照实验模型,评价预测模型效果。1.3.4研究思路研究主要分为三部分:现状研究、理论研究、模型构建研究。第一部分现状研究:通过文献阅读,了解国内外关于糖尿病视网膜的研究现状,分析其数据类型及来源、研究方法、研究过程及研究结果等;第二部分理论研究:探究在医疗大数据环境下,知识发现、信息链、决策支持理论相关的概念与方法、内涵与外延、步骤与策略对电子病历数据挖掘的理论指导意义;第三部分模型构建:首先对数据进行清洗及预处理,然后通过统计描述分析、数据降维、数据平衡等构建预测模型,并依据真阳性率(TP)、假阳性率(FP)、查准率(Precision)、召回率(Recall)、F值、ROC曲线下面积(ROCArea)、一致性检验(Kappa)值等指标进行评价,最后用四组对照试验模型进行评价。研究思路如图1.1所示:12 图1.1研究思路13 第2章相关理论、方法与工具数据挖掘的过程是从海量异构数据中发掘隐含的、潜在的、有价值的信息,包括对目标数据的统计描述、关联分析、分类预测、聚类分析等。据此,本章首先概述了与数据挖掘密切相关的知识发现理论、信息链理论、决策支持理论,然后从工具起源、原理和功能角度介绍了数据挖掘常用工具和算法,并以此为理论指导和方法基础,指导疾病预测模型的构建研究。2.1数据挖掘相关理论2.1.1信息链信息链(InformationChain),由事实(Facts)、数据(Data)、信息(Information)、知识(Knowledge)、情报(Intelligence)(或智慧Wisdom)五个环节构成。也是自人类开始认识并改造未知世界以来,不断的探索事物的特征、探寻事物之间的联系、将信息转换形成智慧的过程。早在1982年,美国学者Cleveland提出了“艾略特层级”(TheT.S.Eliothierahierarchy)来描述信息组织过程中信息、知识与智慧之间的层级关系[52]。随着该理论的不断完善与发展,在1986年,美国管理学家罗素·艾可构建了DIKW体系[53-54],Zeleny提出的元素区分理论[55]以及CIO时代网对DIKW内容与价值进行的诠释[56],都旨在阐述数据只有进一步转化为智慧才能体现其价值。“信息”作为该链的中心环节,具有承上启下的链接作用,兼具物理属性和认知属性,前段的事实和数据,是揭示了信息的物理属性,后段的知识和情报,是揭示了信息的认知属性。因此,信息链的传递过程也可以看作是从认识信息的物理属性到认知属性的过程[57]用于指导整个电子病历数据挖掘的过程。⑴事实(Facts):是指客观真实存在的事物或事情,包括对象、特征、事件、事态,也就是指事物客观真实存在的状态,以及与周围环境互动发展的变化动态[58]。记录要素包括事情的主体、地点、时间、人物、特征、环境等,用于记录事情的起因、经过、结果等。⑵数据(Data):是对事物或事情客观描述归纳的结果,是一种原始的、未14 经加工的客观素材,通常不含有记录者的主观因素。数据的类型既可以是连续型的,又可以是离散型的。连续型的数据,例如音频、视频文件;也可以是离散型的,如符号、文字,称为数字数据。数据是指对客观事件进行记录并可以鉴别的符号,是对客观事物的状态、性质以及相互关系等进行记载的物理符号或组合。它不仅指具体的数字,也可以是具有一定意义的文字、字母、数字符号的组合、图形、图像、视频、音频等,也是客观事物的属性、数量、位置及其相互关系的抽象表示[59]。⑶信息(Information):泛指人类社会活动中所传播的一切内容[60]。被广泛认可的定义是由香农(C.E.Shannon)在20世纪40年代给出的定义,指出信息是用来消除随机不确定性的东西[61]。该定义是信息学研究的核心,研究者从各自的研究领域出发,给出了诸多不同理解的定义。信息本身具有很多特征,例如:识别和转换特性、存储和传递特性、扩充和压缩特性、一定的时效性等。⑷知识(Knowledge):知识的定义在认识论中仍然是一个争论不止的问题,至今也没有一个统一而明确的界定,有一个经典的定义来自于柏拉图:如果说一条陈述能够称作知识,那就必定要满足如下三个条件:一定是被验证过的,一定是正确的,一定是能够被人们相信的,这也是区分所有信息科学与非科学的标准[62]。知识也是人类在实践中通过感觉、交流、推理等复杂过程认识人类自身和客观世界的成果,它包括事实、信息的描述或在教育和实践中获得的技能。它既可以是关于理论的,又可以是关于实践的。知识具有一致性和公允性,依据逻辑推理判断真伪,而非个人主观立场。从类型学角度来看,知识可分为简单与复杂型、独有与共享型、具体与抽象型、显性与隐性型等。⑸智慧(Wisdom),或称为情报(Intelligence):可以通过不同的角度进行定义,包括一个人的逻辑,理解和学习能力,自我意识,情感知识,规划和创造力以及解决问题的能力。智慧不仅存在于人类、动物、植物中,同事也存在于机器中,即所谓的机器智能,是以程序软件和计算机系统的形式存在。2.1.2决策支持决策支持理论的起源要追溯到第二次世界大战后,该理论是一门统筹全局的综合性理论,融合了系统理论、运筹学、计算机科学等学科,并将其应用到15 解决实际决策问题,是一门关于决策过程的较为规范系统化的理论体系[63]。根据该理论构建的的决策支持系统,由数据层、模型层、知识层、人机交互层四部分构成,将复杂的问题通过数据、算法和模型进行层层剖析,为决策者提供多种方案及方案效果评价,最终以人机交互的方式提供决策策略的管理系统。决策支持系统给决策者提供的解决方案通常并不是唯一的,而是多种角度的模拟解决过程,决策者根据实际情况和需要再进行最终的判定,该过程能够辅助决策者制定更高水平的决策方案[64],用于指导疾病预测模型构建的决策制定。⑴决策分类:依照最终得到的判定结果,可以将决策分为如下三类:①结构化决策:是指参与决策过程的对象、影响决策的环境、制定的决策规则,能够用唯一确定的语言或规则加以描述,经决策规则分析后所汇集的系列决策方案,并且能够从中明确筛选出最佳的决策方案;②非结构化决策:指制定决策方案的过程繁琐复杂,决策过程不能用确切的语言或者模型进行描述,更没有办法从最终的诸多决策结果中筛选出确定的决策方案;③半结构化决策:顾名思义,是介于结构化与非结构化决策之间的决策过程。该决策过程通常可以建立一定的规则和模型,但是仅从决策结果较难从中筛选出最优的决策方案,一般需要结合决策者的实践经验、领域知识和决策环境进行决策制定,才能做出精准高效的决策。⑵决策过程:决策的过程可以分为四个阶段。①提出问题并制定目标:为决策过程的起点,根据实际情况提出拟解决问题,并根据问题编制解决方案、规划决策模型及评价指标;②决策分析过程:选择合适的决策方法制定决策方案,对所有可能的流程及结果进行展示,并根据拟定的评价指标对决策结果进行定性和定量的测评;③决策评价过程:根据决策过程的结局,结合决策者自身的工作经验、工作习惯等主客观环境因素,对决策结果的价值和可行性进行定性和定量的估计;④综合分析:决定决策方案最终的取舍,分析决策方案的灵敏度,考虑方案的可拓展性,移植到新数据集上的可行性,决定方案的参考范围。通常情况下,决策过程不是一蹴而就的,而是需要反复调试,层层迭代的过程。这个过程就是人机交互的过程,需要计算机的辅助,也需要人工智能的判断,然后方能筛选出效果最佳的决策方案。16 2.1.3数据挖掘与知识发现数据挖掘(DataMining)指以不同类型、不同数量、不同结构的数据为研究对象,通过算法挖掘隐藏其中信息或规律的过程,其主要任务是识别并抽取数据中隐含的规律、模式及模型。数据挖掘融合了多领域学科的理论与方法,其中主要与计算机科学相关,挖掘过程将统计分析、在线分析处理、情报检索、机器学习、专家评价和模式识别等多种方法相融合,以此实现将数据中隐性知识提炼升华为显性知识。数据挖掘的过程开始于对原始数据的接收和输入,筛选重要的数据项、降维和浓缩数据集、降噪及规范化数据等预处理步骤,然后对数据进行多维分析、模式识别、模型评价、差异显著性分析等工作,完成原始数据从数据到信息,再到知识的传递过程。知识发现(KnowledgeDiscovery),被大多数学者认为是数据挖掘更广义的概念,指从数据集中探测识别出有效的、新颖的、潜在的、并且有用的以及最终可理解模式的超凡过程,并与数据仓库有着密切的联系[65]。知识发现系统是从存储在一个或多个现实数据仓库的原始数据中,依照一定的规则识别并抽取数据,再经一系列清洗及预处理剔除数据中的噪音、冗余、错误等,完成降噪过程使其达到可分析状态,再经多轮试验选择效果最优且最适合的方法挖掘深层信息中隐性知识的过程。该过程囊括了统计学、数学、计算机科学、情报学、情报工程学、人工智能、可视化技术等众多领域的综合理论与技术,并且需要不断的探索与尝试,才能实现发掘更有意义和价值的信息,最终需要通过权威的评估方法来评定数据挖掘结果的效果和可信度。⑴知识发现的任务:主要是对数据中隐藏的规律、模式、特征、知识的发现,根据数据特征属性和研究目的不同,知识发现的类型可分为数据分类、数据聚类、预测预警、相关性及关联性、特征描述、时间序列分析等。⑵知识发现的对象:可以进行知识发现研究的数据集类型多种多样,包括结构化、非机构化及半结构化的数据,都可以作为分析研究的目标。常见的研究对象包括自由的文本数据、结构化的数值数据、复杂的图像数据、连续的视频数据、动态的Web数据、延续性的时间数据、多维度的空间数据等。⑶知识发现的方法:可以分为传统典型技术和创新技术。传统典型技术发展较为成熟,包括统计学分析方法、或然性和最大可能性估计的贝叶斯理论、17 数据仓库技术和联机分析处理、决策树(ID3、C4.5)、聚类分析(K-Means)、关联规则(Apriori、SMO)、神经网络(BackPropagationNeuralNetwork)等。创新技术是基于现代计算机技术飞速发展的基础上,最新发展形成的图形学、可视化科学等,其中先进的技术包括几何投射技术、信息可视化技术、基于图表技术、基于图标技术、基于层次分析技术、面向像素的技术、混合处理技术等。⑷知识发现的过程:是根据一定的理论防范,按照特定的规则和策略对原始数据集进行重新组织序化的过程,基本步骤包括:发现并提出目标问题、数据搜集与集成整合、数据清洗及预处理、数据降噪、数据再加工、数据标准化、数据变换、算法选择、算法运行、结果评价。知识发现和数据挖掘概念的界限并不明确,目前还存在着混淆,通常这两个术语可做同义词相互替换使用。与二者相近的概念还有很多,例如:数据库知识发现(KnowledgeDiscoveryinDatabases,KDD)、知识挖掘(KnowledgeMining)、知识抽取(KnowledgeExtraction)、信息抽取(InformationExtraction)、信息发现(InformationDiscovery)、智能数据分析(IntelligentDataAnalysis)等,这些相近相似的概念中,数据挖掘和知识发现认可度最高且应用范围最广,大多数学者认为数据挖掘是知识发现的一个主要步骤,即核心环节。但即便数据挖掘是知识发现过程的核心环节,但是也仅仅占知识发现过程约为15%-25%[66],究竟数据挖掘过程包含于知识发现过程的哪个环节,嵌入于知识发现的哪个步骤,尚且没有准确的定论。本研究将数据挖掘和知识发现的理论应用与指导实证过程中,电子病历数据中隐性知识到显性知识的发现过程。2.2相关方法2.2.1文献调研法首先检索国内外各类文献数据库中有关该主题的文献,通过阅读相关文献,全面梳理该研究主题在国内和国外的研究现状,分析该主题研究的重点方向、主要方法及工具、研究前沿及现状、存在的难点及不足,据此确定本研究要解决的重点问题。18 2.2.2统计分析法⑴主成分分析(principalcomponentanalysis,PCA),又称为主分量分析,能将降维凝练的思想融合到数据分析处理的过程之中,将原始数据集中的较多指标,通过投射转换,形成较少的几个综合指标,并能有效的反映原始数据的特征,且避免了认为主观臆断带来的干扰。其分析过程,是从数学角度进行的线性变换,将目标数据集按照一定的规则投射到新的坐标系,经投射后的第一大方差在第一坐标,即筛选出数据集的第一主成分;第二大方差在第二坐标,即筛选出数据集的第二主成分;依次递推,逐步筛选目标数据集其他主成分。主成分的分析原理是通过忽略高阶主成分,保留低阶主成分,实现数据维数上的降低,同时还能够保持目标数据集的方差贡献最大,在降低样本维数、提高分析效率的同时,尽可能的保留原始数据的基本特征。本研究将其应用于数据降维环节,将目标数据集进行浓缩精炼,解决数据冗余问题,提高预测精度。主成分分析法的计算步骤:①原始指标数据进行标准化变换,p维随机向量X=(X1,X2,X3...,Xp)T)n个样品xi=(xi1,xi2,...,xip)T,i=1,2,…,n,n>p,构造样本阵。计算标准化矩阵Z,变换公式如下:x−xijjZ=,i=,2,1…,;nj=,2,1…,p⋯⋯⋯⋯⋯公式2.1ijsjnn()2i=1xij2i=1xij−xjxj=,sj=⋯⋯⋯⋯⋯⋯公式2.2nn−1②计算标准化矩阵Z的相关系数矩阵TZZR=[]rxp=⋯⋯⋯⋯⋯⋯⋯公式2.3ijpn−1zki.zkjr=i,,j=2,1,...,p⋯⋯⋯⋯⋯公式2.4ijn−1③解样本相关矩阵R的特征方程R−λI=0⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯公式2.5p19 mλj=1j得到p个特征根,按≥.085确定所有主成分的m值,覆盖目标数据pλj=1j集85%以上的信息,对每个λ,j=1,2,...,m,求解方程组,Rb=λjb得到单位特征j0向量b。j④经标准化处理后,各指标变量转换为主成分的公式为:T0U=zb,j=2,1,...,m⋯⋯⋯⋯⋯⋯公式2.6ijijU1为目标数据集的第一主成分,U2为目标数据集的第二主成分,⋯,Up称为第p主成分。⑤对m个主成分进行综合评价⑵Logistic回归又称Logistic回归分析,是一种广义线性回归(generalizedlinearmodel),属于有监督学习方法,核心思想是从连续型数据集中得到数学模型,然后将该数学模型用于目标数据的分类、预测或建模,不仅可以处理较简单的低维数据,同样也适用于复杂的高维数据。本研究将其应用于数据降维环节,将目标数据集进行浓缩精炼,解决数据冗余问题,提高预测精度。适用条件:①数据类型为数值型,因变量为二分类变量。②无论是缺失数据还是现有变量,都服从二项分布。③自变量和Logistic概率是线性关系。④各观测对象间相互独立。主要用途:①危险因素分析:寻找某种疾病的危险因素等。②预测:根据Logistic回归分析,可以分析不同数据集、不同自变量的情况下,发生某种疾病或某种情况的概率,构建相应预测模型。③判别:根据训练数据集构建的特定Logistic模型,判断未知数据集中某人属于某病,或者某种情况发生的可能性有多大。2.2.3数据挖掘方法⑴SMOTE算法SMOTE(SyntheticMinorityOversamplingTechnique),Weka中的该算法是由ChawlaNV等人[67]开发的有监督过滤器(supervisedfilter),是一种过采样20 技术,通过特定算法后期人工合成少数类样本数据,本质上是基于随机过采样原理。有效避免了由于随机过采样方法的简单复制少数类样本数据,造成模型学习过程目标数据集过于针对性,而不够泛化到其他数据集的过度拟合现象。本研究将其用于实证研究过程中平衡数据集,解决原始数据集分类不平衡问题导致的分类结果不准确,预测结果准确性过于乐观的情况。此外,还可以避免数据集过度拟合。算法原理:分析对象是目标数据集中的少数类样本数据,根据欧式距离计算并人工合成新的少数类样本,添加到目标数据集中,而非简单的复制少数类样本的副本,达到扩充少数类样本数量的目的。因此该算法构造的数据是新样本,即原数据集中不存在的。构造新数据集的过程,首先基于距离度量选择小类别中的两个或者更多的相似样本,然后选择其中一个样本,并随机选择一定数量的相邻样本对选择的样本的一个属性增加噪声,每轮仅仅处理一个属性,如此反复,就构造了更多的新生少数类数据,由该算法的原理所决定的,其在一定程度上能够降低数据过度拟合的可能性。算法具体流程如下:①选择少数类样本中的每个样本,标记为X,以欧氏距离为标准,计算它到少数类样本集中所有样本的距离,得到其k近邻。②根据原始样本不平衡比例,设置一个采样比例,即确定采样的倍数N。少数类样本中,每个样本标记为X,从每个少数样本的k个近邻中,随机选择若干个样本,通常情况下选5个效果较好,假设选择的近邻为Xn。③对于随机筛选出的近邻Xn,分别与原样本按照公式计算并构建新的样本[68]。合成新样本示意图:当K=5时,新生成5个少数类实例的示意图如下。X表示少数类中某一实例,Y1、Y2、Y3、Y4、Y5为距离X最近的5个少数类实例,P1、P2、P3、P4、P5为经SMOTE算法新生成的5个少数类实例。21 图2.1SMOTE合成5个少数类新样本示意图⑵决策树算法决策树(decisiontree),又称为分类树,是一种对象属性与对象值之间的映射关系,经自顶向下递归的方式构造形成的树状结构,类似于流程图。决策树中的每个内部节点都表示原始数据的一个特征属性上的测试,树中的每个分支,分别代表原始数据中这个特征属性在某个值域上的输出,位于树顶端的节点称为为根节点,每个分支代表一个输出,下方为叶节点,每个叶节点存放原始数据的一个类别。决策树是一种有监督学习方法,即通过一定量的给定样本,且每个样本都有一组属性和一个事先确定的类别,然后通过决策树算法学习得到一个分类器,该分类器能够对新数据给出正确的分类。本研究及将其应用于预测模型的构建,及预测结果可视化展示。算法原理:构建决策树自根节点开始,逐步测试待分类项中的数据的属性特征,按照算法进行计算,将结果逐层输出分支,直至到达末端输出的叶节点,并将叶节点存放的类别作为决策结果。在机器学习中,决策树是一种常见的预测模型,能够直观反映目标属性与目标值之间的映射关系。常见的决策树算法有ID3、C4.5、CART、J48等,构建决策树的过程,实际上是利用了信息学理论中信息熵的概念,据此判断节点的纯度再构建决策树。量化纯度:纯度的计算方法有很多种,现介绍三种常见的纯度计算方法。将目标数据划分为n类,P(i)代表每一类的比例,P(i)=第i类的数量/总量,公式所得的值与纯度成反比,数值越大,表示该点的纯度越低;相反,数值越小,则表示纯度越高。实践证明三种公式效果的差异并无显著性,通常采用熵的公式进行计算。①Gini纯度:22 n2Gini=1−−Pi)(i1⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯公式2.7②熵(Entropy):nP(i)Entropy=−i=1pi*)(log2⋯⋯⋯⋯⋯⋯⋯公式2.8③错误率:Error=1−max{pi)(i∈,1[n]}⋯⋯⋯⋯⋯⋯⋯公式2.9⑶支持向量机算法支持向量机(supportvectormachine,SVM),是一种有监督学习算法,数据集判定的目标属性为二分类变量,模型是根据特征向量在特定空间上的间隔最大原则,构建形成的线性分类器。该算法的计算过程是基于核函数,被分析数据的类型可以是线性的,也可以是非线性的。基于间隔最大化的学习策略,可以抽象为一个求解凸二次规划的问题,求解的过程即寻找其最优解的过程。该算法的应用领域也很广泛,适用于数据分析、模式识别、分类分析和回归分析。原理:算法的执行基于非线性映射原理,将目标数据投射到较高维度,在新的维度上,搜索能够清晰分离两组数据的最佳超平面。即,寻找将任意一个类的数据元同其他类分离的决策边界。当达到足够高维的、合适的非线性映射时,两个类的数据可以被超平面分开。⑷朴素贝叶斯分类朴素贝叶斯分类(NaiveBayesianclassification),是一种以贝叶斯定理为基础的简单贝叶斯分类法。经过与其他分类算法进行对比研究发现,简单贝叶斯分类算法在默认参数设置的情况下,取得的分析结果,可以和决策树以及经调试修正后的神经网络算法的结果相媲美。在面对大型数据的分析及预测等研究中,具有运算效率快,结果准确性高的有点。贝叶斯定理:设X是数据元组,通常用n个属性集的测量值描述;H表示某种假设的情况;P(H|X)的含义是后验概率,即在条件X下,假设H成立的概率;P(H)含义是假设H的先验概率,即假设H成立的概率。贝叶斯定理表示为:P(X|H)P(H)P(H|X)=⋯⋯⋯⋯⋯⋯⋯⋯⋯公式2.10P(X)23 朴素贝叶斯分类原理及流程:①准备工作阶段:任务是划分数据集。首先分析目标数据集的属性特征,综合每个属性的特征对整体数据进行划分。该阶段是整个数据分类过程中的关键环节,分类效果取决于目标数据的质量和划分结果的合理性,影响最终结果的质量。②分类器训练阶段:任务是生成分类器。分别计算目标数据集中的每条数据、每个类别在训练样本中的频率,每个特征属性被划分到对应类别的概率,并最终输出分类结果并生成分类器。③应用阶段:任务是将分类器应用于数据分类。由训练数据集训练后生成特定分类器,再将分类器拓展应用到新的未知数据中,输出待分类数据集与类别的映射关系。⑸径向基函数神经网络径向基函数神经网络(radialbasisfunctionnetworks,RBFNetwork),是由J.Moody和C.Darken于20世纪80年代末提出的一种人工神经网络。径向基函数,建立在多维空间上的插值法的研究基础上,源于多变量插值问题,是当前数值分析中的主要研究领域。该算法的本质属性仍然是人工神经网络,是一种前向神经网络,构建的过程就是在隐藏单元中嵌入一个函数集,即当神经网络算法执行时,自输入模式向量向隐含层扩展的中间,构建了一个任意的函数集,此函数即称为径向基函数。将简单的数据单元,经过复杂的逻辑操作,形成相互连接的复杂网络,具有对大规模数据并行处理,实现分布式信息同时存储,以及自由的组织学习能力[69]。与常用的反向传播的BP(BackPropagation)神经网络相比,该算法在分类能力、学习速度等方面效果都明显更优,具有结构简单、训练过程清晰简洁、能够逼近任意的非线性函数、学习收敛速度快、克服局部极小值问题等众多优势。算法原理:是一种局部逼近网络,总共分为三层,且具有单稳层,属于前馈神经网络。通过模拟人脑接受外界刺激后产生的局部调整,以及相互覆盖的过程。经多项研究证明,由RBF算法构建的神经网络,可以根据研究需要调节精度,能够接近于任意类型的连续函数。RBF神经网络的基本结构分为三层,每层执行的功能不同但又相互关联:①第一层输入层:执行与外部环境链接的功能,由若干感知单元组成,是链接外部输入信息与内部神经结构搭建的桥梁;②第二层隐含层:唯一的隐含层,承担着数据从输入空间至隐含层空间的非线性变换,通常情况下,该层的数据维数较高;③第三层输出层:承担将内部运行过程转换为外部输出结果的任务,结果是线性的形式展示。24 2.3数据挖掘工具2.3.1Weka数据挖掘工具Weka(WaikatoEnvironmentforKnowledgeAnalysis),是一款免费且开源的数据挖掘工具,全称是怀卡托智能分析环境。其研发者是新西兰怀卡托大学的研究小组,在2005年8月,数据挖掘及知识探索领域的第11届ACMSIGKDD国际学术会议上,荣获了该领域的最高服务奖,有里程碑式的历史意义,并以此为契机,得到了世界范围上的广泛认可。Weka软件集成了大量常用的数据挖掘算法,包含了数据处理、特性选择、数据分类、聚类分析、相关性分析等,并具有在交互式界面实现可视化等功能,可以根据数据的特征、问题的需求、决策者的需要制定个性化的分析策略,Weka被认为是现今数据挖掘工具中最为完备的一种。Weka的程序设计语言是Java语言,因此具有广泛的适应性和可读性,能够在Linux、windows、Mac等系统运行,实现跨平台应用。此外,它还具有很强的扩展性和兼容性,有对外接口,用户可以根据实际问题需要,将自己设计的算法封装进系统[70]。Weka支持CSV和ARFF格式文件,ARFF是一个有很多属性的记录项列表,包括头信息和数据信息,是Weka支持得最好的文件格式[71]。Weka提供各数据处理的操作,包括对数据分类、数据处理、特性选择、聚类分析、相关性分析、结果可视化展示等功能,同事也提供嵌入自定义的算法、设置算法参数、随机组合算法等处理操作。该平台包含四个界面:Explorer、Experimenter、KnowledgeFlow、SimpleCLI,其中最常使用的是Explore界面,它包含5个子界面:预处理面板(Preprocess)、分类面板(Classify)、聚类分析(Cluster)、关联规则(Associate)、属性选择(Selectattributes)、可视化面板(Visualize)。如下表2.1所示。表2.1Explorer界面及功能简介子界面工具栏功能集成算法可视化1.Filte0072(1)检测数据的合理性噪音杂项过滤器、有支持Preprocess2.CurrentRelation(2)添加或删除某个属性监督属性过滤器、有3.Attributes(3)删除某属性的某个值监督实例过滤器、无4.SelectedAttribute(4)过滤和筛选数据监督属性过滤器、无5.ClassType(5)改变类,预测其他属性监督实例过滤器25 1.Classifier(1)选择分类器贝叶斯算法、线性回支持Classify2.TestOptions(2)修改分类器的参数归、装袋分类器、惰3.Resultlist(3)构建决策树可视化模型性计算、文本特诊选4.Classifieroutput(4)设置测试数据集择计算、规则算法、(5)评估分类器决策树算法等1.Clusterer(1)选择聚类器Cobweb算法、EM、支持Cluster2.Clustermode(2)修改聚类器的参数FarthestFirst、分层聚3.Resultlist(3)构建决策树可视化模型类、K-均值算法等4.Clustereroutput(4)设置测试数据集(5)评估分类器1.Associator学习数据集的关联规则并Apriori、关联规则等支持Associate2.Resultlist进行评估3.Associatoroutput1.Attritute从数据集中选择最相关的属性评估器和搜索无SelectEvaluator属性部分算法等attributes2.SearchMethod3.AttributeSelectionMode4.Relestlist5.Attributeselectonoutput1.PlotMatrix查看不同的二位数据点图、无支持Visualize2.PlotSize3.PointSi自主创建分类树ze3.Jitter4.Colour:TypeWeka具有以下特点:(1)可跨平台应用:基于Java语言进行的开发设计,能够广泛的适应多种操作系统;(2)支持特定结构的文件处理,例如ARFF、CSV格式的文件;(3)提供各种数据分析处理的操作功能:预处理、属性选择、填补、人工生成新数据等等;(4)具有开源的对外接口:可以嵌入用户自定义的算法、修改原有算法参数设置、算法按需组配;(5)集成多种数据挖掘算法,分类、聚类、关联规则和神经网络等,且每类算法又包含多种类型,涵盖范围全面;(6)可视化交互界面:有窗口解释算法运行日志,且可以对结果进行可视化展示;(7)可以看见输入数据集,输出结果多样,能生成基本报告、测试报告、可视化图形,并据此进行模型调试、模型结果解释、模型间比较、模型可拓展性评价26 [72]。Weka是一款近几年研发出的新兴的数据挖掘工具,并仍然在逐渐完善,具有较为完善的数据分析功能。集成多种算法与一身的综合性优势,功能上囊括了数据处理、数据分类、特性选择、聚类分析、相关性分析、可视化等多种功能。用户可以根据待解决问题的特征、自身的背景知识、数据挖掘的目的,制定个性化的数据挖掘策略。该工具不仅能够调整自带算法的不同参数,还提供对外接口,允许用户自行编制算法,嵌入到软件中,再对目标数据进行分析,以满足不同用户对不同类型数据的分析需求。从工具开发至今,已经被证实在多数情况下能得到较好的结果。在医学信息数据挖掘研究中,也已经广泛渗透到基础医学、临床医学、预防医学以及公共卫生等多个领域中。基于以上的特点和优势,本研究选择Weka工具进行疾病预测模型构建研究。2.3.2RR既可以是指一种编程语言,又可以指一种基于R语言编制的数据分析软件。当指一种语言时,可用于统计分析、数据处理、绘图绘制等,作用于不同的数据挖掘工具;当指数据挖掘工具时,R软件是一个开源、自由、免费、综合的且功能强大的软件,适用于Unix、Linux、MacOS和Windows系统。R诞生于1995年,起源于统计绘图语言S语言,开发者是来自新西兰奥克兰大学统计专业的RobertGentleman和RossIhaka及其他志愿人员。软件的本质上是一种数学计算的环境,所其命令统皆为R语言编写,既有现成的工具包,用户也可根据实际需要自行编程。R软件已经集成诸多高效的统计分析工具、统计计算的函数、数学计算原理等,能够对多种类型的数据进行灵活分析,也可以根据特定研究需要,创造出符合研究目的的新算法。R的安装程序中包含了8个基本模块:基础模块(base)、极大似然估计模块(MaximumLikelihoodEstimation,MLE)、多元统计分析模块(multivariatestatisticalanalysis,MVA)、时间序列分析模块(timeseries,TS)、生存分析模块(survival)等等,其他附加模块可以通过R综合典藏网CRAN(ComprehensiveRArchiveNetwork)获得,其中收藏了R的执行档下载版、源代码和说明文件,也收录了各种用户撰写的软件包。其功能包括:数据存储和处理系统;复杂的27 数组运算工具;完整连贯的统计分析工具;优秀的统计制图功能;简便而强大的编程语言:可控制数据的输入和输出,可实现运算过程的分支、循环,以及用户可按需要进行自定义编程新算法的功能。2.3.3SPSSSPSS(StatisticalProductandServiceSolutions),是一款统计产品,提供统计分析服务和解决方案的软件,由美国IBM(InternationalBusinessMachinesCorporation)公司负责研发并推出的,一系列执行统计描述分析、预测分析、模型构建、风险评估和决策支持任务的软件产品及相关服务的总称,有Windows和MacOSX等版本[73]。在1984年,SPSS的总部突破性的推出了世界上第一款统计分析软件,是一款微机版本,被命名为SPSS/PC+。该软件一经问世,很快地被应用于自然科学、工程学、社会科学、技术科学等各个研究领域,解决了数不胜数的数据分析问题,研究结果广泛刊登在全世界诸多影响力很高的学术期刊。软件又以自身有使用方便、功能齐全、可视化效果好等优势,吸引了一批又一批的用户,并得到了来自各方面的高度评价。2010年,SPSS公司推出旗舰统计分析软件SPSS的新版本SPSS18.0forWindows。该版本中,公司根据大量客户反馈信息中获取的建设性的建议进行改善,使该版本继承了原有产品的特点之外,还对原有的缺陷进行修补完善,并且添加了许多新的功能特性,进一步完善了SPSS的功能。例如在数据存储管理、统计分析和编程操作方面增加了诸多新的功能,包括新的图形选项,使得分析结果更加多样性;分析结果可以用PDF格式输出保存。SPSS18.0由17个功能模组组成:BaseSystem(基础程式)、AdvancedModels(高等统计模组)、RegressionModels(进阶回归模组)、CustomTables(多变量表格)、Forecasting(时间序列分析)、Categories(类别资料分析/多元尺度方法)、Conjoint(联合分析)、ExactTests(精确检定)、MissingValueAnalysis(遗漏值分析)、NeuralNetworks(类神经网络)、DecisionTrees(决策树)、DataPreparation(资料准备)、ComplexSamples(抽样计划)、DirectMarketing(直销行销模组)、Bootstrapping(拔靴法)、DatacollectionDataEntry(资料收集)、ProgrammabilityExtension(扩充程式码能力)。SPSS目前已被广泛应用于28 各行各业的不同领域,但实际上,每个行业都存在着与众不同的行业特点和行业需求,因此,在利用SPSS进行数据分析时,除了从数据角度考虑算法的原理和过程外,还要根据各个行业数据的固有特征和数据挖掘的分析目标,设计特定需求的个性化解决方案。29 第3章疾病预测模型构建策略研究数据挖掘的目的,是对目标数据全面系统认识的基础上,概括、识别、抽象出数据内在关联和本质特征,并提取隐含的规律和模式,完成对数据从浅层的模糊感性认识到深层客观的理性认识过程。因此,本章在数据挖掘相关理论、技术、方法、算法的指导下,制定了具有一定普适性的疾病预测模型的构建策略。首先,解析数据挖掘构建疾病预测模型过程中,数据集成与清洗、数据填补与降维、模型构建与评价环节的关键问题;然后,根据问题产生的原因制定有效的解决方案,并阐明解决方案各环节的工作方案;最后,梳理整个模型构建流程各步骤顺序及逻辑关系,绘制疾病预测模型构建策略图。研究过程契合知识发现理论的实践步骤、遵循信息链增值的基本规律、符合决策支持的应用目的。3.1预测模型构建过程关键问题解析数据挖掘研究的主体就是数据,其质量直接影响数据挖掘规则的有效性、结果的可靠性、模型的可拓展性,故对目标数据集的质量有着严格的要求。粗糙的原始数据需要经过经预处理,才能满足特定的研究目的。一个优质的数据集,不仅提高数据挖掘的结果准确性,使其更加符合实际情况,还可以提升数[74、75]据挖掘的效率,提高数据分析过程算法的运行速度。为了能够从看似杂乱无章的电子病历数据中集成、萃取、提炼出更有价值的信息,重点要解决原始数据集存在的数据数量巨大、种类繁多、价值密度低、处理速度快的特性,从中找出隐藏在数据背后的知识。因此,数据挖掘的关键环节为数据集成与清洗、数据填补与降维、模型构建与评价。3.1.1数据集成与清洗阶段数据是进行数据挖掘的基础,数据集成环节是根据挖掘的目的,构建目标数据库,然后从所有数据中抽取与研究对象有关的所有目标数据,生成目标数据集。数据清洗,顾名思义就是对数据进行降噪、去重、规范化等操作,以此来提高数据质量,保障后续数据挖掘工作的效率和所得知识发现结果的可靠性。30 然而在数据集成与清洗环节,仍然存在一些容易忽视的问题,会影响数据质量。⑴数据集成:是进行数据挖掘预处理环节的准备阶段,是将多个异构、异地的数据整合为有序的目标数据集。处理过程中,如果集成各数据子集依据的属性、规则或机制不同,可能导致最终汇总的目标数据出现异常,出现条目混乱、属性值异位、数据缺失遗漏等问题。因此,在集成整合数据之前,应该制定统一的集成机制,能够保障用户查询、定位、识别和筛选出相关的数据源,同时兼顾目标数据完整性、准确性和效率性。⑵数据清洗:是指根据需求和研究目的对获取的数据进行清理,去除不相关的冗余数据、消除不一致和歧义的数据、对结果进行相关性排序、根据相关标准进行规范化等工作。数据清洗是数据预处理过程不可忽视的关键环节,是对数据进行降噪、精炼、去冗余的过程中,可能存在主观臆断的情况,也可能出现对同一数据集中相同的问题,在不同属性数据删除标准不一致的情况,这都会增加人为干扰因素,影响数据的分析结果。因此,在清洗数据的过程,首先要统观整体数据集,从整体数据的角度按照相同的规范进行清洗,要尽可能保证对数据的操作有标准有依据,减少人为干扰因素。3.1.2数据填补与降维阶段数据填补与降维是对数据进行深度加工的过程,需要分析数据缺失的模式和机制,制定合理的填补策略,尽可能减少人为干扰因素。数据降维的过程是对原始数据去粗取精、凝练升华的过程,尤其是在对较大数据集进行分析时,更是必经环节。通过上述两步骤的处理,使数据集其呈现可分析状态的关键环节,但填补和降维过程仍然存在一些问题,需要进一步分析讨论。⑴数据缺失,是数据在搜集、整理、记录、传递等过程中由于数据没有应答,或数据不可用造成的缺失。在不同的学科领域中,产生缺失数据的原因也不尽相同且难以避免。主要由于数据不可用或数据无应答,数据不可用主要是指明显错误的数据,可能是录入过程中的错误,如录入错误、多录、少录数据位数;调查记录过程中的笔误等明显的错项、错填、模糊;也包括录入结果是正确的,但明显不符合逻辑,可能是填报过程中被报错。这些遗漏缺失或不可用的信息,需要在数据预处理过程中被发现并剔除,由此会造成目标数据集不31 同程度上的缺失。⑵数据填补:从数据缺失数量角度来看,当数据缺失量较小且删除后对数据整体影响较小,小到差异可以忽略不计的时候,可以进行删除处理,但通常情况下,删除数据对整体造成的影响难以预测和估计,绝大多数情况仍然需要对缺失数据进行填补,以确保数据的客观、真实、完整,并避免丢失原始数据细节信息。填补的过程要分析造成缺失的原因、数据缺失的机制,据此选择最合适的处理方法进行填补,将人为干扰降到最低,减少可能造成挖掘结果偏差的可能性。⑶数据降维:又称维数约简,是指从目标数据集中辨别并抽取较少的几个指标来代替原来较多的指标。目的是减少所考虑的随机变量或属性的个数,通过把原始数据变换或投影到较小的空间,分析各属性对整体的贡献度,从中筛选关联度较强、贡献率较高的属性子集,同时检测并删除其中不相关或冗余、关联度较弱的属性,从空间维数上精简凝练数据集,进而提高知识发现过程的运算速度和分析结果的质量。目前依据数据降维切入的角度不同,有如下几种分类方法:①依据数据特征:由于目标原始数据的类型各异,可以将其分为线性降维、非线性降维;②依据是否有(或用)监督:按照在降维过程中是否利用原始数据中存在的监督信息,即可分为有监督降维、无监督降维以及半监督降维;③依据数据降维的范围:降维的对象既可以是整体数据集,也可以是部分数据集,因此根据降维的范围,可以将数据降维划分为全局保持降维、局部保持降维和全局与局部保持一致降维等。总而言之,数据降维对于数据整体的意义重大,需要根据研究问题的特征和需要,选用合适的数据降维方法,才能发挥降维的作用,提高数据挖掘的效率。降维的结果不仅依赖于特定领域专家的经验和知识,降维方法策略的选择同样影响着数据挖掘结果的准确性及可靠性。一方面可以降低数据的复杂程度,解决数据维数过多造成的分析处理困难,缓解信息数量丰富,但价值贫乏的现状;另一方面在数据降维的过程中,可以更加全面地认识和深入的理解数据。相反,在不降维的情况下,对数据整体进行研究,对所有相关的因素一并考虑,在工作量上,会导致工作量繁重、分析步骤繁琐、且效果欠佳。所以,合适的降维方法,能够辅助数据分析者高效的建32 模、充分发挥专业优势、洞察力和判断力。利用效果较好的降维方法辨别主次,尽量使问题线性化、均匀化。剔除属性的过程中,如何判断属性与研究主题的相关性是降维的关键,当剔除属性的关联强度较大时,会降低数据集的质量,影响数据挖掘结果的准确性。3.1.3模型构建与评价阶段电子病历的数据结构中,分类项中存在不平衡现象是非常普遍的。但普遍现象并不代表其为正常现象,在机器学习的过程中,会导致分类器失效,纵使学习的结果准确率很高,但仍然是不可信的且无意义结果。那么,什么样的数据才算是分类不平衡的数据。不平衡数据,是指数据集在各类之间数量分布不平衡的模式,各类别之间的数量相差悬殊,比例差距大。简言之,也就是说原始数据集中,某一个或者某几个类的数量远远少于其他类的情况。此时,较少数量的样本就会变成整体数据集中的稀有类别,较多数量的样本就会变成大类别。从数据特征角度来看,大类别为数据集整体贡献了较多的特征,较少类数据贡献了较少的特征,在机器学习的过程中,当这种偏差足够大的时候,机器学习到的整体数据集特征就很可能是大类别数据的特征,忽略掉了小类别;从分类学习过程来看,因为各类间数量差异大,在分类学习时,即使不识别小类样本,将所有的数据都归纳到大类别中,也不会对准确率造成很大影响,进而导致算法失效。这种不平衡的分类模式普遍存在于实际分类问题当中,然而,少数类别中的数据量虽少,但同样存在更多有价值的信息,值得更深入的挖掘学习。数据分类不平衡可能是如下原因:①数据集整体数量少,导致少数类中包含的信息量和特征较少,造成识别困难,从而难以确定少数类在数据整体中的分布情况;②数据碎片化,有些分类算法采用分治法,将数据划分到不同的子空间,这样就令数据量本来就很少的小类数据更为零散,更难从碎片化的数据中抽取有价值的信息、规律或模式。③数据偏倚,在一些推理归纳系统中,当无法准确判定数据的合适分类项时,默认倾向于归纳到大类别中。因此,从模型构建的准备阶段开始,首先要熟悉问题的学科领域背景、搜集相关必备信息、明确建模目的、尽可能分析对象的特征。然后,根据所搜集33 的信息和预处理阶段的准备工作,分析研究对象的因果关系,再利用对象的内在规律选择合适的数据挖掘方法,构造各个向量间的关联关系或其它逻辑结构。对模型构建结果的评价分析,不同评价角度、指标和评价方法能揭示结果的不同角度,而选择什么样的指标、从哪个角度进行解读,又决定了能否对模型做出合理、准确、细致、精当的分析。3.2数据集成与清洗方案电子病历数据包括的类型繁多,且目前各医院信息化建设并不完善,没有按照统一标准存储患者诊疗信息的数据库。电子病历数据按结构类型可以分为结构化、半结构化和非结构化,如此复杂多元的数据类型也给数据挖掘利用带来了挑战。因此在进行分析之前,首先需要进行数据集成与规范化,包括数据整合与集成、数据清洗与规范化。数据集成与整合的过程,就是将不同来源、不同结构、不同类型的数据,按照特定的目的、遵循一定的规律,在逻辑上和空间上进行集中。之所以要进行数据整合与集成,不仅是由于医学数据的种类具有多样性,如基本信息、化验数据、生理生化数据、影像数据、用药数据、费用数据等。而且通常情况下,不同种类的数据由于其来源的不同,也分别被保存在不同数据库,存储于不同的表单。因此,要想对数据有一个更加整体的认识,必须要将分散于不同地方的数据,按照同一标准或原则进行整合与集成。数据清洗与规范化,电子病历数据原始数据通常会存在许多无用的或价值密度低的噪声数据,对数据分析过程和结果造成干扰,影响数据分析的效率及结果的准确性。因此,要对其进行清洗与规范化处理。数据清洗过程,就是对数据进行净化、提纯、降噪、去冗余的过程,目的是剔除异常值、重复数据、错误数据等噪音。数据规范化过程,不仅是对数据内容及表现形式的规范化,同时还要规范化数据处理的流程和数据分析的标准。内容上,电子病历数据存在文本数据,例如诊断结果、影像结果分析、检验结果等,要依据MeSH词表将疾病诊断结果进行标准化处理并分类,有助于机器学习过程对数据的识别及解读。流程上,通过制定数据处理各流程的标准,同类情况做同种处理,实现处理每个数据集的每个步骤规范统一。34 3.3数据填补与降维方案3.3.1变量选取原则数据集变量划分为两部分,一部分变量是根据国际糖尿病联盟[76](InternationalDiabetesFederation,IDF)、世界卫生组织WHO关于糖尿病诊断标准、美国糖尿病协会(AmericanDiabetesAssociation,ADA)[77]报告中有关与DR有关的定义,以及国内外有关DR关联因素分析文献数据资料,提取DR的关联因素。另一部分变量,提取部分相关文献中尚未提及的某些因素,进行探测发现。第一部分关联因素提取的目的是为了保障分析对象覆盖范围全面,使得构建的预测模型能更加准确;另一部分未经证实的关联因素,是探究尚未被证实的某些因素,是否与疾病的发生有关联。3.3.2缺失数据处理缺失数据会增加分析任务的难度和复杂性,影响数据挖掘工作的效率的同时,更容易造成分析结果的偏倚。运用常规统计方法填补缺失数据,即使不能代替整体,但合适的填补方法也能降低结果的偏倚。常用的数据缺失处理方法有均值填补法(Mean)、期望值最大化法(expectationmaximization,EM)、回归填补法(Regression)和多重填补法(multipleimputation,MI)。均值填补法以简单便捷、快速高效的优势,已被广泛应用到缺失数据填补过程[78]。因此,选择统计学中缺失值处理方法中的分层均值插补,将其应用到预测模型缺失值处理环节。有文献提出性别和年龄是糖尿病视网膜病变的关联因素之一[43],据此,对目标数据集按照性别、年龄段、是否患病分为若干子集。首先,将总体划分为男女两部分,并检验两组是否患病之间统计学差异显著性,然后再将不同性别的两组按照年龄段划分,再检验各组之间是否有统计学差异。判断各组之间是否具有统计学差异,进一步证明分组划分的合理性,再据此对每层分别求平均值进行填补。3.3.3数据降维数据降维,是降低目标数据集的维数,并从中提取具有一定代表性的特征35 向量。原始数据通过降维处理,一方面可以解决数据维数过多造成的分析过程复杂,缓解数据信息数量过于丰富,但蕴含知识贫乏的现状,降低原始数据的复杂度;另一方面,在数据降维的过程中,可以更全面的认识和更深入的理解数据,有助于建模过程中的算法选择和结果解读。通过降低数据的维数,剔除对预测结果影响较小的属性列,保留对数据整体特征贡献度较大的属性列,是数据预处理过程的重要环节,能够有效降低机器学习的复杂度,尤其是对于数据量较大且维数要多的数据集有重要意义。本研究中选择三种方法对原始数据进行降维,即根据主成分分析提取特征根大于1的因子、根据主成分分析提取特征累计贡献率大于85%的因子、根据逻辑回归提取差异有显著性的因子。第一种降维方法,从每个属性特征出发,根据每个属性在数据集整体中的特征根值降维,特征根的大小代表了矩阵正交化之后所对应特征向量对于整个矩阵的贡献程度,在此以特征根是否大于1作为分界点,提取特征根大于1的属性。第二种降维方法,是从数据整体特征出发,提取能够代表数据特征85%以上的属性进行降维。第三种降维方法,采用逻辑回归方法,分析每个属性在分类属性上是否有显著差异,筛选差异有显著性的属性进行降维。3.4模型构建与评价方案数据经过集成与清洗、填补与降维等预处理后呈现可分析状态,经数据降维处理后形成四个数据集样本,即未降维数据集和三种降维方法处理后的数据集。选择机器学习工具构建疾病预测模型,然后从TP、FP、查准率、召回率、F值、ROC曲线下面积、Kappa指标评价预测模型。指标含义如下:真阳性率(TruePositive,TP),又称敏感度(Sensitivity,SEN),即实际是患病的病例,在按照该预测模型的标准诊断时,被正确划分为患病类的百分比,该指标能够反映出预测模型从数据集总体中识别发现病人的能力。假阳性率(FalsePositive,FP),又称作第Ⅰ类错误或误诊率,含义是根据该模型判定标准,将实际未患病的病例,错误划分到患病类的百分比,该指标能够反映出预测模型的误诊率。查准率(Precision),又称为精度,识别出的真实患病病例数占目标数据集总数的百分比。召回率(RecallRate),也叫查全率,36 是衡量预测模型能够检出的患者占实际真实患者的百分比,能够反映是否预测出所有的患者。ROC曲线(receiveroperatingcharacteristiccurve,ROC),即受试者工作特征曲线,又称为感受性曲线,是能够反映模型的预测结果敏感性和特异性的综合指标。原理是通过若干连续变量,设定多个临界值,并以(1-特异性)的值为横坐标,以敏感性为纵坐标,构建敏感性和特异性相互作用关系的图形,所构建的图形曲线下的面积能够反映判定结果的准确性,曲线下面积的大小与模型准确率成正比。3.5疾病预测模型构建策略电子病历数据的知识发现过程遵循信息链的增值规律,即数据经层层处理、分析、凝练、转化、升华为智慧的增值过程。本研究以知识发现为首要任务、以信息增值链为路径指导、以决策支持为应用目的,从数据集成、预处理、技术方法选择等环节探讨疾病预测模型构建研究的策略。模型构建主要分为三个阶段:数据集成与清洗、数据填补与降维(变量选取、缺失数据处理、数据降维)、模型构建与评价。⑴数据集成与清洗:模型构建数据预处理的第一步,首先将数据进行集成和整合,将分散的数据集中化,整合为一体的目标数据集。然后进行数据清洗和规范化,展开去重、降噪、去冗余、概念规范化等处理。目的是通过有监督的数据清洗减少噪声数据的干扰,为数据挖掘准备高质量的数据,提高数据挖掘过程抽取隐含知识的准确性。⑵数据填补与降维:模型构建数据预处理的第二步,首先进行数据分层,并检验各层之间差异显著性,然后进行分层均值填补。然后选择多种方法实现数据降维,减少目标数据中的属性或记录数目,有效压缩目标数据的样本数量。以此来浓缩凝练数据,为接下来的数据挖掘准备精简规范的、满足算法学习要求的、并且符合所应用领域实际情况的数据。⑶模型构建与评价:首先进行构建模型之前的准备阶段,先确定原始数据基线精度,检测使用机器学习算法的有效性,再平衡目标数据集,解决数据类间不平衡所导致的偏倚及模型预测结果过高的假象。然后,通过划分数据集、选择参数、选择算法构建疾病预测模型,并进行模型可视化。最后,根据多种37 评价指标、对照实验模型,综合判断预测模型构建效果。最终目的,寻找未被发现,但实际存在的领域知识,并实现将隐藏的知识进行形式化描述,转化为显性的知识。具体流程如下图3.1所示:图3.1疾病预测模型构建策略38 第4章电子病历数据疾病预测模型构建实证研究理论研究过程中搭建了疾病预测模型构建策略,本章以糖尿病视网膜病变为例,进行实证研究。首先介绍了数据的来源、数据清洗与规范化流程;然后按照性别、年龄段、是否患病将数据分层,经差异显著性检验后进行分层均值填补;接着根据目标数据集中主成分的特征根、特征的累计贡献率、Logistic回归判定的属性差异显著性,分别对数据进行降维;最后利用决策树算法构建疾病预测模型,依据多项评价指标和其他四种算法构建的对照试验模型进行评价,并检验不同降维方法、不同预测模型结果间差异显著性。4.1数据来源本研究实证研究过程所使用的数据,来源于国家科技基础条件平台的人口与健康科学数据共享平台临床医学科学数据中心,数据是北京301医院自2011年1月1日起,至2011年12月31日为期一年,来源就诊患者中所有糖尿病患者检查、诊断、治疗记录数据集。糖尿病数据集包含诊断表、基本信息表、病人ID表、生理指标表、用药表、生化表、糖化表等。数据内容如下表4.1所示:表4.1数据内容及特征简介表格类型表格数数据量属性简介patientID、visitID、diagnosis、诊断时间、诊断表116508诊断内容、治疗时间、治疗结果基本信息表110791patientID、birthplace、dataofbirth、sex病人ID表210791patientIDpatientID、visitID、recorddata、体重、体温、生理指标表165536脉搏、呼吸、血压主题词、申请序号、病人ID号、性别、诊断、检验时间、费用类型、血液样本类型、样本记录说明、检查时间及各种生化指标:总胆生化指标表1245803固醇、高密度脂蛋白、低密度脂蛋白、甘油三酯、乳酸脱氢酶、载脂蛋白A、载脂蛋白B等病人ID号、药品名称、起止时间、用法与用用药表165536量、用药频次、费用等主题词(全血糖化血红蛋白)、申请序号、病糖化表12591694人ID、检验时间、性别、血液样本类型、样本说明、时间、全血糖化血红蛋白测定量39 原始数据包含诊断、生化、糖化、检验等多个表,存在部分属性同一patient_ID对应多个检验结果的现象、属性值中包含文字(“乳糜”,“已复查”“待复查”等)、缺失值、异常值(年龄属性值为0)等情况,因此需要先进行数据集成、清洗、规约等,再展开数据挖掘工作。本研究采用Excel2007版集成数据并建立“患者-诊断”数据库,再展开筛选和清洗工作。4.2数据清洗与规范化⑴数据集成:对所有表格数据进行归纳集成处理。具有相同patient_ID,即为同一患者,使用Excel2007工具,根据patient_ID属性值,利用VLOOKUP函数将各个表中同一patient_ID的不同属性值进行链接。也就是将同一患者的所有诊断、检验、治疗数据进行集成。⑵重复数据与异常数据处理:属性值中包含文字(“乳糜”,“已复查”,“待复查”等)、异常值(年龄属性值为0)等异常情况,使用Excel2007工具,通过Patient_ID号对每个表格进行去重,删除重复数据,通过筛选各个属性值,删除异常数据。⑶概念规范化:诊断结果属性值包含“2型糖尿病”、“1型糖尿病”、“糖尿病高血压”等,依据MeSH词表将诊断结果对其进行标准化处理,分类为“糖尿病”、“妊娠期糖尿病”、“糖尿病合并冠心病”、“糖尿病合并肾病”、“糖尿病酮症”、“糖尿病合并肝功能损伤”、“糖尿病性足病”、“糖尿病性视网膜病变”共计8类。并添加分类属性“诊断”,将除“糖尿病视网膜病变”之外分组划分为“未患病”的对照组。⑷文本数据数值化:所提取的属性列中,部分属性列的值为文本数据,如性别属性值为“男”、“女”,将其转化为数值型数据,“男”赋值为“1”,“女”赋值为“2”;诊断结果中属性值文本数据的转换,在空白单元格内输入1,复制到数字格式为文本格式的属性列,依次与每列数值进行乘法运算,完成所在属性列的文本数据向数值型数据转换。⑸数据拆分:对年龄属性进行拆分,根据最新年龄分段标准[79]将年龄划分为如下五组:小于45岁为青年组,标记为1;45-59岁为中年组,标记为2;60-74岁为老年前期组,标记为3;75-89岁为老年组,标记为4;90岁以上为40 长寿老年组,标记为5。⑹变量选取:通过文献调研及专家访谈提取特征向量,保持数据有效性的同时,降低目标数据集的维度,剔除一部分对疾病影响较小的属性列,进而降低无效或影响较小的属性列产生的噪音影响。据此删除的属性列包括:visit_ID(挂号窗口号)、诊断时间、治疗时间、治疗结果、record_data(测量时间)、药品名称、用药频次、用药的起止时间、药品的用法与用量、药品总费用、样本检验时间、费用类型、血液样本类型、样本说明。根据文献调研法提取属性列包括:性别(sex)[80]、年龄(age)[81]、葡萄糖(GS)[82]、甘油三脂(TG)、血清尿酸(SUA)[83]、载脂蛋白A1(apoA)、总胆汁酸(TBA)、总胆固醇(TC)、高密度脂蛋白(HDL)、低密度脂蛋白(LDL)[84]、载脂蛋白B(apoB)、乳酸脱氢酶(LDH)[85]、血清脂蛋白α(LP(a))[86]、糖化血清蛋白(GSP)[87]、总蛋白(TP)、血清白蛋白(ALB)、全血糖化血红蛋白(Hb)、总胆红素(STB)、直接胆红素(DBIL),以及新增加未被证实相关的微量元素变量钠(Na)、钾(K)、钙(Ca)、游离钙(f-Ca)、镁(Mg)、氯化物(Cl)、无机磷(P)、二氧化碳(CO2),共计27个属性作为特征变量。4.3缺失数据填补4.3.1原始数据描述统计原始数据中生化数据为45803条、糖化数据为591694条、诊断数据为16508条,以上述三个表为主要数据集进行数据集成,依据Patient_ID属性经去重处理后得到8788条数据。将性别分为男、女两组,年龄按照最新年龄分段标准分为青年(小于45岁)、中年(45-59岁)、老年前期(60-74岁)、老年(75-89岁)、长寿老年(90岁以上),共计五组,分别计算患DR频数,患DR频率,未患DR频数,未患DR频率。描述统计分析结果如下表4.2、表4.3所示:表4.2不同性别不同年龄段DR患病频数统计表男女年龄段(岁)患未患患未患合计<452861524406107345-5983208178937317960-74651651771377317075-8930749235421344>8901111022合计20651072033272878841 表4.3不同性别不同年龄段DR患病频率统计表男女年龄段(岁)患频率(%)未患频率(%)患频率(%)未患频率(%)合计<450.327.000.274.6212.2145-590.9423.680.8910.6636.1760-740.7418.790.8815.6736.0775-890.348.520.266.1715.29>890.000.130.010.110.25合计2.3458.112.3137.231004.3.2男女患病差异显著性分析由于原始数据中较多属性缺失率较高,需对原始数据进行填补后再进行知识发现及构建预测模型研究。为了降低填补过程对原始数据的影响,保护数据原有特征,因此对男女在患病与否是否存在差异进行统计分析。首先,统计男女分别患DR、未患DR的频数,构建男女患DR与否四格表,利用X2检验,分析数据集中男性和女性在患DR组与未患DR组之间是否有差异,以及差异是否有统计学意义。男女患DR与否的比较如表4.4所示:表4.4男女患DR与否的比较分组患DR频数未患DR频数合计男20651075313女20332723475合计40983798788经初步统计分析,构建了男女患DR与否的四格表,其中男性糖尿病患者共有5313例,其中患DR的有206例,未患DR的有5107例;女性中糖尿病患者的人数共计3475例,其中有203例病人患DR,有3272例病人未患DR。在SPSS中构建数据文件,包含性别、患DR与否、频数三个属性。首先对频数进行加权,然后进行X2检验。结果如下表4.5所示:42 表4.5不同性别是否患DR行*列表患病与否患DR未患DRTotal性别男ExpectedCount3212.12100.95313.0%within性别100.0%.0%100.0%女ExpectedCount2100.91374.13475.0%within性别.0%100.0%100.0%TotalExpectedCount5313.03475.08788.0%within性别60.5%39.5%100.0%据检验结果显示,四格表中有没有格点的理论值小于5,因此该标中的PearsonChi-square的值是有意义的。PearsonChi-square为X2检验的结论,此处P=0.000,差异有显著性意义,即该数据集中不同性别在是否患DR上有显著性差异。据此,在数据预处理过程中对缺失数据进行填补时,根据性别、是否患病进行分层填补。4.3.3男女不同年龄段患病差异显著性分析将数据集中的年龄属性,根据我国最新的年龄分段标准划分五组:小于45岁为青年组,赋值为1;45-59岁为中年组,赋值为2;60-74岁为老年前期组,赋值为3;75-89岁为老年组,赋值为4;90岁以上为长寿老年组,赋值为5。男性赋值为1,女性赋值为2。首先分别统计每组是否患病的人数,对频数进行加权再进行X2检验,不同年龄组患DR与否比较的行*列表如图所示,X2检验结果如下表4.6、表4.7所示:表4.6性别年龄分组频数统计表性别年龄组频数1164312216413171614779151121430221015231454245652511合计878843 表4.7同性别不同年龄组行*列表年龄组12345Total性别1Count64321641716779115313%within性别12.1%40.7%32.3%14.7%.2%100.0%2Count43010151454565113475%within性别12.4%29.2%41.8%16.3%.3%100.0%TotalCount1073317931701344228788%within性别12.2%36.2%36.1%15.3%.3%100.0%根据分析结果显示,四格表中没有格点的理论值小于5,因此该表中的PearsonChi-square值可信。X2检验的结果是PearsonChi-squareP=0.000,证明组间的差异有显著性意义。也就是表示相同性别的组中,在不同年龄段上的差异具有显著性。据此根据年龄组、性别、是否患病对数据集进行划分,并分别求平均值进行分层均值填补。4.3.4经分层均值填补后数据统计分析分别计算不同性别不同年龄段数据子集的各指标平均值,具体结果如下表4.8、表4.9所示:44 表4.8不同年龄段患病与未患病均值(男性)属性1(小于45)2(45-59)3(60-74)4(75-89)5(91以上)患未患患未患患未患患未患未患age353752536766808097GS5.689.678.288.617.147.366.728.237.89TG2.473.422.483.012.492.471.622.183.48SUA356.04353.19333.62335.04330.31321.16338.83330.90319.22apoA11.051.531.531.281.361.231.211.291.47TC4.914.564.134.374.274.053.863.904.24apoB1.221.631.511.431.431.320.941.210.77LDH153.12193.17158.21174.57161.71183.56159.65194.83191.72HDL0.861.001.060.991.161.041.091.121.66LDL2.952.572.572.522.602.372.332.262.53GSP178.47239.16236.01223.23207.81216.66187.25211.41160.75LP(a)12.4112.3111.7913.9615.2215.0510.5115.3819.97Hb7.448.578.447.737.197.636.657.356.18TP64.9368.4066.1068.2567.4368.1469.3168.9865.92ALB39.0341.8440.8340.8440.8139.6340.6239.4736.15STB7.6015.4311.5416.3711.4616.2511.7014.9515.10DBIL2.275.043.667.383.827.474.006.687.23TBA3.286.905.068.104.898.487.167.3310.00Ca2.192.222.222.202.192.182.172.182.08Na143.61141.08142.03141.57142.99141.23143.03140.55139.08K4.254.044.114.004.114.034.254.284.33Cl107.00103.85104.77104.48105.77104.38106.73104.09103.59P1.401.301.291.231.211.141.121.091.02Mg0.880.880.880.900.880.910.910.930.95f-Ca1.101.121.121.121.111.111.111.121.09CO227.2025.3226.9826.0127.1826.0826.4525.5824.3045 表4.9不同年龄段患病与未患病均值(女性)属性1(小于45)2(45-59)3(60-74)4(75-89)5(91以上)患未患患未患患未患患未患患未患age35325354666778799292GS7.257.906.358.456.698.337.758.834.2110.11TG2.543.082.612.892.352.672.432.772.002.86SUA271.92269.59283.80286.84310.89297.45283.49318.64359.60301.28apoA11.281.761.281.401.391.451.301.421.071.09TC4.624.784.474.824.654.583.774.455.453.34apoB1.781.981.391.691.471.431.831.461.290.66LDH150.26206.61170.89184.68164.96193.77170.37205.12126.60183.14HDL1.101.391.121.171.191.161.391.230.871.08LDL2.742.722.632.802.832.662.262.553.482.57GSP215.73188.47223.49222.81230.10214.59197.97200.46100.20198.90LP(a)17.4113.6117.1517.2420.5518.2611.9015.2958.318.22Hb7.767.688.387.968.297.817.477.500.007.07TP65.6368.2267.9069.6970.2570.2268.0070.3261.6088.01ALB39.5939.8840.5640.8340.9540.3940.0039.4134.9036.15STB7.6511.708.8711.659.4713.1310.4614.548.207.14DBIL2.183.312.534.432.795.693.377.022.702.44TBA4.863.714.206.274.856.785.638.455.2011.15Ca2.172.202.232.222.272.222.222.202.242.09Na142.09139.40143.41141.97143.51142.08142.61140.53137.20139.11K4.144.084.183.964.204.014.054.174.614.60Cl105.43103.86106.37104.51105.67104.83105.55104.1199.90105.14P1.401.331.401.301.331.211.201.171.521.40Mg0.860.860.890.890.880.910.870.930.930.77f-Ca1.101.121.121.121.141.121.101.121.121.10CO225.7723.5226.9926.2327.4726.2926.9825.3625.0022.24通过上述步骤完成基本数据清洗,使数据基本呈现可处理状态,也使数据库中的数据可以更加清晰简明地表述出来。4.4数据降维处理为了探究何种降维方式能够最大程度的保留数据中有价值的信息,研究中选择3种方法对数据进行降维处理:主成分分析提取特征根大于1的因子、主成分分析提取累计贡献率大于85%的因子、根据Logistic回归提取差异有显著性的因子。46 4.4.1根据主成分特征根降维利用SPSS18.0工具进行主成分分析,首先将所提取的27个属性列作为变量进行KMO(Kaiser-Meyer-Olkin)检验,得到KMO值=0.577,大于0.5,可以做主成分分析,Bartlett's球形检验P=0.000,P<0.01,说明指标间并不是相互独立的,具有一定的关联关系,可以进行进一步的因子分析。Communalities(共同度)检测结果,揭示了目标数据集中,每个原始变量所包含整体数据特征信息量的百分比。如下表4.10所示:表4.10各指标的共同度InitialExtraction性别1.000.542年龄1.000.552葡萄糖(GS)1.000.593甘油三酯(TG)1.000.535血清尿酸(SUA)1.000.521载脂蛋白A1(apoA)1.000.576总胆固醇(TC)1.000.817载脂蛋白B(apoB)1.000.689乳酸脱氢酶(LDH)1.000.286高密度脂蛋白(HDL)1.000.577低密度脂蛋白(LDL)1.000.803糖化血清蛋白(GSP)1.000.521血清脂蛋白(LP(a))1.000.247全血糖化血红蛋白(Hb)1.000.644总蛋白(TP)1.000.677血清白蛋白(ALB)1.000.661总胆红素(STB)1.000.901直接胆红素(DBIL)1.000.924总胆汁酸(TBA)1.000.562钙(Ca)1.000.697钠(Na)1.000.786钾(K)1.000.522氯化物(Cl)1.000.731无机磷(P)1.000.502镁(Mg)1.000.396游离钙(f-Ca)1.000.266二氧化碳(CO2)1.000.495ExtractionMethod:PrincipalComponentAnalysis根据因子载荷矩阵,得到各因子的特征根,共计有8个因子特征根大于1。第1个至第8个主成分特征根大小依次为:2.743、2.563、2.339、2.190、1.826、47 1.738、1.507、1.119。主成分贡献率依次为:10.158%、9.492%、8.664%、8.113%、6.763%、6.434%、5.580%、4.144%。第9个属性的特征根为0.994,占总体贡献率为3.683%,后面属性的特征根越来越小,对数据集整体特征的贡献也越来越少,因此原始变量中共计有8个主成分。如下表4.11所示:表4.11主成分统计分析(特征根、贡献率、累计贡献率)ExtractionSumsofSquaredRotationSumsofSquaredInitialEigenvaluesLoadingsLoadingsComponent%ofCumulative%ofCumulative%ofCumulativTotalVariance%TotalVariance%TotalVariancee%12.74310.15810.1582.74310.15810.1582.4409.0359.03522.5639.49219.6502.5639.49219.6502.3768.80217.83732.3398.66428.3142.3398.66428.3142.0697.66425.50142.1908.11336.4272.1908.11336.4271.9727.30532.80651.8266.76343.1911.8266.76343.1911.9307.14839.95561.7386.43649.6271.7386.43449.6271.8696.92346.87871.5075.58055.2071.5075.58055.2071.7006.29653.17381.1194.14459.3501.1194.14459.3501.6686.17759.3509.9943.68363.03310.9433.49266.52511.9143.38469.90812.8783.25073.15913.8323.08376.24214.8022.97279.21415.7312.70781.92016.7262.68984.60917.6522.41487.02318.5762.13489.15719.5241.94291.10020.4981.84492.94421.4291.58994.53322.4151.53796.07023.3921.45197.52124.3241.19998.72025.167.61899.33926.154.57199.90927.024.091100.000ExtractionMethod:PrincipalComponentAnalysis因子载荷矩阵,也是目标数据集中各个变量线性组合的系数,又称主成分载荷,表示各个主成分和对应的原始变量的相关系数。因子矩阵中相关系数的48 绝对值越大,表示其对该属性的代表性也越大。选择“Kaiser”正态化的最大方差旋转方法,经过8次迭代后,得到了经过旋转后的主成分因子载荷矩阵,旋转后的主成分的因子负荷有所改变,且每个主成分能突出反映所观察的指标的某一部分特征,提取特征分别为:第一个为直接胆红素(DBIL);第二个为钙(Ca);第三个为钠(Na);第四个为载脂蛋白B(apoB);第五个为总胆固醇(TC);第六个为钾(K);第七个为全血糖化血红蛋白(Hb);第八个为高密度脂蛋白(HDL)。如下表4.12所示:表4.12旋转后主成分因子载荷Compontent12345678性别-.025.059.043.069.104.029-.022.720年龄.032-.024-.181-.447-.429.014-.306.202葡萄糖(GS).001-.045-.486.018-.018.109.585-.008甘油三酯(TG).002.008-.213.689-.018.026-.038-.111血清尿酸(SUA)-.106.059-.001.119.143.498-.214-.422载脂蛋白A1(apoA)-.031.077-.006.599-.032.017.001.457总胆固醇(TC).079.067-.090-.125.866.003-.009.179载脂蛋白B(apoB).003.023.003.786-.226.005-.006.141乳酸脱氢酶(LDH).081-.224-.319.046.075.313-.067.133高密度脂蛋白(HDL)-.085.035-.026-.057.164.042-.045.731低密度脂蛋白(LDL)-.052.040-.041-.256.841-.003.006.153糖化血清蛋白(GSP)-.001.181-.037-.025-.063-.043.692-.043血清脂蛋白(LP(a))-.046-.037-.026-.359.235.028-.069.230全血糖化血红蛋白(Hb)-.007.004-.068.049.095-.053.790.017总蛋白(TP)-.061.758-.268-.046-.108.085.009.077血清白蛋白(ALB)-.091.793.082.045-.020-.054.095-.050总胆红素(STB).947-.016-.060.014.008-.012.002-.020直接胆红素(DBIL).959-.026-.054.004-.006-.015-.007-.017总胆汁酸(TBA).746-.022-.020-.007.003-.008-.005-.061钙(Ca).009.820.112.003.065-.052.058.035钠(Na)-.058.127.857-.069-.009-.110-.118.018钾(K)-.044.151.049-.101-.064.686.061.080氯化物(Cl)-.053-.204.806-.073-.078.091-.122.040无机磷(P)-.052.064.299.155.210.570.110-.010镁(Mg).040.018-.131-.133-.141.547-.197.036游离钙(f-Ca).047.493.010.074.108.041.011.047二氧化碳(CO2)-.027.252.205-.106-.005-.610-.071.015ExtractionMethod:PrincipalComponentAnalysisRotationMrthod:VarimaxwithKaiserNormalization.a.Rotationconvergedin8iterations.49 4.4.2根据主成分的累计贡献率降维选择统计分析工具SPSS18.0,利用其主成分分析功能。经过上一轮的分析后,发现当只选择目标数据集中特征根大于1的属性时,其主成分对整体数据集的累计贡献率为59.35%,因此,考虑采取第二种降维方法,从对整体数据集的累计贡献率角度出发,提取累计贡献率大于85%的属性,作为目标数据集的主成分。从主成分统计分析数据中可以看出,如若提取16个主成分,累计贡献率为84.609%,尚未超过85%的需要,因此再扩充一个主成分,提取17个主成分,累计贡献率为87.023%,随即决定提取17个主成分,作为特征向量代表目标数据集。KMO(Kaiser-Meyer-Olkin)检验,得到KMO值=0.577,大于0.5,可以做主成分分析,Bartlett's球形检验P=0.000,P<0.01,该检验记过表明,指标间并非相互独立的,各属性之间数值的取值是有一定关系的,因此在研究分析中可以做因子分析Communalities(共同度)的检验结果,揭示了从每个原始变量中提取获得的特征信息量,可以从Extraction结果中,读取每个属性所包含的原始变量信息的百分比。如下表4.13所示:50 表4.13各指标的共同度InitialExtraction性别1.000.904年龄1.000.893葡萄糖(GS)1.000.755甘油三酯(TG)1.000.836血清尿酸(SUA)1.000.945载脂蛋白A1(apoA)1.000.794总胆固醇(TC)1.000.915载脂蛋白B(apoB)1.000.748乳酸脱氢酶(LDH)1.000.989高密度脂蛋白(HDL)1.000.779低密度脂蛋白(LDL)1.000.859糖化血清蛋白(GSP)1.000.965血清脂蛋白(LP(a))1.000.990全血糖化血红蛋白(Hb)1.000.789总蛋白(TP)1.000.812血清白蛋白(ALB)1.000.815总胆红素(STB)1.000.914直接胆红素(DBIL)1.000.933总胆汁酸(TBA)1.000.591钙(Ca)1.000.747钠(Na)1.000.906钾(K)1.000.951氯化物(Cl)1.000.933无机磷(P)1.000.891镁(Mg)1.000.974游离钙(f-Ca)1.000.953二氧化碳(CO2)1.000.918ExtractionMethod:PrincipalComponentAnalysis根据目标数据集的因子载荷矩阵,从中提取累计贡献率为87.023%的主成分,共计有17个。第1个至第17个主成分特征根、贡献率如下表4.14所示:51 表4.14主成分统计信息(特征根、贡献率、累计贡献率)ExtractionSumsofSquaredRotationSumsofSquaredInitialEigenvaluesLoadingsLoadingsComponent%ofCumulative%ofCumulative%ofCumulativTotalVariance%TotalVariance%TotalVariancee%12.74310.15810.1582.74310.15810.1582.4258.9828.98222.5639.49219.6502.5639.49219.652.0367.54016.52232.3398.66428.3142.3398.66428.3141.9057.05623.57842.1908.11336.4272.1908.11336.4271.7826.59830.17651.8266.76343.1911.8266.76343.1911.6206.00136.17761.7386.43649.6271.7386.43449.6271.4285.28941.46671.5075.58055.2071.5075.58055.2071.3194.88446.35081.1194.14459.3501.1194.14459.351.2664.69051.0409.9943.68363.033.9943.68363.0331.1864.39255.43210.9433.49266.525.9433.49266.5251.1404.22159.65311.9143.38469.908.9143.38469.9081.1364.20663.85912.8783.25073.159.8783.25073.1591.1104.11067.96913.8323.08376.242.8323.08376.2421.0984.06572.03414.8022.97279.214.8022.97279.2141.0693.96175.99615.7312.70781.920.7312.70781.9201.0073.73079.72616.7262.68984.609.7262.68984.609.9913.67083.39617.6522.41487.023.6522.41487.023.9793.62787.02318.5762.13489.15719.5241.94291.10020.4981.84492.94421.4291.58994.53322.4151.53796.07023.3921.45197.52124.3241.19998.72025.167.61899.33926.154.57199.90927.024.091100.000ExtractionMethod:PrincipalComponentAnalysis利用“Kaiser”正态化中的最大方差旋转方法,获得目标数据集经过13次迭代后,经旋转后的主成分。利用旋转后的主成分的因子负荷矩阵,从中筛选累计贡献率85%以上的主成分,共计17个,分别为:第一个为直接胆红素(DBIL);第二个为血清白蛋白(ALB);第三个为钠(Na);第四个为总胆固醇(TC);第五个为糖化血清蛋白(GSP);第六个为钾(K);第七个为性别(sex);第八个为游离钙(f-Ca);第九个为血清脂蛋白(LP(a));第十个为年龄;第十一个为高密度52 脂蛋白(HDL);第十二个为镁(Mg);第十三个为载脂蛋白A1(apoA);第十四个为血清尿酸(SUA);第十五个为甘油三酯(TG);第十六个为乳酸脱氢酶(LDH);第十七个为葡萄糖(GS)。旋转后主成分结果如下表4.15所示:表4.15旋转后主成分因子负荷4.4.3根据Logistic回归降维目标数据集中的诊断结果属性,可以明确分为患病和未患病两类,属于典型的二项分布,适用于进行Logistic回归分析。因此,以整体数据集为研究对象,分析目标数据集中,各个属性在诊断结果上差异是否有统计学意义,筛选其中P<0.05的属性,据此进行降维。经过回归分析,得到共计14个属性在是否患病上的差异具有统计学意义。依次为:第一个为葡萄糖(GS)、第二个为总胆固醇(TC)、第三个为乳酸脱氢酶(LDH)、第四个为低密度脂蛋白(LDL)、第五个为全血糖化血红蛋白(Hb)、第六个为总胆红素(STB)、第七个为直接胆红素(DBIL)、第八个为总胆汁酸(TBA)、第九个为钾(K)、第十个为氯化物(Cl)、第十一个为无机磷(P)、第十二个为镁(Mg)、第十三个为游离钙(f-Ca)、第十四个为二氧化碳(CO2)。结果如下表4.16所示:53 表4.16Logistic回归输出结果BS.E.Walddfsig.Exp(B)step1a性别-.242.1253.7671.052.785年龄.000.004.0011.9801.000葡萄糖(GS).103.02417.8511.0001.108甘油三酯(TG)-.032.033.9491.330.968血清尿酸(SUA).000.001.3331.5641.000载脂蛋白A1(apoA).138.170.6581.4171.148总胆固醇(TC).441.11714.1661.0001.554载脂蛋白B(apoB).090.0821.2031.2731.095乳酸脱氢酶(LDH).005.00113.6991.0001.005高密度脂蛋白(HDL)-.388.2372.6801.102.678低密度脂蛋白(LDL)-.544.15312.6051.000.580糖化血清蛋白(GSP)-.001.0011.2541.263.999血清脂蛋白(LP(a)).006.0051.4881.2231.006全血糖化血红蛋白(Hb)-.128.0467.7411.005.880总蛋白(TP).007.011.4311.5111.007血清白蛋白(ALB)-.012.017.5471.459.988总胆红素(STB)-.030.0117.0261.008.970直接胆红素(DBIL).246.05123.5341.0001.279总胆汁酸(TBA).048.0178.0991.0041.049钙(Ca)-.256.604.1801.671.774钠(Na)-.004.030.0161.900.996钾(K)-.670.12230.3231.000.512氯化物(Cl)-.105.02714.7831.000.901无机磷(P)-1.215.24724.2281.0002.97镁(Mg)2.948.69118.2071.00019.071游离钙(f-Ca)3.0091.4244.4621.03520.265二氧化碳(CO2)-.176.02548.4141.000.839Constant16.8843.65321.3581.0002.152E74.5构建糖尿病视网膜病变预测模型4.5.1确定基线精度模型构建之前,先确定数据集的基线精度(baselineaccuracy),以基线精度为基准,判定所选择的算法构建的预测模型是否提高预测准确度。Weka工具中的ZeroR分类器就可以计算数据集的基线精确度,其可以用训练数据集(usetrainingset)来评估,因为其几乎不用训练数据中的数据进行分类,所以可以确54 定目标数据集的基线精度。因此,本研究以未降维的原始数据集为挖掘对象,选择ZeroR分类器,以训练数据集来评估,得到基线精度为:95.3459%,ROC曲线下面积为0.499。显然,由于数据分类不平衡导致分析结果产生偏倚,分类结果偏向较多的阴性数据,使得预测结果的准确率过于乐观。因此,本研究利用Weka工具预处理模块(Preprocess)中的过采样SMOTE(syntheticminorityover-samplingtechnique,SMOTE)算法,对数据进行随机插补。混淆矩阵(confusionmatrix)及SMOTE算法插补结果如下表4.17所示:表4.17未平衡数据ZeroR分类混淆矩阵预测分类未患DR患DR实际未患DR83790分类患DR4090根据准确率和ROC曲线下面积分析可见,经SMOTE算法3次插补后,再利用ZeroR算法分析的结果,准确率较高,ROC曲线下面积为0.500,因此,在处理数据不平衡问题中使用3次SMOTE算法进行进行过采样插补,得到基线精度为71.9166%。SMOTE算法插补结果如下表4.18所示:表4.18SMOTE算法插补结果SMOTE次数患DR频数未患DR频数准确率(%)ROC曲线下面积0409837895.34590.4991818837891.10580.49921636837883.66450.49933272837871.91660.50046544837856.14820.5004.5.2构建预测模型原始数据ZeroR算法未降维与经SMOTE算法平衡后J48算法分析三种降维方法处理后数据集的混淆矩阵如下表4.19—表4.22所示:表4.19ZeroR算法分析未降维数据的混淆矩阵实际诊断结果患病未患病Total未降维ZeroR判患病837908379断结果未患病327203272Total837501165155 表4.20平衡后J48算法分析第一种降维数据混淆矩阵实际诊断结果患病未患病Total患病82701098379第一种降维J48未患病18830843272判断结果Total8458319311651表4.21平衡后J48算法分析第二种降维数据混淆矩阵实际诊断结果患病未患病Total患病79644158379第二种降维J48未患病36129113272判断结果Total8325332611651表4.22平衡后J48算法分析第三种降维数据混淆矩阵实际诊断结果患病未患病Total患病80413388379第三种降维J48未患病34929233272判断结果Total8390326111651以未降维数据集、降维方法1:提取特征根大于1的属性因子;降维方法2:提取累计贡献率大于85%的属性因子;降维方法3:经Logistic回归分析降维数据集,分别作为分析对象,利用Weka中的决策树J48算法,分别构建预测模型,其真阳性率(TruePositive,TP)、假阳性率(FalsePositive,FP)、查准率(Precision)、召回率(Recall)、F值(F-Measure)、ROC曲线下面积(ROCArea)、一致性检验(Kappa)结果如下表4.23所示:表4.23基线精度及J48算法构建模型的结果TPFPPrecisionRecallF-MeasureROCAreaKappa未降维0.9350.0960.9350.9350.9350.9250.838降维方法10.9750.0450.9740.9750.9740.9750.936降维方法20.9330.0930.9340.9330.9340.9250.836降维方法30.9410.0880.9410.9410.9410.9370.879上表可见,利用J48算法分析未降维和三种降维处理后数据的各指标结果,56 同基线精度相比各评价指标相比都有不同程度提高。综合评价三种降维方法,发现降维方法1构建模型的各维度结果更好。剪枝后决策树可视化模型如下图4.1所示:图4.1决策树可视化模型4.5.3模型评价⑴结果一致性检验——Kappa检验再利用SPSS工具,对J48算法在三种降维方法与实际检验结果的一致性进行检验。J48算法分析结果中第一种降维方法Kappa值为0.936,第二种降维方法Kappa值为0.836,第三种降维方法Kappa值为0.879,三种降维方法一致性检验结果都为P=0.000,P<0.001,都具有统计学意义。由此可见第一种降维方法与真实结果一致性较好。结果如下表4.24—表4.26所示:57 表4.24J48算法第一种降维交叉列表结果pathology12Totalnew1Count82701098379%withinnew98.7%1.3%100.0%%withinpathology97.8%3.4%71.9%%ofTotal71.0%.9%71.9%2Count18830843272%withinnew5.7%94.3%100.0%%withinpathology2.2%96.6%28.1%%ofTotal1.6%26.5%28.1%TotalCount8458319311651%withinnew72.6%27.4%100.0%%withinpathology100.0%100.0%100.0%%ofTotal72.6%27.4%100.0%表4.25J48算法第二种降维交叉列表结果pathology12Totalnew1Count79644158379%withinnew95.0%5.0%100.0%%withinpathology95.7%12.5%71.9%%ofTotal68.4%3.6%71.9%2Count36129113272%withinnew11.0%89.0%100.0%%withinpathology4.3%87.5%28.1%%ofTotal3.1%25.0%28.1%TotalCount8325332611651%withinnew71.5%28.5%100.0%%withinpathology100.0%100.0%100.0%%ofTotal71.5%28.5%100.0%58 表4.26J48算法第三种降维交叉列表结果pathology12Totalnew1Count80413388379%withinnew96.0%4.0%100.0%%withinpathology95.8%7.9%66.2%%ofTotal63.6%2.7%66.2%2Count34939234272%withinnew8.2%91.8%100.0%%withinpathology4.2%92.1%33.8%%ofTotal2.8%31.0%33.8%TotalCount8390426112651%withinnew66.3%33.7%100.0%%withinpathology100.0%100.0%100.0%%ofTotal66.3%33.7%100.0%⑵未降维与三种降维数据,决策分析结果差异显著性检验将数据按不同算法分别分成4组,未降维结果组为group1,降维方法1组为group2,降维方法2组为group3,降维方法3组为group4。由于评价指标中指标FP的值为越小越好,其余评价指标的值为越大越好,不能看作同一类。因此,在评估各个决策结果差异显著性时,将指标FP剔除。首先用One-SampleKlomogorov-SmirnovTest对各组进行正态性检验,结果为group1的P=0.258,group2的P=0.129,group3的P=0.227,group4的P=0.189,都可以认为近似正太分布。因此进行方差分析,结果如下表4.27所示:表4.27未降维与三种降维结果间差异显著性检验SourceTypeIIISumofSquaresdfMeanSquareFSig.CorrectedModel.028a8.00426.735.000Intercept20.882120.882157066.346.000group.0113.00426.941.000block.0185.00426.611.000Error.00215.000Total20.91324CorrectedTotal.03023a.RSquared=.934(AdjustedRSquared=.900)59 由上表检验结果可见,组间group的P=0.000,P<0.001,由此可见,组间的差异具有统计学意义,可进一步作数据组间的两两多重比较。在进行检验组间两两多重比较分析之前,首先检验组间的方差齐性,具体结果如下表4.28所示:表4.28组间方差齐性检验Fdf1df2Sig..813320.502DependentVariable:weight由上表中的检验结果可见,目标数据集的组间方差齐性P=0.502,由此可见方差齐性具有齐性,因此,可以进一步做组间的两两多重比较。具体比较结果如下表4.29所示:表4.29四组之间的两两多重比较结果(I)group(J)groupMeanDifference95%ConfidenceInterval(I-J)Std.ErrorSig.LowerBoundUpperBoundLSD12-.05100*.018113.011-.08878-.013223.00133.018113.942-.03645.039124-.01283.018113.487-.05062.0249521.05100*.018113.011.01322.088783.05233*.018113.009.01455.090124.03817*.018113.048.00038.0759531-.00133.018113.942-.03912.036452-.05233*.018113.009-.09012-.014554-.01417.018113.443-.05195.0236241.01283.018113.487-.02495.050622-.03817*.018113.048-.07595-.000383.01417.018113.443-.02362.05195如上表所示,组间两两多重比较结果中,group1与group2的P=0.011,P<0.05,有显著性意义;group1与group3的P=0.942,P>0.05,无显著性意义;group1与group4的P=0.487,P>0.05,无显著性意义。由此可见,四组结果组间差异有显著性,且第一种降维方法与未降维数据集相比有差异,且差异有显著性意义,由此得出第一种降维方法较好,即经主成分分析后提取特征根大于1的因子得到的预测模型效果较好。60 4.6对照实验模型除利用J48算法外,研究还选用支持向量机、逻辑回归、贝叶斯、径向基函数神经网络方法建立对照试验模型。在Weka中分别选择四种数据挖掘方法所对应的SMO、Logistic、NaiveBayes、RBFNetwork算法,分别建立预测模型,参数默认。数据降维过程,经检验可知第一种降维方法效果较好,因此对照试验模型数据集选择第一种降维方法处理后的数据集。四种机器学习算法建模的预测准确性及模型性能评价比较,结果如下表4.30所示:表4.30五中算法模型构建结果算法TPFPPrecisionRecallF-MeasureROCAreaKappaJ480.9750.0450.9740.9750.9740.9750.936SMO0.7190.7190.5170.7190.6020.5000.000Logistic0.7160.6420.6640.7160.6520.7060.096NaiveBayes0.5410.5410.7590.5410.5480.7420.209RBFNetwork0.7290.6400.6960.7290.6590.7420.117将五种算法构建模型结果进行对比,分成5组,J48算法为group1,SMO算法为group2,Logistics算法为group3,NaiveBayes算法为group4,RBFNetwork算法为group5。首先用One-SampleKlomogorov-SmirnovTest对各组进行正态性检验,结果group1的P=0.130,group2的P=0.574,group3的P=0.215,group4的P=0.645,group5的P=0.267,都可以认为近似正太分布。因此可以进行方差分析,结果如下表4.31所示:表4.31五种算法分析降维方法1数据组间差异显著性检验SourceTypeIIISumofSquaresdfMeanSquareFSig.CorrectedModel1.664a9.18512.552.000Intercept12.582112.582854.214.000group.8074.20213.702.000block.8575.17111.633.000Error.29520.015Total14.54130CorrectedTotal1.95929a.RSquared=.850(AdjustedRSquared=.782)61 由降维方法1处理数据5种算法组间差异显著性检验结果可见,各组的组间差异P=0.000,P<0.001,分析结果差异具有显著性,因此可以做组间两两差异显著性分析,在此,首先进行组间方差齐性检验,结果如下表4.32所示:表4.32五种算法组间方差齐性检验Fdf1df2Sig.1.281425.304DependentVariable:weight经组间方差齐性检验可见,P=0.304,可见组间方差齐性具有齐性,可以进一步作组间的两两多重比较,结果如下表4.33所示。表4.33五种算法组间两两多重比较结果(I)group(J)groupMeanDifference95%ConfidenceInterval(I-J)Std.ErrorSig.LowerBoundUpperBoundLSD12.45873*.123897.001.20356.713903.37665*.123897.005.12148.631824.41153*.123897.003.15636.666705.35620*.123897.008.10103.6113721-.45873*.123897.001-.71390-.203563-.08208.123897.514-.33725.173094-.04720.123897.706-.30237.207975-.10253.123897.416-.35770.1526431-.37665*.123897.005-.63182-.121482.08208.123897.514-.17309.337254.03488.123897.781-.22029.290055-.02045.123897.870-.27562.2347241-.41153*.123897.003-.66670-.156362.04720.123897.706-.20797.302373-.03488.123897.781-.29005.220295-.05533.123897.659-.31050.1998451-.35620*.123897.008-.61137-.101032.10253.123897.416-.15264.357703.02045.123897.870-.23472.275624.05533.123897.659-.19984.31050由上表分析结果可见,经组间两两多重比较的差异显著性检验后,发现group1与group2的P=0.001,P<0.05,差异具有显著性;group1与group3的P=0.005,P<0.05,差异具有显著性;group1与group4的P=0.003,P<0.05,差62 异具有显著性;group1与group5的P=0.008,P<0.05,差异具有显著性。由此可见其他算法结果并未优于决策树模型,因此在糖尿病视网膜病变预测模型构建中,决策树算法更优。4.7讨论4.7.1数据填补的讨论基于海量电子病历数据的探测挖掘以及研究分析中,原始数据存在缺失数据是一种泛在的现象。如何处理缺失数据,究竟是删除还是填补,采用什么样的方法填补等等一系列的相关问题,也一直是各学科领域的研究热点。缺失数据对数据整体质量的影响也多种多样,不仅可能造成数据偏倚、误差增大,还会导致样本方差估计量的扭曲,以造成挖掘分析效率大大降低,甚至导致结果无效。本研究中选择分层均值填补法来处理缺失数据,首先按照男女性别对目标数据进行分层,并利用方差分析方法,检验两组数据间的差异显著性,经检验得到差异有显著性,因此判断该分层设计方案合理。然后再将两个子数据集按照年龄段进行分层,仍然利用方差分析检验不同年龄段组间的差异显著性,经检验得到差异有显著性,因此判断该分层设计方案合理。对数据进行多层精细的插补,可以弥补数据的缺失,有助于提高填补的精确度。但也存在不足,该插补方法按标准方差计算后,发现会低估估计量的方差,因此,并不太适合较复杂的需要方差估计的分析。4.7.2数据降维的讨论本研究中,利用了决策树算法分别分析了未降维与三种降维方法处理后的数据集,从模型预测分析结果的真阳性率、假阳性率、查准率、召回率、F值、ROC曲线下面积以及Kappa值,共计六项指标进行多维综合评价。发现对照原始未降维的目标数据集,经降维方法2处理后的数据集与原始数据的评价指标值相近似,经降维方法1和3处理后的结果均优于未降维的数据集,且降维方法1效果更好,即提取特征根大于1的因子降维效果更好。由此可见,降维后的数据集不仅能够保持原始数据的特征信息,选择合适的降维处理方法,更能提高预测模型的准确性。在本研究的数据集中,提取特征根大于1的因子降维63 效果更好。值得注意的是,在做主成分分析之前,首先要对目标数据集进行KMO检验,检验结果值大于0.5的情况适合做因子分析。主成分的因子负荷分析中,因子转换矩阵是否需要旋转,需要在实际应用中根据指标的专业意义来决定,当每个主成分能突出反映所观察指标的某一特征时,结果较为理想。4.7.3不同算法的讨论在模型构建阶段,本研究选择了决策树算法构建预测模型,同时选择Logistic回归、支持向量机、朴素贝叶斯、径向基函数神经网络做对照试验。综合多种指标对结果进行全方位评价,发现决策树能够发现数据中隐藏的分类规则,预测模型的综合效果更胜一筹。决策树模型的真阳性率较高,即召回率、灵敏度,反映该模型能够检测出阳性结果的能力较强;假阳性率较其他四种结果相比最低,FP<0.05,其他四种算法皆大于0.5,反应了算法将阴性结果分类为阳性结果的可能性较好;F值、ROC曲线、Kappa值明显高于其他算法,反应了算法预测结果与实际真实情况一致性较强。且经过方差分析和两两多重比较分析,证明五种算法结果差异有显著性,且决策树算法与其他算法结果也有差异。4.7.4预测模型构建的讨论预测模型构建过程中发现,与相似的医疗大数据知识发现研究相比,创新性的讨论了数据经过集成与清洗、数据填补与降维、模型构建及评价等环节,使数据分析结果更为准确,但在构建模型之前仍然要分析数据整体的特征,数据的分类间平衡问题就容易被忽视。以二分类数据为例,当两类数据比例相差悬殊时,机器学习的结果就会产生偏倚,这时候模型构建的精度仍然很高,但已经不可信。因为此时,机器学习过程中不经过判断学习,直接将少数类归纳到多数类中,对结果的准确性影响较小,机器学习的过程也失去了意义。64 第5章结论与展望5.1研究结论国内外关于医疗大数据挖掘的研究正在逐渐升温,但如何能够高效的组织、管理并挖掘其中隐含的知识、规律及模式,一直是医疗大数据探测挖掘和知识发现的研究重点,也是各领域研究中亟待解决的问题。本研究在综述国内外相关理论研究与实践研究的基础之上,以知识发现、信息链、决策支持理论为宏观理论指导,提出疾病预测模型构建策略、制定缺失数据填补方案、遴选最优数据降维方法,并进行疾病预测模型构建实证研究。最终实现了医疗数据背后的隐性知识发现,在理论上为医疗大数据挖掘数据的数据预处理及模型构建与评价提供了参考;在实践上为疾病的预防、诊断、治疗及预后等提供可靠的决策支持,实现了促进医疗大数据知识发现的目的。本研究主要结论如下:⑴疾病预测模型构建策略在知识发现、信息链、决策支持理论的指导下,解析了数据集成与清洗、数据填补与降维、模型构建与评价环节的关键问题,并针对问题提出了相对应的解决办法,制定了疾病预测模型构建策略。⑵制定缺失数据填补方案根据数据缺失的原因和机制,将数据按照性别、年龄段进行分层,并检验各层之间的差异显著性,然后进行分层均值填补,制定了预测效果较好的缺失数据处理方法。⑶遴选最优数据降维方法为了精炼目标数据集,提高数据挖掘过程的效率及结果的准确性,对原始数据进行降维处理,并探究不同降维方法的效果。本研究分别采用主成分分析提取特征根大于1的因子、累计贡献率大于85%的因子、Logistic回归差异有显著性的因子进行降维,并最后经统计学方差分析,探究了三种降维方法结果差异显著性,得到第一种降维方法效果最优。⑷构建糖尿病视网膜病变预测模型依据疾病预测模型构建策略进行实证研究,构建糖尿病视网膜病变预测模型,采用SMOTE算法解决了数据分类不平衡问题,降低了预测结果的偏倚。65 模型多维度综合评价阶段,选择真阳性率、假阳性率、查准率、召回率、F值、ROC曲线下面积、Kappa值等指标进行多维度的综合评价,选择Logistic回归算法、支持向量机、朴素贝叶斯算法、径向基函数神经网络进行对照实验,并检验五种算法间结果差异的显著性,得到决策树模型各指标结果最优。5.2研究局限性本研究对电子病历数据挖掘的数据集成与清洗、缺失数据填补与降维、预测模型构建及评价环节进行了较为深入的研究,制定了系统的疾病预测模型构建策略,并以糖尿病视网膜病变为例,构建了实证研究预测模型。本研究丰富了数据预处理、疾病关联因素和模型构建的方法。但仍有部分问题存在,需要做进一步的研究。⑴当前研究数据仅为一家医院的数据,由于地理位置限制,就诊患者大多数为本地人,略有局限性。下一步研究中拟扩大样本范围,拓展搜集多家医院患者诊疗信息,并研究患者的地域性差异。⑵目前处理的数据为半结构化的电子病历数据,主要为数值型数据,对于图像数据和自由文本数据进行分析的研究较少,未来计划进行深入研究。⑶疾病的病因和影响因素复杂,目前,本文建立的疾病预测模型仅是基于电子病历数据,而目前支持临床精准医疗的医学数据库包括临床表型信息、电子病历信息、基因组学数据。研究结果还需要其他数据库挖掘结果或临床试验研究的佐证。5.3展望电子病历数据的挖掘与利用是一个漫长且具有深远意义的研究,将有形的数据转化为无形的知识,是将信息升华为智慧的过程。面对当前纷繁复杂的电子病历数据,对其进行规范化、结构化、标准化处理,仍然是医疗大数据挖掘工作的重中之重。针对以上提出的局限性,未来研究方向:⑴构建系统规范化的医疗数据仓库:能够保证资源的质量,促进医疗数据的共享利用,减少重复工作。考虑数据库的开发获取性,能够在有监督的机制下方便研究者获取数据,激励更多的研究者参与到数据挖掘过程中;66 ⑵构建数据更新与维护机制:确保数据的新颖性与可持续性,定期补充数据到数据库,扩充数据容量,做到实时更新维护,提升数据价值。此外,还要考虑数据的安全性,确保数据库能够避免数据泄露以及恶性攻击,定期更新与维护数据库,保障数据库能够正常运行合使用;⑶构建数据库可视化交互界面,使数据挖掘结果能够方便快捷的应用到临床诊疗过程中,实际嵌入到疾病预防、诊断、治疗、预后等过程中。67 参考文献[1]WarramJH,GearinG,LaffelL,KrolewskiASEffectofdurationoftypeIdiabetesontheprevalenceofstagesofdiabeticnephropathydefinedbyurinaryalbumin/creatinineratio[J].JAmSocNephrol1996,7:930-937[2]刘尊永.控制糖尿病上升趋势刻不容缓[J].中华预防医学杂志,1999.33(4):198-199.[3]YauJWY,RogersSL,KawasakiR,etal.Globalprevalenceandmajorriskfactorsofdiabeticretinopathy[J].Diabetescare,2012,35(3):556-564.[4]KarlbergC,FalkC,GreenA,etal.Proliferativeretinopathypredictsnephropathy:a25-yearfollow-upstudyoftype1diabeticpatients.[J].ActaDiabetologica,2011,49(4):263-268.[5]PradeepaR,SurendarJ,IndulekhaK,etal.RelationshipofDiabeticRetinopathywithCoronaryArteryDiseaseinAsianIndianswithType2Diabetes:TheChennaiUrbanRuralEpidemiologyStudy(CURES)EyeStudy-3[J].DiabetesTechnology&Therapeutics,2014,17(2):112-8.[6]MiyamotoM,KotaniK,OkadaK,etal.Thecorrelationofcommoncarotidarterialdiameterwithatherosclerosisanddiabeticretinopathyinpatientswithtype2diabetesmellitus[J].ActaDiabetologica,2012,49(1):63.[7]KapetanakisVV,RudnickaAR,LiewG,etal.AstudyofwhetherautomatedDiabeticRetinopathyImageAssessmentcouldreplacemanualgradingstepsintheEnglishNationalScreeningProgramme[J].Journalofmedicalscreening,2015,22(3):112-118.[8]DasR,KerrR,ChakravarthyU,etal.Dyslipidemiaanddiabeticmacularedema:asystematicreviewandmeta-analysis[J].Oph-thalmology,2015,122(9):1820-1827.[9]KawataT,DaimonM,MiyazakiS,etal.Coronarymicrovascularfunctionisindependentlyassociatedwithleftventricularfillingpressureinpatientswithtype2diabetesmellitus[J].Cardio-vasculardiabetology,2015,14(1):98.[10]BonapaceS,RossiA,LipariP,etal.Relationshipbetweenincreasedleftatrial68 volumeandmicrovascularcomplicationsinpatientswithtype2diabetes[J].JournalofDiabetesanditsComplications,2015,29(6):822-828.[11]CalvoP,AbadiaB,FerrerasA,etal.Diabeticmacularedema:optionsforadjuncttherapy[J].Drugs,2015,75(13):1461-1469.[12]ChenY,WangW,LiuF,etal.9-cis-retinoicacidimprovessensitivitytoplatelet-derivedgrowthfactor-BBviaRXRαandSHP-1indiabeticretinopathy[J].Biochemicalandbiophysicalresearchcommunications,2015,465(4):810-816.[13]LiuY,TengX,ZhangW,etal.AssociationbetweendiabeticretinopathyandsubclinicalatherosclerosisinChina:Resultsfromacommunity-basedstudy[J].DiabetesandVascularDiseaseResearch,2015,12(5):366-372.[14]Rosas-RomeroR,Martínez-CarballidoJ,Hernández-CapistránJ,etal.Amethodtoassistinthediagnosisofearlydiabeticret-inopathy:Imageprocessingappliedtodetectionofmicroaneurysmsinfundusimages[J].ComputerizedMedicalImagingandGraphics,2015,44:41-53.[15]McLenachanS,MagnoAL,RamosD,etal.Angiographyrevealsnovelfeaturesoftheretinalvasculatureinhealthyanddiabeticmice[J].ExperimentalEyeResearch,2015,138:6-21.[16]VenkateshP,SharmaR,VashistN,etal.Detectionofretinallesionsindiabeticretinopathy:comparativeevaluationof7-fielddigitalcolorphotographyversusred-freephotography[J].Internationalophthalmology,2015,35(5):635-640.[17]HammesHP,WeissA,HessS,etal.Modificationofvitronectinbyadvancedglycationaltersfunctionalpropertiesinvitroandinthediabeticretina[J].Laboratoryinvestigation;ajournaloftechnicalmethodsandpathology,1996,75(3):325-338.[18]GhisleniMM,BiolchiV,JordonBC,etal.AssociationstudyofC936TpolymorphismoftheVEGFgeneandtheC242Tpolymorphismofthep22phoxgenewithdiabetesmellitustype2anddistaldiabeticpolyneuropathy[J].Molecularmedicinereports,2015,12(3):4626-4633.[19]KuoJZ,GuoX,KleinR,etal.Adiponectin,insulinsensitivityanddiabetic69 retinopathyinlatinoswithtype2diabetes[J].TheJournalofClinicalEndocrinology&Metabolism,2015,100(9):3348-3355.[20]SongQ,ZhangY,WuY,etal.AssociationoferythropoietingenepolymorphismswithretinopathyinaChinesecohortwithtype2diabetesmellitus[J].Clinical&experimentalophthalmology,2015,43(6):544-549.[21]CohenT,NahariD,CeremLW,etal.Interleukin6inducestheexpressionofvascularendothelialgrowthfactor[J].JournalofBiologicalChemistry,1996,271(2):736-741.[22]TianT,LiZ,LuH.CommonpathophysiologyaffectingdiabeticretinopathyandParkinson’sdisease[J].Medicalhypotheses,2015,85(4):397-398.[23]LiLX,LuJX,ShuaiHP,etal.Decreasedurineuricacidexcretionisassociatedwithdiabeticretinopathybutnotwithlowerlimbatherosclerosisinhospitalizedpatientswithtype2diabetes[J].Atherosclerosis,2015,242(1):13-18.[24]WatanabeD,SuzumaK,MatsuiS,etal.Erythropoietinasaretinalangiogenicfactorinproliferativediabeticretinopathy[J].NewEnglandJournalofMedicine,2005,353(8):782-792.[25]GarveyWT,GarberAJ,MechanickJI,etal.Americanassociationofclinicalendocrinologistsandamericancollegeofendocrinologypositionstatementonthe2014advancedframeworkforanewdiagnosisofobesityasachronicdisease.[J].EndocrinePracticeOfficialJournaloftheAmericanCollegeofEndocrinology&theAmericanAssociationofClinicalEndocrinologists,2014,20(9):977.[26]MurphyR,JiangY,BoothM,etal.Progressionofdiabeticretinopathyafterbariatricsurgery[J].DiabeticMedicine,2015,32(9):1212-1220.[27]HouX,LuJ,WengJ,etal.ImpactofwaistcircumferenceandbodymassindexonriskofcardiometabolicdisorderandcardiovasculardiseaseinChineseadults:anationaldiabetesandmetabolicdisorderssurvey[J].PloSone,2013,8(3):e57319.[28]KhalangotM,TronkoM,KravchenkoV,etal.Bodymassindexandtheriskof70 totalandcardiovascularmortalityamongpatientswithtype2diabetes:alargeprospectivestudyinUkraine[J].Heart,2009,95(6):454-460.[29]LuJ,HouX,ZhangL,etal.AssociationbetweenbodymassindexanddiabeticretinopathyinChinesepatientswithtype2dia-betes[J].Actadiabetologica,2015,52(4):701-708.[30]ScanlonG,ConnellP,RatzlaffM,etal.Macularpigmentopticaldensityislowerintype2diabetes,comparedwithtype1diabetesandnormalcontrols[J].Retina,2015,35(9):1808-1816.[31]LevezielN,RagotS,GandE,etal.AssociationBetweenDiabeticMacularEdemaandCardiovascularEventsinType2DiabetesPatients:AMulticenterObservationalStudy[J].Medicine,2015,94(33):e1220.[32]王丽丽,张小玲,马莲芳.分析2型糖尿病视网膜病变相关危险因素[J].国际眼科杂志,2011,11(8):1350-1353.[33]管晓玲.2型糖尿病视网膜病变危险性与胰岛素抵抗的研究[D].山东济南:山东大学,2006.[34]董林.2型糖尿病患者尿白蛋白排泄与视网膜病变的关系及其有关因素分析[D].安徽合肥:安徽医科大学,2012.[35]徐云.2型糖尿病患者视网膜病变相关危险因素临床分析[D].大连:大连医科大学,2014.[36]张瑞,付松波.WEKA数据挖掘在糖尿病数据中的应用研究[J].甘肃科技纵横,2010(5):26-27.[37]李戈.基于数据挖掘技术预测2型糖尿病慢性并发症[D].天津:天津医科大学,2004.[38]张具仓,文发魁,贾静,等.2型糖尿病视网膜病变相关危险因素分析[J].中国社区医师:医学专业,2011,13(35):70-70.[39]郑雨钱.对氧磷酶1基因多态性及氧化应激与2型糖尿病视网膜病变的相关性研究[D].安徽合肥:安徽医科大学,2013.[40]陈拥军.Smad3基因和ACE基因与2型糖尿病患者糖尿病视网膜病变的关系的初步探讨[D].天津:天津医科大学,2012.71 [41]王娟,刘敏兰,孙瑞磊,等.青岛开发区糖尿病性视网膜病变流行病学调查及相关因素[J].国际眼科杂志,2010,10(12):2325-2327.[42]崔颖.广东省东莞市糖尿病视网膜病变流行病学研究[D].广东:南方医科大学,2013.[43]李丹妮.糖代谢异常与糖尿病视网膜病变的相关分析[D].辽宁大连:大连医科大学,2012.[44]王冲,王艳丽,蔡安季,等.MMP-9与糖尿病视网膜病变患者血清中果糖胺的关联性[J].国际眼科杂志,2014,14(5):950-951.[45]郑福伟.2型糖尿病患者视网膜病变影响因素分析及护理对策研究[D].吉林长春:吉林大学,2013.[46]罗晓寒,王玲.2型糖尿病视网膜病变发病的危险因素分析[J].检验医学与临床,2009,06(3):178-179.[47]王兴木,尤巧英.Ang-2/Tie、VEGF与2型糖尿病视网膜病变关系的研究[J].中华全科医学,2014,12(9):1391-1393.[48]王立芳.2型糖尿病视网膜病变与C—反应蛋白(CRP)及代谢综合征关系的研究[D].吉林长春:吉林大学,2013.[49]衡欣.TGF-β1、CTGF在增殖性糖尿病视网膜病变患者血清中的表达及意义[D].河南郑州:郑州大学,2013.[50]吕佳,蔡春友,魏凤江,等.TOX和SMAD3基因多态性与中国汉族人群2型糖尿病患者微血管病变的易感性相关[J].天津医科大学学报,2013,19(1):9-12.[51]张建丽.醛糖还原酶基因启动子区C(-106)T多态性与2型糖尿病视网膜病变的相关性研究[J].山东医学高等专科学校学报,2014,36(4):276-278.[52]ClevelandH.Informationasaresource[J].Futurist,1982,16(6):34-39.[53]AckoffRL.Fromdatatowisdom[J].Journalofappliedsystemsanalysis,1989,16(1):3-9.[54]GeneBellinger,DurvalCastro,AnthonyMills.Data,Information,Knowledge,andWisdom[EB/OL].[2015-11-24].http://www.systems-thinking.org/dikw/dikw.htm.72 [55]Zeleny,Milan.HumanSystemsManagement:IntegratingKnowledge,ManagementandSystems[M].Singapore:WorldScientific,2005,15–16.[56]CIO时代网.DIKW:数据、信息、知识、智慧的金字塔层次体系[EB/OL].[2014-11-24].http://www.ciotimes.com.[57]梁战平.情报学若干问题辨析[J].情报理论与实践,2003,26(3):193-198.[58]百度百科.事实.[EB/OL].[2016-11-24].http://baike.baidu.com/link?url=IqYRpZtEJG7g3YpGwa5oo7w63oeceP74QhvuafCUAo9zKMY0bTDq86OHTViV4zQALKRqS3W30bgsL_6RjnSN3wzSKa0Xk6nwCGMglz2iew3[59]百度百科.数据[EB/OL].[2016-11-24].http://baike.baidu.com/item/%E6%95%B0%E6%8D%AE/5947370[60]百度百科.信息[EB/OL].[2016-11-24].http://baike.baidu.com/item/%E4%BF%A1%E6%81%AF[61]ShannonCE,WeaverW.TheMathematicalTheoryofInformation[J].MathematicalGazette,1949,97(333):170-180.[62]百度百科.知识[EB/OL].[2016-11-24].http://baike.baidu.com/link?url=Fx7fDR_6lH8wLfl7XI0N7Ax5EbJS8yFem3scAReHSGQVSAdDw38hqiqvfXEJUeHv_3ikMxfw8rq8MKQva8bKwW9BUmWK_4obEweCEykF1Dy[63]黄宪成.模糊多目标决策理论,方法及其应用研究[D].大连:大连理工大学,2003.[64]陈曦,王执铨.决策支持系统理论与方法研究综述[J].控制與決策,2006,21(9):961-968.[65]史忠植.知识发现[M].北京:清华大学出版社,2011.[66]化柏林.数据挖掘与知识发现关系探析[J].情报理论与实践,2008,31(4):507-510.[67]ChawlaNV,BowyerKW,HallLO,etal.SMOTE:syntheticminorityover-samplingtechnique[J].Journalofartificialintelligenceresearch,2002,16:321-357.[68]Weka.sourceforge.ClassSMOTE[EB/OL].[2016-12-2].http://weka.sourceforge.net/doc.packages/SMOTE/weka/filters/supervised/instance/SMOTE.html73 [69]杜华英,赵跃龙.人工神经网络典型模型的比较研究[J].计算机技术与发展,2006,16(5):97-99.[70]赵蕊.基于WEKA平台的决策树算法设计与实现[D].湖南长沙:中南大学,2007.[71]林莉莉.基于JAVA的WEKA数据挖掘平台分析及二次开发[D].江苏南京:河海大学,2007[72]黄丹梅.多分类器系统在蛋白质功能预测方面的应用[D].吉林长春:吉林大学,2010.[73]SPSS[EB/OL].[2016-12-13].http://baike.baidu.com/link?url=L1HpuMHYNPHWFFhNsKfPKNZqRJ1ct03cJD5pYZ54YHJP7dU8gPgYpIopRr4QB6k0Ay3neoJscy2coK-n_ZFmd_[74]WangRY,StoreyVC,FirthCP.Aframeworkforanalysisofdataqualityresearch[J].IEEEtransactionsonknowledgeanddataengineering,1995,7(4):623-640.[75]HanJ,PeiJ,KamberM.Datamining:conceptsandtechniques[M].Elsevier,2011.1-20[76]InternationalDiabetesFederation.AboutDiabetes[EB/OL].[2016-12-13].http://www.idf.org/about-diabetes[77]AmericanDiabetesAssociation[EB/OL].[2016-12-14].https://www.baidu.com/link?url=SHZxBdLHq5-ecgFBcyErR3Ah_IXBPjB8KgydDLJ_gTkOiG9R2tNqE--0XE2fxDCn&wd=&eqid=b90b38a8000041b60000000358495bb2[78]鲍晓蕾.《比较统计学》框架的构建及在回归分析中的示范研究[M].北京:军事医学科学院,2014.[79]百度百科.新年龄分段[EB/OL].[2016-05-14.]http://baike.baidu.com/link?url=0uwf3mlWIu6fS8JP02NVM2gdQ8RwbOAf3UJx31tSY3KgM2tdbqDSzvbPhrAL_68wgu-hv12fCpHIem2JOZyk3q[80]王庭俊,严孙杰,陈纯娴.不同性别2型糖尿病患者血脂、血压与骨质疏松的关系[J].中华高血压杂志,2012(12):1152-1156.[81]黄琼刁,邓万溪,黄钦展等.糖尿病主要并发症年龄与体质之相关性研究74 [J].世界中医药,2013,8(3):288-290.[82]石珂,张悦之,谢琳,等.负性调节葡萄糖转运对糖尿病小鼠视网膜微血管病变的抑制作用[J].第二军医大学学报,2015,36(2):147-154[83]张媛媛,张日华,杜新丽等.血清尿酸水平与糖尿病各代谢因子的相关性研究[J].南京医科大学学报:自然科学版,2013(1):62-67.[84]杨维娜,王璇,蓝茜,等.2型糖尿病并发周围血管病变的临床流行病学分析[J].西安交通大学学报:医学版,2013,34(1):73-76.[85]魏忠燕,谢立科,镇华,等.同型半胱氨酸、尿酸、乳酸脱氢酶及肌酸激酶与糖尿病视网膜病变的关系[J].眼科新进展,2011,31(9):846-848.[86]白洲霞.2型糖尿病血清载脂蛋白A1、B、脂蛋白(a)水平观察分析[J].国际检验医学杂志,2010,31(10):1146-1147.[87]王晶晶,田晨光.糖化血红蛋白、糖化血清蛋白、血细胞参数在老年糖尿病微血管病变患者中的应用价值[J].中华实用诊断与治疗杂志,2010,24(2):143-145.75 作者简介及科研成果作者简介:王萍,女,1990年9月生于吉林省长春市,汉族,理学硕士。本科和研究生阶段先后就读于吉林大学公共卫生学院,信息管理与信息系统(医药信息管理)专业、医学信息学专业。科研成果:[1]牟冬梅,王萍,张艳侠.基于关联数据的数字资源语义聚合策略[J].情报资料工作,2015,36(5):18-23.[2]牟冬梅,王萍,郑晓月,等,大数据驱动下的医学信息相关专业教学体系优化设计[J].中国高等医学教育,2017(2):117-118[3]牟冬梅,王萍,张艳侠,等.VIVO在信息资源聚合中的应用研究[J].情报科学,2017,35(3):57--62.[4]牟冬梅,郑晓月,王萍,等.社会网络分析在学科知识结构研究上的方法思辨[J].情报理论与实践,2016,39(8):22-27.[5]牟冬梅,冯超,王萍.数据挖掘方法在医学领域的应用及SWOT分析[J].医学信息学杂志,2015(1):53-5776 致谢八年的时间匆匆流逝,描绘不出时间逝去的轮廓,却沉淀下最为璀璨珍贵的回忆。还记得那一年,我们初入大学校园,稚气未脱,满怀憧憬与希冀;还记得那一年,我们师门初次相聚,仲夏晌午,欢声笑语齐聚一堂;还记得那一年,我们共同筹备会议,严谨认真,紧张忙碌的日日夜夜。回首研究生三年,有太多的人给予过我关心和帮助,在此,想对你们表达由衷的感谢!首先,要感谢我的恩师牟冬梅教授。学习上,您渊博的知识、严谨的治学态度、精益求精的科研精神,深深的感染我,这些也将一直指引我未来的学习和生活。您时常教导我们要珍惜自己的羽毛,脚踏实地的走好人生的每一步,正是因为这样的教诲,激励我奋力拼搏,朝梦想砥砺前行。生活上,您教导我积极的处世哲学,分享生活的点滴喜悦,倾听解答我的烦恼困惑。执此毕业之际,情难舍思难断,岁月有尽头,师恩无穷期,时念吾师恩。感谢医学信息学系的所有老师,感谢您们对我的关心、帮助与支持,感谢您们无私传授的专业知识,在这个大家庭度过的时光,将会是我一生中最美好的回忆。感谢所有的师兄、师姐、师弟、师妹们,感谢你们在学习和生活上对我的无私帮助,同窗的日子里,我们互帮互助,共同进步,愿我们的友谊长存。感谢我的父母、家人、亲人和朋友,你们的理解、鼓励与支持,是我前进道路上的莫大动力,感谢你们在我每一次困惑迷茫的时候,给予我的关心与支持,感谢你们多年以来的默默付出。77

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
关闭