心血管疾病患者再次入院风险评估系统的设计与实现

心血管疾病患者再次入院风险评估系统的设计与实现

ID:78084835

大小:9.07 MB

页数:75页

时间:2024-02-04

上传者:笑似︶ㄣ無奈
心血管疾病患者再次入院风险评估系统的设计与实现_第1页
心血管疾病患者再次入院风险评估系统的设计与实现_第2页
心血管疾病患者再次入院风险评估系统的设计与实现_第3页
心血管疾病患者再次入院风险评估系统的设计与实现_第4页
心血管疾病患者再次入院风险评估系统的设计与实现_第5页
心血管疾病患者再次入院风险评估系统的设计与实现_第6页
心血管疾病患者再次入院风险评估系统的设计与实现_第7页
心血管疾病患者再次入院风险评估系统的设计与实现_第8页
心血管疾病患者再次入院风险评估系统的设计与实现_第9页
心血管疾病患者再次入院风险评估系统的设计与实现_第10页
资源描述:

《心血管疾病患者再次入院风险评估系统的设计与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

R39单位代码:1U况b分类号:1密级:无学号:21315078'硕±专业学位论文戀/中文论文题目;公血管疾病患者再次入院风险评估系统的设计与实现英文论文题目esignandRealizationofa民eadmission:DRiskAssessmentSystemforPatientswithCardiovascularDisease申请人姓名:朱春燕指导教师;李劲松教摸合作导师;田丽丽专业学位类别:王程硕去专业学位领域:生物医学工程领域所在学阮:生物医学工程与化器科学学院论文提交日期2016年01月04日 成、血管疾病患者再次入院风险评估系统的设计与实现论文作者签名:I::4裝指导教师篇名论文评阅人1;隐名评阅评阅人2;陈杭\教授\浙江大学评阅人3;谢松城\教授级高工\浙江医院评阅人4,评阅人5;答辩委员会主席:夏灵\教授\浙江大学委员1:王永国\副教授\浙江大学委员2;张武明\副教授\浙江大学3委员;委员4:委员5;:2016年3月10日答辩日期 浙江大学研究生学位论文独创性声明指导下进行的研巧工作及取得的本人声明所呈交的学位论文是本人在导师,论文中不包含其他人己经发研巧成果。除了文中特别加W标注和致谢的地方外机构的学位或表或撰写过的研巧成果,也不包含为获得浙江大学或其他教育一文证书而使用过的材料。与我同工作的同志对本研巧所做的任何贡献均己在论中作了明确的说明并表示谢意。°/曰签字曰期:2/^年i月学位论文作者签名:f学位论文版权使用授权书本学位论文作者完全T解浙江大学有权保留并向国家有关部口或机文被查阅和借阅。本人授权浙江大金构送交本论文的复印件和磁盘,允许论,可^采用影^全部或部分内容编入有关数据库进行检索和传播可^^1将学位论文的印、汇编学位论文。、缩印或扫描等复制手段保存)(保密的学位论文在解密后适用本授权书^^削巾签名:^学位论文作者签名:^^春葵,^^/)曰曰期〇日期;年月:21年^月曰签字^户签字(7 浙江大学硕壬学位论文致谢致谢时光甚荐。站在毕业的口槛上,回首往,转暇近王年巧研究生生涯即将结宋昔感慨万千,奋斗和辛劳成为丝丝记忆,甜美与欢笑也都尘埃落定。在此我要,、レ、向所有关记、指导、帮助过巧的老师同学、亲人和朋友致乂最诚挈的谢意。首先、,衷A地感谢我的导师李劲松教投,感谢他在我攻读硕去期间对我的诗谅教诲和严格要求。李老师知识渊博、治学严谨、思维创新,是我在區学信息学一工作精神平易近人巧处事作风这前沿领域的指路明灯,他W忘我巧、、积极乐观的生活态度激励我。在论文的构思和撰写,在学术和生活上给予我莫大的帮助、过程中,,李老卿耐A指导提出了很多宝贵的意见。借此机会,我谨向李老师致W深深的谢意。感谢海军总屋院钱阳明院长、田丽丽主任和庄严工程师提供的医院实际临床数据,及在系统巧发过程中给予的帮助。其次我要感谢实验窒所有一起奋斗的同学,在我短暂的研究生生涯中带给,我难忘的关怀与热情。感谢周天舒、田雨师兄在论文研究及撰写过程中给予的悉、足指导、,感谢姚琴、王华琼、王呈李鹏飞、张洪磊、文语欣、张艺慨、潘斌、吕道明、徐益辉卿兄师姐在项目开发上给予的热记帮助。感谢郑驰、、陶敏等袁一一、起分享和《流学习工作经冬生朱爱明等同窗好友,感谢他们悟我路走来,、验和生活乐趣。感谢李山、苟玲、池胜强童丹阳、王丰等师弟师妹们在学习生活中互帮互助。太多的感情遊于言表,我会永远珍惜这段美好时光。同时,感谢浙江大学生仪学院的巧有老师,感谢他们在我求学期间对我的教。导和帮助,让我能够更好地踏入社会、投入工作L,养育之恩,无乂为报感谢他们多年来对我还要特别感谢我的父母和家人,我的关怀和鼓励。化要感谢男友吕维扬的包容理解与支持。最后!,诚攀地感谢为评阅本论文而付出辛勤劳动的各位专家和学者I 浙江大学硕壬学位沦文摘娶搞要随着我国人口老龄化及城镇化进程的加速,A血管疾病危险困素的流行趋势'星明显上升态势/,从而导致成血管病的发病人数持续增加。近年来,心血管疾病邑成为威胁人类健康的第一死因。由于其病因复杂、病程较长,患者在治疗过程中重复入院率极高,消耗大量医巧资源并产生昂贵的医疗费用。因此,利用预测模型来提前识别高风险患者并通过有效的干预播施降低其再次入院率成为当前研究的热点。本论文总结了患者再次入院风险预测的研究现状及存在问题,结合数据挖掘技术设计建立患者再次入院风险评估模型、,并在此基础上设计并开发A血管疾病患者再次入院风险评估系统。风险评估模型包括风险预测、患者聚类和危险因素回归分析王个部分,可在患者出院时自动预测其30天巧再次入院风险等级及主02%。系统根据模型要危险因素排序.6,准确率达9评佑结果结合风险控制知识库,智能地给出个性化的患者院外健康管理及随巧医护人员健康指导建议,在合埋调配医护人员的同时指导患者更好地进行院外自我管理,降低再次入院风险。关巧词:记血管病,再次入院,数据挖掘,风险预测,健康指导II 浙江大学硕壬学位论文AbstractAbstractAlongwiththeaccderatio打ofpopulationagingandurba打izationprocessinourcountry,theepidemictrendoffactorscontributedtothecardiovasculardiseasehavettcontttincreasedobviouslwhichresuli打heinuedrowhofincidence.Recenly,gy,cardiovasc山ardiseasehasbecomethefirstcauseofdeathforhumanheakh.Becauseofthecomlexetiologyandlongduration灶ereadmissionrateforatientsisp,pextremelhihdurintheraconsuminalareamou打tofmedicalresourcesasyggpy,gg^roducnxeeosititoncosts.Theieforeusinredtonodewellasiepnsivhpalzaiicimlpg,gp-1ttentadvanceandducetheadmtI:0idenifyhighriskpaisi打rereissionraehrougheffectiveinterventionshasbecomeafocusrecently.*Thisapersummari之esthecurrentsituationandproblemsofiiskpredictionprelevanttothereadmissionforpatients.Combinedwithdatami打ing1:echnology,ariskassessmentmodelforatientswasdesinedfollowedbthedesinandpg,ygdevelopmentofreadmissio打risk过ssessrnentsystemforpatie打tswithcardiovasculardisease.Theriskassessmentmodelincludesthreeparts:riskpredictionclusterin,ganalysisandregressio打analysisofriskfavors,whichcanautomaticallypredicatetherisklevelandriskfactorsforthedischargedatientsinthirtdas.Themodelwaspyyaccurate90.62%ofthetime.Combinedthemodelassessmentresultswithriskcontrolknowledgebase过ersonalizedhealthmmiaeme打tandhe过1thceivebcare,guidan打pggywhichcannotonllworkerscanbeutforwardintellientllhemedicaersonnelpgy,ypputaoetenocaoute-manattintherationalallocationblsguidaitstrryslfemenbeterpg,*iesultingi打化edecreaseofreadmissionrate.Keywords:CardiovascularDisc过se,Readmission,DataMining,RiskPrediction,Heal化GuideIII 浙江大学巧壬学位论文目录目录冊I摘IIAbstractIll胃^IV第1章绪论111.研究背景及意义11.2围内外研究现状21.3研究内容41.4论文组织结构5第2章相关理论与技术62.1数据挖掘概述62.2数据仓库技术92.2.1数据仓库9222ETL10..技术2.3数据挖掘算法112.3.1分类和预测112.3.2聚类算法15233?1..析6归分2.4分析平台与王具19241ne软19..Clementi件2.4.2民语言20第3章风险评估系统设计123.1系统架构设计21322.2数据库设计3.3数据挖掘模型设计25315.3.预测模型2VI 浙江大学硕击学位论义目录3.3.2聚类模型293.3.3@归模型32333.4风险控制知识库设计第4章化险评估系统实现374.1风险等级预测模型374丄1数据预处理374丄240模型结果4丄3模型评估424243.患者聚类模型4.2.1数据预处理434.2.2模型结果474.2.3模型评佑484.3危险因素回归模型534.31模型结果53.4..32摸型评估584.4系统实现60562第章总结与展望参考文献637作者在硕去研究生期间的科研成果6V 浙汪乂学硕击学位论文第1章绪论第1章绪论1.1巧究背素及意义尼、血管疾病是全球的第一死因毎年死于也',血管疾病的人数远#于其它死因。据世界卫生组织统计,全球毎年约有1500万人死于知血管疾病,占总死亡人数1[3又有]口的1%,其中3/4W上发生在低收入或中等收入国家。随着我国人老龄/化及城镇化进程加速,公血管疾病危险因素的流行,居民钦食结构发生改变导致趋势呈巧显上升态势、。呂前,我围鉤有2.9亿记血管疾病患者,其中包括2.7亿口]高血压、700万脑卒中、250万记抓梗塞、450方冶力衰竭、950万冶脏病患者。《中国卫生和计划生育统计年鉴2014》指出,2005年至2013年,我国因冶血管病死亡的居民人数呈逐年上升趋势。至2013年,毎千万人中有276人死于记血管疾病,分别占城市、农村居民死因构成的45%和42%,高居我国居民死因之首W。因此,采取有效的措施预防和治疗记血管疾病已成为广泛关注的问题。众所周知,记血管疾病病因复杂,治疗病捏较长,通常需要终身治疗,因此患者在治疗过程中需经常反复入晓/心血管疾病的危险因素主要包括。影响高血压、糖尿病、血脂异常、肥胖等慢性疾病;吸烟、缺芝锻炼、不合理饮食等不良生活方式W。因此,在患者出院时对其再次入院风险及危险因素进行评估,给患者及随巧医护人员提供个性化的键康管理指导建议、,可有效控制冶血管疾病患者的危险因素,降低重复入院率,从而在提高医疗质量和降低治疗费用的同时,帮助医院更合理地分配医疗资源。然而,影响患者再次入院的原西十分复杂,包括患者本身的病情、、在院治疗情况W及家庭环境等多种因素而其中,影响A,血管疾病患者病情的病因就十分复杂,因此仅基于临床专业知识来评估出院患者再次入院一风险是十分困难的。采集记血管疾病患者的相关数据,利用数据挖掘技术建立W个风险预测模型,可有效解决上述问题。其中居疗信息系统的发展完善W及数据挖掘技术的产生,为其提供了疆大的技术支持。随着现代信息技术和互联网的飞速发展,医院信息系统日趋完善。医院的各数据库每天都会产生大量临床医疗及业务数据,运用相关技术手段对这些数据加I 浙江大学硕去学位论文第1章绪论W利用,发掘其中潜在的有用信息,可指导临床及业务人员更好地完善和改进医一疗过程。因此,医疗数据挖掘技术应运而生,其发展主要经历H个阶段第阶段,对医疗数捂巧利用局限于简单的采集、汇总及统计等,且不同的数据来源一并无统标准,因此得到的结果通常并不十分理想,也较难获得大众的认可。随着医疗标准体系的建立一,研究人员对医疗数据的利用也进入了个新的阶段。在一一该阶段,各信息系统源的信息不再杂就不并都遵循于,个标准体系,包括信息交换标准体系、数据交换标准体系W及业务流程的标准化等。在数据采集过程中,利用相关的数据集成手段,对数据进行清洗筛选W及标准化处理,从而令最一一终数据是标准统、科学可信、具有研究价值的。此外,相软于第晚段主要从一报表的恭式展现数据统计汇总结果,这阶段还将结果反馈回信息系统中巧成,闭环管理,辅助决策支持,包括临床及业务流程中的预警、提示及多维度的可视化分析展示。受临床医巧所遇问题的驱动,简单的统计反馈己不能满足当前的业务需求,医,,由此疗数据挖掘技术进入第H个阶段即知识的获取和发现。利用预测、分类、关联等算法对大量数据建立模型,发现其中隐含的信息,从而给医生在临床诊疗过程中提供更好的决策支持。12.国巧外研究现状目前,风险预测模型被广泛地应用于临床和医疗领域W帮助决策支持,面向数据的风险预测模型已成为一项帮助临床决策的有效工具二型,包括对孰腺癌、糖尿病、知血管疾病等的疾病发生风险概率预测,危重入院病人的死亡风险评估94一等。例如lausRisch和Thomson,19年,C构建了个乳腺癌风险预测模型,p一能够估计患者在定时间后患孰腺癌的风险,从而辅助临床尽早发现寓危人群,-采取相关干预治疗。2003年,Lindstr她1和Tuomilehto通过采集3564岁患者的BMI指数、年龄、,10年患、腰困血糖、服用高血压药物历史等数据对其未来II性糖尿病的疾病风险进行评分,从4435例样本中预测得到182例患者在未来II有患型糖尿病的风险,并对其进行干预治疗大量研究表明,面向数据的风一工具险预测模型己成为项可帮助医疗决策的有效。一再次入院率作为评价医疗质量的项重要指标、医疗机构、保险,受到政府2 浙江乂学硕i学位论文第I章绪论.么司W及病患的广泛关注。表1.1列出了国内外关于患者再次入院风险预测的传s-Wf统研究方法。这些研究主要运用還辑回归、Cox风险比例回巧等统计方法识别危险因子,在得到高危风险因子的基砸上再对其进行加权评分,得出患者再次入院的风险指数。例如,2011年Omar和David等人通过建立回归棋型,分析10946例内科病人的再次入院影响因素,并根据所得结果控制病患的相关影响因tW素,从而降低其再次入院率。2013年,Garrison等人利用逻辑回归的方法对276例患者30天内再次入院风险进行预测,通过预测结果进行家庭医生干预治PW一疗,从而降低再次入院风险。不同疾病患者的风险因素不,数据分散,因此该类模型只有针对特定类型的疾病患者进行评估时,才能得到较为理想的效果,而当患者类型稍有扩大时,模型有效性就会大大降低。11表.患者出院风险预测巧究-年份作者样本建摸方法1985Smi化等1506例患者多元统计0wa199Holloy等2970例退伍老兵逻辑回归1993Boult等2176例70岁W上老人逻辑回归、1999Phi化in等42731例充血性吃力衰竭患者還辑回归、2000Krumholz等2176例A力衰竭患者Cox比例风险模型2008Novotny等131809例患者泊松回归、2009Howe'll等3129例冠记病及。力衰竭患者逻辑回归、2010陈秋等1012例A力衰竭患者還辑回归2010Wh扣ock等446例膜腺《患者LACE评分mU24'2011Haml等163例公力衰竭患者广义线性回归2013hamara1315'。力衰竭逻辑回归Dran等307例、Cox风险比例j近年来,有医院通过计算患者的LACE指数,即利用住院天数(Lengthofstay,L)、入院方式(Admissionacuity.A)、伴随疾病指数(Como比地tyindexscore,C)L乂及抢救次数(UseofEDE)四个变量对患者再次入院风险进行评分。例如2010,L年,Walraven等人通过计算乂上四个变量得分之和给患者再次入院风险进行评分,3 浙江大学硕击学位论文第1牵绪论并依据临床经验设置评分阀值,从而判断患者的再次入院风险。这种方法虽可解决上述由于不同疾病风险因子差异导致的模型应用范围受限的问题,但该法是基于这四个变量和再次入院风险存在线性相关的假设之上的,而且评分规则的设定L义及阀值的划分也都是由医生根据经验来判定因此在使用过程中并不能实现真,正的基于数据驱动的临床决策支持,而会过多地依赖于临床决策者自身的医疗经验。基于上述问题,,有相关研究简化了预测模型特征参数利用支持向量机、朴20素贝叶斯网络、决策树等算法来预测患者重复入院风险。14年BragaPortela^等人利用支持向量机、决策树等方法预测进过重症监护室的出院患者再次入院并进入重症监护窒的风险指数,该模型打破了传统方法中利用回归模型计算输入参数的相关系数,而,并再进行加权评分的方法是利用经过精简的输入参数直接建Pi模预测l。模型评估表明利用贝叶斯网络建立的预测模型准确率高达98.91%。,这粪预测模型虽然能较为准确地预测患者再次入院风险,但未对危险因子进行具体分析。2015年,Jeejeebhoy等人采集了加拿大18家医院的1022名大于18周岁的急诊患者数据,利用患者体重、握为、血清蛋白等指标对患者进行营养学评P21估,并据此预测入院患者在院时间W及出院患者再次入院风险。该模型的局限性在于多数患者并不进行上述所有指标的体检,数据的缺失导致该模型并不完全适用。1.3巧究巧容基于当前针对出院患者再次入院风险研究成果及存在问题,本论文改进了相关算法及因素选择/心血管疾病患者,设计并实现了基于数据挖掘技术的再次入院风险评估系统具体研究内容及创新点如下:,()通过计算伴随疾病指数的方法合并了患者伴随疾病、并发症等具体风1险因素,与住院天数、患者年龄、医保类型、急救次数等作为风险因子建立人王、神经网络*、决策树等分类预测模型预测K血管疾病患者出院时的再次入院风险,等级。该模型在风险因素的选择上结合了目前现有研究的优点,对各类成血管疾一病患者都具普适性,,因此在研究过程中只需建立个预测模型打破了传统方法4 浙江大学巧主学位论文巧1章绪论需要对各类疾病进行特定建模的局限。-ms(2)采集患者所有的相关危捡因素,并利用Kean、聚类模型对患者进行分类一。然后再对同类病人利用回归撲型找出影响病人再次入院风险的主要危险因素。由于记血管疾病病因复杂,不同患者的危险因素化巧差较大,因此利用聚类棋型将不同类型的患者进行分类,然后再建立回归模型进行相关性分析,找出每类病人个性化的危险因素,可更加有针对性地帮助指导患者院外干预治疗。一/(3)基于W上模型建立个公血管疾病患者出院风险评估系统,在患者出院时集成其在医院的相关医疗数据,预测其再次入院风险及危险因素。据此分别给患者和随巧医护人员一个性化的院外健康管理及指导建议L,乂帮助患者出院后更好的自我管理及随访人员的工作安排调配。1.4论文组织结构本论文的结构安排如下:第一章是绪论部分,主要介绍本论文的研究背景与意义、国内外研究现状、1研究目标、创新性^^及论文的结构安排。第二章是论文所涉及的相关理论与技术,详细介绍了数据挖掘概念、数据仓库技术、风险评估模型及其相关算法、模型评估方法等,为第王章病人出院风险评估系统的设计提供理论依据。第兰章主更是病人出院风险评估系统的详细设计,介绍了记血管疾病患者的出院风险等级预测模型、患者聚类模型、危险因素回归分析这王个模型的整体架构及设计方案。一第西章分为两个部分:第部分是撰型的实现与评佑,通过计算准确性、召回率、均值标准差等评估模型优劣,从而选取最佳模型用于评估系统;第二部分是系统的实现与结果,,阐述该系统在血管疾病患者出院时通过对其在院数据的采集分析,,得出患者再次入院风险等级及相关危险因素井分别给患者和随访人员提供健康管理及指导建议。第五章是对论文研究内容的兹结,并对后续王作进行展望。5 浙江大学硕去学位论文第2章相关理论与技术第2章相关望论与技术2.1数据挖掘概述数据挖掘(DataMininDM)、g,是指从大量数据中找出隐含于其中事先未知的有价值信息及知识的过程。它是现代信息技术迅猛发展的产物,信息时代各行各业彼此沟通的加强大大推动了数据存储技术和整个信息技术产业的发展,而互联网的迅速发展使人们可获取的信息量剧增,有研究评估当前世界的信息量4正W毎二十个一番的高速呈几何级数增长P:!月翻。这就迫切需要研究人员对送些,从而帮助相应行业的市场分析数据加W利用进而转换成有用的信息与知识、欺诈检测,有、商品预测W及临宋决策等。图此效利用数据挖掘技术在大量杂乱无章的碎片信息中提取出所需要的数据,帮助人们深层理解这些数据,得到隐含于进一,其中未知的但又具实际应用化值的信息,并步规范化使之咸为有效的知识一L体系,个重大课题。,乂供决策者参考利用己戍为当前各国研究人员的PSj数据挖掘技术的产生主要经历四个发展进程,如图2.1所示。'数据与信息集成数据仓库数据挖掘?.,扣.震5/;数据查询工具W20世纪8的巧P联机事务处理技术(0LA)mf。心化__::层次及"据库2。世纪7。城复T…I■'覇关系3^数据库/,— ̄ ̄?齡W::#衣pa誦瞧達病聲臟麵图2.1数据挖掘产生进程20世纪60年代L乂前。,人们对数据的利用主要是简单的原始文件采集处理60年代L乂后。7080,逐渐产生早期的网状数据库系统到年代末年代初,研究人员开发了关系型数据库系统用W更加便捷地存放数据,令数据库系统不断发展6 浙江大学硕壬学位论文第2章相关理论与技术加便捷地提取和理解数据,产生了简单的用户完善。同时,在这个时期,为了更系统用W查询、统计及汇总数据。自80年代中期W来,计算机技术及互联网技。,各行各业的数据都呈爆炸式增长术发展飞速,从而大大推动了信息产业的发展大量数据通常来源于多个异构的信息系统,因此需要对其进行数据清洗、集成再一种新的数据存储结构中,即数据仓库。数据仓库的加载到数据库,由此出现了出现为联机分析处理技术(OnlineAnalyticalProcesshg,OLAP)的产生及发展奠定了基础。随着数据量的快速增长,传统的数据统计分析邑远远不能满足研究人员提取信息的需求中发现知识和信息,成为急,因此快速有效地帮助决策者从海量数据需解决的问题。由此,人们对数据的应用模式也产生了质的变化。从图2.2中可L乂看出,人们对数据的利用方式己经从早期对历史数据简单的理解与评估逐步发。,主展成对数据的深层挖掘,探索其中隐藏的关系及模式动掌握未来发展趋势索隐葱关系、模式I评估(将来)势.主动掌握未来发展(历史)预测I^‘的性别年思已I龄分布?数据挖数鄉鬟(苗据患?利t/全淹根案、如何对度些用;病患分配医,U占LAPj(>,、l)护人员方\^y!.一_/裤哪些病患p\报表〇〇时间^理解和巧估历史数据^^-尸-一图2.2数据利用方式的发展数据进行汇总展示。后期,报表增早期的数据挖掘系统W报表为主,对历史,的原因,并且加了解释性的内容,通过对数据进行深入分析探讨历史信息产生在系统中加入警告分析,从而帮助用户更好地理解数据。现今,多数数据巧掘系7 浙江大学硕主学位论文第2章巧关理论与技术统不再局限于历史数据统计,而是基于历史数据的产生模式预测未来发展趋势,K供决策支持。然而,这些系统并不完全智能,只是将其挖掘得到的知识展示给用户,而使用者仍需根据自己的经验对结果加LX分析和利用W辅助决策支持。因此,更多的数据挖掘系统正逐渐向完全智能化发展。研究人员通过相关评估技术对挖掘所得的知识模型效果进行评佑,从而提取出可信度较高的最优模型,再利用构建知识库等方法将数据知识转换成决策建议等,使用户能够方便快捷地获取更为具体形象的知识。图23所示即为数据挖掘系统的演化过程。决策分折II。-敵-优化数据巧掘—预测分析!I什么是最好的方案?I,—动态报告^餐告分析预测模型Ii'tI'v'.___— ̄将晏发生?..、.軒、——玄-—互动杳—1旬\\厂—解释性模型Z;\f'—!为什么会皮生?j数据清洗^原始数晤^(3数据资料知识智能图2.3数据挖掘系统的演化数据挖掘技术的不断发展使其在各行各业都有广泛的应用。然而由于应用领一一一域不同、挖掘目的不,挖掘流程也并没有个统标准。为了推广和规范数据一-Itr挖掘技术,欧盟机构制定了个跨行业数据挖掘过程标准(CrossndusyP6jDtaM-SdadProcessforainCRISPDM)该标准只对挖掘流程做了lianrin。定,g,规并不限制挖掘方法、目的及工具等,对所有不同行业背景的数据挖掘案例都具有-ISPDM已普适性。目前大部分数据挖掘工具都遵循上述标准,CR成为数据挖掘行业么认的准则。CRISP-DM数据挖掘流程准则包括商业理解、数据理解、数据准备、模型建ni立t、模型评估和结果部署六部分。首先从实际需求出发,结合数据确定数据挖掘目的并制定挖掘方案。然后再对相关数据进行《入的多维分析,在熟悉数据结8 第2章相关理论与技术浙江大学硕去学位论文构特征的基础上进入数据准备阶段。数据准备与建模阶段是两个彼此交互反馈的、清洗标准化等处理。数据审核通过程、,根据模型的需求对原始数据进行采集过后,根据挖掘计划选择恰当的算法建立模型,此阶段化是整个数据挖掘过程的当的方法对模型的优劣进行评估,常用的评估指标核瓜部分。建模完成后采用适0C曲线线下面积等。结合业务需求及评估结果,适当调有准确牵、召回率、民整模型参数W重新建模并评估,直至评估结果较为理憩。至此,数据挖掘模型就提供决策支持-DM数据挖掘具体流程如图。CR1SP可W运用于实际业务,为其2.4所示。/数据准备a)\\W"1部署心数据[1尽與2-困.4CRISPDM数据挖掘流程2.2数据仓库技术2.2.1数据仓库数据仓库技术是基于现代决策支持系统对数据操作的需求,从传统数据库技一给出明确的答案数项新技术,很难,术发展演变而来的。对于数据仓库的定义"吐一一个据仓库系统构造的创始人WilliamInmon给出个说法,即数据仓库是面向主题的、集成的、时变的和非易失的数据集合,主要用于决策支持的数据库9 巧江大学颂壬学位论文第2窜巧关理论与技术"口8]口9系统]。据此可W看出,数据仓库具有K下四个显著特征。(1)面向主题性:数据仓库是围绕决策者的主题及建模的需求构建而成。与传统的数据库不同,数据仓库只存储用于后期数据分析的数据,为持定的分析主题提供简洁清晰的展示形式。(2)数据集成性:数据仓库的数据是根据决策者的主题分析需求来源于多种数据源,其数据结构通常是异构的,如平面文件、关系型及非关系型数据库等。利用一定的技术手段对异构数据源进行筛选、清洗、标准化等处理,再加载到数据仓库中。(3)时变性:数据通常会随着时间的推移而发生改变,因此数据仓库一般会添加时间元素,即从历史的角度来存储数据。一(4)非易失性:般对数据仓库的操作只包括数据载入及查询而不进行,其他删除一、恢复等操作,因此数据具有非易失性,使得数据仓库比般的数据库更具稳定性。数据仓库的基本体系结构口0]如图2.5所示。首先利用ETL--(ExtraUTransformLoad)技术将多个异构的数据源进行集成,加载到数据仓库中,然后再将数据用于联机分析处理、数据挖掘等应用场景。最后再根据用户的不同需求将统计分析结果可视化的呈现,W供决策支持。OLAP数据源^ ̄■1二—CETLI^U^巧II数据仓库泌L'用户可视化p—___■S丽插图2.5数据仓库基本体系结构2.2.2ETL技术ETX即数据的抽巧化xtract)、转换(Transform)及装载(Load)过程则,10 第2章相关理论与技术化江大学硕壬学位论文库建立过程的核'。部主要负责数据从数据源向目标数据库转化的过程,是数据仓26ETL的基本体系结构。分。困.所示为Databases&filesMetadataoexortimprt/p个Targetadapters^_—……---Y7n广^Load、/^LAdministration''、&oerationsRuntimep|I1servicesTransformm別adata|^/Metadata*servicel/es化r:roiipy.、s?iTransport化rvice.|L—1E)c"act之.rceada化Soursp1 ̄ ̄AiDesign|''manaergDatabasesLegacy1&filesalicationspp图2.6ETL基本体系结构首先通过ODBC接口等建立与数据源之间的连接用于数据抽取,然后基于一汇总等处理定的准则进行数据标准化,最后将经过应用需求将数据按照、统计此过程中i,Desnmanaer提转换清辣处理的数据装载到目标数据仓库中。而在gg一数据源与目标数据仓库之间的映射关系供个图像化的映射王具,供开发者定义一个关于ETL设计和运行L乂及详细的标准化转换流程。元数据服务器则提供了LtratnOerationservices乂让管理员处理相关定义的元数据资料库。Adminisio&p可。Traserv,对ETL过程进行监测和调度nsportices可实现数据在各层之间的移动(TCP(FTP),如利用网络协议、IP)或文件协议在源和目标系统中移动数据1巧利用内存在ETL各组件间进行数据移动。2.3数据挖掘算法2.3.1分类和预测分类和预测是数据挖掘技术中常用的两种分析类型,可根据现有的相关属性的发展趋势L乂帮助我们更找寻其中的隐含规则W预测事物未来,这种分析方法可一个预估趋势有,W便于提前采取有好地理解和利用当前数据,并对未来的发展11 浙注大学硕i学佳论文第2章相关理论与技术效手段进行干预。常用的预测算法主要有决策树、、贝叶斯网络遗传算法、逻辑回归等一,其中决策树、贝叶斯网络、遗传算法等般用于离散数据的分类预测模型逻辑回归等通常用于连续数据的预测模型,。本文选取了人工神经网络及决策树归纳对也血管疾病患者再次入院风险等缀进行预测。2.3丄1人工神经网络生物神经系统是由许多相互连接的神经元組成的错综复杂的网络,生物信号就是通过这个纵橫交错的网络将信号由一个神经元传递给下一个神经元,从而完成信号的传递一。受此后发,产生了种模仿生物神经网络结构的模型,即人工神经口3]口网络(ArtificialNeuralNetworkANN)。,该模型在结构上可分为;层如图2.7所示,巧输入层、隐含层W及输出层。输入层的每个节点对应输入的属性值。输出层的节点对应目标输出,而中间的隐含层对于开发者来说是不可见的,可W是单层或多层。输A层隐含层输出层纖壑;j:圍2.7人工神经网络结构本论文所用到的算法为BP(BackPropagation)神经网络,其具体执行过程分为W下几个歩骤一(1)組样本k从训练集中取出某,其n个输入节点即为神经网络的输入,记为:X=XkX().k)(i2(而化))口.1)(2)将输入参数根据传递函数经过各节点逐层向后处理,得到神经网络的输出。传递函数记为:'ky=W()/己1y化化化)+0(/c)口.2)片)12 浙江大学硕去学位论文第2章巧关理论与技术一一一0为传递参数层和这层的,化。其中,i分别对应上个节点,j(3):计算实际输出与期望输出之差,记为'=Yk-Yekk.3)()()()口(4)根据LX下修正公式口.4)分别调整w,9两个传递参数,重新计算误差经网络的误差逐渐趋于最小化。其中,,a通常为常数并逐层向前传递,使得神,提可根据学习过程中的传递参数实时更新,其作用是为了增加网络的稳定性升模型学习效率,根据经验通常设为化9;巧代表模型学习率,在神经网络执行过程中根据各节点权重参数实时调整。+=*6*又〇);〇a*〇)佩+口化)你)<作4|.白&+1=a*白+*/〇I()从)口(气(5)根据模型相关参数判断模型是否满足终止条件,若满足则迭代结宋并输出结果,若不满足则重复上述步骤,根据修正公式重新调整传递参数并计算误一差,通常是预测误差小于某个较小值或这到。终止条件是在学习开始时预设的定的迭代次数。人工神经网络算法对参数较多的复杂问题具有较强的学习能力,同时其对错误及噪声数据的适应力较强。虽然该模型需耗费较长时间训练学习,即反复调整一旦模型网络成功建立,,在后续使用该网络进行预测分析时参数W减小误差,但其响应速度快速有效。。因此人工神经网络算法适用于非线性问题的预测模型23丄2.决策树归纳T一决策树(Decisionree)是种类似流程图的树状结构,通过把实例从根节P3一]。28、点传递到某个叶节点来分类实例图.所示代表个根据年龄性别等属性顽测是否买房的决策树。年是巧)嚷I13 浙江大学硕±学位论文第2章相关理论与巧术图2.8决策树结构示意困其中树上的每一个非树叶节点代表一个输入属性毎个分枝代表不同的属性,测试输出。对每个实例都按其属性值对应的树枝向下移动,直到叶节点,毎个叶节点就代表一类输出。在决策树的创建过程中,由于离群值及噪京数据的影响,很多分枝实际上是异常值的存在所造成的。因此,这样的树模型是不能直接应,这种情况叫过拟合用的,而要把异常值所导致的分枝剪去。常用的剪枝方法有先剪枝和后剪枝两种,其中更为常用的是后剪枝的方法L,即在树完全建立X后再通过错误率等的计算剪。去不合理的树枝,从而得到较为理想的结果决策树归纳算法由于计算相对简单,因此其学习速率较快,对于缺失及错误数据具有较好的容错性。但是当属性类别比较复杂多样的时候,其学习准确率就会大大降低。因此,该方法适用于属性类别较为简单、数据质量不太理耀的分类预测模型。2.3.1.3预測巧型评佑运用相关方法对模型进行评估,可K帮助使用者及时调整模型参数,选捧最优模型一。每个预测模型都会得到个与训练集相对应的准确率,模型是在训练集数据自学习的基础上建立的,西此仅依靠该准确率并不能作为评估模型性能的标准,,然后,需选择不同于训练集的测试集数据输入预测模型再通过计算相关参数评估模型效果。对于二分类的预测问题,其测试结果可分为W下四类:(1)真阳性(TP);实际和预测值均为真值;,即正确划分为阳性的数据(2)假阳性(FP);预测为真值而实际为假,即错误划分为阳性的数据;(3)真阴性(TN),;实际和预测值均为假值即正确划分为阴性的数据;(4)FN)。假阴性(:预测为假值而实际为真,即错误划分为阴性的数据由此,就可L义计算分粪樸型的正确率、灵敏度及特效性,并将其作为评估二元分类预测模型的参数。其中灵敏度就是正值识别李,即:2.5(\)'TP+FP特效性就是负值识别率,即;2.6(\),TN+FN41 浙江大学项壬学位沦义第2章相关理论与技术而正确率就是所有数据的正确率:,即+TN-JI_?、/TP+FP+TN+FN此外,民0C曲线(ReceiverOperationCharacteristic)也是比较分类模型有效性的工具,它W假正率为横坐标、真正率为纵坐标绘制曲线,然后计算曲线线下ea一面积(ArUnderCurveAUC)。该值越大的可信度越高。对于般,表示模型,的预测模型,其值至少要达到0.5W上,才被认为是有效的,否则预测模型不具有参考价值。对于连续型数搪预测模型的评佑,首先运用损失函数计算预测值与输出值之间的误差,例如:'-绝对误差:.81於扔1口)2平方误差—9;从佑)口.)基于损失函数,:,再计算误差李或相对误差例如班广词均值绝对误差:2.10()塾)(1均方误差:2.1户()1-相对绝对误差:12.寶(2)督咬|相对平方误差:13.豐爲r口)其中歹是训练样本数据的均值。2.3.2聚类算法聚类算法是通过计算样本属性间的枢离等方法,将集群数据按照相似性进行聚类划分。利用该方法可W对数组按照属性进行划分,同时也可用于检测离群值与极值。聚类方法主要分为划分法、、层次法基于密度法、基于频繁集模式法等-几类。本论文主要选取Kmeans算法,按照危险因子对瓜血管疾病患者进行聚类。K-means算法是典型的基于距离计算的聚类方法,巧距离越近就认为两个,样本的相似度越高,其中距离的计算通常采用欧几里得距离:,即=x-^2.14lk=i(ikjkf()J15 化江大学硕壬学位论文第2章相关理论与技术f巧2'其核々计算过程如图.9所示。首先任意定义n类的中公点l,即图中的a,b'l计算各样本到中,心点的距离,根据最小距离对样本进行聚类。于是A,C两个数据属于、al类,BDE则归于M类。,,然后根据分类重新定义新的中足点,一'使得各类中的每个数据到中。点的距离和最小/。如图中所示,两个类的中心点a22变成和b。重复上述步骤,根据新的中成点重新对数据进行聚类由图中可,W看出,此时B的分类发生变化。如此反复操作,直到中瓜点及分类不再发生改变,聚类结束。感"^—應.?魯綺.;I养作‘?:必(货必2-mean图.9Ks算法执行流程K-means算法受噪声数据与离群值的影响较小,但是其在进行计算时,必须PW由使用者事先确定聚一类数量,因此在使用时有定的局限性。此外,由于该方法需要反复计算距离进行聚类,执行过程繁琐,当数据量较大或者预设聚类数量类别较多时计算速度会非常慢。因此,该算法对小数据集非常有效,但对较大的数据集则处理效率较低-一。此后,有研究人员在Kmeans的基础上发明了种基于袖样的划分聚类方法CLARA,从而使得该算法对于大数据集同样具有较好的可伸缩性。2..33回巧分析回归分析一1巧是分析两个或多个变量之间存在相互关联的种统计分析方法。该方法主要分为两个步骤:首先对协变量与因变量进行相关性分析,然后再在此基础上建立两者之间的回归方程并构建预测模型。常见的回归分析方法有多元线性回归、逻辑回归等。本论文采用逻辑回归和Cox回归两种算法分析患者危险因素与再次入院风险之间的相关关系。2.3.3.1遐辑回归回归是一种简单易于理解的模型,即寻找合适的函数确定自变量X与因变量之间的关系=一yyf(x)。其中线性回归是种最简单的回归方法,但其鲁棒性较差,16 浙江大学硕击学位论文第2章相关理论与技术一模型效果易受噪声数据的影响。因此,在线性回归的基础上套用了个逻揖函数,回归Los一重新建立模型(iticReressionL民)模型。,巧逻辑gg,该模型是种常见的广义线性回归模型,其因变量可L乂是二分类的,也可W是多分类的。回归模型的分析方法分为W下王个步骤:(1)假设预测函数,即h函数;(2)构造损失函数,即J函数;(3)J函数最小化并求出回归参数0将。逻辑函数公式及其曲线分别如公式2.15、围2.10所示。()=g切点口.15)1-"tI?J一>}_一I0--.9/-?08/--0,7/0 ̄-.6j扫--?-5j-/—0.4-/ ̄0.3y0。-、-江-1…一IIiJq[■6.4-2日2642困210逻辑.函数曲线根据逻辑函数及回巧模型的常规分析步骤,因变量为二分类的情况为例,逻辑回归的计算过程如下:(1)定义二分类边界:了白牛+…+=日义0的%口.1句(2)根据边界构造预测函数:Th=y=2e的g(目).17_仍()1+6则输入X分类结果为1和0的概率分别如公式2.18、2.19所示:()()17 浙江大学硕壬学位论文第2章相关理论与技术P=lx0=h218.〇|;)e的()P=00=1-(yx;h.19|)eO)口)yi-y=-即:xhlh.2P(;0的)0y|)(e的)(e口)(3)损失函数最常用的构建方法就是利用似然函数推导,首先取似然函数:i-y‘=P0=1-L(白)n^)口h妃).21i如枯晋如目妃)尸(e)口)相应的对数似然函数为:-=o=ool-2221(白)lgL(0)S晋lghO)+(1於)lgh).1(於ef(e妃))()构造损失函数:=-K巧'02.23^()()(4)求出使J函数最小化的9值0,巧求的最大似然估计值。逻辑回归在医学上有着广泛的应用,最常用的就是寻找疾病的危险因素,并在此基础上预测疾病发生的风险概率。2.33.2Cox回但’Cox比例风险回归模型(CoxsProportionalH犯ardsRegressionModel)是1972一年由英国统计学家Cox首先提出的。它是生存分析最常用的方法之,其生存函数构建时,将风险函数作为因变量,考察其与协变量(各影响因素)之间的关PSj系。与回归分析的常规步骤类化,Cox回归模型《因素分析的具体流程如下:(1)假设风险函数:’f+&x+"fnXh=heA2n24的的.2〇()(2)根据风险函数得到对应的生存函数:t'..-心+知2+相饰_化h61舶=公的化_J〇的S6e〇口.25巧)其中he比)为基础风险函数,A为回归系数。(3)定义两个假设:(0比例风险假定样本有成化例的风险函数,即风险不随时间变化,,不同如么式2.26)所示:(-+-+..-x'HR=X=e知(化刊1)知(化印)如0扣n)htj.2(;口巧j)(ii)对数线性假定,协变量效应不随时间变化,即协变量与对数风险呈线18 浙江乂学硕±学位论文第2章栖关理论与技朵性关系,如公式口.27)所示;=+…InX+X口.27&2片nn)歲(4)利用偏似然函数(如公式(2.28)所示)根据最大似然法估计模型参数。Si\PX+义+‘PXeiii&£2ni打、28.+hx+'X口)iaPn巧jjn(j=0=其中,否1。,当第i个样本删失时4则4(5)1^3回归模型建立^后,:,对回归系数进行检验假设|H…=〇〇:?〇....29〇,知)(,,)口)常用的栓验方法有似然比检(Ukel化oodRatioTestLR)、计分检验、沃尔德,W)-(WaldTest检验,其检验么式(2.302.32分别如下所示。,)()=-LR检验:211^111/?00妃5[(钟()]口3)—1=_^別计分检验:口朽严)][^][^]'验=3Wald检;資V口.;2姑)Cox比例风险回巧是一种半参数模型,对生存时间分布无要求,可W探索危险因素对风险尊级的影响,主要用于卿瘤、慢性疾病等的预后分析及病固探索。2.4分析平合与工具2.4.1Clementine软件SPSSClementine最旱是由ISL(IntegralSol山ionsLimited)公司开发的数据挖掘平台工具SPSS一个开源的数搪挖掘平台,后经公司重新整合开发。作为,-DM标准、、、幻ementine支持CRISP,完全支持从数据理解数据堆备模型建立模型评估到结果部署这一完整的数据挖掘流程相较于其他数据挖掘工具,Clementine最大的特色就是具有图形化的操作界面,可将数据挖掘过程可视化,它将复杂的运算方法W及冗余的输出结果都封装一个直观友好的界面enne提供的在软件内部,而只呈现给用户。Clemti多种图形化技术,有助于用户更好的理解数据,,建立数据之间的关联从而帮助巧户更加快速有效地完成后期的数据分析工作。此化,Clementine还提供了许多基于实践19 浙江大学硕壬学位论文第2章相关理论与技术经验的数据挖掘模板,充分利用这些模扳可大大提高用户的使用效率。tL相较于同类分析软件lemenine,C巧问数提源、输出结果乂及中间处理、建W1模等各项性能均名列前茅,这使得它在数据挖掘领域拥有相当可观的用户群体。i2.4.2R语^艮是一种基于统计计算及绘困的编程语言和环境,最早是1996年由新西鱼aka等一奥克兰大学的比人开发的,它是AT&T贝尔实验窒所开发的S语言的个WU一分文。作为个开源软件,任何使用者均可免费获取其所有软件源代码L,乂便用户加W检验及利用。民包含了整套数据处理及制图环境,其编程语言是专口为统计和数据分析开发的,易于用户上手,可使用户方便地完成数据输入、输化及处理、建摸等,强大又美观的制图功能方便用户将分析结果进行可视化展示。而民最大的优点就是免费开源,其各种语言包及函数都是完全透明的,因此用户只要获取相关源码并加W修改利用,就能方便快捷地实现所需功能。此外,由于R软件小巧,安装便捷,兼容性好,己受到越来越多使用者的青睐由此产生的插件可L乂大大,提升用户的使用体验。20 浙江大学硕壬学位论文第3章风险评估系统设计第3章风险评佑系统设计3.1系统架狗设计血管疾病患者出院风险评估系统主要是由患者出院后再次入院风险等级预测、患者危险因素聚类W及危险因素与再次入院风险等级相关性分析王个模型构成。系统的结构如图3.1所示。当医生给患者下达出院医嘱时,系统从医院信息系统中集成患者基本信息及在院期间的相关诊断、治疗及检验等数据,将数据依次输入兰个模型,得到患者再次入院风险等级及危险因素排序。根据输出结果,由风险控制知识库分别给患者及随访人员提供个性化的患者院外健康管理和点对点随访臣护人员健康指导建议。通过患者及髓巧人员针对性的自我管理及监督教育,有效控制危险因素,从而降低患者再次入院风险。f;-SSD…-H詞i1*#麥巧圓!歷巧信总系統化瞄巧瞄巧数—^…——\uaaaaa一釉测巧\禱"IS1(H)I一.=.数据库三由五;*甘;1I「II■EHS4二^P/_^z^二^f^—— ̄—….'^危险可TTTT因蒙相f1关性分巧模型BI巧人员牲巧曰巧图3.1再次入院风险评佑系统结构'是数据挖掘模型再次入院风险评佑系统的核成,其内容主要包含(下王个方、面,数据采集与清洗数据模型的建立、模型评佑与部署。当对某出院患者的数据集成完成后,就需通过数据挖掘模型对数据进行分析,输出风险评估结果。此时,首先由任务管理模块创建数据挖掘任务,同时由数据营理模块完成数据的传输、,然后利用后台ETL工具对数据进行清洗转换等处理,当数据通过审核后将其加载到数据挖掘平台,按顺序分别建立预测、聚类及回归模型。其中聚类和回归模型是两个相互关联的模拱,回巧模型的数据来源于聚类模型结果。最后通过结果展示模块将预测及回归模型的数据挖掘结果传递给前端系统。由此,就完21 浙江大学硕i学位论文第3章风险评估系统设计成了该病人的再次入院风险评估。围3.2所示即是数据挖掘模型建立与展示的架构图。固華.减營、m:赞I麗审核(雜斷)胃^一III数觸繊用I''任务管理模块’%:尊曾I创速、瞥理管j数据抬掘任海玻测算法織算法’相关性分析1J^^^数据挖掘平台I1"结果应巧?細^:':司叶返回兢懲《后’台前端图3.2数据挖掘模型架构图3.2数据库设计数据库设计直接影响后期数据的处理效率,为了快速有效地对医院信息系统一的复杂数据进行处理,本论文选择种多维数据库achg,即C数据库。它超越了关系型数据库,被棘为第兰代数据库,即后关系型数据库,可在面向对象的同时43SL支持Q访问。根据本论文的需求,主要设计了病人住院主记录、诊断记录、手术记录、病人体征记录、病人主索引五张表,分别记录患者在院期间的治疗情况及患者基本信息。此外,还设计了身份、出、费别、入院方式院方式、诊断、诊断类别、手术操作、手术等级、切口等级九张字典表,便于后期数据管理及维护。園3.3所示就是数据库中所有表巧表间关系。22 浙江大学硕去学位论文第3章风险评估系统设计搁人化院主记录诊斬记录病人主索引_.化仙化身份卒典化tMasterIndexiiM萃却宝.卑——J—ilntftDit?Ddeyc—itentid扣aisTlr>ailPa帖側Pin〇5ct.tentd>gyj^—'Vrnsisitld.j一Waj,II5MnT—anssTeCebeianosT4PigpIypp些幽些GetAdmissiooDggLYpe^nderpI—IdentityNameTaianosisteName)DgypteoB,Amissi〇nDateime荀nIrtdg而嘟Dafh…PrrorilnicatortydeFoiaosisDesctDischareromgnBirthplaceDpgMW3|〇口tor*"山Da"1L^ischareDateTimeDianosislldenDgg—.tityj诊巧字典■ ̄di了巧WDasi;>ChargeTypeIenttyyr;TInodD尚reaResultDags然别字典stVisitDa化知argeTypetUI|子*Ad’0扣rTreaIndicaor1—■resstt?,d?一le。。sCoeCha吃。曲t,町d件;巧…eNumbw唱1D巧nosisName.gI一,—?a」Pt.enCasstlrg州aeT仍eCode.,寺-||T去mrTimes术L录扣NamEereatfarg而peed(COasaicrUyChrgePriceIna化OoerationCCUDaLsy1__防scareDkositionhgptit厂jpenlD'入院方式字典--'骑it祐手节操祀爭4eiont摘人体征记录PatientClassDict却Opwt扣c|尹j^萨宇J本5缉爭舉lnRltaSisecPaOaiteVgtienCassCodeerationCoePprt:qpptlpde;||e:〇ratf饥Seal地化pPatient曰assNameWoundGrade^OperationNamei过"eaeHrationScaleeratlncaede町蝴lOpOpoSlCpy啤卸化院方式字典OperationDateOperatiorScaleNameRer出nO直巧;cpgjTDischare扣冲ositionW过imePointg^切口啤绒宇典DischareDispositionCpeWg^oundGradeDict觀鑑/aueslNmDischargeDispositionae-un化^WoundGradeCodeWounGraeNamedd图3.3数据库表间关系、、34至图3、诊断记录手术记录的图.7分别为病人住院主记录体征记录.细定义了各表的字段、属性等。其中,由于诊断、手术及病人体设计文档,并详,竣征记录均为患者在院期间产生的诊疗数据,因此W病人住院主记录作为主表、通过患者瓜和患者本次住院标识断记录、手术巧录病人体征记录作为子表,。建立父子关系。该设计可方便数据获取及处理,而无需进行不义要的表间关联表名IXP.PatVisit定义差扇人住寅主击录胃!!ilillii!瞬I誦!圍IppiString〇患看IDPatientld"integer〇意者本次吿屍标识入津科窒DetAdmissionToStringp入绕3AdmissionDateTimeTimeStamp疾及时再兰涛私室DetDischBrgeFiTQ证Stringp岂寅5DischareDateTi顶eTimeStamp賄获时項g是祐IdentityStringlyeStringjCh泛rgep赛寒Strin兹址Addressg联系霉话PhoneNu巧herString入或方式PstientClassIntegermeInteer-被次載EjnerTreatTisg拾一ICUDsysInteger重适益护天歡—.CCUDsInteger〔〔1产_敎巧占竞方式Disch云rgePispositionInteger|图3.4病人住院主记录设计文档23 浙江大学硕主学位论文第3章风险巧佑系统设计袁差INP.VitslSignsRec走又茗廣人体狂巧录^扣麵聞韩語^山雜菁需§閣强肖翼權藤出i出詰基謂謡背黃胃曜斐:誤窜醉細|補嚷賴中琴巧;;;;洛参;聞W巧巧捐巧拓W巧間問巧裤閱輪%靡爾:!团!!;吊N;Mil間" ̄;一靑帝巧出强翊截裙谨 ̄ ̄ ̄1是入值男主记某IXP.PatVisit万宗主键〇2:■三录E駕RecordingPate了imeStam〇p3學早点limePointTimeStamOp,二豪4巧實VitalSignsStrni〇gVtiansVaes巧Bft雙ilSigluString巧B革1玄UnitsString图3.5病人体征记录设计文档"煮畫INP.Diagnosis是义甚诊新1己录!苗雜爾费巧;巾讀頭馨議禱pb單麵細;幫彎養苗叫單!山3出肖i裝垫|賴擊要雜晰禱覇聲i阳巧度备棘巧强曲巧巧;;;;强铺拓關iW;端酱運i閱聞聞關;雨K巧帘巧带命巧扣战爾1壳人佳虎互Til录IN?,PatVisit父衷兰詰〇2皆薪舆棠D主agnosisTypeString〇3诊揖孕号DianosisXoInte〇gger梦断VitalSinsStringg诊新H巧VitalSinsVauesglIimeSl:amp谱巧六-敎TreatPaInteerysg吉巧洁某TreatResutIString手亢洁:eand,胥巧六OperTrtIicatiorInteger图3.6诊断记录设计文槽表違IXP.Operation定义名亭,卡巧录|^度巧門^;;击捐田謂巧;;;;中!式吉麗I!;藝圆!出出;!强閣出山韦谭孽讀疆出;相寡I賴顧i爾專轉[譯:;;;:;巧ii閲全雨巧Whj韓站话;間保链d閒;鎖i链y;站骑配吊辭頂;W間抗雨巧y蓝顔;葡塘谨;1填人空寬呈记录1沖.PatVisit文泉主巧〇__2Oerato爭京序号pionNInteerOg手术畫實OperationPescString手尤編璋QperationCodeString巧己尊裝WoundGrsdeString巧口合’Hea章《■lStr王口g子尤S撰QperationPateTmeiStamp图3.7手术记录设计文档患者基本信息及身份、费别等字典表的建立,是为了方便后期对数据进行统一的管理与维护。例如,若将来对诊断类别的划分标准有所改变,整个系统的数据处理模式无需随之更改,也不会因此导致整个系统的性能受影响,只需对诊断类别字典表进行维护即可。图3.8、图39.分别是病人主索引及身份字典表的数据库设计文档,其他8张字典表的数据库设计与之类似,在此不再费述。24 浙江大学硕去学位论文第3牽风险评估系统设计袁甚側.PatMssterlndex定义堯瑪人主案引間巾菌韋棠策l聲b鹽麗馨111卿ikljiiiii:同濯擊il,:;骑刚鹏配扣靡巧^巧;:;;菲巧醒補疆;卽語離扣M削謂〇entString1吾看ID.P己tiid蜡畫X己meStringGenderString适躬SeOfBth了imeSsam虫查?棋DatirpBirthplaceString出鱼迪IdentitString妾皆yCh己rgelypeString费裝?sateTi面eStamp±次敢雖H與L这stYiitP|I图3.8病人主索引设计文挡表备DICLIdentityDict是又違著资罕吳lllll華lillllliiipp〇pIdentitodeString玉勇倚代巧yC'桌挣畫靜IdentityNameStringPratorInteeriorityIndicg货壳捂识MtarIndicatorInteer覃人輕识iIiyg園3.9身份字典设计文档3.3数据挖掘模型设计3.3.1预测棋型预测模型输入参数的选择,是在总结当前国内外关于患者再次入院风险预测。本论文选择患者性别、费别等基本信研究的优点与不足的基础上确定的、年龄息,住院天数、入院方式、伴随疾病指数、抢救次数四个用于lace评分的指标,入。相较于直接W及是否有并发症、是否手术等患者病情与在院治疗信息作为输,选择具体的伴随疾病、并发症、手术等危险因素作为预测模型输入本论文的设计对不同类型疾病患者的预测具有更强的伸缩性、灵活性。不同类型疾病患者的一,伴随疾病等危险因素分布常常较为分散,直接对其进行建模效果并不理巧。能力并不强一由方面是由于当前多数传统的预测算法对高维数据处理;另方面是、入于部分因子的单个类别过大、变异系数较低。而直接根据患者住院天数院方、LACE评分的方法虽然可W杜绝式、伴随疾病指数抢救次数四个指标计算患者上述问题,但该方法后期需更多地依赖于医生的临床经验,从而可能会忽略其中隐藏的危险因素。25 浙江大学硕壬学位论文第3章风险评估系统设计310模垫的具体设计如图.所示。W再次入院风险等级作为输出,选择人工神经网络、决策树两种算法,建立患者再次入院风险等级预测模型。并通过计算准确率等指标评估模型,从而选出最优模型作为系统的风险预测模型。(风险錯巧誦誦動誦心!圓圓誦圓!IlHV8Hw:p.w^9H0^Kif、.'…'意墓\r畫i敎据清洗……………….………漏…漏‘(1预测模型!j...‘…一"‘…‘"…’"%-■'良-固3.10风险预测樸型设计性别、年龄、费别、入院方式、抢数次数、住院天数可直接从数据库中获取,或通过对数据库中数据做简单的运算得到。患者再次入院风险尊级是根据患者下次因同种疾病入院与本次出院的时间间隔来划分的,其划分标准按照国家医疗质量统计对重复入院率指标的划分规则,即间隔大于30天,等级置为0150,至3天为1,2至15天则是2,而患者出院当天再次入院则视为高风险等级3。是否有并发症、是否手术则可通过并发症及手术记录表中是否存在患者数据得到。W并发症为例,围3.H为并发症字段处理流程,取父表患者佐院主记录PatVisit表中的数据,判断子表诊断记录Diagnosis表中是否有对应数据,若无,则并发症字段置为0一条诊断数据并根据诊断类型判断是否为并,否则读取第,发症诊断一,若是,则并发症字段置为1,否则取下条诊断数据重复上述步潔,一0若此时取不到下条数据,则并发症字段置为。26 第3章风险评估系统设计浙江大学硕壬学位论文:PatVisit).表否jDiagnosis中是巧任在数据?/丫'''并发症字段置为o)一'、取第条诊断数据;>''八/\''。根据珍断类型判断'是\是宵为并发症诊断?、否.否^;并发症字段置为1;/.走—_.?一.取卞一票诊断数据^—-————I'''、、X人、判断数据?、是否为空是,-'?'X并发症字段置为0)(图3.11并发症字段处理流程伴随疾病指数是根据患者所有的诊断计算所得到。取患者本次入院所有诊断,从而3,将诊断记录.1所示的伴随疾病对应的评分加和,根据表疾病评分标准312所示。得到患者伴随疾病指数。其具体流程如图.表3.1伴随疾病指数评分标准疾病名称^、成肌梗塞1脑血管病1外周血管病1无并发症糖尿病1成、力衰竭2伴2有终末器官损巧的糖尿病慢性肺病227 浙江大学硕主学位论文第3章风险巧估系统设计表3.1伴随疾病指数评分标准(续)疾病名称分数轻微肝/肾脏疾病2任何肿瘤C包括淋巴癌和白血病)2痴呆3结缔组织病3义滋病4中度或严重的肝/肾脏疾病4转移的恶性肿瘤6Diagnosi(^II伴随疾病指数置为0,取第一条诊断数据—’.I—H*^否取下一个I伴随疾病I巧I1-评分1配片伴随疾5^\//对应分数为琴是T评分加上对应分数vwf^I诊断数据/《断为/梦乂/、图3.12伴随疾病指数计算流程28 浙江乂学硕壬学位论文第3章风检巧估系统设计数据提取完成后,通过计算各字段的基本指标及分布困可对样本数据进行基本的了解,并对其中的连续型字段数据进行合理分类。由于数据通常会存在缺失、噪声值,因此在建模之前还需进行数据审核,填补缺失值,删除离群值、极值等无效数据。对于连续字段,通常考察计算总数、范围、最大值、最小值、平均值、中位数等概况、,标准差、方差、偏度、峰度等基本参数,平均值标准误、偏度标准误峰度标准误等误差参数,并根据结果合理分类各字段数据。然后考察所有字段类别及范围,删除检测出的异常数据。对缺失数据,少量缺失使用样本均值进行填、寺,I而若某些样本出现大量因子缺失,则删除该样本数据。所有数据审核通过后,选择人工神经网络及决策树算法建立预测横型。其中,人王神经网络解决复杂非线性问题的能力较强,但通常需要较长的训练时间;决策树算法简单,训练速度较快,但它只适合处理输入类别较为简单的数据。由于本论文的预测模型旨在找出输入因子与输出风险等级之间存在的复杂关系,且输入因子的种类较为简单,因此选择上述两种分类和预测方法用于本论文的预测模型较为合理。此外,,医疗数据最大的恃点就是数据复杂其中可能会存在较多的噪声数据,而这两种算法恰好都对嗓声数据有较强的适应能力。算法的具体计算原理与流程a在第二章中作详细介绍,因而在此不再捧述。3.3.2聚类撲型通过预测模型得到患者再次入院风险等级后一,可对病人风险做个简单的评估,及早发现高危病人进行干预,降低再次入院风险。然而,仅凭再次入院风险等级对患者进行评估是远远不够的,如果能根据结果再深入挖掘,找到影响患者再次入院风险的相关危险因素,从而进行针对性的干预,则会大大提高随巧医护人员的王作效率及患者白我管理的效果。上文中提到,不同类型患者的危险因素一一分布不,因此本论文设计了个聚类模型,首先将患者按照危险因子进行聚类,一个聚类里的数据进行危险因子与风险等级之间的回归分析然后再对同,寻找各聚类患者各白的危险因素。相关研究W及对实际数据的统计分析表明、血管疾病患者再次入院风,影响A险等级的危险因素有很多,包括性别、年龄等基本信息,BMI指数(巧身体质29 浙江大学硕±学位论文第3幸风险评估系统设计量指数)、血压等体征参数,手术等级、手术切口等巧、手术切口愈合情况等手米信息,并发症、伴随疾病等病情相关信息。因此,本论文的聚类模型输入就选取了上述参数,其中,伴随疾病及并发症的类型选择,是对血管疾病患者实际A、成肌梗塞四数据迸行汇总统计而得到的。本论文对冠病、高血压、力衰竭、类记血管疾病患者诊断数据进行统计,得到达四种疾病患者伴隨和并发疾病前十位排序如表3,冠成.2所示。根据结果可知病、高血压、糖尿病、脑梗塞、肺,部感染、高血脂等是成血管疾病的主要伴随和并发疾病。通过比较数据统计结果与查阅相关记血管疾病文献,最终本论文选取了高血压、糖尿病、癌症、血脂异'一常1、吃功能不全、脑极塞等1类疾病与病人基本信息、体征信息、手术信息起作为记血管疾病患者的危检因素建立聚类模型。表3.2四类A血管疾病患者伴随、并发疾病排序排序冠A病高血压<心力衰竭々化巧塞、1高血压冠尼病冠A病活吃病2糖尿病糖尿病肺部感染高血压3脑梗塞脑梗塞糖尿病糖尿病、4成绞痛脯部感染高血压肺部感染、、5肺部感染吃绞痛功能不全/心绞痛6高血脂高血脂肺炎脑梗塞7/公肌梗塞上呼巧道感染々率失常高血脂、8肺部感染率失常巧吸衰竭j心律失常9上呼吸道感染肺恶性脚瘤'。绞痛上呼吸道感染10肺恶性肿瘤史肺炎々肌裙塞肺炎患者的基本信息在做预测模型时邑经进行数据提取及清洗,无需重复处理。疾病类型均为二分类数据,即取患者的所有诊断记录判断患者是否患有该种疾病,1eraton中获若有,则该字段置为否则置为0。手术相关信息是从手术记录Oi,p取,当父表患者住院主记录PatVisit表取不到对应的手术数据时,手术相关字段均置为0;当能获取到多条数据时,则所有字段均取最严重的数据,如某患者有一两条手术信息等级分别为,则该患者的手术等级字段置为四级。,手术级、四级30 浙江大学硕击学位论文第3章风险评估系统设计病人在院期间会产生大量体征数据,光其是瓜血管疾病患者,血压、血脂等指标通常毎天都会多次测量。本论文对体征数据进行采集的时候选取病人本次住院期一一间最新的次测量数据,即距离出院时间最近的条数据。其中,血压取的是收2缩压,BMI指数则为体重/身高,因此实际是从数据库中取收缩压、身高、体重H个指标。L乂体重为例3.13,图为体重字段处理流程,取父表患者住院主记录PatWsit表中的数据,判断子表体征记录VitalSigns民ec表中是否有对应数据,若无,则体重字段置为空,将该患者所有体征数据按,否则照主表住院时间与子一表记录时间之差从小到大进行排列,读取第条体征数据并根据体征名称判断是一否为体重记录,,否则取下,若是则将该条体征值置给体重字段条体征数据重一复上述歩骤,、,若此时取不到下条数据则体重字段置为空。其他收缩压身高等体征字段处理流程均与之类似。'fPatVisit)表VitaKi5争\^否卽^存在数据?丫,|,按主表,出晚时间与I麻^1字^^^子表体征记录时间么差将数据从小到大排序2取第一条否为体重否丫、^体征数据断数否为空'乐呈苗度置力琴困3.13体重字段处理流程31 浙江大学硕±学位论文第3章风险巧化系统设计数据提取完成后,采用与上述预测懊型相同的方法对聚类模型数搪进行审核一-means算法作为和清洗,当所有数据审核通过后,再建立聚类棋型。K个经典的聚类算法,其计算过程简单易于理解,对噪声数据的处理能为较强,非常适合处理数据杂乱的临床数据。但它在使用前必须由用户首先规定所需聚类的数量,一这使得该算法在使用过程中受到定的局限-means。本论文设定了《沮不罔的K聚类参数对相关数据进行聚类,通过计算各聚类的均值、相似度、标准差等参数、对模型进行评佑,选择适合尼血管疾病患者危险因素聚类棋型的最佳k参数。聚类算法的原番及流程己在第2章中详细介绍,在此就不再赞述。3.33回归模型L患者危险因素聚类模型完成乂后,需对该患者所属的聚类数据进行回妇分析。模型L乂患者危险因素作为输入、再次入院风险等绞作为输出,采用逻辑回归及Cox风险比例回归建立模型,找出密切影响患者风险等级的主要危险因素。此模型所需数据巴在前两个模型中采集完成并通过审核,因此无需再进行数30据清洗。在建立Cox回归模型时,将再次入院间隔时间作为生存时间,W天作为截断。回归分析的方法在解决多因素问题时简单方便易于理解,因此在相关性分析及预测分析中得到广泛的应用。其中,Logi如C回归模型把风险等级作为响麼变量,并借助逻揖函数建立其与各协变量之间的回归方程。虽然该模裂的回归系数解释性较差,但仍被广泛应用于疾病风险概率预测及危险因素的评估。Cox回归是一种半参数模型一,般用于生存分析。本论文只需比较不同个体巧的风险,只要估计出解释变量风险比,无需计算基础危检率函数的具体形式。因此选择该模型进行回归分析不仅完全贴合本论文的研究内容,还能适当降低工作量。最后,通过对两个模型回归参数的检验估计比较,选择其中效果较好的方法作为本论文中系统回巧模型的算法。关于两种算法的具体原理与流程,在第2章中巴做详细介绍。32 浙正大学硕壬学值论文第3章风险巧估巧统设计3.4风隆控制知识库设计根据模型输出结呆得到患者再次入院风险等级及危险因素的预测结果,首先读取数据库中患者危险因素的详细信息,然后通过风险控制知识库智能地给患者及随访人员制定健康管理建议。知识库是基于患者年龄、疾病类型、再次入院风<险等级、公血管疾病相关的院外、手术信息并发症及伴随疾病几类数据,结合预一后、防治指南来设计的,毎个危险因素对应条键康建议。手术相关的危险困素选择了手术等级、手术切口等级、手术巧口愈合情况。基于巧测得到的危险因素,读巧患者手术详细信息3.3,并根据表所示手术信息相关等级说明,给出建议。例如预测得到某患者手术相关的危险因素有切口等级、巧口愈合等绣,读取该患者手术详细信息,其进行的是单支冠状动脉主动脉接桥I术,:,切口等绞是级愈合等级是乙绞。知识库给出的建议是该患者进行过单支冠状动脉主动脉搭桥手术;巧口等级I级,为无菌切口;愈合等绣乙巧,愈合欠佳,需注意切口感染化腺。表3.3手术信息等級说巧手术信息类别等级说明一手术等烫缀技术难度较低、手术过程简单、风险度较小一二般、级技术难度、手未过巷不复杂风险度中等三歌技术难度较大、手术过趕较复杂、风险度较大四级技术难度乂、手术过程复杂、风险度乂切口等织I级无菌切口II级可能感染的切口打1级污染切口切口愈合等級甲级愈合优良乙级愈合欠佳丙级切口化脈体征巧关的危险园素选择了收缩压、BMI指数两个指标,基于模型输出结果读取相关危险因素具体值,并根据生理参数标准进行划分,给出建议。其中,33 浙江大学硕主学位论文第3章风险评化系统设计划分标准如表3.4所示。例如预测得到某患者生理参数相关的危险因素有收缩压、BMI指数,读取患者收缩压为150mmHg,体重为90kg。知巧库给出的建议是:该患者收缩压为150mmHg血压过高,是轻度高血压,应注意钦食,减少脂肪、,钢盐摄入,戒烟戒酒,合理运动;BMI指数为29.41,属于肥胖,应注意饮食,减少脂肪摄入,增加运动,控制体重。表3.4生理参数标准生理参数类别值说明■收缩压SlSOmmHg重度高血压>160mmHg&<1SOmmHg中度高血压>401mmHg&<1如mmHg轻度高血压>130tnmHg&<140mmHg临界离血压>90mmHg&<130mmHg正常血压<90mmHg低血压BMI指数含36极度肥胖>32&<36重度肥胖>28&<32肥胖>24&<28偏胖>18.5&<24正常8<1.5偏瘦基本信息相关危险因素选捧了性别、年龄两个参数,基于预测得到的危险因素结果,结合表3.5所示标准对患者年龄进行划分,并给出建议,其中,由于冠、、记j心々为衰竭在少年儿童中软为少见病、高血压、肌梗塞、,因此对此年龄段患者不予考虑。例如某患者预测得到也别、年龄均为危险因素,读取数据库数据,该患者为女性:,80岁。知识库给出的建议是该患者为老年女性,应注意饮食、习惯,多吃柔软易于消化的食物,注意理健康护理。34 浙江乂学硕壬学位论文第3章风险评估系统设计表3.5年龄划分标准年龄说明>90长涛老人>75&<90老年>如&<75年轻老年人含45&<60中年>18&<45青年并发及伴随疾病相关危险因素则选择高血压成、、糖尿病、癌症、血脂异常、功能不全、脑梗塞等11类疾病。本论文参考该11类疾病的临床诊疗、预后健康一一3指南.6,分别建立对应的健康建议规则,表所示展示了其中部分疾病的对应预后指南。表3.6疾病相应预后指南疾病预后指南高血压毎天早、中、晚测量血压并记录,遵医嘱继续进行药物治疗。注意饮食习惯,减少脂肪、钥盐摄入,戒烟戒酒,合理运动。与回巧人员保持良好沟通,及时汇报异常情况,反馈相关测量数据。糖尿病毎天进餐前后测量空腹及饭后血糖并记录(初期每天至少监测4次,不務定期需要8次W上),遵医嘱继续进行药概治巧,可根据血糖水平调整降血搪药物郝量。注意饮食健康,《吃五谷杂粮、豆制品W及苦瓜等降血糖食物,不吃高脂肪、离胆固醇及含糖量高的食物,不能饮酒,适当运动。与回访人员保持良好沟通,及时汇报异常情况,反馈相关测量数据。>轻微肝/肾保持良好的生活习报,避。愉悦,注意休息免过劳,切勿饮酒过量。保持身,脏疾病避免情绪激动。注意饮食健康,切忌摄入高蛋白食物,注意补充维生素,多吃胡萝h等养肝蔬菜。遵医嘱用药,不能随意滥用药。坚持长期复查,与回访人员保持良好沟通,及时汇报异常情况,反馈栖关测量数据。患者的院外自我管理计划建议是基于レ乂上患者的基本信息、手术信息、体征信息W及疾病信息建议综合得到的。例如,某患者通过预测模型得到,其再次入35 浙江大学硕±学位论文第3章风险评佑系统设计2因素有年龄口愈合等级丙级、院风险等级为,即高风险等级,危险80、手术切ia压175mmHg、BM1指数24乂、高血压、糖尿病、轻微肝/肾脏疾病。则根搪知识库中毎个危险因素对应的健康建议,分别给出7条患者自我管理建议。随访人员大都具备相关的医学知识,因此,为其制定的健康管理日历主要是根据患者再次入院风险等级制定的随巧频次及时间,并列出病人相关危险图素及指标W供参考。其中,风险等级与随访频次的对应关系如表3.7所示,随巧人员根据相关危险因素,重点关注相关病情并指导患者自我管理,几次随巧W后根据实际情况评巧患者病情并调整随巧频次。3轰.7随访频次制定准则风险等级等级描述随访频次极高风险存在当天再次入院风险-毎天一高风险2-15天内有再次入院风险周两到王次一一中等风险5-入院风险130天内有再次周次一低风险30天内无再次入院风险半个月次其中,对于预测再次入院风险等级为极高风险,即出院当天就有再次入院风险的患者,则系统给出警示信息,建议医生暂时不批准该患者出院。若医生核定病人情况后仍批准其出院,则再由知识库根据上述设定规则给出建议。36 浙江大学硕去学位论文第4章凤险评估系统实现第4章风险评估系统实现也'血管疾病患者再次入院风险评佑系统的整体设计方案与架构己在上一章中详细巧述,本章主要阐述系统的开发实现。其中系统实现的核记就是王个数据挖掘模型的构建与评估。4.1风险等紋预测摸型4.1.1数据预处理2004-201患者再次入院风险预测模型采集自化京某五甲医院14年0228条1血管疾病患者数据.所示。表4.1所,其中所有连续型字段数据的直方图如图4示则为其相关指标,包括年龄、住院天数、伴随疾病指数、抢救次数、ICU使用天数、CCU使用天数六个输入的均值、方差、中位数、均值标准误等。——…―' ̄'^''.AeTTreatDays智g..小sIrj|*V.I'"公IL———-ScoreTED励ii1,—;\*tIi..i1!!II.I....…..—一—;.I1K万如,——.———…—-'…CCU-!PICU1?|歴.1:…;I1…I..,^..!图4.1风险等銀预测模型连续型字段直方图37 浙江大学硕±学位沦文第4章风险评估系统实现表4.1风险等级预测模型连续型字段概况字段AgeTreatD巧SScoreEDICUCCU最小值8000001最大值10348213715562总数734293245098142巧20911885204范西85482137155的.792平均值713.96.390.02.120.5110平均值标准误0.U0.250.020.000胞0胞标准差n.2525.051.%0.191.892.35.527.463..585,51方差口6拍.820043-0偏度.694.121.7415.2357.599.14偏度标准误〇肥0胞0.020.020化0.020.424.094078445841峰度32.693..237.46峰度标准误05505..00.00.0050.050.05中位数74171000根据上述结果,将连续型数据按表4.2所示规则进行转换分类:4表.2风险等级预测樸型连续型字段转换规则字段数值分类Ae《651g>65&<802>803TreatDays《61>6&《142>14&^193>194Score=00=11=22>33ED=00>0I=ICU00>01CCU=001^238 浙江大学硕去学位论文第4章风险评估系统实现离散型字段则按表4.3所示规则进行转换:表4.3风险等级预测模型离散型字段转换规则分类字段原始分类转换后1234,,,Comiti发症伴随疾病,都有,都无plcaon,}{}{并费1,2,3,4,5PaerC,公费,医保,其他lass,自}y{军队医改}{1〇ender男’G,女{}{}01’Acuit急救}y{,非急救}(ea手术1,〇Ortion,未{}p{手术}321015他,,,Readmission民isk当天,天,30天,其}{}{数据转换完成后,对其进行建模并检测异常值。刪除其中331条异常记录,/插补缺失值9897条通过审核的公血管疾病患者数据进行建模,其中,最终挑选、''65898、270,病2483例例、。肌摄塞124例公力衰竭例分包括冠尼、高血压2509%5乂巧%,12.60%,2.72%。模型所有输入输出字段的分布别占总数据的.,.2图43图如图4、.所示。—'"'GenderAcuityi:,;i!i—■i£.,I;II…….—'——"",…"…VT::V3——"^?一.—.-.irtat…—'w:Oern!p孤II——-麵I3■.Tia■i.*?;..…':……-"…犹巧rICtPi家ii一..一、.—;..一单:三式图4.2风险等觀预测模型数据分布139 浙江乂学硕壬学位论文第4章风险巧估系统实现■.—.—■'■‘—:盛—;A一iePlgf—ayorCass守:;■玄I7爛'■-知祇羞游壶若巧八?"I!麵—?—a疆E■.:'>V:*t-————A<v?4"f*?itScore-0田加tion…—^巧iI!|[f匪1.I''’i ̄^.!;;r醒I!:靈—,_zx安厕I;iiL_,—i ̄ ̄…?".—一-?I?**?i?…?—…rsir芯s?一"i ̄……’"———一?—‘台音"t!)江女言I了iR疗穿过扣i§吞i抒円Ri到r"甲;;I;rTfs*:玄禪Iii!I一1i^1—_件''‘…—————-—.…—―…I"■,"'—>'??冷…苗心,品。品"图4.3风险等级预测模型数据分布24丄2摸型结果将数据按:1的1比例随机分成训练集和测试集,训练集数据用于模型训练,测试集数据用于横型评估。4丄2.1人工神经网络人工神经网络预测模型信息如图4.4所示,输入层包括性别、年龄、住院天数、是否急救入院、伴随疾病指数、抢救次数ICU、、天数、CCU天数是否手术、并发症情况、费别共11个协变量;输出层是再次入院风险,为因变量,共分4个等巧;隐藏层有2层,第1层共有8个神经元,第二层有6个。40 第4章风陰巧估系统实现浙江大学硕击学位论文"ner¥771协没榮iCedAe2g?州3i巧sT]tD4Acuity5Score6巧7ICU8ca;9OperationomlcaoIQCpir.inUPae此]assy坐?包教II协襄醬的赛标浸方法梓巧記。强巧這强莱.覃截■强菜S着1申的化括孩I乾藏惡,B24的卑径數巧请语教巧盤.藍巧Readm'sissiwRjk辕出垣装义逞I專估數教谨巧骇’思等百古b链误化裝I图4.4神经网络模型信息4丄2.2决策树、4、、住决策树巧测模型的图形表达如图.5所示,包括性别年龄院天数是、1CUCCU天数、是否手术、并、、否急救入院、伴随疾病指数抢救次数天数发症情况、费别共11个自变量;因变量是再次入院风险,共分4个等级。从决出规则的分枝和走向20,其中12个为策树图巧中可直观地看。该树共有个节点。、、、伴随疾病指数、费别5个自变量终端节点,包括住院天数年龄并发症情况\■!"jw灯n!I?!?U),*忠…!!:為:Plt*:‘;'W?Mf;SI…W盛從w似..?<*?夺t?1……一善菩基?- ̄Tr^^X3:*瓜‘ww*5W.W?J?巧?iIW繫*"■r1—,"???化JTtkuj今! ̄ ̄ ̄?--…-——?e'说^*?Iwii!rrinr?T^呼i-‘…'…'话嘴哨t祇听貴讀专I濟杞气潘齊哨N骚章請離專I哉??’"?ns還S二苗岩!罵近..;|进名I师.如""",《U"?碱r如记…i应i若占!麵-"―*……一*^H!—<■*?)■_.^S;‘?一前W"一护。…Ww,**"万苦^方II■Jjl^\^!化'tUW?Jt*M,■Y'V—.'——'-‘;:1rr一―,J:如;巧V;;ii5L:CZSlIl石亏'巧田丘禪s’阳l*■节:;:Si!ii:苗15:?,;气;!古Sis3基If语甚1r當;由可:;吉ms古古苦_?—wjIHm—??_?ML?—^祠?iK图4.5决策树模型41 浙江大学硕i学位论文第4章风险评佑系统实现4.1.3棋型评佑利用训练得到的预测模型对4849条测试数提进行再次入院风险等级预测,并根据预测结果与真实值进行比较统计得到测试结果。表4、.4表4.5所示分,别是神经网络和决策树模型的测试结果。表4.4神经网络测试结果预测值01230403320113954架11411842际21613117值13935112表4.5决策树测试结果预测值012304318534610架1537410际2573950值34163799062%根据上述测试结果计算可得.,神经网络及决策树模型的准确率分别为4及94.16%各风险等级召回率如图.6所示。虽然决策树模型预测的准确率略高,于神经网络其大多数样本预测值均落入风险等级为0一,而其,但的类中他几类的召回率明显较低。因此,本论文最终选择效果较好的人工神经网络模型作为系统巧风险预测樸型。42 浙江大学硕壬学位论文第4章风险评估系统实现殆Q7.54 ̄ ̄…山.82<186%100.00%品.52%80.00%-Z"心漏车记I]I医.60.00%IWI?神经网络i■-40.00%j:■决策树—20-.00%:If?iI〇〇.〇〇/,====Risk0Risk王Risk2Risk3图4.6预测模型召回率4.2患者聚粪模型4.2.1数据预处理、2004-20患者危险因素聚类模型采集自北京某王甲医院14年2893条尼血管疾病患者数据,其中所有连续型字段的相关指标如表4.6所示,包括年龄、住院天数、BMI指数、收缩压、抢敕次数、ICU使用天数、CCU使用天数六个输入的均值、图47所示则是其数据的直方图。方差、中位数、均值标准误等,表4.6危险因素聚类模型连续型字段概况字段AgeTreatDSBMISBPEDICUCCU巧最小值2801.387000最大值9821662.5021053019总数198243510饥仿37136627237302722范围7022661.122035301970.7818.232227130.770.010110.2平均值..60.230.350.120.2700020.03平均值标准误.0.0518.346.47...标准差1114440171071.39為方差142.753;36.4341.80208.560.031」5].93--0偏度.543.650.560.2916.7415.537.48偏度标准误0.050.050.050.050.050.050.05-峰度0.1924.061.0842860乂63.311.1366.38峰度标准误0.090.090.090.090.090.090.09中位数731323.44013000043 渐江乂学硕壬学位论文第4章风障评估系统实巧i巧];**iw)I[7)、;'W…—'—'—''''A'…'lgerig度左i…-...w.i,一…n-ir■■■';iE■I■!隱ijiIJ--^Mr\r1\占《aoM:?tfm"ssTreatDasedy.j^1'-?i‘-I’‘^MiI:L"J_—w^?f?AM"■![*i■?I.";BMS岂Pritsl个I-;I'.'''1画:1J-yX:麥配.^Wrl_L——'..—■-—."...'.;'^'a—^‘'’-recu占去:icujI<?」-I..-叫.‘..■—-*** ̄.‘?点K3;^?图4.7危险因素聚类模型连续型字段直方图44 浙江大学硕壬学位论文第4章风隘评借系统实现根搪上述结果,将连续型数据按表4.7所示规则进行转换分类,离散型字段则按表4.8所示规则进行转撫,其中并发伴随疾病Complication实际包含11种疾病字段,根搪患者是否患有该病置1或0。表4.7危险因素聚类模型连续型字段转换规则字段数值分类Ae《651g>65公<752>75衣<803^804TreatDays《61>9及《142>14&^203>204ED=00>01BMI矣181>18.5在《242>24底^283>28及^324>325SBP《901>90公《130213014>&《03>140&《1604>1605=ICU00>01CCU=00>0145 浙江大学硕击学位论文第4章风险评借系统实现表4.8危险因素聚类模型离散型字段转撫规则字段原始分粪转换后分类PayerCIass医改,自费,基本医保,医保,其他1,2,3,4,5{军队}{}Gender勇,女}(1,〇{}Acuit急救1.0y{,非急救}{}一二OerScale級124p,缀,三缴,四缀,,3,{}{}WoundGrade{I,II,IU{1,2,3}}Hea123lGrade甲級,乙級级,,,丙}{{}Com1plication,否*0{是}{}数据转换完成后,对其进行建模检测异常值,删除其中92条异常记录,插280>1条通过补缺失值,最终挑选审核的心血管疾病患者数据进行建模,其中冠'/>心病561177200心力衰竭6例、高血压例、心肌梗塞4例、8例,分别占总数据的20.03%63.26%14.28%,2.43%。图4.8列出了模型部分字段的分布图。,,);S別BM1i誦I--■-巧■—-.'■TLZ£SBBIi^mEZElliiaiMai:,m—|-.rnadjrr:....'巧聽.■辦翊IwyI.!iII■—"—————:■-工ii■、1:.I1I5iii画团ILL困4.8危险因素聚类模型数据分布46 浙江大学硕壬学位论文第4牵风险评估系统实现4.2.2摸塑结果-Kmeans聚类模型输入包括性别、年龄、费别、是否急救入院、住院天数、抢救次数、ICU天数、CCU天数、收缩压、BMI指数、手术等级、切口等缀、'口愈、、切合等级、脑血管病、外周血管病离血压糖尿病等共24个变量。本论=K值设为3-文分别将10进行聚类,围4.9所示为当k6时的聚类模型结果,其73525613177438875中六个聚类分别包含的样本数量为1,,,,,。.--3--5-4驳年6巧卑巧单2早帮脊1谭:识菲间如㈱0帖帘谭 ̄- ̄T ̄?jPHII,加?一3—i1——?''II廣帮—fige?—I,加— ̄IImanfH一!11r■H'*巧BW'?■_S_圏杂巧j—'ccBrn—会IIIj,加^—i-wJl—J—L"威培CCUHnmm?*,加BBH-—I1___IB,mmmm—成巧CPD1一m"?叫!0.99_Ir’""wsv'.HMBimkvMMlimi、ll圓*I1HI■MLB9Im?_mi亦巧_IDiabe1I会tes^^j ̄"'加l—BILb一rr麵i是?0.:1_--—. ̄■:4,T?货?Ihcvd1;3口誦■I4r0.731!=图4.9聚类撰型结果k6)(47 浙江大学硕壬学位论文第4章风险评估系统实现4.2.3模型评估根据聚类结果,分别计算各类相似度,表4.9、表4.10分别列举k参数设为4和6的情况下各聚类之间的相似度。根据结果分别计算不同参数k对应的平均==相化度14k6,其结果如图4.0所示。根据结果可得,当k,时其各聚类之间的平均相似度最低。因此从各个聚类之间的相似度角度来分析,達k设为4或6时,聚类效果最佳。=表4.9聚类模型相似度(k4)聚类1234-11.101.091.59-021.10.851.57-31.090.851.644-1..1.59571644=表.10聚类模型相做度(k6)聚类123456-11.681.541.221.351.502?1.681.321.621.130為5-31.541.321.251.341.02-41221.621.251.021.5.35-1.351.131.341.021.11-61.500.951.021.531.11—7.471.50Y^J74T1.4。1.30?平細似度31.20345678910K-图4.10不同参数Kmeans聚类模型平均柜假度48 第4章风险评估系统实现浙江大学硕击学位论文上述分析是基于聚类模型各类之间进行的评估,而对于各类内部,则通过计及标准差进行评估。表4.12算每个样本到中々点之间的平均距离.11、表4分别列举k参数设为4和6的情况下的计算结果。(k=4表4.11聚类模型各聚类平均距离及标准差)聚类平均距离标准差2380.551.0.5322.710.5232.010.5342.15=4(k6)表.12聚类模型各聚类平均距离及标准差聚类平均距离标准差2.501.2600.4821.7890.5332.60.5142.090.4652.220.5261.98—2.502".、212A2.082.042.04马;-一…一.一一-—---一—家.巧成崩j祭:常苛2—'W^iS^^—J‘1.5。,1J^I^■平均距离1.00:'巧瑪^gJ:0.50345678910K4K-means围.11不同参数聚类模型平均距离49 浙江大学硕去学位论文第4章风险评估系统实现分别计算不同参数k对应的平均距离和标准差,平均距离比较结果如图4.11所示,标准差比较结果如困4.12所示。从图中可W看出,k值越大,各类样本到中也'点平均距离及标准差越小,即从聚类内部各样本点的距离来考察值越大,k,模型聚类效果越好一。由于聚类模型的结果将用于下个回归模型,当k值较大时会因模型分类较多而导致毎个聚类的样本量较少,使得回归模型的有效性受影响。此外-,Kmeans聚类模型的学习效k率与值大小成反比。因此,k值不宜设定过大。综合考虑上述情况,从各个聚类内部距离及标准差角度进行分析,k值应该选择6或7。0.600.530.53 ̄ ̄ ̄ ̄cr?8CfT/|fBc?050:心隆’it-11^---r1J:‘.标准差eI————"-…-/。.:10if!' ̄ ̄- ̄ ̄ ̄ ̄—<:良'疫4IP/.000_‘^345日78910K4-图.12不罔参数Kmeans聚类模型标堆差最后从模型各输入变量层面上对聚类模型进行评估,分别计算每个输入变量、4.3聚类和误差的自由度均方等值,表1、表4.14分别列举k参数设为4和6的情况下聚类模型的检验结果。其中,df为自由度(degreeoffreedom,df),表示能够自由取值的变量个数-,为n1;均方为离差平方和与自由度相除之商;F为F检验统计量一,检验样本方差是否有差异,即检驗聚类是否有意义,般来说,F统计量越大越好Si.005;g为显著性检验值,当其值小于.时说明该变量有意义。50 浙江太学硕壬学位论文第4章风隘巧估系统实巧=44表.13聚类模型检验(k)聚粪误差FSig.均方df均方dfSex23.693012791142000.27.0.Age456.9830.842797543.190.00PayerCl化s1977.9730.592797巧60.200.00Acuity3.9430.16279724.160.00TreatDays214.8530.992797218.040.00ED0.0830.01279710.%0.00ICU3.48301..02279720630.0030.ecu化巧.0627975920.00SBP8.8330.692巧712.830.00BMI150.46312797540.00.01149.OrSca.1621.pele52430.047972586520.00WGrade91.ound.3630.0227974083490.00HealGrade75.1230.0127975613.610.00279.PMI0.3530.0973790.01HCVD0.0030.0027970.390.76CCB0.1130.0221914.820.00Da.29.20271.47022ibetes03097.CPD0.3930.04279710.610.00*LLKD14.11270.830巧71.09.00S0.9230092797100400LKD...0Tumour0.9630.08279712.巧0.00Cancer0.2630.0427976.330.00Hypertension1.1230.11279710.680.00Herliia0.0630279.0503yppaem.0273.051 浙江大学硕去学位论文第4章风险评估系统实现4=泉.14聚粪模型检验(k6)聚类误差均方df掏方dfFSig.155.212.4.Sex.510795753000Ae409.715.602巧5683.0g0.4700PayerClass1214.7250.54279522巧.330.00Acui3.1ty.43506279521.230.00TreatDays239.0150.792795302.880.00ED0.0650.0127957.310.00ICU250227952211..110.1.000ecu0.3150.0627955.650.00829506727957.49000純P1.2.BMI2031652巧5..0.81252380.00.1OerScale72750.062795576.p30.於000WoundGrade53.1650.0327952097.500.00HealGrade43.3950.0227952644.190.00PMI0.4550.092巧54.860.00HCVD0.0050.0027950.450.82CCB0075022795..0.2820.02Diabetes2,7250.19279514.250.00CPD0.4050.042巧510760.00.LLKD1.7450112516.360.00.巧;.50.092795990SLKD12613..00Tumour0.8450.082巧511.080.00C0.38509.33ancer.0411950.00Hypertension1.3150.10279512.%0.00Herliaemia0.0550.0227952.600.02ypp根据结果分别计算不同参数k对应的平均均方和显蕾性检验值,其结果分别52 浙江犬学硕壬学位论文第4韋风险评估系统实现如图4.13、图4.14所示。从图中可W看出,k值越大,聚类及误差的均方越小,而其显著性检验的值基本相差不大,k值越。即从聚类各输入参数的均方来考察。,k值不宜大,模型聚类效果越好与上述同理由于设定过大,因此综合考虑应选择6或7。-200.00r〇5〇■0\.45—.150.00040^l25.17S-0fc.35祖加一^聚类均方寺误差均方0.2050.00.0.21-0^^^0.151^7--.01!1010.00I,,!!1345678910K4-图.13不同参数Kmeans聚类模型均方 ̄?_0.化^^强—_—_而〇。4‘30.04/X1"0,03—0.03-—.—.11I^r0叫0..0302t— ̄d0■.02*S.ig.I—…0.01/^II"^?■*7泽渊樹松y巧*sf*i*^rjrasiwofxaW一?—_/^巧;岡衡fcr0,00¥!11!(^i345678910K4-性检验图.14不同参数Kmeans聚类模型显著.L聚类模型根据上述分别从聚类之间、聚粪内部乂及聚类输入参数王个角度对k=-6eans聚,的Km类模型作为本系统的患进行评估,综合评估结果最终选择者危险因素聚类模型。4.3危险因亲回归摸型4.31.棋型结果中的各类数据,并分别作处理分析患者危险因素回归模型采集上述聚类模型。53 浙江大学硕去学位论文第4章风险评估系统实现k6乂第个聚类为例,样本共包含875条数据。4..3.11Logistic回但Lostcgii回归模型输入包括性别、年龄、费别、是否急救入院、住院天数、抢救次数ICU天数、CCU天数、收缩压、BMI口等銀、、指数、手术等穀、巧切口愈合等级、脑血管病、外周血管病、高血压、糖尿淸等共24个协变量,再,12,次入院风险等觀为因变量,分为0,3四个等缀,参考类别为0。取风险、等级分别为1,2,3时的回归方程各切变量的偏回归系数B,并进行显著性捡验,得到相对危险性值(0艮偃)及其置信区间,结果如表45.1所示。4.表KLogistic回归撰型偏回归系数显著性检验结果R===isk1RisR3k2iskBExp巧BEx(BBE邱巧)p))-Sex1.072.912.351.030.011.01-A.13880.453302022ge00.1..1.PrCass---ael1.570.210.150.001.330.27y---Acu0.571030..ity〇j6.980630,54TreatDas-0.08093026551084232y.....--ED17380.03050.22.0.1.001.0-I--CU1.25292.831430.240..---ecu69501.1049.0..910000.7.808-S;BP0.010.6613002123..1.--BMI0.380.680251.39.0.9.0208---OScale8441160000059.13per.4..33.843940.00-240-1.290-0PMI.0.171.1.400.67---HCVD-01.26108.34.0.940.39--CCB1.65011.2..90.5781770.17--Diae.62.54340.30.1044btes000.08.--CPD0.20031260.48.821.0.巧1.LLKD-0-.720490.221.72.9.0.0406---SLKD1.90015L864.181.40025..54 浙江大学硕击学位沦文第4章风险评估系统实现C续)表4.15Logistic回归模型偏回归系数显著性检验结果===.民ik2民isk3isklRs目Exp(B)BExp(B)BExp巧)31.353.86T.572450.7umour2.611.3-3..960581.7Cancer..190021.9116-2.15H?0.761.86ertens1巧ypion0.43---20.13Her.60.820.31.03yplipaemia01表中Exp(B)即为检验得到的0民值(其中已删除部分未通过检验数据),其4-.15.17大小表示协变量对再次入院风险的影响程度,即相对危险程度。图图4所示即为所有危险因素的相对危险系数排序,参数值越大,说明该因素越危险,-11530即对患者再次入院风险的影响越大。从图中可看出,风险等巧为,即天内有再次入院风险的患者、癌症、性别、高血压、血脂,其主要危险因素有肿瘤22-15,,即天内有再次入院风险的患者其主要危险异常、年龄等;风险等级为、、BMI、、血压等;风险等因素有治疗天数、严重巧/肾脏疾病癌症指数年龄、,、肿瘤治级为3,即当天就有再次入院风险的患者其主要危险因素有高血压疗天数、、、癌症慢性肺病年龄等。—14-Zf_- ̄ ̄口—/108一64-/—2…1—:叮1巧哪腳巧" ̄* ̄……’…’―1rtrt*^!0tt了1与'否35害§吉|益gi.含蓋3§13§畜32§為〇S芝HS.Q.王互=4i0民值CRis1)圍.15Logistc回归方程k55 浙江大学硕击学位论文第4章风险评估系统实现 ̄—6Y1’5I■■/■4-Ifr定3-/jI,LiWrm—x:tt托rti怔u心’———-,'广下—*'.….。"'———".V—0ffT1、{i5广子Sc-c^<wuua_w〇S:^身|"5S罢=4ii国.16Logstc回归方程O民值(Risk2) ̄ ̄ ̄ ̄ ̄ ̄—7Y… ̄ ̄—*6il'_______-/5—-/Hl;4—-/3"—— ̄ ̄-1V2:?抵1m;;—1TTl11,—*"I*ITTT11???*^一— ̄…— ̄? ̄.--.-wy ̄' ̄ ̄? ̄ ̄ ̄ ̄PP曼^於巧H ̄ ̄ ̄ ̄—— ̄ ̄ ̄ ̄- ̄ ̄ ̄— ̄ ̄Vr}rr?i1i1{jist1ijjt3si§miii§gli|l|U<pil芒fS岩秦呈占芝艺i占I4=图11^〇〇.73础回归方程0民值(民础3)4.3丄2Cox回归Cox回归摸型输入包括徑别、年龄、费别、是否急救入院、住院天数、抢救次数、CCU口、ICU天数天数、收缩压、BMI指数、手术等级、切等级、切口愈合等级、脑血管病、外周血管病、高血压、糖尿病等共24个协变量,再次入56 浙江大学硕去学位论文第4章风险评估系统实现0天院时间间瞩设为生存时间,3作为截断点。取固归方程各协变量的偏回归系数B,并进行显著性检验,得到相对危险性值(OR值)及其置信区间,结果416中巧口等銀口如表.所示,其、切愈合等绣相关性導罔于手术等銀。表4.16Cox回归方程偏回归系数显著性检验结莱〇协变量艮Exp(B)95.0/〇a用于Exp(B)下部上部Sex0.631.870.665.29Ae-0133g.030.970.7l.;C-Payerlass2.100.120.020.93-03Acuity.10.740.421.30TreatDays0.341.401.041.91ED0421.520.1911.90.--ICU12.750.000.00ecu-1.160.042420.31.SBP0.211.230.911.66-BMI0..240790.6014.0OerScale2.3310.271.9454.48p-PMI0.550.580.221.54--HCVD12..00.000000-CCB1.3.03060.034.50D-i油etes0.330.720391.32.-0CPD.192.2620.80.66-2LLKD0.32.巧.24200.2KD-SL1.690.190.022.12Tumour1..333782.14670.Cancer0.501,640.1419.09ertenson0.H.992690.262780ypi,He--riaemia11.570.000.00yplp57 浙江大学硕壬学位论文第4章风险评估系统实巧与Loistic回归模型做同样处理4g,图.18所示即为所有危险因素的相对危险系数排序,参数值越大,说明该因素越危险,即对患者再次入院风险的影响越大。一从图中可看化,针对这聚类患者,其主要危险因素有手术等巧、肿瘤、高血压、、j性别、癌症、心肌授塞等。___。細,__"/———--10.000I'一—S'OOGj—6.000—4.000""" ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄-/2.000]]nTH"Ii1^^?———'* ̄-?-- ̄/,yp…0.000’省g〇|a日秦吉罢吝g盖iSgg器<iJS进mS5〇擇I图4.18Cox回归方程OR值4.3.2模型评佑系统最终用到的相对危险系数是根据回归模型的协变量偏回归系数B计算得到,因此分别计算B的标准误、4卡方值对模型进行评估。表17ii.所示为Logstc回归和Cox回归模型协变量偏回归系数的检验结果。其中,SE是偏回归系数B的标准误;Wald是卡方值,等于偏回归系数除W其标准误的平方值,用于对偏回巧系数的检验。根据结果可W看出,Cox回归模型部分参数的标准误非常大,而Loistic回归模型的误差相对较小g。58 浙江犬学硕壬学位论文第4章风险巧佑系统实现表4.17回归模型偏回归系数评估Cox回归Logistic圓归Logistic回归Logktic回归===(Risk1)(Risk2)(Risk3)SEWaldSBWald化WaldS巨Waid>Sex0.412.1302621.49.17650的1..l.S.2.Age0.160.030.881.460.680.450.620.00PaerC44.1027.24.yla巧1.01.00240.390.270.55Acuit0.291.120.952.730.851.471.051.59yTreatDays04.764938.40430.491.65.160.1.00.ED...0.0.1050.160.2201202102308.05ICU583700.005.101..乂10245.215.830.07ecu1.041246.8602456.40.05..03.850.0BP151.71.18114314524S0.9.600.00..0.BMI0.142.860.260.090.221.230.240.77OperScale0.857.480.242.580.222.360.200.01----PMI0--.501.19HCVD766.001.020.630.0304.9701.50.690.3CCBl.29..5.200.:0636000.05044.500.04Diabetes0.31l.Il2.910.321.630.121.661.14CPD0.600110.531.370.410.620.532.40.LLKD0.....巧0320.940051250680.65037KD24141.190.3773078.SL1..80..090.000Tumour0.2920.872.150.781.521.491,500.86Cancer1.250.160.4631.950.4529.750.546.25Hertension1.190.692.630.202.340.001.200.24ypHyperlipaemia415.910.002.520.031.550.241.481.5159 浙江大学硕±学位论文第4牵风险巧估系统实巧分别计算两个回归模型的平均标准误和卡方值,其结果如图4.19所示。从围中可W看出,Logistic回归樸型的误差明显小于Cox回归。。。-2SCLSa90一1-I?…I柄准误0-1圓60卡方值::\330-^4—_5-—-0I116Cox回归Logistk:回归園4.19回归模型评佑对比此外,通过偏回归系数不仅可W找到协变量与因变量之间的相关性,还可由此得到回归方程并进行预测。因此,本论文还根据偏回归方程的预测结果对两个回归模型进行评佑,得到Logistic回归及Cox回归模型的准确率分别为89.57%,一^84!.23%。从预测准确率这层面,同样可乂得到Logistic回归棋型的效果更好。因此根据上述模型评估结果,本论文最终选择Logistic回归模型作为系统危险因素相关性分析的回归模型。4.4系统实现/公血管疾病患者再次入院风险评估系统的使用界面如图40.2所示。当區生给某病人下送出院医嘱时,运行该系统,输入患者标识、本次住院标识并选择疾病类型,点击确定后系统会自动集成该患者的相关信息,并对其再次入院风险进行评估,得到患者姓名、出入院时间、联系方式等基本信息,再次入院风险等级及主要危险因素信息。例如图中所示患者胡太来,经过系统预测得到其再次入院、风险等级为高风险,,,其主要危险因素有治疗天数严重肝/肾脏疾病癌症等读取危险因素的具体说明并分别给出患者院外自巧管理建议及随访人员健康指导建议。医生根据系统评估结果可W适当修改,完善建议并导出,分别供患者及随访人员参考。60 浙江乂学硕壬学位论文第4章風险巧估系统实现-口X,担涩营臟覃私赚乎—P瓜1扣知巧次SV!D::836S5^i5巧者欄i(禮!福|Sl¥璋息1…出生巨巧h940-8-:巧哀别公赛屋巧法者性咨:胡龙巧性別马'--n- ̄:^17炼杞简:2D810进院栓室:咕血居巧科入院粉巧2029巧|…―'—'…:化竞是爱活医里5£^南进甲2詩耶之m^m^:136011783651|跃觸广ISI‘再化\除鶏宾及:綱WI*广芋‘因子:张違iS主要危险留录*一I1.文',:台巧12ifSL ̄’,1严室巧巧病扉客术是巧巧按/香皮1画…垣涅沉査3:iM_j画醒M指巧…4目3!.:5Qci巧(易亩!^一,疆疆5端7WMl ̄ ̄可庸宝'61mmH枚巧gP■B—1???.-7;唯蓝巧MiEB?■■■BS__■言靈画麵8I。抗結.。琴.疆篇与》巧g;U..II;厂賴j夏A'****冷*—TAb、**々片*少*yA>*A衣&*10爸寂、分。VV入"夺、卢*—'''I.1?^没;厂:定者院化有我管理達议I:g邱,'171理建康护理I1.定定为歩男性.巧注意敕食习裙,寒想柔巧、易子消化约食物,注唐记12晓.在隐天巧12巧化巧這冢法远朽颈巧王蓄者裝受情巧,。貯送院治疗、化次尚善巧入?;3、在院辖雨呈巧坦駐苦营按宣T宫弓!荒术,手六等巧二汲,罚口等级!,哲台等汲甲,班口窗会島骑,不这巧需汪唐衣居旨我建康营理:4、库吉出民前电貞I压为12弓mmHg,BM指巧为化25I磁互号狭替.廷当殺巧,该這巧重.控範远Hi压-:.砖窓.辟窓术居巧巧孩应注意沿下几巧!5,主要转陡及耗发疾病育青血压草、!:糕贸.奶盐j穿…毎天.中、晓搬量脑玉巧记轰,涅握骚强斌鮮打茜顿治巧.法意饮食吾债,满班;入,成滔戒S,色理运或。U2)保沒房巧的生活习镇,注急ft廢,返魚应黃,巧巧狹霞2量,操淳身必沧惊,度免傅绪激就汪^&^京〇妨忌MA离蛋g食物,乏據补5r多^50更^等.逐屋喔电巧,不能目:撤,食獲1^I^莽巧縣盐用药■職长巧題?一-之-;古之;/^陸寒效封离瞬险:5夫?^桌島友文娱枉1^,蕾艾技苗掀义妾雇3义皂导達坡:定去香欠入^;度巧—上违主要危检因表如疆卓是者的共司卓度^育.并巧据患者反患暗元窗巧调百强巧巧划.……r雨!图4.20系统界面61 浙江大学巧去学位论文第5章总结与展望第5章总结与展望沁血管疾病病因复杂、病程较长,患者在治疗过程中需经常反复入院,在消耗大量医疗资源的同时产生昂贵的医疗费用。本论文针对上述问题,结合当前国内外对出院患者再次入院风险预测的研究,利用数据挖掘技术对患者在院信息进行深入分析。系统主要包括,设计并实现成血管疾病患者再次入院风险评佑系统下列功能;(1)利用人工神经网络算法建立患者再次入院风险预测模型,在患者出院时自动预测其30天内再次入院风险等级;(2)根据患者危险因素进行实时聚类,利用Logistic回归算法对患者所在聚类数据建立回归模型;,分析得到影响患者再次入院风险的危险因素排序(3)根据记血管疾病患者健康指南建立风险控制知识库,基于模型评估得到风险等级及危险因素预测结果,自动给出患者院外自我健康管理和随访医护人员健康指导建议。本论文在预测模型的参数选择上,总结了相关研究的优缺点并进行改进,从而提高了预测模型的学习效率及准确率。对患者实时聚类后,再利用回归模型找""寻主要危险因素,从而指导后期建立个性化的健康计划。风险知识库的建立""使系统有了自动思考的能力,智能地为患者及随巧人员提供健康管理建议。医生可W在此基础上结合模型评估结果完善建议,从而指导患者更好地进行院外自我管理,降低再次入院风险。一随着系统的使用,会产生大量相关数据。方面需要完善系统性能,保证数据量增大情况下系统的运行效率及准确率一方面则是通过对这些数据的合理;另加和完善系统功能一工作包括。因此:利用,增,下步(1)继续优化现有数据挖掘模型算法,提高算法伸缩性及系统性能。(2)现有的风险知识库是结合健康指南制定的,还不具较疆的灵活性。采集系统实际使用过程中医生改进后的健康建议及患者院外自我管埋情况的相关数据,使整,利用自然语言处理、机器学习等技未不断改进和完善知识库个系统更趋于智能化及个性化。62 浙江大学硕击学位论文参考文献参考文献20M-14.川世界玉生組织.年全球非传染性疾病现状报告[.日巧瓦2014:128144][2]国家卫生和计划生育委员会.2014中国玉生和计划生育统计年鉴[M].北京:2091-中国协和医科大学出版化14:2320.3玉生部/心血管病防治研究中记M.中国A血管病报告2014.北京:中国大[][]2013-百科全书出版社15:60.,K-4oehlerBERichterKMYounbloodLetal.Reductionof30da[],,gyostdscreositareadmisso打oremerenctEDvstratesnpihaghpligydepartmen()iii-hihriskelderlymedicalatientsthrouhdeliverofataretedcarebundleJ,gpgyg[]J-ournalofHositalMedicine200944:211218.p,,()5CiosKJ,MooreGW.Uniuene巧ofmedicaldataminin.Artificial[]qg[||20022611-intelligenceinmedicine:24.,,()C-6lausEBRischNThomsonWD.Autosomaldominantinheritanceofearl[],,pyonsetbreastcancer.Implicatio打sfbrriskprediction[J],Cancer,1994,73(3):643-165.[7]Lindstr6mJ,TuomilehtoJ.TheDiabetesRiskScoreApracticalt臀1化predict*-type2diabetesiisk阴.Diabetescare,2003,26(3:725731.)NortonMN*SmithDMJAcdonaldCJ.onelectiveieadmissionsofmedical閒,,a-ttsJ.Jronicseases138:1pien[]ournalofchdi,985,(3)23224.巧HollowayJJ,MedendorpS乂BrombergJ.Riskfactorsforearlyreadmission]veteransJt1251Pt213-amo打g.Healhservicesresearch990:237.[],,(巧10BoutDowdBcareDetaScreenneersforriskofhostalCMCfl.ildil[],,y,gpadmAmt41-ission?JournaloftheericanGeriaricsSociet19938:811817-…y,,()nPhEFD巧TPt*rtti化inalvoG.redicionofhosialieadmissio打forheafailure:[],peveom*dlpmentofasipleriskscoiebasedonadministrativedataJ.Journalofthe[]er-AmicanCollegeofCardiology,1999,336:15601566.()"W12Kmmhol之HMChenY1anetal.Predictorsofreadmissionamon[],,g义geldersurvvorsofadmissionwihheart拉ilureJ.mericanheartourna2000lyitAl,,[]j63 浙江大学硕击学位论文参考文献-13917277:.()13NovotnNL,AndersonMA.Predictio打ofearlreadmissio打inmedical[]yytitAdmtrinpaentsusingtheProbabilityofRepeaedissioninsumentJ.Nursing[]researc2008576-h:406415.,,()[14]HowellS,CooryM,Marti打J,etal.Usingrouti打einpatie打tdata化identifypatientsatriskofhospitalreadmission[J].BMCHealthServicesResearch,2009,91:96.()、15陈秋,皮延生,李春燕等.慢性成为衰竭患者再次入院相关因素的研究阴.[J,昆明医学院学报20-10318::127130.,,()[1旬WhitlockTL,TignorA,WebsterEM,etal.Ascoring巧Stem化predict化admissionofpatientswi化acutepancreatitis1:0化ehospitalwi化in化irtdaysofyscreJ抑-d,lincaastroenterooHqmtolo2011:175180ihagCilGlgydgy,,9.[]口)17HammillBG,CurtisLH,FonarowGCetal.Incrementalvalueofclinicaldata[],beondclaretn30-daoutcomesafterheatfamsdatainilureyipdicigyrhospitalizationJ.Circulatio打:Cardiovascularualka打dOirtcomes201141:[]Qy,,()-6760.1DhHFLZtD-armaraanKsiehAineal.ianosesandtiminof30da[,,,巧jggy*ieadmsso打safterhostazationoreartfailureacutemocardialnfarctonoriipilifh,yii,neumonaJama20-134:35363piJ.3095.[],,()19HasanOMeltzerDOShakevichSAetal.Hositalreadmissionineneral,,,[]ypgmedicineatients:aredictionmodeJ.Jourlofealintelmedicineplnagenrrnap[],20-10253:211219.,()Mansukhan-20GarrisonGMiMP,BohnB.Predictorsofthirtdareadmission[],yyamonghospitalizedfamilymedicinepatientsJ.TheJournaloftheAmerican[]BM-oardofFamii20132671leddne:77.y,,y)2MF’[1BraaPPortelaFSantos,巧al.Datamininmodels!:〇redictatients],,ggpp-readmissioninintensivecareunitsC//ICAART2014Proceedinsof化e6也[]gIntemato打alonferenceonAentsandAiti巧cialIntellience.2014.iCgg[22]JeeeebhoKN,KellerHGramlichLetal.Nutritionalassessment:comarisonjy,,p64 浙江犬学硕去学位论文参考文献ofcaamentandobectvevaablesfortherectonofenthli打iclssessjiripdiilgofhositalstaandreadmission.TheAmericanournaliiltriti205lofc打canuon1py口],,j-1015:956965.()口3]范明,孟小峰.数据挖掘:概念与故术[M].北京:机械工业出版社,2007:3-27.24凌寒—.在真实世界中观察对比剂的临床安全性访同济大学附属上海第十[]2042]1-人民医院必脏中必主任徐亚伟教授叫.中国当代医巧,1,(6):3.2HalFrankEesGeta.TheWEKAdataminnsoare:anute.lMHolmliftwda[引,,g,py]ACM-SIGKDDexplorationsnewsleter2009n:101义,,y)2..2008[,李雄飞,等数据挖擺技术标准综述阴,,巧刘明亮,孙涛计算机科学355-(巧:10.7民ichardJ?民oerceW.Geatz.M.?1igMihal数据挖擺教程翁敬农戴紅译口],[],,2003H8-巧版.化京:清华大学出版社:I29.,28InmonWH.Buldin地edatawarehouse:GetinstaedJ.WhitePaer[]iggrt[]p.巧llinmon.com2000,9拉mball民民OSSM.Thedatawarehouse化olkit:thecomleteuideto口],pgdhnensio打almodeli打g[M].JohnWiley免So打s,2011.口巧苏新宁.数据仓库和数据挖掘[M].北京:清华大学出版社有限娩词,2006:40-41.口IJPingliWKWLW,BinS.RESEARCHONTECHNOLOGYOFETLINDATAWAREHOUSEANDITSPRACTICE.ComerAlicationsandSoftware口]p山pp,20051111:0.,32LiuXThomsenCPedersenTB.ETLMR:ahihlscalabledimensionalETL[],,gyframeworkbasedo打maeMTtono打La-caeData-a打dprcduc//ransacisreSl[]g-CVS-KnowledeenteredSemsIIIi1.rnerBerlinHeidelber203:131.gy巧pgg,33PiechaJ.Theneuranetworkeecto打oramedicaianostcsstesina打[]lslifldgiymugarti打daldatasetJ.CIT.Journalofcomtinandinformation1;echnolo2001[]puggy,,92-:123132.()34PatelVLShortliffeEHStefanelliMtal.Thecominofaeofartificial[],,e,gg65 浙江大学硕去学位沦文参考文献-i打telligencei打medici打e?Artificialintellige打ceinmedici打e2009461:517.[巧,,()*-口引JainAK.Dataclusterin:50earsbeondKmeans口?Paternreconitionlete。gyy]g,20-103:.18651666,()-36袁方.meam.[],周志勇宋恣初始聚类中瓜优化的k计算机工稷,算法[巧,200733-03:6566.,()[37]DraperN民,Smi化H,PowneilE.Applied化gressionanalysis[M].NewYork:Wiley,1966.[3^ChatterjeeS,HadiAS.Regressionanalysisbyexample[M].JohnWil巧足Sons,2015.39YanRXJPenta.AcoroatnogionYelSASmarramfbrbchroce巧if[],,pggg,[gp*univariateCoxiegre巧io打analysisforreatdatabaseJ.Zhonnandaxuexueg][]g=rnbao.YebanaenalSouniverstedcacencesixuJoulofCtrthUi.Milsi2015y,,402-:1947.19()40SP%ChMod--ina析数软件(上海巧限公司.SPSSeler軟件简介.20130115][][=w-ht://wwwsconhcnresoftwarestsxp.p化/SoftaSolution/SLi.ap?MCID58&M__=CContentID53._[41]LuisTorgo.数据挖掘与民语言[M].李洪成,陈道轮,吴立明,译.北京:机-械工业出版社2013:14.,42Intersstem:CacheTechGuideht://www.intersstems.cn/cache/.[]y,py66 作者在頭去巧究生期间的科巧成果1.朱东燕.田雨李劲松.基于临床数据挖掘的冠知病药物治巧分析[J.中国数,]字医学ISTIC,2015,1(K6.)2.陶敏..基于BI,王星,朵寒燕等系统的个性化电子病历设计化中国数宇医学ISTIC,2014,97.()""3二.陶敏王豈朱卷燕.尊.中华医院信息网络大会优秀论文等奖.,,4一一.软件著作权李劲松朱春燕.童丹阳朱爱民.医,周天舒,田雨院科室业,,务管理软件V1.0.登记号2015S民148806.—5.王丰王呈朱寒戒.田丽天舒.急性上呼吸道感软件著作权李劲松,,,周,染用巧提示系统软件V1.0.登巧号201巧R156358.67

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
关闭