基于相似约束LDA模型的糖尿病并发症发现方法

基于相似约束LDA模型的糖尿病并发症发现方法

ID:77700443

大小:3.51 MB

页数:55页

时间:2024-02-04

上传者:笑似︶ㄣ無奈
基于相似约束LDA模型的糖尿病并发症发现方法_第1页
基于相似约束LDA模型的糖尿病并发症发现方法_第2页
基于相似约束LDA模型的糖尿病并发症发现方法_第3页
基于相似约束LDA模型的糖尿病并发症发现方法_第4页
基于相似约束LDA模型的糖尿病并发症发现方法_第5页
基于相似约束LDA模型的糖尿病并发症发现方法_第6页
基于相似约束LDA模型的糖尿病并发症发现方法_第7页
基于相似约束LDA模型的糖尿病并发症发现方法_第8页
基于相似约束LDA模型的糖尿病并发症发现方法_第9页
基于相似约束LDA模型的糖尿病并发症发现方法_第10页
资源描述:

《基于相似约束LDA模型的糖尿病并发症发现方法》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

、10359:单位代码密级:公开2015111049:学号分类号:C934HefeiUniversityofTechnology硕士学位论文MASTERSDISSERTATION(学术硕士)论文题目:基于相似约束LDA模型的糖尿病并发症发现方法学科专业:管理科学与工程作者姓名:金行导师姓名:杨善林教授完成时间:2018年03月'-.--_卜厂.:?二vv1tfec遍iP: 单位代码:10359密级:公开学号:2015111049分类号:C934HefeiUniversityofTechnology硕士学位论文MASTER’SDISSERTATION(学术硕士)论文题目:基于相似约束LDA模型的糖尿病并发症发现方法学科专业:管理科学与工程作者姓名:金行导师姓名:杨善林教授完成时间:2018年03月 合肥工业大学学历硕士学位论文基于相似约束LDA模型的糖尿病并发症发现方法作者姓名:金行指导教师:杨善林教授学科专业:管理科学与工程研究方向:信息管理与信息系统2018年03月 ADissertationSubmittedfortheDegreeofMasterDiabetesComplicationsDiscoveryMethodbasedonSimilarityConstrainedLDAmodelByJinHangHefeiUniversityofTechnologyHefei,Anhui,P.R.ChinaMarch,2018 合肥工业大学本论文经答辩委员会全体委员审查,确认符合合肥工业大学学历硕士学位论文质量要求。答辩委员会签名(工作单位、职称、姓名)委员:你今我汉f十、?导师:%名妹恭棟 学位论文独创性声明本人郑重声明:所呈交的学位论文是本人在导师指导下进行独立研究工作所取得的成果。据我所知,除了文中特别加以标注和致谢的内容外,论文中不包含其他人己经发表或撰写过的研究成果,也不包含为获得合肥工业大学或其他教育机构的学位或证书而使用过的材料。对本文成果做出贡献的个人和集体,本人己在论文中作了明确的说明,并表示谢意。学位论文中表达的观点纯属作者本人观点,与合肥工业大学无关。学位论文作者签名:签名日期:>出年月/I日Y学位论文版权使用授权书本学位论文作者完全了解合肥工业大学有关保留、使用学位论文的规定,即:除保密期内的涉密学位论文外,学校有权保存并向国家有关部门或机构送交论文的复印件和电子光盘,允许论文被查阅或借阅。本人授权合肥工业大学可以将本学位论文的全部或部分内容编入有关数据库,允许采用影印、缩印或扫描等复制手段保存、汇编学位论文。(保密的学位论文在解密后适用本授权书)<L:j学位论文作者签名指导教师签名:签名曰期年月/r曰签名曰期年月丨么曰>f论文作者毕业去向工作单位:联系电话:E-mail:通讯地址:邮政编码: 致谢三年的硕士生活转瞬即逝,随后我将离开学校踏入职场,回想研究生的时光,我走的辛苦但收获良多。在论文即将完成之日,特向所有曾经给予我支持和帮助的老师、同学和亲人们表达最诚挚的敬意。我要诚挚感谢杨善林院士,先生以其严谨的治学态度,精益求精的工作作风,诲人不倦的高尚师德,朴实无华、平易近人的人格魅力对我影响深远。研究生期间,管理学院丁帅老师的耐心指导和无私帮助让我永远无法忘怀。是老师带领我们团队,栉风沐雨,砥砺前行,走向医疗健康研究方向,至今已积累硕硕成果,并且我个人也在学习工作过程中得到了广泛锻炼,明确了科研和工作方向。在本文的撰写过程中,老师提供了我研究方向、创新思路、写作方法,没有他无私的为我论文进行修改和改进,就没有这篇文章的最终完成。感谢合肥工业大学管理学院的所有老师,感谢你们在三尺讲台上的辛勤教诲,是你们的无私奉献让我积累了大量科研知识,向你们无可挑剔的敬业精神、严谨认真的治学态度、深厚的专业修养和平易近人的待人方式表示深深的敬意。同时,感谢团队所有师兄师姐师弟师妹们,感谢你们在学习科研生活等方方面面对我的帮助和鼓励,你们的陪伴使我这三年走的踏实而又快乐。感谢李伟、王瑾、汪磊、陈意、牛锋、徐健、李叶青、王泽源、潘金鑫、胡世康、王浩、黄辉、李玲、岳子杰。感谢你们。感谢我的家人们,没有你们在背后默默支持着我,我是无法顺利的完成这三年的研究生学业。感谢所有帮助我的人,同时也感谢在百忙之中参加本次论文审阅的老师们。作者:金行2018年3月20日I 摘要利用智能诊断方法发现患者病情并制定个性化诊疗方案成为医疗行业改革发展方向,也是医疗大数据实际应用的重要组成部分。随着EMR、HIS、PACS等医疗信息软件在我国的广泛普及应用,医院信息系统中沉淀有大量文本和影像等临床医学数据,为智能诊断的普及奠定了大数据基础。同时,随着生活节奏的加快和营养水平的提高导致我国肥胖人群显著扩大,由于肥胖是糖尿病的重要发病因素之一,使得我国糖尿病患者数量也随之增加。糖尿病并发症是糖尿病患者主要致死原因,如何有效发现并发症是提高患者生活水平的关键。随着病历数据规模的不断增大,如何有效从复杂多模态电子病历中简单高效的发现糖尿病并发症成为了一项具有挑战性的任务。本文首先定义了一种改进的主题发现模型,在此基础上挖掘了不同病程记录的潜在主题,然后通过时间序列特征提取方法和多标签分类算法模型对糖尿病患者进行并发症发现,最后通过对比实验完成了算法的验证,具体的研究内容如下:(1)本文提出一种基于病历相似度约束的MRS-LDA模型(MedicalRecordsSimilaritybasedLatentDirichletAllocation)。病程记录主题挖掘是后续并发症发现的基础,在潜在主题挖掘的基础上,分析了相似患者在住院过程中产生的病程记录的主题分布具有一定的相似性,针对糖尿病患者病历之间的相似性约束,给出了改进LDA算法。(2)设计了基于主题的多标签糖尿病并发症发现的算法过程,由于住院期间病程记录呈现的多维时序性特征,本文使用奇异值分解提取多维时序主题特征,并利用ECC(EnsemblesofClassifierChains)组合分类器链思想进行糖尿病并发症的多标签分类数据处理,通过多种分类算法的比较,得出适用于糖尿病并发症预测的分类模型。关键词:糖尿病;并发症;相似性;主题序列;电子病历II ABSTRACTTheuseofintelligentdiagnosticmethodstodiscoverthepatient'sconditionanddeveloppersonalizeddiagnosisortreatmentplanhasbecomethedirectionofreformanddevelopmentofthemedicalindustryandisalsoanimportantpartoftheapplicationofmedicalbigdata.InChina,withthewidespreaduseofmedicalservicesoftwaresuchasEMR,HIS,andPACS,alargeamountoftextandimagedatahasbeendepositedinthehospitalinformationsystem,layingafoundationfordataforthepopularizationofintelligentdiagnosis.Withtheaccelerationofthepaceoflifeandtheimprovementofthenutritionallevel,theobesepopulationinChinahassignificantlyexpanded,andobesityisoneoftheimportantriskfactorsfordiabetes,whichincreasesthenumberofpeoplewithdiabetesinChina.Diabeticcomplicationsarethemaincauseofdeathindiabeticpatients.Howtoeffectivelypredictingcomplicationsisthekeytoimprovingthequalityoflifeofpatients.However,withtheever-increasingscaleofelectronicmedicalrecords,howtoeffectivelyandeasilydiscoverdiabetescomplicationsfromcomplexmultimodalcasedatahasbecomeachallengingtask.Thisarticlefirstdefinesanimprovedtopicdiscoverymodel.Basedonthis,itdiscoversthepotentialtopicsrecordedindifferentdiseasecourses.Thenitusesthetimeseriesfeatureextractionandmulti-labelclassificationalgorithmmodeltoperformcomplicationsdiscoveryfordiabeticpatients,andfinallycompletesthecomparisontest.Theverificationofthealgorithm,thespecificresearchcontentisasfollows:(1)ThispaperproposesanenhancedLDAmodelbasedonmedicalrecordssimilarity.Itisanalyzedthattherearecertainsimilaritiesinthecourserecordsofsimilarpatientsduringhospitalizationbasedontheminingoflatenttopics.Inviewofthesimilaritybetweenthemedicalrecordsofpatientswithdiabetes,animprovedLDAalgorithmisproposed.Andthediscoveryofdiseasehistoryrecordsisthebasisforsubsequentcomplications.(2)Wedesignedanalgorithmicprocessforthediscoveryofmultiple-labeldiabetescomplicationsbasedontimeseries.Duetothemulti-dimensionaltemporalcharacteristicsoftherecordsduringhospitalization,thispaperusessingularvaluedecompositiontoextractmulti-dimensionaltime-seriestopicfeaturesandusesEnsemblesofClassifierChainstocombineclassifierchainideasformulti-labelclassificationdataprocessingofdiabeticcomplications.ThroughthecomparisonofIII multipleclassificationalgorithms,aclassificationmodelsuitableforpredictingdiabetescomplicationsisobtained.KEYWORDS:diabetes;complications;similarity;topicdiscovery;electronicmedicalrecordIV 目录第一章绪论.....................................................11.1研究背景及意义..........................................11.1.1研究背景..........................................11.1.2研究意义..........................................11.2国内外研究现状..........................................21.3论文研究内容及组织架构..................................4第二章相关理论技术.............................................52.1糖尿病并发症研究........................................52.2数据挖掘技术............................................52.2.1关联规则挖掘......................................62.2.2分类分析..........................................72.2.3聚类分析..........................................82.2.4辅助诊断标准......................................92.3文本预处理.............................................102.3.1文本分词.........................................102.3.2去停止词.........................................112.3.3同义词转换.......................................122.4文本表示...............................................122.4.1独热模型.........................................122.4.2词向量模型.......................................13第三章考虑相似性的病历文本主题分析方法........................143.1基于LDA模型的病历文本主题分析方法.....................143.1.1LDA病历文本建模.................................143.1.2LDA推理算法.....................................153.2考虑病历相似性的改进型主题分析.........................173.2.1病历相似性约束...................................173.2.2MRS-LDA..........................................183.2.3模型相关度量.....................................203.3实验结果及分析.........................................213.3.1数据集...........................................213.3.2结果及分析.......................................233.4本章小结...............................................25V 第四章基于主题模型的糖尿病并发症发现方法......................264.1糖尿病并发症发现整体框架...............................264.2基于病历主题分析的糖尿病并发症发现.....................274.2.1向量空间建模.....................................274.2.2多标签分类.......................................284.2.3模型相关度量.....................................294.3实验结果及分析.........................................304.4本章小结...............................................32第五章总结与展望..............................................335.1总结...................................................335.2展望...................................................33参考文献.......................................................35攻读硕士学位期间的学术活动及成果情况...........................40VI 插图清单图2.1Sigmoid函数示图形...........................................7图2.2文本预处理步骤..............................................10图2.3CBOW模型结构示意图.........................................13图3.1LDA算法结构示意图..........................................15图3.2糖尿病患者病程记录..........................................22图3.3男性患者糖尿病并发症数量分布图..............................22图3.4主题数量-病历相似度变化关系.................................24图3.5主题数-PIMScore变化关系...................................25图4.1基于主题的糖尿病并发症发现模型..............................27图4.2病程记录数量分布图..........................................30图4.3不同分类模型的平均精度与主题数量的关系......................31图4.4不同分类模型的平均特异性与主题数量的关系....................31图4.5不同分类模型的平均敏感度与主题数量的关系....................32VII 表格清单表2.1Apriori算法挖掘过程..................................................................................6表2.2K-NN分类过程..........................................................................................8表2.3K-means聚类过程.......................................................................................9表2.4度量指标参数说明...................................................................................10表3.1LDA模型生成病历文本步骤....................................................................15表3.2LDA算法训练过程...................................................................................16表3.3糖尿病患者并发症示例............................................................................17表3.4Gibbs-EM模型训练过程...........................................................................19表4.1多标签分类模型度量参数........................................................................29VIII 1绪论1绪论1.1研究背景及意义1.1.1研究背景随着计算机信息技术的迅猛发展以及大数据存储、挖掘技术研究的深入,国内医疗机构信息化水平不断提高,有效提高了医院临床管理效率和服务质量。与此同时,大量结构化或者非结构化患者病史、诊断用药、检查结果等数据被存储在数据库中,展现出了极高的学术研究和实际应用价值。全球大量高科技企业都致力于研究大型智慧医疗应用,IBM公司研发了与印度Manipal癌症中心的主治医生诊疗方案选择一致性达80%以上的肿瘤辅助诊断决策系统,国内同济医院也引进了高达到90%肺结节发现准确率的“CT阿尔法狗”。与此同时,如何有效挖掘医疗大数据并在医疗、医药、公共卫生、医保等方面展开合理应用已被纳入我国发展规划当中[1]。糖尿病及其并发症已经成为全球最严重的影响人类身体健康的公共卫生疾病之一。根据国际糖尿病联合会公布的数据显示,2015年全世界20岁至79岁人群当中,共有4.15亿人患有糖尿病,其中75%生活在低收入和中等收入国家,而中国糖尿病患者占比最多,人数约为1.1亿,并且2015年共有5百万余人死于糖尿病,消耗医疗卫生总费用高达6.73亿元[2]。长期血糖增高会对心、脑、肾、周围神经、眼睛、足等多个身体部位造成不可逆损伤,表现多种急慢性糖尿病并发症,直接影响患者的健康和寿命[3],如何及早发现并预防糖尿病并发症是提高患者生活质量关键,糖尿病并发症风险预测能够有效延缓并发症发生。然而,受电子病历规模、数据复杂程度、系统信息孤岛等多方面因素约束,现有的糖尿病相关研究主要将患者体检获得的结构化数据作为分析的数据基础,并没有考虑到患者住院病历在并发症发现上的重要性,从而增加了研究工作中数据采集的复杂程度。随着自然语言处理技术和机器学习方法的快速发展,为糖尿病并发症发现工作提供了更高效的解决方式,可以利用文本挖掘技术对糖尿病患者住院期间每天的病程记录进行分析,获取患者所患疾病诊疗方案以及病程变化的特征。由此可以为糖尿病并发症发现减少大量前期数据准备工作并解决患者入院诊断不准确的问题。1.1.2研究意义本文针对糖尿病患者住院病历进行医疗文本主题建模分析,自动提取不同患者病历所包含的多维病程记录中潜在的主题特征,并基于主题特征建立多标签糖尿病并发症发现模型,可以大大减少并发症发现的前期数据准备复杂度,并有效的1 1绪论根据病程记录数据建立疾病发现预测模型,从而为医生用药以及给出医嘱等临床决策提供智能辅助诊断支持。糖尿病并发症发现是利用机器学习方法发现患者临床数据之间的关联并计算并发症发病发生风险的过程。传统并发症风险预测利用年龄、性别、工作等患者基本信息和血糖、血压及糖化血红蛋白等电生理信息作为数据基础,数据收集工作繁杂且忽略了包含医嘱、疾病诊断等信息的专业医疗文本。大规模的糖尿病临床诊断文本信息中包含了不同类型糖尿病之间、糖尿病与其并发症之间、糖尿病并发症之间的并发关系,提高对病历文本信息的利用能大大提高并发症风险预测质量,但医院信息系统中病历文本呈现出非结构化、不完全、高噪声及专业词较多等特点,设计适用于医疗文本的信息表示方法对于医学文本处理显得尤为重要。同时,现有的疾病预测模型往往针对单一或者某类疾病进行风险预测,例如肺结节识别、胃镜病历诊断等研究,针对多种可能存在的表征共享、因果关系的并发症发生风险预测研究不多。在这种背景下,本文对糖尿病患者临床文本数据中的现有并发症表征与的关系进行研究,并再次基础上构建一个多种并发症发现模型,提供并发症预测以帮助糖尿病患者以及临床医生延缓或阻止并发症发生。1.2国内外研究现状智能诊断是以诊疗结果为导向的医疗辅助决策过程,是基于结构化或非结构化医疗数据,借助机器学习、神经网络及知识图谱等科学方法进行的辅助决策过程。它考虑了疾病致病因素与表征之间的区别,增加了诊断过程的复杂程度。基于医学文本的智能诊断方法主要利用历史病程记录和诊断信息对文本进行疾病分类,从而为病患提供符合实际的诊断结果。医疗辅助决策一直以来都是学术界的研究热点,目前研究人员常致力于医疗辅助平台设计并获得了丰富的研究成果。Masulli[4]等利用模糊聚类分割方法建立医学影像诊断系统,Alayón[5]等建立了皮质发育畸形的计算机模糊系统,Alessandrini[6]等设计了基于诊断结果的幼儿紧急医疗服务分类系统,Castellano[7]等构建了实时紧急远程疾病诊断系统,Farhan[8]等基于240名鼻子咽喉疾病患者临床数据建立了用药决策支持系统,Mathew[9]等针对伤寒诊断定义了一种模糊逻辑系统,徐卫华[10]等结合互联网技术建立了覆盖多种呼吸系统常见疾病的专家诊断系统。这些针对远程医疗的辅助决策系统不适用于特定疾病的辅助诊断,无法反应特定疾病的临床表征及治疗特点。机器学习技术的飞速发展为医学数据自动分析的辅助医生诊断方法提供新的思路。Schuller[11]等针对抑郁症,王曦等[12]利用模拟退火-支持向量机算法提供了一种针对SLE合并肾受累的计算机分类辅助诊断模型,确诊准确率高达98.72%。王凯芸[13]等应用人工神经网络算法提出针对乳腺X影像特点的乳腺癌早期诊断模型,2 1绪论江贵平[14]等详细地介绍医学图像分割研究历史,系统地对比了不同方医学图像分割方法技术并进行了分类,阐述了医学图像分割技术的研究趋势,王晓华[15]等搜集证实的孤立性肺结节病案200例,建立了符合率高达98.0%人工神经网络诊断模型,Powell[16]等对比了深度神经网络与传统支持向量机两种分割方法在图像分割上的优劣。Xu[17]等设计了一个多模态信息融合宫颈非典型增生的问题智能诊断模型。主题模型是统计文本挖掘方法的一种,可以经过挖掘文本集合中的主题分布,按照不同文档的主题分布理解海量文本信息。Deerwester[18]等利用奇异值分解降低文本向量空间模型(VectorSpaceModel)信息维度,提出了潜在语义分析模型(LatentSemanticAnalysis,LSA),有效降低了海量文本中存在的数据噪声并提高了检索效率。Hofmann[19]等人基于LSA方法提出了概率潜在语义分析模型(ProbabilisticLatentSemanticAnalysis,PLSA),引入了潜在中间变量并对应于主题的潜在语义层,利用多项式分布描述词频向量,对于文档主题的物理意义存在更好的解释性。基于LSA和PLSA算法模型对于文档的分解,Blie等[20]人于2003提出潜在狄利克雷函数模型(LatentDirichletAllocation,LDA),该算法全面利用贝叶斯模型对文档进行建模,并解决了PLSA存在的参数过拟合问题。LDA主题模型自建立以来收到广泛的关注并被广泛的应用于文本分析和数据挖掘中。Chen[21]等人提出了一种改进的LDA方法用于人脸识别;彭云[22]等人分析了中文商品评论中句法、语义和语境等多个方面的关联并将其作为约束改进了传统LDA模型,提出了一种对于细粒度情感词特征提取更有效的主题挖掘模型。Sun[23]等人利用LDA计算特征项语义分布并将之引入到文本分词中,对于中文自然语言分词有较好的效果。韩晓晖[24]等人在Web低质量文本评论筛选问题中改进LDA模型,在精确率、查全率和F1值上均有较好的表现。Tasci[25]考虑传统的向量空间模型有较高的维度,利用LDA方案提取文本特征越减维度并减少噪声,有较好的文本分类效果。最近一些研究针对病历中文本处理方法对智能诊断结果的影响,以及临床路径主题变迁进行了积极的探索。张思奇[26]等总结了病历记录内容和特点并对其形成原因进行了分析总结,提出了混合多模态数据的预处理方法。金涛等[27]引入了基于本体和主题模型的病历文本处理方法,高质量的发现临床路径。ChenCH[28]等使用文本和图像挖掘技术分析临床诊断数据,杨静等[29]基于敏感病症频数统计的数据分层算法探索了偏头痛中西医临床诊疗规律。尹琳琳等[30]应用文本挖掘方法分析了现代中医药诊疗高血压的主要策略。杨静等[31]根据根据词频分析了冠心病的临床用药规律。Chang等[32]根据上下文感知方法在EMR中跟踪糖尿病并发症发病症状。李毅等[33]利用本体进行病历语义信息挖掘。杨锦锋等[34]讨论了电子病3 1绪论历文本的语言特点和结构特点并分析了电子病历命名实体识别、实体修饰识别和实体关系抽取研究的具体任务和对应任务的主要研究方法。上述研究方法主要针对单一疾病的研究,未能有效刻画多种并发症的相互影响关系,不适用于多种糖尿病并发症预测研究。糖尿病并发症模型研究分为单一和多种糖尿病并发症预测。糖尿病并发症种类繁多,影响因素复杂,但对于单一并发症预测研究相对简单,预测模型主要基于临床检查数据并应用逻辑回归、决策树、神经网络等机器学习预测并发症发生概率。多种并发症预测模型旨在预测下一个时间段内患者可能患有的并发症发生可能性,符合并发症多样性实际特征。1.3论文研究内容及组织架构本文以安徽医科大学第一附属医院内分泌科室近3年来糖尿病患者的住院病历为数据来源,考虑相似的糖尿病患者在病历上具有相似性的基础上,利用改进的主题挖掘算法将患者病程记录特征映射到主题模型上,针对病程记录的主题模型进行疾病发现时的数据特征,提出基于相似约束LDA模型的糖尿病并发症发现模型。本文组织架构如下:第一章主要介绍了糖尿病并发症发现的研究背景和意义,然后分析了医学文本挖掘、并发症预测模型以及文本主题模型的国内外研究现状,最后概括了本文的主要内容和组织结构。第二章主要介绍了目前临床上糖尿病的几种常见的并发症研究现状、辅助诊断方法文本主题挖掘模型以及数据采集的相关理论,该章节为后面的章节进行了理论铺垫,并形成对于并发症预测的初步认识。第三章介绍了一种改进型的LDA主题模型,将传统LDA主题模型进行改进并应用到并发症症状表示,利用两两相似患者间病历的相似程度对潜在主题挖掘过程提供约束,降低了病历非结构化文档表示复杂程度。并使用传统主题模型度量指标和本文考虑的病历相似性进行性能比较。第四章介绍了一种基于主题模型的糖尿病并发症预测方法,通过使用第三章的改进型LDA主题模型,对病历文本中病程记录进行主题挖掘,随后针对病程记录的主题分布的特点进行并发症发现模型构建,通过敏感性、特异性和准确率三个指标进行模型比较。第五章为总结与展望,总结了本文的主要研究工作,并对下一步的研究方向进行了展望。4 2相关理论技术2相关理论技术2.1糖尿病并发症研究糖尿病是一种慢性疾病,当胰腺不能继续制造胰岛素,或者身体不能有效的利用身体内的胰岛素,就会产生糖尿病,遗传和环境等多个复杂因素之间相互影响导致了糖尿病的产生。糖尿病的主要生理指标是高血糖和糖尿,主要临床表现为“三多一少”,即多饮、多尿、多食和体重减少,但“三多一少”症状主要出现在糖尿病典型或晚期,早期糖尿病患者只有通过定期测定血糖(包括空腹前和空腹后),才能有效的检出。长期高血糖将会对患者心脏、血管、眼睛、肾脏、神经和牙齿造成严重损伤,也拥有较高的感染风险,导致患者有较大的风险患有其它生理疾病。糖尿病及其相关的各种并发症主要包括糖尿病微血管并发症、糖尿病性大血管病变和糖尿病足等,是导致糖尿病患者残疾和死亡的最重要原因,同时也是糖尿病防治领域关键的研究对象。糖尿病微血管并发症主要特征是在患者的微循环存在异常,主要表现为:糖尿病视网膜病变、糖尿病肾病和糖尿病周围神经病变。糖尿病视网膜病变是指糖尿病引起的视网膜血管受损并伴有视网膜结构改变,患者主诉常表现为视野模糊、眼花、看东西有重影或者眼斑,眼睛发红并有肿胀感等,晚期患者可能导致失明。糖尿病肾病指糖尿病发病患者长期高血压、高血糖和高蛋白饮食对肾脏造成的伤害,主要临床表现为不明原因的肾功能衰退,代谢紊乱,晚期可导致肾衰竭。糖尿病周围神经病变指在排除其他原因的情况下,糖尿病患者出现周围神经功能障碍的症状,临床多表现为上肢和下肢有异样感,以身体双侧症状对称性者较多。糖尿病性大血管病变主要为大中血管动脉粥样硬化,动脉壁中层钙化,内膜纤维增生,致使管腔狭窄[35],糖尿患者群中70%到80%最终死于心梗、冠心病、心肌梗死、性脑血管病是等大血管病变。主诉通常分为四个阶段:轻微主诉期表现为小腿或足部发凉、困倦;间歇性跛行期表现为行走时小腿、足部等肌肉痉挛疼痛;静息痛期休息期间伴有针刺痛、蚁走麻等感觉,常很难入睡;组织坏死期存在部分组织坏死,病情严重。糖尿病足指糖尿病患者下肢感染、溃疡形成和/或深部组织的破坏并伴有神经病变和不同程度的外周血管病变,是一种严重的致残、致死性糖尿病慢性并发症[36],主要临床症状表现为肢端溃疡坏疽,前期可能表现为间歇性跛行和休息痛。2.2数据挖掘技术医疗数据挖掘是数据挖掘方法在现实生活中的一种具体应用,能够将数学统计算法模型与临床医疗实践有机结合起来,现在主流的数据挖掘技术包括关联规则挖掘、分类分析以及聚类分析等,接下来我们将介绍这三种数据挖掘技术以及其5 2相关理论技术在辅助诊断实际应用中的效果度量标准。2.2.1关联规则挖掘关联规则挖掘指从已观察到的大量数据中,通过分析挖掘得到数据项之间可存在的潜在关系规则,形成诸如𝐴→𝐵的蕴含式,其中A和B分别称为关联规则的先导(left-hand-side,LHS)和后继(right-hand-side,RHS)。数据项之间的关联规则可以理解为根据相同事务中A项出现了,那么B项也会同时发生。设𝐼={𝑖1,𝑖2,…,𝑖𝑀}是全项集(包含了观察数据的所有项),𝑇={𝑡1,𝑡2,…,𝑡𝑁}是观察数据事务集合,且𝑇≠∅,事务𝑡𝑛是I的子集。设A是I的任一子集,若A包含在事务集合T中,则称事务T包含A。存在𝐴⊂𝐼,𝐵⊂𝐼,𝐴∩𝐵=∅,则认为存在一条关联规则表示为蕴含式𝐴→𝐵。关联规则的两个重要评价指标支持度和置信度,支持度表示由对于蕴含式𝐴→𝐵,𝑝(𝐴∩𝐵)的概率,即A事务和B事务同时出现的概率,表达式如下:𝑐𝑜𝑢𝑛𝑡(𝐴∩𝐵)support(𝐴→𝐵)=(2-1)𝑐𝑜𝑢𝑛𝑡(𝑇)置信度表示在A发生的事件里B事件发生的概率𝑝(𝐵|𝐴),表达式如下:𝑐𝑜𝑢𝑛𝑡(𝐴∩𝐵)confidence(𝐴→𝐵)=(2-2)𝑐𝑜𝑢𝑛𝑡(𝐴)例如:存在蕴含式(体温大于39摄氏度→头晕),其中support=40%,confidence=90%,表示在所有的患者中,有40%的人同时体温大于39摄氏度并且患有头晕症状,并且体温大于39摄氏度的患者中有90%的人犯有头晕症状。Apriori算法是关联规则算法挖掘常用算法,由R.Agrawal等学者于1993年发现并提出,核心思想是利用循环层次搜索来挖掘两阶段频繁项集。具体操作步骤如表2.1:表2.1Apriori算法挖掘过程Tab2.1TheminingprocessofalgorithmAprioriApriori算法挖掘过程1、扫描观察数据项集合,计算出1项集的支持度,得到频繁项集集合;2、从2项集开始循环处理直到没有最大项目集产生;2.1、第k步中,根据第k-1步中的频繁项集生成候选项目集;2.2、搜索观察数据项集和,得到k维最大频繁项集Apriori算法可以很好发现关联规则,但是随着数据集合的扩大,产生的非空项集数量呈指数增长。例如:共有100个糖尿病并发症种类,可以产生2100−1个非空项集,由此产生的规则更是不计其数。6 2相关理论技术2.2.2分类分析分类是一种有监督的数据分析方法,它可以利用训练数据集的知识抽取数据集合的分类模式,从而预测未知数据集的离散类别。分类分析中有逻辑回归、决策树分类方法、神经网络、贝叶斯分类方法、K-近邻方法、遗传算法等,这里我们介绍逻辑回归方法和K-近邻方法。逻辑回归又称逻辑回归分析,针对一个回归或者分类问题,构建预测函数并建立Loss函数,通过优化迭代方法求解出最优模型参数。逻辑回归可以看做一个特殊的线性回归模型,与线性回归模型不同的是逻辑回归模型的输出只在(0,1)之间取值。逻辑回归收敛速度快,适合于二分类问题,在很多领域得到了广泛的应用。例如在公共安全保障领域用来评价区域滑坡发生的概率,以地质学相关指标,如“高差”、“坡度”、“高程”、“河流距离”、“坡向”、“地层”等指标构建回归函数[37]。在医学领域逻辑回归模型通常用来预测疾病发生的概率或者评估疾病治疗、治病先关影响因子[38][39]。逻辑回归使用下式的logistic函数(sigmoid函数)作为预测函数。该函数如图2.1所示,以点(0,0.5)中心点,定义域为(−∞,+∞),值域为(0,1),函数值在中心点附近具有较大的增长速率。1𝑔(𝑧)=(2-3)1+𝑒−𝑧图2.1Sigmoid函数示图形Fig2.1ThegraphofSigmoidfunction逻辑回归中认为逻辑回归的问题是一个线性模型,假设实际问题中属性向量𝑥={𝑥(1),𝑥(2),…,𝑥(𝑖),…,𝑥(𝐼)},属性权重向量𝑊=[𝑤(1),𝑤(2),…,𝑤(𝑖),…,𝑤(𝐼)]𝑇,偏置项为b,那么训练数据为如下表达式:𝑧=𝑊𝑇∗𝑥+𝑏=∑𝐼𝑤𝑖∗𝑥𝑖+𝑏(2-4)𝑖=1构造预测函数如下表达式:(𝑥)=𝑔(𝑊𝑇1ℎ𝑤∗𝑥)=𝐼(2-5)−(∑𝑤𝑖∗𝑥𝑖+𝑏)1+𝑒𝑖=17 2相关理论技术设Ck为训练数据集的类别,预测解函数ℎ𝑤(𝑥)表示预测结果C1的后验概率,即𝑝(𝐶1|𝑥)=ℎ𝑤(𝑥),根据互斥事件概率之和为1得到𝑝(𝐶0|𝑥)=1−ℎ𝑤(𝑥)。逻辑回归求解需要构建损失函数𝐽(𝑤),如下表达式:通过求解损失函数最小化的优化问题得到模型的参数估计值:𝐽(𝑤)=∑𝑁(𝑦𝑛∗log(ℎ𝑤(𝑥𝑛))+(1−𝑦𝑛)∗log(1−ℎ𝑤(𝑥𝑛)))(2-6)𝑛=1为选择合适的w值使的损失函数𝐽(𝑤)达到最小化,常用梯度下降法[40]求解最优化问题,其核心思想是求解过程中沿着目标函数梯度下降的方向进行参数迭代更新,直至达到最优。逻辑回归具有可解释强、并且适用于连续型和类别型数据的优点,但对于自变量多重共线性较为敏感等缺点。KNN(k-NearestNeighbor)算法是数据挖掘分类中比较简单的分类技术之一,针对一个未知分类标签的样本,认为距离该距离最近的K样本属于同一个分类标签,那么认为该样本也有相同的样本标签。具体操作步骤如下:表2.2K-NN分类过程Tab2.2Theclassificationprocessofalgorithmk-NNK-NN分类过程1、设样本数据集𝑋={𝑋1,𝑋2,𝑋3,…,𝑋𝑁},初始近邻参数k;2、设训练样本数据集𝑋′={𝑋′,𝑋′,𝑋′,…,𝑋′},当前训练样本为𝑋′,分别计算当前训练样本123𝐼𝑖到样本数据集的距离,距离公式计算一般取欧式距离,选取前k个样本为优先级序列;计算优先级序列中的多数分类标签并将其作为当前样本𝑋′的分类标签;𝑖3、重复步骤2,直至遍历完训练样本集合𝑋′并计算误差率;4、重新设定近邻参数k,重复步骤2以及步骤3,选取误差率最小的k值。K近邻分类算法存在易于理解、适合对稀有事件以及多标签问题进行分类的优点。但是由于分类标准基于k个近邻样本中多数分类标签,因此对不均衡分类样本存在一定的误差,同时由于每个待分类样本都需要和所有已知标签样本进行距离计算造成计算量倍增,影响分类效率、2.2.3聚类分析聚类是一种无监督的数据分析方法,指将数据集内的数据按照同簇数据间距离小、不同簇数据距离较大的原则分为若干类簇,相同簇内样本相似性高,不同簇间样本相似性低,形成“高内聚、低耦合”特征,聚类的目的是在数据样本集中发现该类数据的特征。与分类分析方法最大的不同在于,分类问题通过学习已知分类属性训练样本的分类标准,对目标数据集划分到对应的类别中,而聚类分析需要从未知分类属性的数据集中寻找样本之间的关系。聚类方法可以分为基于层次的方法,8 2相关理论技术基于划分的方法,基于密度的方法等[41]。我们介绍基于划分的K-means聚类方法。K-means是最经典的基于划分的聚类算法,由MacQueen于1967年提出。其主要思想是首先找出数据集k个聚类中心,从而将数据集划分为k个聚类簇,使得相同聚类簇内样本到其聚类中心的距离平方和最小,但该方法对出事聚类中心点和聚类中心个数的选取敏感,其主要步骤如下表。K-means算法在医学领域得到了广泛的应用,利用大量的临床用药记录信息,可以用来归纳总结特定疾病的用药规律,得到药物使用模型[42][43];在医学图像病灶部位分割、症状识别等方面有高校的应用[44][45];表2.3K-means聚类过程Tab2.3Theclusteringprocessofalgorithmk-meansK-means聚类过程1、现存在数据集𝑋={𝑋1,𝑋2,𝑋3,…,𝑋𝑁},初始化聚类个数K,随机选取K个对象作为出事聚类中心C={𝐶1,𝐶2,𝐶3,…,𝐶𝐾};2、分别计算𝑋1,𝑋2,𝑋3,…,𝑋𝑁到𝐶1,𝐶2,𝐶3,…,𝐶𝐾的距离,将样本Xn归属到距离最小的中心点所在的簇,距离计算公式常采用欧氏距离;3、重新规划聚类中心点,𝐶=(𝑋𝑘+𝑋𝑘+⋯)𝑐𝑜𝑢𝑛𝑡(𝑉),其中𝑋𝑘为分配到聚类簇V𝑘12𝑘1k中的对象,得到新的聚类中心;4、重复步骤2和步骤3,直到聚类簇集合不在改变。2.2.4辅助诊断标准建立一个临床医学智能诊断算法,需要对其诊断性能优劣进行评估,有助于研究人员对再次基础上对算法做出不断改进。常用的度量指标有特异性、敏感性和准确率。特异性指无病病历组中被诊断算法诊断为阴性的病历数的比率,在医学领域被称为真阴性。其特异性越高,假阳性率也就越低,假阳性率等于误诊率。诊断特异性高的诊断算法用于诊断时其值越低,误诊的机会就越多。对于需要话费大量诊疗费用的重大疾病而言,诊断特异性高的诊断算法能够有效防止出现误诊的事件,可以极大缓解日益紧张的医患关系。特异性和假阳性有互补性,其具体表达式如下:SPETN/FNTN(2-7)敏感性指有病病历组中被诊断算法检出阳性病历数的比率,在医学领域被称为诊断的真阳性率。其敏感性越高,假阴性率也就越低,假阴性率等于漏诊率。因此,敏感性高的实验诊断用于疾病诊断时其值越高,漏诊的机会就越少。对于癌症、肿瘤等重大疾病而言,敏感性高的诊断模型有助于及早发现病情并做出防治,对缓9 2相关理论技术解或者治愈重大疾病具有重要的实际意义。敏感性和假阴性率具有互补性,其具体表达式如下:SENTP/TPPF(2-8)对于一个智能诊断算法而言,诊断结果的准确性最为重要,大部分诊断算法都会选择诊断准确率来评价诊断算法。在临床医学中,诊断准确率指诊断算法判断出的真阳性和真阴性占总病历数的比例。其中:真阳性指病历为有病的实验组内诊断算法所检测出阳性病历数的比率,真阴性指病历为无病的对照组内所检测出阴性人数的比率,也就是智能诊断算法所得到的诊断结果与病历给出的准确率计算公式如下:MAE(TPTN)/PN(2-9)以上各公式代表含义如下:表2.4度量指标参数说明Tab2.4Thedescriptionofmetricparameter病历组正常组阳性TP(真阳性)FN(假阳性)TP+FN阴性FP(假阴性)TN(真阴性)FP+TNTP+FPFN+TNTP+FP+FN+TN2.3文本预处理中文文本词语是连续并包含大量噪声的自然语言,在将自然语言转换成计算机可以理解的数据前还需要进行文本清洗,其中包括分词、去停止词、同义词转换等相关理论和技术,文本数据预处理主要步骤如下:医疗文档标准化文档分词去停止词同义词转换停止词同义词词典词库词林图2.2文本预处理步骤Fig2.2TheTextpreprocessingsteps2.3.1文本分词文本分词的目的是把连续的自然语言集合按照不同的规则划分为一个个单词集合,分词的精度严重影响后续的文本挖掘研究工作,目前主流的分词方法包括词典分词方法、理解分词方法,统计分词方法和组合分词方法[46]。10 2相关理论技术(1)词典分词方法中文语言处理不同于英语处理,中文文本中并没有如同英语中空格一样的分割符号,而且一句话的不同的断句方式往往能够表达不同含义,优秀的词典能够有效的突出领域关键字并帮助理解文档。词典分词方法借助事先定义好的领域词典,按照词典分词规则进行文档切割。比较常用的词典分词方法有正向最大匹配法、逆向最大匹配法、双向最大匹配法和最少切分。不同领域词典并不具备一般性,比如医疗文本领域词典多关注药物以及病症命名,而在线汽车评论的词典应该包括不同的汽车、零部件等名词,导致词典构建工作繁杂,重复率高。(2)理解分词方法理解分词方法利用计算机模拟人的自然语言理解过程,对文本同时进行语法、语义分析,并利用单词上下文信息进行语义消歧,从而完成文本分词。由于中文自然语言中通假字、一词多意以及语义笼统等现象,难以形成一个明晰的语义分析模型,造成理解分词过程中经常出现语义歧义的现象。目前常用的人工智能技术和统计模型技术来解决此问题,但分词过程需要借助专家知识对语法结构和语义模型进行预处理,因此理解分词方法的主要研究方向是无监督环境下解决语义歧义问题。(3)统计分词方法统计分词方法认为汉语词语组合是相对固定的,而词语和其上下文词语共现的频率能够很好的反应这种固定关系。该方法通过概率学相关知识统计文本中各单词贡献关系,常用的模型包括:N-Gram模型,最大概率分词模型、最大熵分词模型、马尔科夫链模型、有向图模型等。该方法能够很好的发现新词语,但是模型需要大量的文本进行训练。(4)组合分词方法以上三总分词方法都有各自的优缺点,将以上三种方法进行组合进行文本分词可以得到很好的分词效果,目前字典与统计、分词与词性标注方法组合的尝试。常用的中文分词工具包括:中科院分词工具ICTCLA、哈工大LTP云、Hankcs的HanLP、基于java的IKAnalyzer和基于python的jieba分词等。本文研究的医疗文本中,存在大量诸如“糖尿病”、“糖尿病肾病”、“肾病”、“硝苯地平”、“复方氨林巴比妥注射液”等专业医疗词汇,对分词的准确性造成了严重干扰,因此,本文对中文词典进行扩充,添加专业医疗词典。2.3.2去停止词停止词指文本中大量存在但实际意义不高的词语,中文语言环境中停止词通常包括两种,一种是“的”、“既然”、“那么”之类的冠词、介词、副词或者标点符号等,另一种是和挖掘目标基本无关的单词,例如病历中出现的医生名称等。去停11 2相关理论技术止词不当会导致出现频率过高的无效单词代替正常词语成为关键词,因此去停止词工作对高效完成文本挖掘目标具有重大意义。去停止词方法常借助于停用词表,停用词表是指包含所需要停用词的单词集合,根据停用词分类可以讲停用词表分为两类,一类是通用的停用词表,包含中文语言环境中出现的连接词等,另一类是专业停用词表,需要根据文本挖掘目的和研究领域特点预先进行构建。2.3.3同义词转换同义词转换将相同词语的不同表示形式归一为相同的词语,可以有效减少词语向量的维度。通常利用同义词林来识别相同意义的单词,同义词林里面的单词组都是拥有强相关的单词组,比如医学领域的“舒乐安定”之于“艾司唑仑”、“心得安”之于“普萘洛尔”和“安体舒通”之于“螺内酯”,构建一个同义词林需要考虑到文本处理的目标和专业领域知识,更多的是语义相同名词。2.4文本表示自然语言是计算机无法直接识别的一种符号信息,对文本进行分析挖掘需要对文本进行处理,将其处理为计算机能够理解的数据,然而医疗信息系统中获取的文本通常都是人为写入的,具有非结构化和多样性等特征,需要有专门的表示方法将之转换为实数形式的数学模型。医疗文本中包含描述性特征文本和语义性特征文本,描述性特征文本指存在类似于“key-value”结构的文本,例如:年龄30岁,性别女;这类文本的特点具有良好的语义表达结构能够清晰的表达语义信息,其表示方法较为容易转换。语义性特征文本指文本集中大量存在的内容描写、文本标题等不规范的文字描述,医疗信息系统中记录的多是这种没有固定形式和结构的文本,本文主要讨论语义性特征文本。一个文档最终表示为一组或多组数据,需要将单词表示为一种数学模式实数或者向量。文本表示模型按照单词的数据维度可以分为独热(One-hotRepresentation)模型和词向量(DistributedRepresentation)模型。2.4.1独热模型One-hot模型将文档中的每个单词、字或者词组表示为一个特征,一篇文档就是长度为所有在文本集合中出现特征项数量的一维向量,其基础依赖于词袋模型(bagofwords)。进而可以依赖向量之间的数学关系运算进而计算文本语义之间相似度的计算。常用的one-hot模型有布尔模型、概率模型和向量空间模型(vectorspacemodel)。布尔模型是基于特征项的匹配模型,是向量空间模型的一个特例,根据特征项是否出现在文档中从而将其权重取值为1或0。例如:x1={我爱中国}和x2={我是中国人},所有特征项集合为{我,爱,是,中,国,人},x1和x2就可以分别表示为x1={110110}和x2={101111};向量空间模型将单词的权重与其出现的频率相关联,特征项权重计算方法为TF-IDF公式,计算表达式如下:12 2相关理论技术𝑁𝑡𝑓(𝜔𝑚𝑛)∗𝑙𝑜𝑔(𝑑𝑚𝑛+1)𝑡𝑓𝑖𝑑𝑓(𝜔𝑚𝑛)=(2-10)2𝑁√∑(𝑡𝑓(𝜔𝑚𝑛)∗𝑙𝑜𝑔(𝑑𝑚𝑛+1))其中:𝑡𝑓(𝜔𝑚𝑛)代表文档m中特征项𝜔𝑚𝑛出现的频率,N表示文档集总数,𝑑𝑚𝑛表示包含特征项𝜔𝑚𝑛的文档总数。𝑡𝑓𝑖𝑑𝑓(𝜔𝑚𝑛)为单词𝜔𝑚𝑛在文档m中的权重,计入向量空间模型。该表达方式同时考虑了特征项在单个文档中的重要程度以及在文档集合中的权重。One-hot模型构建相对简单,主要通过在文档集合中进行特征项的数学统计完成文本的表示。但是其缺点是没有考虑特征项之间相对的位置关系,在现实生活中,文本单词之间在语义、语法等方面存在语义上的联系关系,One-hot模型生成的文本表示模型会损失特征项之间复杂的语义关系。除此之外,由于文本特征向量维度于文本集合中出现的单词数量相等,很容易造成数据维度灾难。2.4.2词向量模型词向量模型最早由Hinton[47]于1986年提出,该方法将文档中的单词映射到一个维数较低的空间中,有效的改进了One-Hot文本表示模型明显丢失了单词之间语义相关性的问题。Word2Vec模型是谷歌于2013年开源推出的一个用于获取词向量的工具包,主要应用CBOW模型和Skip-Gram模型,Word2Vec模型将单词映射成一维向量,进而有效保存了不同单词之间的相关性。CBOW模型结构图如下:输入层.........WV*NWV*NWV*N隐藏层V维...W'V*N输出层N维.........yi图2.3CBOW模型结构示意图Fig2.3ThestructurediagramofmodelCBOW其中:输入层为单词wt的上下文单词wt-1或wt+1,用one-hot表示形式,向量维度为出现单词数量,单词向量空间维度为V,W′V*N为输入层共享权重参数,W𝑉∗𝑁为输出层共享权重参数,输出层为上下文wt-1或wt+1出现单词wt的概率。其中我们预期得到的词向量为隐藏层中的向量。通常情况下,仅仅以相邻上下文进行Word2vec训练得到的单词并不是很准确,实际训练过程中可以挑选目标单词上下不同距离的单词。词向量模型的优点是可以描述不同单词之间的语义关系,相似语义关系的单词词向量之间距离也较小。13 3考虑相似性的病历文本主题分析方法3考虑相似性的病历文本主题分析方法随着通信和互联网技术的快速发展,医院信息系统已经成为覆盖医院包括记录患者诊疗过程、展示患者过往病史和诊断用药在内所有业务的重要平台。信息系统中存在着大量具有高度价值的结构化和非结构化诊疗数据的病历信息,使得大量挖掘医疗信息系统中存在的关联关系成为可能。糖尿病是一种致病因素复杂、防治过程困难并对身体危害重大的慢性疾病,由糖尿病导致的长期高血糖会对身体各个器官造成不同程度的损伤,从而引起种类繁多的糖尿病并发症发生。糖尿病患者的历史病历中发现潜在的诊疗过程主题,有助于在不同的糖尿病并发症组合的诊疗过程中发现不同糖尿病并发症之间的区别,分析其内在的诊疗活动与并发症之间的关联规律,从而为后续糖尿病并发症识别、预测和临床路径挖掘等诸多领域的研究提供坚实的基础。目前主题模型大多应用于在线社交媒体领域的网络舆情主题演化分析,根据不同时间段的网络主题分布有效监控网络舆情变化态势,并积极有效的引导其发展方向[48][49]。临床诊疗领域主要应用主题模型分析病历文本中疾病-用药和疾病-症状之间的诊治规律[50][51][52],这些病历文本之间是相互独立的,即病历文本的产生并不与其他文本的相关。然而在患者住院过程中,患者每天的治疗方案受到之前医生对相似患者做出的诊断方案的影响,并且患有同一疾病不同患者的病情发展也具有相似性。另一方面,由于在个体之间的存在的诸如体质、性别、男女、年龄、病情阶段等方面的差异,特别是糖尿病多种并发症同时存在时,医生对于不同的患者会有不同的诊疗方案。但是若患者基本条件和所患疾病具有相似的特征,那么他们的诊疗方案也会存在相似部分。也即相似患者的诊断措施和临床表征是存在一定相似性的,这种相似性体现在患者住院过程中产生的所有诊疗记录中。例如:糖尿病患者会同时患有多种糖尿病并发症,但相同的并发症的诊疗方案和病情发展应该具有相似性。基于以上的问题,本文提出了一种基于病历相似度约束的MRS-LDA模型(MedicalRecordSimilaritybasedLatentDirichletAllocation)。其基本思想是:对每个病历每天的病程记录作为训练单元进行训练,相似病历的病程记录-主题分布距离较为接近。3.1基于LDA模型的病历文本主题分析方法3.1.1LDA病历文本建模潜在狄利克雷分布(LatentDirichletAllocation)是最近比较流行的主题模型之一,可以对文本集合进行无监督聚类,寻找文档隐含的主题。LDA模型改进了PLSA模型,并利用隐含主题向量来表示文档,被广泛应用于自然语言处理、文本挖掘、14 3考虑相似性的病历文本主题分析方法文本搜索和知识发现等多个领域。图3.1LDA算法结构示意图Fig3.1ThestructurediagramofalgorithmLDALDA模型目的是寻找文档主题,包含文档,主题和词三层结构,认为每篇文档都有各自主题相关的概率分布,而文档中单词是由不同主题分布抽样得到如图3.1。具体形式如下:∑𝑝(单词|文档)=∑𝑝(单词|主题)∗𝑝(主题|文档)(3.1)利用LDA模型对病历文建模,设有病历文档总数M,第m篇病历文档中存在Nm个临床描述单词,每个单词表示为𝜔𝑚,𝑛,根据词袋模型(bagofwords)将文档和单词表示为“文档-主题”分布和“主题-词”分布。在病历文本中主题可以理解为用药、观察、症状、手术等临床护理手段的统称,每篇病历文本是多个主题的多项式分布,也即每个病历是由临床护理过程中的多个步骤组合而成。表3.1LDA模型生成病历文本步骤Tab3.1TheprocessofgeneratemedicalrecordusingLDAmodelLDA模型生成病历文本步骤1、现有M篇病历,每个病历含有Nm个单词,对于病历m中第n个临床描述单词𝜔𝑚,𝑛,设其主题为zm,n;2、生成先验分布参数为的狄利克雷分布,作为病历m的“文档-主题”分布,从“文档m-主题”分布中抽样得到主题zm,n;m3、生成先验分布参数为的狄利克雷分布,作为主题k的“主题-词”分布;k4、当临床描述单词𝜔𝑚,𝑛主题为zm,n时,意味从“主题-词”分布kkzmn,中抽样出临床描述单词𝜔𝑚,𝑛。每个主题是多个单词的多项式分布,意味着每个临床护理步骤包含多个临床实际操作。这两个分布均符合狄利克雷参数为α和β先验分布。LDA模型能够很好模拟病历文本产生过程中医生的思维过程,其具体过程如表3.1所示。15 3考虑相似性的病历文本主题分析方法3.1.2LDA推理算法LDA模型推理的目的是通过当前测试文档集计算出LDA模型中的未知参数(,),并根据(,)计算模型中的“主题-词”分布和“文档-主题”分布。计算过程中可以直接推导“主题-词”分布和“文档-主题”分布,不需要计算(,)。LDA参数推理常用的算法包括Gibbs抽样和EM变分两种,下面介绍两种方法:GibbsSampling是目前常用的LDA推理算法,其算法核心思想是马尔科夫蒙特卡洛(MCMC)方法,在每一次迭代过程中只改变一个维度的参数值,直到收敛输出待估计参数值。根据狄利克雷参数估计,推理可得到:(𝑘)𝑛𝑚,¬𝑖+𝛼𝑘𝜃̂𝑚𝑘=𝐾(𝑘)(3.2)∑𝑘=1(𝑛𝑚,¬𝑖+𝛼𝑘)(𝑡)𝑛𝑘,¬𝑖+𝛽𝑡𝜑̂𝑘𝑡=𝑉(𝑡)(3.3)∑𝑡=1(𝑛𝑘,¬𝑖+𝛽𝑡)𝑝(𝑧𝑖=𝑘|𝑧⃗¬𝑖,𝑤⃗⃗⃗)∝𝜃̂𝑚𝑘∗𝜑̂𝑘𝑡(3.4)其中:𝜃̂𝑚𝑘指“文档-主题”分布,𝜑̂𝑘𝑡指“主题-单词”分布,𝑝(𝑧𝑖=𝑘|𝑧⃗¬𝑖,𝑤⃗⃗⃗)即单词𝑤⃗⃗⃗分布为k的概率,i为一个数据对(m,n),表示第m个文档中的第n个词。由于共有K个主题,因此需要进行K次迭代。采用训练步骤如表3.2:表3.2LDA算法训练过程Tab3.2ThetrainingprocessofalgorithmLDALDA模型训练过程1、随机进行主题初始化,对文本集每篇文档中每个单词随机赋予主题编号z;2、重新扫描文本集,对每个单词按照𝑝(𝑧𝑖=𝑘|𝑧⃗¬𝑖,𝑤⃗⃗⃗)重新采样主题;3、重复步骤2直到GibbsSampling收敛;4、统计语料库中主题-单词共现频率矩阵,计算得到“文档-主题”分布和“主题-单词”分布。EM变分算法主要思想在于寻找合适的参数,使得文本集中所观测到的主题-单词分布概率最大,类似于极大似然估计问题。EM变分算法分为两个迭代步骤:变分E-step考虑原步骤中后验概率𝑝(𝑤|𝛼,𝛽)公式求导困难,引入变分参数(𝛾,𝜑)求得近似后验概率分布𝑞(𝜃,𝑧|𝛾,𝜑)。变分M-step根据变分E-step的变分参数最大化近似函数函数𝐿(𝛾,𝜑|𝛼,𝛽)。其中,先验狄利克雷分布参数(𝛼,𝛽)决定了“主题-单词”分布和“文档-主题”分布𝜃,𝑤代表单词,𝑧代表主题。16 3考虑相似性的病历文本主题分析方法3.2考虑病历相似性的改进型主题分析3.2.1病历相似性约束病历相似性约束构建可以理解为收集两两间距离小于某个阈值的病历集合。由于在一个人的病历包括入院记录、出院记录、病程记录、会诊记录等类目繁多的检查记录,如果计算这些文字记录之间的相似性会导致工作量极大地增加,因此本文考虑入院诊断之间的相似性进行距离计算。由于糖尿病会导致多种并发症的出现,所以在糖尿病的病历的入院诊断中,会有多种并发症的出现,例如表3.3,处于对患者隐私保护考虑,对患者姓名进行了替代处理。表3.3糖尿病患者并发症示例Tab3.3Diabeticcomplicationsexamples序号姓名性别年龄入院诊断1张一男401型糖尿病伴多并发症2李一女55糖尿病伴多并发症、糖尿病伴周围血管病变3陈一女572型糖尿病、2型糖尿病性酮症4金一男27糖尿病、糖尿病性肾病5沐一女44糖尿病、高血压病(3级很高危)高脂血症6李二男662型糖尿病伴多并发症、2型糖尿病性酮症由于不同年龄段人群对糖尿病及其并发症表征也存在差异,并且不同年龄段人群对药剂的承受能力不尽相同,因此在临床诊疗的过程中也会存在表征、用药等方面的不同[53],所以在计算病历相似性的时候需要考虑患者的基本信息的不同,本文将患者姓名和年龄纳入病历相似性计算因素中。在MRS-LDA中,考虑将相同性别之间性别属性距离为1,不同性别之间性别属性距离为0,如下表达式:1𝑠𝑒𝑥𝑖=𝑠𝑒𝑥𝑗𝑑(𝑠𝑒𝑥𝑖,𝑠𝑒𝑥𝑗)={(3.5)0𝑠𝑒𝑥𝑖≠𝑠𝑒𝑥𝑗其中,sex𝑖,sex𝑗表示为不同两个人的性别。考虑到不同年龄之间具有层级关系,并且对于同等年龄分层中症状表征以及用药差异并不明显,因此我们根据国际人口年龄结构将年龄划分为4个层级,分别为0~17岁的少年儿童,表示为1;18~45岁青年,表示为46~59岁中年人表示为3,;以及59岁以上老年,表示为4。那么两两年龄所属分层越靠近则距离越小,所属分层越远则距离越大,具体公式为如下表达式:|𝑓𝑙𝑎𝑔𝑖−𝑓𝑙𝑎𝑔𝑗|𝑑(𝑎𝑔𝑒𝑖,𝑎𝑔𝑒𝑗)=1−(3.6)3其中,age𝑖,age𝑗表示为不同两个人的年龄,𝑓𝑙𝑎𝑔𝑖,𝑓𝑙𝑎𝑔𝑗表示不同年龄所属17 3考虑相似性的病历文本主题分析方法分层。由于诊断结果是离散型的文本化描述,因此对于不同的诊断结果之间考虑采用Jaccard距离计算它们之间的距离。具体表达式如下:(𝑑𝑖𝑎𝑖∩𝑑𝑖𝑎𝑗)𝑑(𝑑𝑖𝑎𝑖,𝑑𝑖𝑎𝑗)=(3.7)(𝑑𝑖𝑎𝑖∪𝑑𝑖𝑎𝑗)其中,𝑑𝑖𝑎𝑖,𝑑𝑖𝑎𝑗表示病历i和病历j的出院诊断布尔向量空间,大量本文考虑糖尿病并发症之间的病症。例如:𝑑𝑖𝑎1={01101},dia2={11101},那么𝑑(𝑑𝑖𝑎𝑖,𝑑𝑖𝑎𝑗)=45=0.8。同时考虑年龄、性别以及出院诊断,分别设置权重调节调节参数μ1,μ2,μ3,病历之间相似度计算表达式如下:𝑠𝑖𝑚(𝑇𝑖,𝑇𝑗)=𝜇1∗𝑑(𝑠𝑒𝑥𝑖,𝑠𝑒𝑥𝑗)+𝜇2∗𝑑(𝑎𝑔𝑒𝑖,𝑎𝑔𝑒𝑗)+𝜇3∗𝑑(𝑑𝑖𝑎𝑖,𝑑𝑖𝑎𝑗)(3.8)𝜇1+𝜇2+𝜇3=1(3.9)0≤𝜇1,𝜇2,𝜇3≤1(3.10)对观察到的文档进完成两两之间相似性计算过后,将相似度大于最高阈值τ的病历对作为病历之间的相似性约束病历集合,记做𝐷={(𝑇𝑖,𝑇𝑗)|𝑖,𝑗∈[1,𝑀]}。3.2.2MRS-LDA在LDA模型中,其迭代目标是最大化词语出现概率𝑝(𝑍,𝑊|𝛼,𝛽),可以有效满足糖尿病病程记录的数据特征,那么会导致相似病历的主题分布出现较大差异,因此我们无法根据病历主题分布对病历进行有效的统计分析。我们的目标是建立一个满足病历相似性约束的主题模型,因此,我们通过改变Gibbs抽样收敛条件策略来实现这一目标。病历相似性约束条件中,由于每个病历中会同时存在多个按时间排序的病程记录,病历相似性计算应该考虑不同病程记录集合之间的相似性,即相似病历集合D中元素的不同病程记录集合的文档-主题分布尽可能相似。设𝑇𝑚为编号为病历m,其中存在𝐿个病程记录,其病程记录的主题集合表示为𝜃𝑟𝑚=𝑚{𝜃,𝜃,…,𝜃}。存在两个病历的病程记录主题集合𝜃𝑟𝑚,𝜃𝑟𝑛,我们利用两𝑚,1𝑚,2𝑚,𝐿𝑚两主题分布距离均值计算病历相似性约束,具体表示如下:𝐿𝑚𝐿𝑛𝑚𝑛𝑑(∑𝑙𝑚=1∑𝑙𝑛=1𝑑(𝜃𝑚,𝐿𝑚,𝜃𝑛,𝐿𝑛))𝑑𝑖𝑠(𝜃𝑟,𝜃𝑟)=(3.11)𝐿𝑚∗𝐿𝑛其中,𝑑(𝜃,𝜃)表示为两个向量之间的欧式距离,𝑑𝑖𝑠(𝜃𝑟𝑚,𝜃𝑟𝑛)越大表𝑚,𝐿𝑚𝑛,𝐿𝑛示相似度越低,那么最大目标函数可以修改为:𝐿(𝛼,𝛽)=𝑙𝑜𝑔(𝑝(𝑍,𝑊|𝛼,𝛽))−𝛾∑(𝜃𝑟𝑚,𝜃𝑟𝑛)∈𝐷𝑑𝑖𝑠(𝜃𝑟𝑚,𝜃𝑟𝑛)(3.12)GibbsSampling是常用的主题模型推导模型,但其并没有考虑到文档相似性约18 3考虑相似性的病历文本主题分析方法束问题,因此我们采用Gibbs-EM[54]迭代方法进行模型推导,其将文档-主题分布𝛼𝑚修改为正太分布𝜇𝑚,𝑒𝜇𝑚,𝑘𝛼𝑚𝑘=∑𝐾𝑒𝜇𝑚,𝑘1(3.13)𝑘1=1其中,𝜇𝑚𝑘代表文档m属于主题k的概率,既然认为𝜇𝑚服从标准正太分布,则改进最大目标函数如下表达:𝐿(𝜇)=𝑙𝑜𝑔(𝑝(𝑍,𝑊|𝜇,𝛽))+𝑙𝑜𝑔𝑝(𝜇|(0,𝑁(0,1)))−𝛾∗∑(𝜃𝑟𝑚,𝜃𝑟𝑛)∈𝐷𝑑𝑖𝑠(𝜃𝑟𝑚,𝜃𝑟𝑛)(3.14)其中,不同于原始Gibbs采样方法,本方法在采样过程中先固定文档主题分布𝛼𝑚,那么Gibbs-EM迭代函数表达式为:(𝑘)𝑛𝑖+𝛽𝑖−1𝑝(𝑧𝑖=𝑘|𝑧⃗¬𝑖,𝑤⃗⃗⃗,𝛼,𝛽)∝𝑉(𝑘)∗𝛼𝑚𝑘(3.15)∑𝑡=1(𝑛𝑡+𝛽𝑡)−1(𝑘)其中,𝑛代表整个文本集中主题为k的单词i的数量,由于采用正太分布来𝑖代替原来的𝛼,所以公式可以用随机梯度下降方法进行推导,模型训练过程如表3.4:表3.4Gibbs-EM模型训练过程Tab3.4ThetrainingprocessofGibbs-EMmodelGibbs-EM模型训练过程输入:M篇文档,K个主题,文档集合单词总数V,常数𝛽=0.1输出:“文档-主题”分布𝜃̂𝑘,“主题-单词”分布𝜃̂𝑡𝑚𝑘1、随机进行参数初始化,对M篇(所有)文档中每篇文档中每个单词随机赋予主题编号z,对M篇(所有)文档中随机赋予主题参数μ;2、进行E-step迭代:固定参数𝜃𝑘,根据𝑝(𝑧=𝑘|𝑧⃗,𝑤⃗⃗⃗,𝛼,𝛽)对单词主题进行采样,对文𝑚𝑖¬𝑖本进行迭代直到收敛;3、进行M-Step迭代:(1)计算目标函数𝐿(𝜇);(2)通过随机梯度下降方法迭代𝜇𝑚,𝑘:Form=1:M:Fork=1:Ktt∂(L(μ))μm,k(n+1)=μm,k(n)−σ∗μtm,k(n)EndEnd(3)重新计算𝐿(𝜇),若目标函数不收敛,则调回步骤(1);若目标函数收敛,则记下最有𝜇𝑚,𝑘,M-step结束;4、计算𝜃̂𝑘和𝜃̂𝑡,若收敛则输出;否则返回步骤2,若重复EM步骤。𝑚𝑘19 3考虑相似性的病历文本主题分析方法3.2.3模型相关度量LDA方法对文本集建模后,需要对模型的优劣进行评估,评估的标准有模型的泛化能力,主题内topwords的一致性,不同主题间的耦合性,主题在文本中的重要性等。有效的对LDA模型结果进行度量,可以帮助研究人员对LDA模型进行优化改进。(1)困惑度LDA建模最初实验分析用困惑度作为模型评判标准,困惑度主要用来度量LDA建模的泛化程度,即根据已有文本集建立的模型对未知文本主题挖掘的适用能力,困惑度越小模型泛化能力越好,模型推广范围越大,计算表达式如下:∑𝑀𝑚=1𝑙𝑜𝑔𝑝(𝑊𝑚)𝑝𝑒𝑟𝑝𝑙𝑒𝑥𝑖𝑡𝑦(𝑀𝑡𝑒𝑠𝑡)=𝑒𝑥𝑝{−𝑀}(3.15)∑𝑚=1𝑁𝑚其中:𝑚𝑡𝑒𝑠𝑡代表测试文本集,𝑀代表测试文本集的文档数量,𝑁𝑚代表第m篇文档的大小,即包含单词的个数,𝑝(𝑊𝑚)为文档m中词的概率。LDA建模时需要设置主题数量,对于不同主题数训练出来的模型,可以根据困惑度的大小来选择最优初始参数。(2)PMI-Score困惑度主要针对模型的泛化程度进行指标衡量,存在不能衡量主题一致性的问题[56],点交互信息(PMI-score)通过计算各个主题-单词分布下的单词在新的样本中出现的概率进行统计,衡量测试集与训练集中主题的一致性,计算如下列表达式:1𝑃𝑀𝐼_𝑆𝑐𝑜𝑟𝑒(𝑊)=𝑚𝑒𝑑𝑖𝑎𝑛(∑𝑃𝑀𝐼(𝑤𝑖,𝑤𝑗))(3.16)𝑁(𝑁−1)𝑝(𝑤𝑖,𝑤𝑗)𝑃𝑀𝐼(𝑤𝑖,𝑤𝑗)=𝑙𝑜𝑔(3.17)𝑝(𝑤𝑖)∗𝑝(𝑤𝑗)其中:W为一个主题下,概率最大前N个单词集合。(𝑤𝑖,𝑤𝑗)是W中的单词组合而成的单词对,𝑝(𝑤𝑖,𝑤𝑗)为测试集中p(𝑤𝑖,𝑤𝑗)单词对出现的概率,𝑝(𝑤𝑖)为测试集中单词𝑤𝑖出现的概率,𝑝(𝑤𝑗)为测试集中单词𝑤𝑗出现的概率,PMI-Score值越大说明训练得到模型质量越好。(3)主题相似性主题相似性度量是计算不同主题下“主题-词”分布的相似性程度,常用方法是Kullback-Leibler(KL)距离[55]或Jensen-Shannon(JS)距离[56]。假设两个主题向量为𝜃⃗⃗⃗⃗𝑖和𝜃⃗⃗⃗𝑗⃗,KL距离表示两组主题向量之间的相对熵,KL距离计算表达式如下:𝜃𝑤𝐾𝐿(⃗𝜃⃗⃗⃗,𝜃⃗⃗⃗⃗)=∑𝜃𝑤∗log𝑖⃗𝜃⃗⃗⃗,𝜃⃗⃗⃗⃗≠0(3.18)𝑖𝑗𝑤∈𝑊𝑖𝜃𝑤𝑖𝑗𝑗可以看出,距离不满足对称性,即当𝜃⃗⃗⃗⃗𝑖≠𝜃⃗⃗⃗⃗𝑗时,𝐾𝐿(𝜃⃗⃗⃗⃗𝑖,𝜃⃗⃗⃗𝑗⃗)≠𝐾𝐿(𝜃⃗⃗⃗⃗𝑗,𝜃⃗⃗⃗⃗𝑖)。但主题相似性度量需要满足对称性,所以可以使用修正后的KL相似性:20 3考虑相似性的病历文本主题分析方法⃗⃗⃗⃗,𝜃⃗⃗⃗⃗)=𝐾𝐿(⃗𝜃⃗⃗⃗𝑖,𝜃⃗⃗⃗⃗𝑗⃗)+𝐾𝐿(𝜃⃗⃗⃗⃗𝑗⃗,𝜃⃗⃗⃗⃗𝑖)𝑠𝑖𝑚(𝜃𝑖𝑗(3.19)2KL距离计算不满足对称性,并且当𝜃⃗⃗⃗⃗𝑖,𝜃⃗⃗⃗𝑗⃗=0时需要在概率为0的点进行平滑处理,主题数量过多时,需要进行平滑处理的点也随之增多。JS距离是KL距离的一种变种,其计算表达式如下:⃗⃗⃗⃗,𝜃⃗⃗⃗⃗)=1⃗⃗⃗⃗⃗𝜃⃗⃗⃗𝑖+𝜃⃗⃗⃗⃗𝑗⃗1⃗⃗⃗⃗⃗𝜃⃗⃗⃗𝑖+𝜃⃗⃗⃗⃗𝑗⃗𝐽𝑆(𝜃𝑖𝑗𝐾𝐿(𝜃𝑖)+𝐾𝐿(𝜃𝑗)(3.20)2222JS散度在KL距离的基础上进行了改进,使其满足了对称性,并且最终值域范围为[0,1]。(4)主题强度主题强度指LDA模型寻找到的文本主题对于该文本集受到的关注程度,在线社交网络领域通常用其描述主题重要性随着时间变化的趋势,其计算表达式如下:𝜃𝑚𝑀𝑧𝑄(𝑧)=∑𝑚=1(3.21)𝑀其中:𝑄(𝑧)代表主题z的强度,M代表文档集大小,𝜃𝑚代表文档m中主题为𝑧z的单词的数量。在LDA推理过程中,首先需要对文档集中单词进行主题赋值,当LDA模型推理结束,即可得到不同主题强度值。(5)病历相似性约束以上诊断标准主要集中在对“主题-单词”分布质量的度量,本文从认为相同病历之间的主题分布具有相似性,因此,引入病历相似性约束标准:𝑆𝐼𝑀𝐷(𝑧)=∑𝑑𝑖𝑠(𝜃𝑟𝑚,𝜃𝑟𝑛)(𝜃𝑟𝑚,𝜃𝑟𝑛)∈𝐷(3.22)𝐿𝑚𝐿𝑛𝑑(∑𝑙𝑚=1∑𝑙𝑛=1𝑑(𝜃𝑚,𝐿𝑚,𝜃𝑛,𝐿𝑛))=∑(𝜃𝑟𝑚,𝜃𝑟𝑛)∈𝐷𝐿𝑚∗𝐿𝑛其中,𝑆𝐼𝑀𝐷(𝑧)代表整个文档集中相似性约束,D便是相似病历对结合。(6)其他指标对于不同领域的LDA建模方法,由于看待问题角度的差异存在一些与传统LDA度量指标不同的评判指标。徐啸[57]针对医学问题中的临床路径挖掘问题,认为每个临床阶段的主题下topwords应该具有一致性,并且同样主题需要覆盖该病种重要的诊疗项目。利用LDA模型或其改进模型进行分类,通常利用准确率、召回率和micro_F[58][59]1等进行模型度量。3.3实验结果及分析3.3.1数据集本章采用安徽医科大学第一附属医院内分泌科患者的住院病历作为数据集,21 3考虑相似性的病历文本主题分析方法该数据集包括了2015年至2017年总共1294个糖尿病患者的住院记录,其中男女患者病历个数比例大致相同为648:646,每份病历主要包括入院记录、病程记录(如图3.2)、会诊记录和出院记录等。这里我们选取入院记录中患者的性别、年龄和入院诊断作为病历相似性约束计算数据基础,利用医生在患者住院期间的病程记录进行相关主题分析。图3.2糖尿病患者病程记录Fig3.2Diabeticdiseasecourserecord图3.3男性患者糖尿病并发症数量分布图Fig3.3Thediabetescomplicationsdistributiongraphofmalepatients22 3考虑相似性的病历文本主题分析方法图3.4女性患者糖尿病并发症数量分布图Fig3.4Thediabetescomplicationsdistributiongraphoffemalepatients由图3.3和3.4可以看出在安徽医科大学第一附属医院接诊的糖尿病患病中入,根据入院诊断判别不同年龄段以及不同性别的患者在同时患有的并发症数量上有明显区别。其中,老年人同时患有的糖尿病并发症数量较其他年龄段的人数大大增加,中年人多同时患有3到5种并发症,青年人会有糖尿病发生,但并没有更多的并发症出现,幼儿患糖尿患者数较少。本文实验过程中做如下处理:(1)使用python爬虫方法,从1294位患者HTML格式的病历中分割入院记录、出院记录、病程记录等各个阶段的文本记录,同时剥离我们想要的患者信息、诊断结果以及病程记录文本。(2)构建词典和停止词词库,本文的研究内容是和医学相关的一些症状、药品、治疗方式等单词,除此之外病历文本中包含了大量对本文无关的单词,在统计了各个单词在病历中出现的频次之后,手动提取了12599个单词作为停止词添加到停止词库。同时,添加了ICD10中国的疾病名称作为补充的特征添加到了词典中。(3)利用python中的jieba分词作为分词工具,使用上述词典和停止词库进行分词和去除停止词操作。3.3.2结果及分析考虑到对病历文档进行主题挖掘中,主题数量对文本主题建模的影响以及相似度阈值不同带来的相似病历数量不同,在本实验中,我们视相似性约束阈值以及主题数量为调节参数,病历相似度阈值τ的设置为0.5至0.8,采用主题K=7,10,13,15,20,30,在以上各个参数下分别计算模型的PMI-Score和病历相似性约束。图3.5为本文MRS-LDA算法与LDA算法在不同的主题参数和不同相似度下23 3考虑相似性的病历文本主题分析方法相似度约束结果对比,其中横坐标为主题数量K,纵坐标为相似度约束指标SIM。与传统LDA主题发现算法中相比,本文提出的MRS-LDA算法有在病历相似度约束上有明显的优点。当主题相似度阈值一致时,可以看出伴随主题数量的增加,病历相似度约束有着不明显的下降,但MRA-LDA较传统LDA在病历相似度约束指标方面仍然存在较大优势。LDA-0.5MRSLDA-0.5LDA-0.61800MRSLDA-0.61600140012001000SIMD80060040020051015202530topicNum(a)resulton0.5and0.6LDA-0.740MRSLDA-0.7LDA-0.835MRSLDA-0.83025SIMD201510551015202530topicNum(b)resulton0.7and0.8图3.5主题数量-病历相似度变化关系Fig3.5Therelationshipbetweentopicamountandmedicalrecordsimilarity图3.6为本文MRS-LDA算法与LDA算法在不同的主题参数和不同相似度阈值下PIM-Score结果对比,其中横坐标为主题数量K,纵坐标为度量指标PIM-Score。与传统LDA主题挖掘方法相比,本文提出的MRS-LDA主题挖掘模型在PIM-Score度量指标上结果没有完全优于传统方法,但在主题数量K=15本方法普遍表现最24 3考虑相似性的病历文本主题分析方法好,并且在病历相似度阈值为0.5时比传统方法要好。图3.6主题数-PIMScore变化关系Fig3.6TherelationshipbetweentopicamountandPIM-Score从本文模型和传统LDA模型对于病历相似性约束以及PIM-Score这些度量指标进行实验对比,容易看出本模型在相似性约束度量指标上有很好的表现,在相同病历相似性阈值和主题数量下,本文模型得出的相似病历的主题分布之间的距离更小,能够更好的描述相似病历之间的存在的关联。这是因为传统模型并没有对医疗病历这一问题做出专业的区分,而本文模型能够在构造目标函数时添加了病历相似这一约束条件,从而使得相似病历之间的主题分布较为接近。同样由于此原因,本文提出的模型在PMI-score度量指标上相较于传统LDA模型较为接近,并且在部分参数上表现较好,这是由于在进行相思病历约束时对主题-单词分布形成了一定程度的干扰,但干扰幅度并不是很大。综上所述,本文模型能够很好适用于病历主题挖掘问题。3.4本章小结本章在分析文本挖掘对医疗诊断的影响以及潜在狄利克雷主题模型的建模过程和推理方法的基础上,设计了基于病历相似度约束的MRS-LDA模型。不仅仅考虑到不同病历之间相似度计算方法,而且确定了医疗文本主题建模目标、推理过程和模型相关度量指标。医疗文本主题建模能够清晰反映医疗诊断各个阶段诊断的侧重点以及病情演化过程,进一步肯定了医疗文本主题建模的重要性。该算法在进行主题挖掘时考虑了相似病历之间的主题相似性,从而提升了病历主题挖掘的科学性并在临床数据集上开展了相关实验,验证了算法的有效性。25 4基于主题模型的糖尿病并发症发现方法4基于主题模型的糖尿病并发症发现方法出入院诊断符合率是医院重要的诊断标准,指患者入院时医师检查确定的诊断与患者出院时确定的诊断相符的人数占总出院人数的比例[60]。医师会根据患者的入院诊断设计后续的临床诊断治疗方案,出院诊断符合率较低说明医师初步诊断的准确率较低,进而后续治疗方案与诊疗结果会因此受到些许影响,并存在一些症状不明显的疾病门诊过程中并不能做出准确诊断,需要住院观察症状才能做出确诊。因此在住院过程中,需要根据患者症状变化情况实时观察从而做出诊断,并将最终诊断结果记录于出院报告。疾病发现方法经过长时间的发展研究,已经成为医疗数据挖掘等领域的重要研究方向。传统的疾病发现主要有关联规则发现、分类分析以及聚类分析等,该类方法主要以结构化数据为研究基础,然而医疗信息数据多以XML形式的文本存储在医疗机构的信息系统中,需要经过复杂的数据结构化处理工作。另外,不同疾病的特征属性繁杂多样,结构化处理后的数据同样包含大量噪声,容易对并发症发现的精确性造成重大影响。综上所述,数据结构化处理和特征工程大大增加了传统医疗数据挖掘前期工作。针对以上提出的原因,本章将主题模型引入糖尿病并发症发现的研究中。基于主题模型生成思想,认为糖尿病病程记录是基于一些并发症有目的进行治疗并表现出特定的治疗结果,因此病程记录的潜在主题能够反映出相应的并发症特征,主题在时间上的演化过程能够反映不同的并发症治疗方案和病情随时间的演变情况。利用主题模型训练构建病程记录的主题向量空间,通过分类模型实现对糖尿病并发症发现。4.1糖尿病并发症发现整体框架在MRS-LDA潜在主题挖掘和分类算法等理论模型基础上,本章提出了一种基于主题模型的糖尿病并发症发现算法TDCDA(Topic-basedDiabetesComplicationDiscoveryAlgorithm)。TDCDA算法的基本思想是,考虑病历相似性约束的情况下挖掘患者病程记录的潜在主题,由于入院诊断和出院诊断的不一致性,利用病程记录的潜在主题进行分类推导完成对患者入院时未诊出的疾病进行诊断。TDCDA算法总体框架如图所示。首先对病历数据集进行自然语言处理并计算两两病历之间的相似性;然后在此基础上根据MRS-LDA模型计算每份病历中的每个病程记录的潜在主题;由于患者在住院过程中会产生多个病程记录,经过主题挖掘后每份病历会出现多个病程记录-主题分布,所以接下来需要联合这些26 4基于主题模型的糖尿病并发症发现方法主题分布构建病程记录向量空间;再者每个患者所患的并发症并不是单一的,所以需要对并发症进行多标签转换;进而利用出院记录诊断结果作为分类标签进行并发症发现模型训练,最后根据特异性、敏感性以及准确率等度量指标进行模型性能评估。病历集合数据预处理相似病历计算MRS-LDA主题发现病程记录向量空间并发症多标签转换并发症发现模型训练模型性能评估图4.1基于主题的糖尿病并发症发现模型Fig4.1Topic-baseddiabetescomplicationdiscoverymodel4.2基于病历主题分析的糖尿病并发症发现4.2.1向量空间建模患者在住院过程中随时间的增长会产生一系列住院病程记录,在经过MRS-LDA算法处理后会产生时间主题序列。本文提及的时间主题序列与传统的机器学习分类问题中的数据基础有很大的不同,传统分类问题要求每条数据是一维并且等长的,时间序列主题分类问题则是一系列不等长的主题序列,本文的主题在每个时间片上是K维向量而并非实数,这就导致了K近邻、决策树、逻辑回归、支持向量机等传统机器学习分类方法不能直接适用。多维时序数据由于其不等长性和多维性等特征,不能直接用于传统分类模型训练,需要进行特征提取和特征选择以采集多维时序数据特征,然后在此特征数据基础上进行分类学习。常用的采集特征算法包括:统计学参数(方差、均值27 4基于主题模型的糖尿病并发症发现方法等)、离散傅里叶变换、离散小波变换、分段线性表示和奇异值分解等方法[61],本文采用奇异值分解方法采集特征。奇异值分解在不同场景的多维时间序列数据的聚类、预测等问题[62][63][64]上得到了广泛的应用,取得了良好的结果。本文利用奇异值分解对整个时间序列数据进行特征抽取,将全部数据映射到一个用奇异值做作为特征表示的子空间内。与特征向量求解不同,奇异值分解不要求被分解矩阵为方阵,假设存在一个矩阵Am*n,其奇异值分解表示为:𝐴=𝑈∑𝑉𝑇(4.1)其中,U和V被称为酉矩阵(UnitaryMatrix),U是一个M*M的矩阵,V是一个N*N的矩阵,满足:𝑈𝑇∗𝑈=𝐼,𝑉𝑇∗𝑉=𝐼;∑是一个M*N的矩阵,∑={𝜎1,…,𝜎𝑟},𝑟=𝑟𝑎𝑛𝑘(∑),为矩阵∑中不为零的子式的最大阶数,除了对角线外其他值为0,对角线位置的奇异值参数{𝜎1,…,𝜎𝑟}为我们所求的特征向量。本文利用利用奇异值分解对时间序列主题进行矩阵分解,因为不同患者病历的住院时长不一致,造成了不同患者的病历主题序列也是不一致的。但是需要指出的是不同病历的主题序列的主题维度相等,这是由我们主题挖掘模型决定的。利用奇异值分解可以将多维时间序列主题映射到长度为r的子空间内。4.2.2多标签分类值得注意的是,糖尿病患者在住院期间检查出来的糖尿病并发症往往不是单一的,例如表3.2中患者张一患有1型糖尿病多并发症,因此糖尿病并发症发现的预测模型必须考虑到患者同时患有多种疾病的事实。分类指对已知分类标签的样本集进行学习并为新数据赋予合适的分类标签的过程,传统的分类问题认为样本只有一个标签,但是现实生活中允许一个样本同时存在多个标签,并且标签之间可能存关联关系。比如一部电影既可以是文艺片又可以是爱情片,而文艺和爱情是是存在一定关系的,这样的分类问题被称之为多标签分类。处理多标签分类问题的解决思路分为两种:改进分类器和模型转换。改进分类方法顾名思义就是更改分类算法,使其能够满足多标签分类需求,并且能够不改变数据结构。常用的多标签分类算法有Boosting算法、BP神经网络、决策树和支持向量机等[65],改进分类算法的优点在于能够适应数据结构,但通常会造成复杂的求解逻辑,增加算法复杂度。模型转换的目的在于改变数据集合,使之能够实用现有的单一标签分类算法,现有的策略有BP二元关系法、RPC成对比较排序法和LP标签幂集法。利用向量空间建模提取多维时间序列主题的特征,能够得到不同病历主题的K维特征向量,同时患者出院诊断中同时出现的多种诊断结果作为分类标签建立多标签分类模型。本文采用的是ECC(EnsemblesofClassifierChains)组合分类器28 4基于主题模型的糖尿病并发症发现方法链思想,属于BP二元关系法的改进方法。该算法将多标签分类问题转换为多组二分类问题,首先从标签空间内选取一个标签,将分类为该标签的样本划分为一个类别集合,除此之外其他样本都划分为另一个类别集合,并且将标签代入该样本的特征数据中。例如现在有100份病历,其中每份病历都会有一个或者更多的出院诊断结果,根据BP二元分类思想,先建立一个完整的疾病集合,取一种疾病(例如糖尿病肾病),将所有出院诊断结果包含该疾病的病历分为正类的,而其他病历划分为负类,同时按照实际出院诊断结果将其他类别疾病加入特征数据中数据当中,若拥有该疾病标志为1,否则为0;接下来取另一种疾病作为正类标签,重新按照以上步骤构建样本数据集。以此类推,直到疾病集合里的疾病都单独作为正类来构建测试集。接下类我们利用K近邻、支持向量机和随机森林等算法进行分类训练构建多个分类器。在预测阶段,我们认为每个预测数据还没有疾病产生,此时疾病特征标记为0,,在利用不同的分类器进行分类后,将上一次分类结果计入下一次疾病特征中,标记为1,直到遍历完所有分类器。4.2.3模型相关度量由于多标签分类结果与传统单标签分类存在差异,它存在对多个标签分类结果的判定,需要对传统的分类算法度量指标进行修改,对应相关预测结果的统计系数的物理意义做了如下调整,具体变化情况如下:表4.1多标签分类模型度量参数Tab4.1Themetricparametersofmutli-labelclassifaction统计系数物理意义PR(m)病历m被预测的疾病集合TP(m)PR(m)中确实为病历出院诊断结果的疾病数量TN(m)PR(m)中与病历出院诊断结果中共同没有的疾病的数量FP(m)PR(m)中出现,但病历出院诊断结果中没有出现的疾病数量FN(m)PR(m)中没有出现,但病历出院诊断结果中出现的疾病数量本文使用平均精度、平均特异性和平均敏感度对实验结果进行评估,如下列表达式:∑𝑀𝑀𝐴𝐸(𝑖)𝑖=1𝐴𝑣𝑔_𝑀𝐴𝐸=(4.2)𝑀∑𝑀𝑆𝑃𝐸(𝑖)𝑖=1𝐴𝑣𝑔_𝑆𝑃𝐸=(4.3)𝑀∑𝑀𝑆𝐸𝑁(𝑖)𝑖=1𝐴𝑣𝑔_𝑆𝐸𝑁=(4.4)𝑀29 4基于主题模型的糖尿病并发症发现方法其中,M表示糖尿病患者病历测试集的数量,𝑀𝐴𝐸(𝑖)、𝑆𝑃𝐸(𝑖)以及𝑆𝐸𝑁(𝑖)分别表示文档M预测结果的精度、特异性和敏感度,其计算方式参照第二章中的辅助诊断标准。4.3实验结果及分析本章使用安徽科大学第一附属医院内分泌科室糖尿病患者的病历文本作为原始数据,患者病历中病程记录数量通常为患者住院天数,其具体情况如图4.2。考虑到不用患者由于所患并发症以及其他方面的相似性,使用第三章提出的MSA-LDA模型挖掘不同患者病程记录主题特征,选取主题数量K=15,病历相似性约束阈值τ=0.5实验结果。可以获得基于病程记录的多维时间序列主题数据,经过奇异值分解处理之后将其映射到维度较小的特征空间。同时糖尿病并发症发现是一个多标签分类问题,因此需要对数据集合进行重新处理使其能够适用于传统的分类模型方法,本文使用二元关系法将其处理为二元分类适用的样本数据集。图4.2病程记录数量分布图Fig4.2ThedistributionmapofNumberofcourserecord考虑不同分类器的性能在不同的主题挖掘方法下并发症发现的性能存在差异,为了寻找能够适合基于主题的糖尿病并发症发现的分类器,本文选用K近邻、随机森林、逻辑回归以及支持向量机等方法对本文内容进行分类训练。在本实验中,我们通过调节主题个数参数K为0.5,将分别选取不同的分类算法进行传统LDA与本文模型分类实验,实验结果如下:30 4基于主题模型的糖尿病并发症发现方法图4.3不同分类模型的平均精度与主题数量的关系Fig4.3Therelationshipbetweentheaverageaccuracyofdifferentclassificationmodelsandthenumberoftopics图4.3反映了在利用不同的分类模型对论文进行分类过程中,平均分类精确度随着主题数量的增加略有起伏并最终趋于0.8至0.82,其中在主题数量为7时平均分类精度波动明显,有较大的涨幅,但本文方法精确度最高达到0.948,而传统方法最高精确度有0.9。通过上图可以看出,本文模型相较于传统LDA模型在平均分类精确上有较好的表现,而支持向量机和逻辑回归模型在分类上也有更好的表现。图4.4不同分类模型的平均特异性与主题数量的关系Fig4.4Therelationshipbetweentheaveragespecificityofdifferentclassificationmodelsandthenumberoftopics图4.4反映了在利用不同的分类模型对论文进行分类过程中,平均分类特异性随着主题数量的增加而波动情况,其中在主题数量为15时有较大涨幅。同样本文模型相较于传统LDA模型在平均分类特异性上有较好的表现,本文模型特异性能够达到1,而支持向量机和逻辑回归模型在并发症发现分类上也有更好的表现。31 4基于主题模型的糖尿病并发症发现方法图4.5不同分类模型的平均敏感度与主题数量的关系Fig4.5Therelationshipbetweentheaveragesensitiveofdifferentclassificationmodelsandthenumberoftopics图4.5描述了本文模型以及LDA模型在随着主题数量增加时平均分类敏感度变化情况。上述实验结果反映了基于主题的糖尿病并发症发现问题上,本文模型相比传统LDA模型在平均精度、平均特异性和平均敏感度等度量指标方面表现良好,这是由于在计算文档-主题分布时考虑了相似病历约束,这就导致了诊断结果相似的病历在文档-主题分布上也是相近的,那么在分类器训练过程中被划分为一样的分类标签上。但是随着主题数量的增加,本文模型的效果大大折扣。本文提出的方法模型同时可以看出在分类效果上,SVM方法在精确度和特异性上表现良好,而KNN分类模型在特异性度量上优于其他方法。说明本文提出的MRS-LDA方法能够较好的适用于基于主题的糖尿病并发症发现问题。4.4本章小结本章分析了糖尿病患者入院诊断的不准确性以及出院诊断的完备性等特点上阐述了基于主题的糖尿病并发症发现的现实意义,同时明确了多维时间序列主题模型的数据特征提取方法,以及利用二元关系法简化多种糖尿病并发症发现的实验方案,再利用第三章提出的考虑病历相似性的病程记录主题挖掘方法基础上,设计了基于主题的糖尿病并发症发现框架。可以有效利用病程记录中实际发生的病症演变以及临床诊疗数据,对入院诊断中未发现的并发症具有良好的检出效果,肯定了基于主题的糖尿病并发症发现的科学性与重要性。32 5总结与展望5总结与展望5.1总结物质条件的丰富极大刺激了人们的消费欲望,随之而来的是人们普遍发现高血压、高血糖、高血脂等一系列慢性疾病症状,对于医疗卫生资源的需求以及全国各级医疗卫生机构的接诊压力也同步增加,传统的纸质文档记录形式已经不能满足日益增长的数据记录需求。与此同时,网络信息技术的飞速发展使得信息系统能够适用于大部分医疗卫生机构的业务流程,医院信息系统(Hospitalinformationsystem)广泛应用于各级医疗机构。大量的多源多模态医疗卫生信息被汇集于医院信息系统中,借助医疗大数据以及数据挖掘技术为医生提供辅助诊断支持能够减轻医生工作压力。本文研究了基于医学文本分析的智能诊断方法,在总结现有的相关理论知识以技术的基础上开展了如下工作:(1)探讨了糖尿病的发病机制以及其多种并发症的发病症状,对基于数据挖掘的医疗辅助决策方法进行了梳理,并在此基础上讨论了利用医学文本进行糖尿病并发症发现的方向,以及文本挖掘中文本预处理流程以及常用的文本表示方法。(2)针对现有的主题挖掘模型未能考虑相似患者之间病历相似性特征的基础上,提出了基于病历相似性约束的潜在主题挖掘模型(MRS-LDA)。同时利用PMI-score和病历相似性约束度量指标,将本方法于传统LDA在糖尿病病历文档上进行实验比较,肯定了本方法在医疗领域相对原模型得到了优化与改进。(3)采用安徽医科大学第一附属医院内分泌科室糖尿病患者住院病历,使用自定义词典以及停用词库完成对病程记录的文本分词、去停止词、同义词转换等文本预处理步骤,并利用MRS-LDA主题挖掘模型获取病程记录主题,在此基础上明确了利用文本主题进行智能诊断中多维数据与多并发症的处理方法,随后利用几种机器学习分类算法构建分类器,研究了如何应用该方法分析糖尿病患者的住院病历文本并做出多种并发症预测,从而为医生提供临床智能诊断辅助模型:5.2展望虽然本文提出的MRS-LDA主题发现模型能够较好的考虑到糖尿病患者病历存在一定的相似性,并且利用其做的并发症发现具有不错的预测能力,然而该方法仍然存在一些具体的问题希望能够在后续的研究工作中解决:(1)算法复杂度降低首先本文提到的MRS-LDA主题发现模型计算时间将大量损耗在遍历所有的病程记录,这是由于主题计算涉及到每篇病程记录的每个单词,并且由于我们参数求解过程依赖于Gibbs-EM算法,其求解过程中三次迭代步骤将占用大部分计算资源。因此在后续的研究工作需要考虑简化文档主题发现模型,并使用时33 5总结与展望间复杂度合理的推导算法,同时可以使用并行算法来提升算法效率。(2)临床路径挖掘临床路径是一种描述患者在住院期间接受的身体检查、给药情况等一系列临床诊疗模式的描述。受医院等级、医生资质以及患者个体情况等复杂因素影响,患者实际住院过程中受到的治疗方案可能与国家卫计委给出临床路径指导方案存在差异,可以使用本文提出主题挖掘方法在病程记录中挖掘其潜在诊疗方案主题,加入时间因素分析从而进一步研究主题演化规律以寻找临床路径。(3)智能诊断系统本文由于时间限制并未开展基于医学文本分析的智能诊断系统的开发,在后面的研究工作中,可以建立辅助诊断系统帮助医生清晰直观的把握患者住院过程中的疾病变化情况。34 学位论文参考文献[1]魏婉.关于促进和规范健康医疗大数据应用发展的指导意见[J].科研,2016(9):00306-00307.[2]IDFDiabetesAtlas:Globalestimatesfortheprevalenceofdiabetesfor2015and2040[3]高林,汤文章,吴纬.糖尿病并发症[C]//全国内分泌学学术会议.1985.[4]MasulliF,SchenoneA.Afuzzyclusteringbasedsegmentationsystemassupporttodiagnosisinmedicalimaging.[J].ArtificialIntelligenceinMedicine,1999,16(2):129.[5]AlayónS,RobertsonR,WarfieldSK,etal.Afuzzysystemforhelpingmedicaldiagnosisofmalformationsofcorticaldevelopment[J].JournalofBiomedicalInformatics,2007,40(3):221.[6]AlessandriniEA,AlpernER,ChamberlainJM,etal.Developingadiagnosis-basedseverityclassificationsystemforuseinemergencymedicalservicesforchildren.[J].AcademicEmergencyMedicine,2012,19(1):70–78.[7]CastellanoNN,GazquezJA,SalvadorRMG,etal.Designofareal-timeemergencytelemedicinesystemforremotemedicaldiagnosis[J].BiosystemsEngineering,2015,138:23-32.[8]FarhanS,AlshraidehM,MahafzaT.AMedicalDecisionSupportSystemforENTDiseaseDiagnosisusingArtificialNeuralNetworks[J].JournalofChemicalPhysics,2015,4(3):2320-5121.[9]MathewS,VincentN,MathewS,etal.MEDICALDECISIONSUPPORTSYSTEMFORTYPHOIDDIAGNOSIS[J].InternationalJournalofGeneralSystems,2015.[10]陈友凌,严峥.呼吸系统常见住院疾病诊断专家系统的设计与实现,2014年1月13日[J].浙江大学学报:医学版,2014.[11]SchullerB,PeiJ.UsingComputerIntelligenceforDepressionDiagnosisandCrowdsourcing[J].Computer,2016,49(7):8-9.[12]王曦,张果,付萍,等.模拟退火-支持向量机在SLE合并肾受累的辅助诊断应用研究[J].军事医学,2017,41(8):670-674.[13]王凯芸,孟丽莉.基于影像数据系统的人工神经网络模型研究——乳腺癌的早期诊断模型[J].中国数字医学,2010,5(4):64-67.[14]江贵平,秦文健,周寿军,等.医学图像分割及其发展现状[J].计算机学报,2015,35 学位论文38(6):1222-1242.[15]王晓华,陈卉,马大庆,等.人工神经网络在孤立性肺结节CT诊断研究中的应用[J].中华放射学杂志,2006,40(4):377-382.[16]PowellS,MagnottaVA,JohnsonH,etal.Registrationandmachinelearning-basedautomatedsegmentationofsubcorticalandcerebellarbrainstructures[J].Neuroimage,2008,39(1):238-247.[17]XuT,ZhangH,HuangX,etal.MultimodalDeepLearningforCervicalDysplasiaDiagnosis[C]//InternationalConferenceonMedicalImageComputingandComputer-AssistedIntervention.Springer,Cham,2016:115-123.[18]DeerwesterS.Indexingbylatentsemanticanalysis[J].JournaloftheAssociationforInformationScience&Technology,1990,41(6):391-407.[19]HofmannT.Probabilisticlatentsemanticindexing[C]//InternationalACMSIGIRConferenceonResearchandDevelopmentinInformationRetrieval.ACM,1999:50-57.[20]BleiDM,NgAY,JordanMI.Latentdirichletallocation[J].JMachineLearningResearchArchive,2003,3:993-1022.[21]ChenLF,LiaoHYM,KoMT,etal.AnewLDA-basedfacerecognitionsystemwhichcansolvethesmallsamplesizeproblem[J].PatternRecognition,2000,33(10):1713-1726.[22]彭云,万常选,江腾蛟,等.基于语义约束LDA的商品特征和情感词提取[J].软件学报,2017,28(3):676-693.[23]SunQ,LiR,LuoD,etal.TextsegmentationwithLDA-basedFisherkernel[C]//ACL2008,Proceedingsofthe,MeetingoftheAssociationforComputationalLinguistics,June15-20,2008,Columbus,Ohio,Usa,ShortPapers.DBLP,2008:269-272.[24]韩晓晖,马军,邵海敏,等.一种基于LDA的Web论坛低质量回帖检测方法[J].计算机研究与发展,2012,49(9):1937-1946.[25]TasciS,GungorT.LDA-basedkeywordselectionintextcategorization[C]//InternationalSymposiumonComputerandInformationSciences.IEEE,2009:230-235.[26]张思奇,周淑文,巩志国,等.医疗诊断系统中的数据预处理[J].控制工程,2005,12(1):33-35.[27]金涛,王建民,徐啸.一种基于本体和主题模型的临床路径挖掘方法:,CN106228023A[P].2016.[28]ChenCH,HsuCC.Usingtextandvisualminingtoanalyzeclinicaldiagnosisrecords[J].NeuralNetworkWorld,2012,22(5):459-478.36 学位论文[29]杨静,蔡峰,谭勇,等.基于文本挖掘技术的偏头痛临床诊疗规律分析[J].中国中医药信息杂志,2013,20(2):30-33.[30]尹琳琳,谢雁鸣,王志飞.基于文本挖掘的现代中医药诊疗高血压主要学术思想研究[J].辽宁中医杂志,2016(2):244-247.[31]杨静,谭勇,郭洪涛,等.基于文本挖掘技术的冠心病临床用药规律分析[J].中西医结合心脑血管病杂志,2011,09(11):1281-1283.[32]ChangNW,DaiHJ,JonnagaddalaJ,etal.Acontext-awareapproachforprogressiontrackingofmedicalconceptsinelectronicmedicalrecords[J].JournalofBiomedicalInformatics,2015,58(S):S150-S157.[33]李毅,保鹏飞,薛万国.中文电子病历的信息抽取研究[J].生物医学工程学杂志,2010(4):757-762.[34]杨锦锋,于秋滨,关毅,等.电子病历命名实体识别和实体关系抽取研究综述[J].自动化学报,2014,40(8):1537-1562.[35]时德.糖尿病性大血管疾病(1):特征[J].中华内分泌外科杂志,2007,1(1):63-65.[36]毕艳.中国糖尿病慢性并发症的流行病学研究现况[J].中国糖尿病杂志,2015(8):467-469.[37]王鹏.基于逻辑回归与GIS的青海省尖扎县区域滑坡危险性评价[D].中国地质大学(北京),2017.[38]Zhang,Yang,Peng,etal.Logisticregressionanalysisofriskfactorsforpostoperativerecurrenceofspinaltumorsandanalysisofprognosticfactors[J].OncologyLetters,2018.[39]CarterMJ,DavisTA.Abstract172:Predictorsofbreastcancerclinicaltrialparticipationbylogisticregressionanalysisinminoritywomenresidinginmedicallyunderservedregions.[J].CancerResearch,2013,73(8Supplement):172-172.[40]李航.统计学习方法[M].北京:清华大学出版社,2012[41]金建国.聚类方法综述[J].计算机科学,2014,41(s2):288-293.[42]武燕,柳炳祥.基于K—Means聚类算法和神经网络的药物使用模型[J].现代计算机,2011(19):14-16.[43]刘广,孙艳秋.基于K-Means聚类算法的消渴方剂研究[J].中华中医药学刊,2017(1):173-178.[44]RamamurthyB,ChandranKR.CBMIR:SHAPE-BASEDIMAGERETRIEVALUSINGCANNYEDGEDETECTIONANDK-MEANSCLUSTERINGALGORITHMSFORMEDICALIMAGES[J].InternationalJournalofEngineeringScience&Technology,2011,37 学位论文3(3).[45]YadavH,BansalP,SunkariaRK.ColordependentK-meansclusteringforcolorimagesegmentationofcoloredmedicalimages[C]//InternationalConferenceonNextGenerationComputingTechnologies.IEEE,2016.[46]奉国和,郑伟.国内中文自动分词技术研究综述[J].图书情报工作,2011,55(2):41-45.[47]HintonGE.Learningdistributedrepresentationsofconcepts.[C]//EighthConferenceoftheCognitiveScienceSociety.1986.[48]单斌,李芳.基于LDA话题演化研究方法综述[J].中文信息学报,2010,24(6):43-49.[49]WangX,MccallumA.Topicsovertime:anon-Markovcontinuous-timemodeloftopicaltrends[C]//ACMSIGKDDInternationalConferenceonKnowledgeDiscoveryandDataMining.ACM,2006:424-433.[50]张小平.主题模型及其在中医临床诊疗中的应用研究[D].北京交通大学,2011.[51]霍蕊莉,刘保延,何丽云,等.基于主题模型的消渴病痹痿症药关系研究[J].北京中医药,2014,33(3):163-166.[52]石思优.基于主题模型的医疗数据挖掘研究[D].广东技术师范学院,2015.[53]刘玉蕾.不同年龄段2型糖尿病的治疗[J].临床心身疾病杂志,2006,12(3):225-227.[54]NewmanD,LauJH,GrieserK,etal.Automaticevaluationoftopiccoherence[C]//HumanLanguageTechnologies:ConferenceoftheNorthAmericanChapteroftheAssociationofComputationalLinguistics,Proceedings,June2-4,2010,LosAngeles,California,USA.DBLP,2010:100-108.[55]DudaRO,HartPE,StorkDG.PatternClassification[M].JohnWiley&Sons,2012[56]LinJ.DivergenceMeasuresBasedonShannonEntropy[J].IEEETransactionsonInformationTheory,199l,37(1):145-151.[57]徐啸,金涛,王建民.基于优化主题模型的临床路径挖掘[J/OL].软件学报:1-11[2018-02-27][58]黄小亮,郁抒思,关佶红.基于LDA主题模型的软件缺陷分派方法[J].计算机工程,2011,37(21):46-48.[59]李文波,孙乐,张大鲲.基于Labeled-LDA模型的文本分类新算法[J].计算机学报,2008,31(4):620-627.[60]王志国,朱佳怀,邹郢,等.应用ICD编码提高入出院诊断符合率[J].解放军医院管理杂志,2015(6):534-535.[61]谭海龙.多维时间序列的分类技术研究[D].浙江大学,2015.38 学位论文[62]KhoshrouA,DorsmanA,PauwelsE.SVD-basedVisualisationandApproximationforTimeSeriesDatainSmartEnergySystems[C]//IEEEInternationalConferenceonInnovativeSmartGridTechnologiesIEEEIsgtEurope.IEEE,2017.[63]XieY,WulamuA,WangY,etal.ImplementationoftimeseriesdataclusteringbasedonSVDforstockdataanalysisonhadoopplatform[C]//IndustrialElectronicsandApplications.IEEE,2014:2007-2010.[64]WangHW,GuH,WangZL.FuzzypredictionofchaotictimeseriesbasedonSVDmatrixdecomposition[C]//InternationalConferenceonMachineLearningandCybernetics.IEEE,2005:2493-2498Vol.4.[65]李思男,李宁,李战怀.多标签数据挖掘技术:研究综述[J].计算机科学,2013,40(4):14-21.39 学位论文攻读硕士学位期间的学术活动及成果情况1)参加的学术交流与科研项目(1)基于人工智能的医疗微创多学科服务平台研究与集成示范(编号:17030801001),安徽省重大科技专项,2017-2020(2)基于混合云平台的智能微创诊疗与培训系统(编号:1603081121),安徽省重大科技专项,2016-2018(3)2017年第十九届中国管理科学学术年会,中国优选法统筹法与经济数学研究会&《中国管理科学》编辑部,南京,2017年10月2)发表的学术论文(含专利和软件著作权)(1)金行,丁帅,徐健.考虑内容多样性的移动医疗资讯个性化推荐方法研究第十九届中国管理科学学术年会论文集(2)丁帅,杨善林,孙晓,范雯娟,金行,李叶青,兰绍雯.一种移动医疗智能导医系统及其方法,中国软件著作:ZL201611004768.1(3)丁帅,杨善林,金行,潘禹辰,王泽源,李叶青.一种基于权限映射的数据安全交换系统及方法,中国软件著作:ZL201610048421.040 ?厚德笃学崇实尚新?■?'''?-

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
关闭