基于用户意图分析的电子病历检索技术研究

基于用户意图分析的电子病历检索技术研究

ID:77702567

大小:4.37 MB

页数:81页

时间:2024-02-04

上传者:笑似︶ㄣ無奈
基于用户意图分析的电子病历检索技术研究_第1页
基于用户意图分析的电子病历检索技术研究_第2页
基于用户意图分析的电子病历检索技术研究_第3页
基于用户意图分析的电子病历检索技术研究_第4页
基于用户意图分析的电子病历检索技术研究_第5页
基于用户意图分析的电子病历检索技术研究_第6页
基于用户意图分析的电子病历检索技术研究_第7页
基于用户意图分析的电子病历检索技术研究_第8页
基于用户意图分析的电子病历检索技术研究_第9页
基于用户意图分析的电子病历检索技术研究_第10页
资源描述:

《基于用户意图分析的电子病历检索技术研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

分类号:TP391单位代码:iOilOS14070S1学号:mn^NorthUniversityOfChina<基于用户意图分析的电子病历检索技术研究硕士研究生王超_:?1ww9mmm^‘魅―_騎麵i:^,|'■.fllWr^学科专业软件工程.:;4….:…?:.谓I:满?…—:二WHHUi^iU&^UKV—j'w.6f气上.20H年月白,‘..:‘.。../參两:、H_義:产專 原创性声明本人郑重声明:所呈交的学位论文,是本人在指导教师的指导下,独立。除文中已经注明引用的内容外进行研究所取得的成果,本论文不包含其他个人或集体已经发表或撰写过的科研成果。对本文的研究作出重要贡献的个人和集体均已在文中以明确方式标明。本声明的法律责任由本人承,担。1论文作者签名:日期:训关于学位论文使用权的说明本人完全了解中北大学有关保管、使用学位论文的规定,其中包括:①学校有权保管、并向有关部门送交学位论文的原件与复印件;②学校可以采用影印、缩印或其它复制手段复制并保存学位论文;③学校可允许学位论文被查阅或借阅;④学校可以学术交流为目的,复制赠送和交换学位论文;⑤学校可以公布学位论文的全部或部分内容(保密学位论文在解密后遵守此规定)。I签名奴A>n.〇):日期:i导师签名:日期:叫iol 图书分类号TP391密级UDC注1硕士学位论文基于用户意图分析的电子病历检索技术研究王超指导教师(姓名、职称)宋文爱(教授)富丽贞(博士)申请学位级别学术硕士专业名称软件工程论文提交日期2017年04月11日论文答辩日期2017年05月24日学位授予日期________年______月______日论文评阅人张素兰、马巧梅答辩委员会主席陈立潮2017年6月1日注1:注明《国际十进分类法UDC》的分类 中北大学学位论文基于用户意图分析的电子病历检索技术研究摘要随着临床医学的发展和医疗信息技术的广泛应用,通过对正确的诊断和治疗过程的分析来帮助临床医学中对病情的预判变得愈加的重要。同时,电子病历的大规模应用和推广为后续的分析提供了重要的数据基础。作为针对大规模信息领域的关键技术,信息检索在互联网的应用已经非常成熟。但是由于医疗领域信息表述的特殊性以及内容关系的复杂性,面向医疗领域的信息检索技术研究还在初级阶段。针对以上问题,本文在对中文电子病历的处理基础之上,实现对用户查询意图的理解以及通过图检索的方式进行数据检索,进而对查询的结果进行多样化排序,最终达到有效利用电子病历中存储的大量数据来辅助医生进行分析研究与诊断的目的,提高医生患者和医疗服务人员的医疗服务水平和效率。本文详细的分析了中文电子病历的结构特点,对电子病历进行语义分析,抽取医疗实体以及实体关系,奠定了后续研究的基础。在分析用户查询意图方面,针对查询的宽泛性和歧义性本文使用基于密度的聚类算法来对用户查询的历史数据进行子意图的聚类分析。针对查询中的医疗专业词汇则提出一种基于信息熵计算概念特征相似度和概念相关度的方法,从而得出概念语义相似度的计算模型来识别医疗专业概念中的意图。主要利用朴素贝叶斯分类对医疗概念分类。根据概念分类概率与分类质量评估函数得到概念的信息熵。通过熵值求得概念特征相似度,通过分析概念特征信息求得概念相关度。利用加权的方法将前两者的值综合为最终的概念语义相似度。实验表明,该算法较传统算法更加接近医疗领域专家评估的经验值,可以提高相似度计算精度,进而能够更好的匹配用户查询意图。为使用户在电子病历中的检索效果更好效率更高,提出用图结构来表示电子病历数据的研究方法。根据电子病历所具有的实体和属性联系与图的拓扑结构类似的特性,首先将电子病历数据和检索图结构化,然后将EMRSearch算法与EMR-Tree索引结合,并引入新的Upperbound模型进行裁剪,然后进行匹配,最后将匹配得到的结果集通过SortDiversity算法进行多样性重排序。实验结果表明,该方法不仅可以提高用户检索效 中北大学学位论文率,还可以提高用户搜索满意度。关键词:电子病历,意图分析,图检索,多样化排序 中北大学学位论文ResearchonElectronicMedicalRecordRetrievalTechnologyBasedonUser'sIntentionalAnalysisAbstractWiththedevelopmentofclinicalmedicineandtheextensiveapplicationofmedicalinformationtechnology,itismoreimportanttohelptopredicttheconditioninclinicalmedicinethroughtheanalysisofthecorrectdiagnosisandtreatmentprocess.Atthesametime,large-scaleapplicationandpromotionofelectronicmedicalrecordsprovidedanimportantdatabaseforsubsequentanalysis.Asakeytechnologyforlarge-scaleinformationfield,theapplicationofinformationretrievalintheInternethasalreadybeenverymature.However,duetotheparticularityoftheexpressionofmedicalinformationandthecomplexityoftherelationshipbetweenthecontent,theinformationretrievaltechnologyofmedicalisstillintheinitialstage.Tocuretheaboveproblems,thispaperachievedanunderstandingoftheuser'squeryintentonthebasisofdealingwiththeChineseonelectronicmedicalrecords,andretrievedthedatabythemeansofgraphretrievalandthendiversifytheresultsofthequery.Finally,weachievedtheobjectiveoftheauxiliarydoctoranalysisanddiagnosedwiththeeffectiveuseofalargeamountofdatastoredinelectronicmedicalrecords,andimprovedthelevelandefficiencyofmedicalservicesfordoctorsandmedicalstaffs.ThispaperanalyzedthestructuralcharacteristicsofChineseelectronicmedicalrecords,andthesemanticsofelectronicmedicalrecords,andextractedthemedicalentitiesandrelationshipsofentities,laidthefoundationforthefollow-upstudy.Intheaspectofanalyzingtheuser'squeryintent,thispaperusedthedensity-basedclusteringalgorithmtoanalyzethesub-intentoftheuser'squeryafterclusteringthehistoricaldataofuser’squerytosolvethebreadthandambiguityofthequery.Whenconsultingmedicalprofessionalvocabulary,amethodbasedoninformationentropywasproposedtocalculatethesimilaritydegreeandconceptrelevanceofinformationentropy.Thecalculationmodelofconceptualsemantic 中北大学学位论文similaritywasobtainedtoidentifytheintentioninmedicalconcept.ThemedicalconceptswereclassifiedbynaiveBayesianclassificationprimarily.Theconceptofinformationentropycalculatedaccordingtotheconceptofclassificationprobabilityandtheclassificationqualityassessmentfunction.Thenthesimilaritydegreeofconceptfeaturewasobtainedbyentropy,andtheconceptualrelevancewasobtainedbyanalyzingtheconceptfeatureinformation.Finally,weusedtheweightedmethodtogetthefinalsemanticsimilarityofthefirsttwovalues.Experimentsshowedthatthealgorithmisclosertotheexperienceofexpertevaluationinthemedicalfieldthanthetraditionalalgorithm,whichcanimprovetheaccuracyofsimilaritycalculationandcanmatchtheuser'sintentionmoreexcellentlyoreffectively.Inordertoobtainabettersearchresultandsearchmoreeffectivelyinelectronicmedicalrecords,thispaperproposedtoexpressthestructureofelectronicdatarecordswiththegraphstructure.Weputforwardsomeimprovementsaccordingtothesimilaritybetweentherelationshipbetweenentitiesandattributesoftheelectronicmedicalrecordandtopologyofthegraph.First,wegraphstructuredtheelectronicmedicalrecorddataandtheretrievalresults.Second,aftercombiningtheEMRSearchalgorithmwiththeEMR-TreeindexandintroducingthenewUpperboundmodel,weusedtheresulttomatchtheuser'sintention.Finally,theSortDiversityalgorithmwasusedtoreorderthematchingresultsets.Experimentalresultsshowedthatthismethodcannotonlyimprovetheefficiencyofuser’sretrieval,butalsoimprovetheuser’ssearchsatisfaction.Keywords:Electronicmedicalrecords,Intentanalysis,Graphretrieval,Diversification 中北大学学位论文目录1绪论1.1课题研究背景及意义.................................................................................................11.2国内外相关研究现状.................................................................................................21.3本文主要研究内容.....................................................................................................31.4本文的主要组织和结构.............................................................................................51.5本章小结.....................................................................................................................62中文电子病历语料分析2.1电子病历结构分析.....................................................................................................72.2语料标注...................................................................................................................102.3中文分词工具Hanlp...............................................................................................132.3.1用户自定义词典............................................................................................142.3.2N-最短路径分词.............................................................................................152.3.3摘要提取........................................................................................................182.3.4依存句法解析................................................................................................192.4实体关系抽取...........................................................................................................212.5本章小结...................................................................................................................233基于电子病历用户查询意图识别方法研究3.1基于聚类算法的子意图识别...................................................................................253.1.1DBscan算法...................................................................................................263.1.2基于DBscan的意图聚类.............................................................................273.1.3MinPts和半径Eps的值...............................................................................303.2基于信息熵的子意图识别.......................................................................................323.2.1概念信息熵....................................................................................................333.2.2朴素贝叶斯分类算法....................................................................................33I 中北大学学位论文3.2.3概念信息熵....................................................................................................363.2.4概念语义相似度计算...................................................................................363.2.5实验结果及分析............................................................................................383.3本章小结...................................................................................................................414电子病历图结构化检索方法研究4.1电子病历的图结构化...............................................................................................434.2基本概念...................................................................................................................444.2.1电子病历实体................................................................................................444.2.2具体定义........................................................................................................444.3改进的EMRSearch算法.......................................................................................464.4实验结果及分析.......................................................................................................484.4.1检索质量评价指标........................................................................................494.4.2实验结果分析................................................................................................494.5本章小结...................................................................................................................515电子病历查询结果多样化排序5.1前期研究...................................................................................................................535.2多样性排序算法.......................................................................................................545.2.1初期................................................................................................................545.2.2问题的公式化................................................................................................555.2.3D(k)的贪心算法.......................................................................................565.2.4算法描述........................................................................................................575.3实验结果...................................................................................................................585.4本章小结...................................................................................................................606总结与展望6.1总结...........................................................................................................................61II 中北大学学位论文6.2展望...........................................................................................................................61参考文献攻读硕士学位期间发表的论文及所取得的研究成果致谢III 中北大学学位论文1绪论1.1课题研究背景及意义随着网络的普及和广泛应用,信息数字化的飞速发展促进了我国医疗卫生信息化的发展。国家卫生部在“十三五”规划中明确提出卫生信息化是深化医疗改革的重要任务[1]。而随着医疗领域相关技术的迅猛发展,病历作为患者与医疗人员之间的沟通桥梁,扮演着越来越重要的作用。而传统的纸质电子病历存在着传输不方便,保存不完整,内容陈旧等缺点,将病历电子化成为医疗领域中必不可少的关键环节。于是,电子病历EMR(ElectronicMedicalRecord)在这样的大环境中应运而生。美国国立医学研究所将其定义为:EMR是基于一个特定系统的电子化病人记录,该系统提供用户访问完整准确的数据、警示、提示和临床决策支持系统的能力[2]。传统的病历是孤立的,静态的。且每个医生的字体、书写方式和格式上存在很大的差异,常常让人难以辨认;医院也难以形成规范的病历体系,管理上很被动;保存时间长久以后会出现字迹变淡的情况;一个医生掌握的病历的数量是有限的,难以流通和与其他医疗人员进行交流,当医生遇到相似病例时难以及时找出过往记录;随着时间的增长,医院的病历会越来越多,纸张不利于保存且浪费资源和空间。而电子病历是联系的,动态的。电子病历自身有一套完整的书写规范和框架[3];医院可以将每个医疗工作者的电子病历整理起来,方便管理;电子病历的存储方便,时间长久;医生在查询病例的时候可以方便及时的查询到以往相似的病历或者其他医生的电子病历,实现医疗资源共享;对纸张的节省也有利于保护环境。总之,电子病历可以随时随地提供患者信息,加速患者信息的流通,方便医生实现远程医疗,辅助临床治疗,并可实时监控治疗过程,对大规模的医疗数据进行分析和挖掘,从而达到提高医院工作效率和治疗效果的目的。电子病历可以保存、管理、传输和重现患者的基本信息、病史和治疗方案等信息,电子病历将传统的医疗领域和当下的计算机领域很好的结合起来,实现了医疗信息的共享,加快了智慧医疗的实现。1 中北大学学位论文对于医疗工作者来说,通过检索获得医疗领域的电子病历,可以获得更全面、更准确的患者信息,可以为基于电子病历的循证医学提供强有力的支撑,同时有助于结合医生的临床实践和客观的科学研究数据,将最准确的诊断、最精确的治疗和最及时的预后估计服务于患者,具体来说,本课题的研究意义在如下几个方面:(1)提高临床服务水平:对于临床医疗工作者来说,可以通过查询三甲医院的相关病人的电子病历信息了解专家针对某种疾病或者某类人群的相关治疗过程,可以直接或者间接利用他人在治疗方面的经验,特别当遇见一些疑难杂症时,可以通过迅速及时的检索相关患者的历史病历,获得新的思路或想法来治疗自己以前没有经验的病例。(2)提高临床护理水平:对于临床护理人员来说,可以通过电子病历实时监控患者的恢复状况,并能及时提出护理意见,也可以及时学习新的技术和经验,增强自己的护理水平。(3)提高教学与服务水平:学校作为教导学生知识的基地,拥有的知识一般相对滞后,而医院作为一些医学院校的临床教学基地,可以通过电子病历获得先进的、真实的、及时的知识案例,不仅可以提高老师的教学水平,也可以启迪学生思维,使学生的研究更具有实际价值。1.2国内外相关研究现状在美国等一些发达国家,对于电子病历的研究已有了阶段性的成果,形成了一批区域性的电子病历。而通国外的发达国家相比较,我国的电子病历起步较晚,发展也相对缓慢,还没有形成完善统一的电子病历系统。由于电子病历中含有大量的可利用的信息,所以对其中含有的资源加以利用成为现阶段人们研究的热点和重点。现阶段对电子病历的处理技术大多在结构化数据上和图像识别上有较高的成果,而电子病历中80%的数据为非结构化数据[4],对非结构化的数据的处理还很不完善。如果医生在临床治疗等治疗记录上尽量用自然语言描述症状等问题,这样虽然可以不用改变他们习惯的记录方式,但对于计算机而言,理解这些记录并加以利用是非常困难的,所2 中北大学学位论文以对非结构化文本进行意图识别来挖掘子意图变得极其重要。目前,对于信息的挖掘主要渠道就是搜索引擎,但是现在国内外主流的搜索引擎只是返回与提交的查询相同的结果,没有对查询意图进行分析,针对这些问题现在有一些研究,例如模糊查询、宽泛查询等。在自然语言查询中,将单个的查询词分开进行查询,也有针对用户查询主题识别的信息类查询[5]。但是查询结果也只是针对查询词进行内容的匹配没有很好的实现基于用户意图的个性化识别。在信息检索领域,其发展已有很长一段历史,并且在互联网的应用上取得了成功,但其在医学领域的研究和应用仍处于初级阶段。检索是由两个核心技术组成,首先建立和维护索引,然后提供快速的检索方法。目前有全文索引模型,倒排索引等方法[6]。但是针对电子病历特殊结构的索引并没有成熟的方法。这一现状导致目前医疗领域的信息检索更多的停留在查询关键词与文本之间的相关性上,而针对查询词的多样性方面几乎没有考虑,因此,检索的查全率和查准率一直处于一个比较低的水平。1.3本文主要研究内容本课题主要的研究内容是,将电子病历作为医疗信息化的主要载体,在医疗领域信息化的大背景下,为了更好的挖掘有效的医疗信息,首先通过中文语料分析对电子病历结构进行分析,然后对用户基于电子病历的查询进行子意图识别,通过图检索的方式提高检索效率,最后对结果进行多样化排序。使结果能够更好的匹配用户的查询意图,更好的挖掘电子病历中的医疗信息。具体流程如图1.1所示。3 中北大学学位论文用户查询电子病历中文语义分析基于医疗本电子病历语医疗领域本体体的查询义分析结果意图识别基于医疗本子意图聚用户查询SNOMED-CT体的电子病子意图挖掘例图结构化类日志数据集图检索子意图查询结果融合及多样化排序图1.1整体流程图本文的详细研究内容如下:(1)对电子病历结构的特殊性进行分析,调研主流的中文分词工具,分析效率与结果,分析常用的自然语言处理算法,对中文电子病历进行语料分析,分析后的结果通过I2B22010规范[7]对结果进行词性标注,然后进行实体关系抽取。(2)对用户的查询子意图通过两种方法进行识别。第一种方法是:针对用户查询语句的歧义性和宽泛性,通过密度聚类的方式进行子意图识别,研究子意图聚类算法中的阈值确定和半径的求解。第二种方法是:针对查询语句中医疗词汇进行精准的子意图匹配。通过朴素贝叶斯分类算法来训练样本来计算信息熵后,通过语义相似性和相关性来衡量子意图的匹配程度。(3)为使用户在电子病历中的检索更贴近用户意图,提高用户检索的效率提出用图结构来表示电子病历数据的研究方法。根据电子病历所具有的实体和属性联系与图的拓扑结构类似的特性,将电子病历数据和检索图结构化,然后将EMRSearch算法与EMR-4 中北大学学位论文Tree索引结合,并引入新的Upperbound模型进行裁剪,然后进行匹配,最后将匹配得到的结果集通过SortDiversity算法进行多样性重排序。1.4本文的主要组织和结构本文的主要是通过对用户查询意图分析,挖掘查询里所涵盖的不同主题,有效的预测用户的查询意图,然后通过不同的意图用图检索的方法对电子病历进行检索,提高检索效率和检索质量,最后查询的结果进行融合并形成多样化结集合排序。本文的结构组织如下:第1章绪论,介绍了本文研究内容的背景及意义,介绍了现有国内外的相关研究,详细阐述了本文的主要研究内容,最后概括了本文的组织结构。第2章中文电子病历语料分析,详细分析介绍了中文电子病历的结构,对电子病历进行了语料标注,分析中文分词工具以及主要算法,包括,中文分词,句法分析,关键词提取,摘要提取,短语提取等。对用户查询及电子病历内容进行中文语义分析,将开源的医疗领域本体作为外部数据添加到用户自定义词典中,最后进行实体关系抽取,并将分析过的数据进行图结构化处理,存储到图数据库中。第3章基于电子病历用户查询意图识别方法研究,首先从不同的维度抽取查询的子意图,将查询的子意图进行聚类分析,挖掘出的子意图可以更好的识别用户查询的意图。通过分类训练样本计算医疗词汇的语义相似度和相关度的方法,匹配用户查询词中含有的医疗专业词汇,实现精准化查询。第4章电子病历图结构化检索方法研究,根据电子病历所具有的实体和属性联系与图的拓扑结构类似的特性将处理过的电子病历及用户提交的查询图结构化处理后,利用EMRSearch算法进行检索。第5章电子病历查询结构多样化排序,将匹配得到的结果集通过SortDiversity算法进行多样性重排序,提高检索效率和用户查询的满意度。5 中北大学学位论文1.5本章小结本章首先分析了医疗信息化的现状和电子病历当前突显出的一些问题以及本文研究的意义,随后对国内外的研究现状进行了分析,对本文主要的研究内容进行了总结,介绍了本文研究的流程。最后简要概述了本文的主要组织和结构安排。6 中北大学学位论文2中文电子病历语料分析我们所在的研究团队一直致力于信息检索和数据挖掘在数字化医疗中的应用研究,前期工作中和清华大学数字化医疗工程研究中心、协和医院等有广泛的合作基础,我们和石景山医院签署了数字化医疗合作研发基地的战略合作协议。这些与医疗研究机构深入合作关系为项目的实施提供了很好的平台基础,保证了电子病历检索需求的真实性和应用研究成果进行原型系统开发的实用性。医疗领域内有多种不同的本体知识库,而且术语词汇表在大量的使用,相应的标准化程度比较高,比较有名的有统一医学语言系统(UnifiedMedicalLanguageSystemUMLS),国际疾病分类编码与术语表(InternationalClassificationofDiseases,ICD),医学主题词表(MedicalSubjectHeadings,MeSH)[8]。另外,我们前期与清华大学数字医疗工程研究中心、协和医院和石景山医院的紧密合作关系,可以保证我们能够获取用来对本课题的研究成果进行性能评估的电子病历数据集。这些可以公开获得的医疗本体和我们通过与医疗研究机构合作获得的电子病历数据库为我们构建面向医疗查询的本体构建和基于本体的查询理解与电子病历语义检索奠定了坚实的数据基础。2.1电子病历结构分析电子病历信息的主要载体是命名实体、属性和他们之间的关系[9],实体与实体间存在着一定的关系。通过对海量的电子病历的分析[10]得到其中包含了大量的不同类型的实体,而医疗知识的主要体现正是这些实体间的关系。这些关系可以从不同的角度反映电子病历中的医疗知识和患者健康状况之间的关系。一份完整的电子病历应该包括个人信息和医疗信息、药品信息三部分。个人信息包括患者姓名、性别、年龄、证件号码等个人信息;医生提供医疗信息,具体包括疾病、疾病诊断分类、症状、检查手段、治疗等;药品信息包括药品名、剂量、功效等信息。体现在电子病历软件上应该包括首页、病程记录、检查检验结果、医嘱内容、手术记录、7 中北大学学位论文护理记录和住院信息等内容。其中包含大量的非结构化的自由文本,它可以对患者的信息进行采集、存储、传输、质量控制、利用和统计,并挖掘其中的有价值的信息。电子病历内容结构图如图2.1所示。姓名性别个人信息年龄证件号码疾病疾病诊断分类电子病历医疗信息症状检查手段治疗药品名药品信息剂量功效图2.1电子病历结构图下面是某患者高血压2级的治疗记录如下:8 中北大学学位论文电子病历姓名:毛某某病情陈述者及可靠程度:患者本人,可靠性别:男性入院日期:2016年10月21日09:00年龄:51岁电子病历记录日期:2016年10月21日09:00【自述症状】患者自述近10年来常出现间断性头晕、头痛,不伴视物模糊、黑朦及晕厥,无胸痛、胸闷,无恶心、呕吐等不适症状,血压最高达160/100mmHg,间断服用“卡托普利、利血平、硝苯地平”等降压药物治疗,血压控制在120/80mmHg左右。1周前患者再次出现头晕、头痛等不适症状,不伴胸闷、发憋、心悸及恶心等症状,无呕吐物,无胸痛、放射痛,无咳嗽、咳痰等不适症状,自行服用药物,症状可缓解。【检查】体温37.1℃脉搏78次/分呼吸20次/分血压120/75mmHg。发育正常,营养中等,神清语利,自主体位,查体合作。全身皮肤、粘膜无黄染,未见出血点、瘀斑及皮疹,周身浅表淋巴结未触及。心前区无隆起,心尖搏动无弥散,未触及震颤,叩心界无扩大,心率78次/分,律齐,各瓣膜听诊区未闻及病理性杂音。脊柱生理弯曲生常存在,各棘突无压痛及叩击痛,四肢无畸形,各关节无红肿、压痛,活动自如。双下肢无浮肿,四肢肌力、肌张力正常。双侧肱二、三头肌腱反射及膝、跟腱反射正常存在,双侧巴氏征,克氏征,布氏征均阴性。912【检查手段】血常规:Hb141g/L、WBC7.81×10/L、G56.30%、L31.5%、RBC4.23×10/L,尿、便常规均无异常。胸透:心肺膈未见明显异常。心电图示:窦性心律大致正常心电图。【疾病】1、高血压病2级2、高脂血症3、上呼吸道感染【疾病诊断分类】极高危【治疗】1、低盐、低脂饮食;2、继续规律药物治疗,定期复查(1月);3、不适随诊。9 中北大学学位论文电子病历是医生对患者整个治疗过程的一个专业性质的记录,具有极强的专业特性[11],通过分析后电子病历存在的一些特点如下:a)语句结构残缺,含有大量的专业性缩略语。例如:➢神清语利—神志清晰,语言表达流利b)大量的专业名词,例如:➢粘膜无黄染➢各棘突无压痛及叩击痛➢脊柱生理弯曲生常存在c)特殊含意的符号,例如:➢血常规:Hb141g/L、WBC7.81×109/L、G56.30%、L31.5%、RBC4.23×1012/L➢“+”——代表阳性等d)对于相同症状程度表述方法不同,例如:➢对于体重减轻的表示有,体重明显下降,明显体重减轻e)对于某些内容的固定表达,例如:➢症状的表示有,无/未见/不伴有/未及+症状名称由于电子病历中存在以上的语言特性,中文电子病历的语料分析将和传统的中文处理有很大的差异,为了更好的挖掘中文电子病历中自由文本中的信息,我们需要对医疗领域中专业的文本特性以及表达特性利用现有的自然语言处理技术和统计学习等技术来处理。由于电子病历中含有大量的专业词汇,以及固定的表达方式,我们应该选取开源的处理工具,以便与二次开发以及字典的更新等。利用电子病历的一些特性来处理中文电子病历将有利于后续工作的继续进行。2.2语料标注为了更好的分析处理中文电子病历,对电子病历中的文本信息进行语料标注,参照UMLS中对语义类型的划分[12],将实体划分为三类和六种修饰类型,分别是医疗问题、检查、治疗和当前的、不存在的、非患者本人的、有条件的、可能的、待证实的。对应10 中北大学学位论文关系如表2.1所示。表2.1电子病历实例类型对应关系表实体类型对应的UMLS语义类型医疗问题病理功能疾病或综合征精神或行为能力障碍细胞或分子功能障碍先天性畸形获得性异常受伤或中毒解剖异常肿瘤进程病毒/细菌检查迹象或症状化验过程治疗诊断过程预防或治疗过程医疗器械类固醇药理性物质生物医学或牙科材料抗生素医疗问题:包含了疾病,诊断分类,症状等,是对导致患者出现不健康状态的原因进行总结,并对患者做出诊断,对患者的不正常的表现进行描述等11 中北大学学位论文检查:为了发现、证实患者的疾病,以及诊断方式进行的检查过程和使用仪器所得到的结果。检查的目的是为了找到更与患者相关的病理信息。治疗:为了解决患者的症状和疾病为患者提供的治疗过程等。治疗通常包括药物、方式、过程和相关的医疗设备等。当前的:是指确定发生的不健康的症状或疾病,含有正在经受的症状或以前出现并持续到现在的症状和疾病等。不存在的:是指确定未发生的不适应的症状和疾病。非患者本人的:是指并没有发生在患者本人身上的,出现在有血缘关系的人身上。有条件的:是指在当前未出现,但是在满足某种情况下就会出现的。可能的:是指可能出现的症状。待证实的:是指当前没有发生但是未来不确定会发生的。语料标注的过程有下面几个原则:不重复、不包含、不含有分隔。这是语料标注的规范。语料标注的整体方案如下:E语料项目组讨论随机抽样咨询专业医生机器自动标注修改标注规范标注者A1校对标注者A2校对否更新词典计算标注一致性一致性稳定?是标注G语料图2.2语料标注方案图12 中北大学学位论文具体步骤如下:(1)从语料库中提取电子病历,人工标注人员按照标注规范对机器自动标注的结果进行评价。(2)将有分歧的标注结果反馈回项目组讨论,参考咨询专业人员进行分析,修改标注规范。更改词典。(3)更新词典后,再一次进行迭代。直到机器自动标注能够满足需求为止。在语料标注中标注的一致性和准确性是整个过程最终结果的关键。人工评价为独立的标注质量控制步骤,通过计算标注一致性(IAA)标注准确性(precision)来对质量进行控制[13]。公式如式2.1和2.2:一致的标注IAA=×100%(2.1)所有标注正确的标注precision=×100%(2.2)所有标注2.3中文分词工具HanlpHanLP是由一系列模型与算法组成的Java工具包,目标是普及自然语言处理在生产环境中的应用。它不仅仅可以分词,而且可以提供词法分析、句法分析、语义理解等完备的功能。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。HanLP完全开源,包括词典。不依赖其他jar,底层采用了一系列高速的数据结构,如双数组Trie树、DAWG、AhoCorasickDoubleArrayTrie等,这些基础件都是开源的。官方模型训练自2014人民日报语料库,可以使用内置的工具训练自己的模型。通过工具类HanLP可以一句话调用所有功能,文档详细,开箱即用[14]。底层算法经过精心优化,极速分词模式下可达2,000万字/秒,内存仅需120MB。在IO方面,词典加载速度极快,只需500ms即可快速启动。HanLP经过多次重构,可以进行二次开发。本文中使用Hanlp汉语处理工具来进行分词。是因为Hanlp开源的特性,和中文电子病历的特殊性,可以在原有工具的基础上进行个性化的开发,能更好的处理中文电子病历。对比中科院的分词系统ICTCLAS,经过二次开发的Hanlp处理结果更好。分析结13 中北大学学位论文果如表2.2。表2.2ICTCLAS分词与Hanlp分词结果对比表ICTCLAS分词结果Hanlp分词结果发育正常营养中等发育正常营养中等神清语利神清语利全身皮肤粘膜无黄染全身皮肤粘膜无黄染周身浅表淋巴结未触及周身浅表淋巴结未触及心尖搏动无弥散心尖搏动无弥散各关节无红肿各关节无红肿心肺膈未见明显异常心肺膈未见明显异常由于Hanlp具有更好的二次开发特性,以及便捷的用户自定义词典的功能,在处理中文电子病历中可以为后续的工作提供更好的基础。2.3.1用户自定义词典用户自定义词典是Hanlp提供给用户的一个可以自定义添加词典的功能,可以让用户个性化的定制其需要的词典,在本文中需要处理的电子病历中含有的大量的医疗专业名词,所以本文选用SNOMEDCT术语集来添加到用户自定义词典中。SNOMEDCT术语集提供了一套完整全面统一的医学属于系统,由993420条描述构成庞大的描述表,其中包含了36万条概念,近146万条关系[15]。这套术语集,提供了一套全面统一的医学术语系统,涵盖大多数方面的临床信息,包括临床发现、操作、可观察实体、身体结构、有机体、物质、联接概念、社会环境等。本文选取SNOMEDCT作为领域本体,可以更好的处理电子病历中的医疗专业名词。在Hanlp中用户自定义词典的数据结构是Trie树[16],又称为字典树,是一种常见的树形结构,属于哈希树的变种。常被应用在统计、排序中,能保存大量的字符型数据。能够快速的检索,Trie树可以利用字符串的公共前缀来节约空间。Trie树的插入、删除、查找的实现都比较简单,只需要用一个重循环即可实现。具体结构如图2.3所示。14 中北大学学位论文itneointontaninnintteaten图2.3字典树结构图在上面的树中,字符串in,inn和int的共有前缀是in。所以在存储中只需要保存一个in。他的根节点可以不包含任何字符,除了根节点其他的每个节点可以包含一个字符。从根节点到任意一个节点之间的路径可以用经过的字符链接。每个节点的所有子节点所包含不同字符的子节点。用户自定义词典使用Trie树作为基本的数据结构,在使用Hanlp处理中文电子病历的时候可以提供高效的字典检索,还可以尽可能的降低字典存储的空间。2.3.2N-最短路径分词在Hanlp中提供了多种的分词方式,包括:标准分词、NLP分词、索引分词、N-最短路径分词、CRF分词、极速词典分词等[17],其中:标准分词:是工具包中提供的静态分词器,为用户提供了方便的开发接口,原理是将词典生成一个词图,就是将需要处理的句子中所有词可能构成的图全部列出来,形成一个稀疏的2维矩阵,以一个词的开始的位置作为行,终止位置作为列,得出一个二位的矩阵。如图2.4所示。15 中北大学学位论文0123456789100始##始1我2喜3欢4中中外5外外科6科科学7学学名8名名著9著10末##末图2.4标准分词二位矩阵图NLP分词:是通过接口NLPTokenizer来实现的能够通过实体识别和词性标注来实现分词。索引分词:是面向搜索引擎的一个分词功能,可以将长词进行分词,还可以获取文本中单个词的偏移量[18]。N-最短路径分词:具有较强的实体识别性能。CRF分词:可以发现新词,但是不能够使用用户自定义词典。极速词典分词:可以高效的执行分词,速度快但是精度不好。针对上述中所有的分词方法分析后,由于在中文电子病历分析中需要使用用户自定义词典,对分词精度又要求比较高,所以我们选用N-最短路径分词。其核心就是K最短路径上演变而来的,当我们分析一个字符串的时候,构造一个字符串图,然后针对图来计算最短的路径。16 中北大学学位论文02始1A1B1C1D1E1末13图2.5字符串图图2.5就是将字符串按照词典做出的一个有向无环图。将一个字符串ABCDE划分为单个的字。每个字在图中用一个节点表示。图中的长度为5的字符串,首先假设图中每个边的权值为1,如果图中两个节点之间有边,则两个节点之间的所有包含的节点就是一个词。例如上图中ABC就构成了一个词。表2.3就是对前面章节中的电子病历进行分词的一个结果:表2.3分词结果表电子/n病历/n姓名/n:/wp毛/nr1某某/r病情/n陈述/v者/k及/cc可靠/a程度/n:/wp患者/n本人/rr,/wd可靠/a性别/n:/wp男/b性/ng入院/vi日期/n:/wp2016年/t10月/t21日/t09:00/m年龄/n:/wp51/m岁/qt电子/n病历/n记录/v日期/n:/wp2016年/t10月/t21日/t09:00/m【/wkz自述/n症状/n】/wky患者/n自述/n近/a10/m年/qt来/f常/d出现/v间断性/b头晕/vi、/wn头痛/a,/wd不/d伴/v视/vg物/ng模/ng煳/a、/wn黑/a朦/w及/cc晕厥/v,/wd无/v胸/ng痛/a、/wn胸/ng闷/v,/wd无/v恶心/a、/wn呕吐/vi等/udeng不适/a症状/n,/wd血压/n最高/a达/v160/m//w100mmHg/n,/wd间断/vd服用/v“/wyz卡托普利/nrf、/wn利血平/n、/wn硝苯地平/nz”/wyy等/udeng降压/vi药物/n治疗/vn,/wd血压/n控制/v在/p120/m//w80mmHg/n左右/m。/wj1/m周/qt前/f患者/n再次/d出现/v头晕/vi、/wn头痛/a等/udeng不适/a症状/n,/wd不/d伴/v胸/ng闷/v、/wn发/v憋/v、/wn心悸/vi及/cc恶心/a等/udeng症状/n,/wd无/v呕吐/vi物/ng,/wd无/v胸/ng痛/a、/wn放射/v痛/a,/wd无/v咳嗽/vi、/wn咳/v痰/n等/udeng不适/a症状/n,/wd自行/d服用/v药物/n,/wd症状/n可/v缓解/v。/wj【/wkz检查/v】/wky体温/n37.1/m℃/q脉搏/n78/m次/qv//w分/v唿/n吸/v20/m次/qv//w分/v血压/n120/m//w75mmHg/n。/wj发育/vi正常/a,/wd营养/n中等/b,/wd神/n清语利/nr,/wd自/p主体/n位/q,/wd查体/v合作/vn。/wj全身/n皮肤/n、/wn粘膜/n无/v黄/nr1染/v,/wd未/d见/v出/vf血/n点/qt、/wn瘀/w斑/n及/cc皮疹/n,/wd周身/n浅表/b淋巴结/n未/d触及/v。/wj心/n前/f区/n无/v隆起/vn,/wd心尖/n搏动/vn无/v弥散/v,/wd未/d触及/v震颤/v,/wd叩/vg心/n界17 中北大学学位论文/k无/v扩大/v,/wd心/n率/v78/m次/qv//w分/v,/wd律/vg齐/a,/wd各/rz瓣膜/n听诊/v区/n未/d闻/v及/cc病/n理性/n杂音/n。/wj嵴/w柱/ng生理/n弯曲/an生/v常/d存在/v,/wd各/rz棘/ng突/d无/v压痛/n及/cc叩击/v痛/a,/wd四肢/n无/v畸形/n,/wd各/rz关节/n无/v红肿/vi、/wn压痛/n,/wd活动/vn自如/a。/wj双/m下肢/n无/v浮肿/vi,/wd四肢/n肌/ng力/n、/wn肌/ng张力/n正常/a。/wj双/m侧/q肱/w二/m、/wn三/m头/q肌腱/n反射/vn及/cc膝/ng、/wn跟/v腱/w反射/v正常/ad存在/v,/wd双/m侧/q巴/b氏/ng征/v,/wd克/vg氏/ng征/v,/wd布氏/nrf征/v均/ag阴性/n。/wj【/wkz检查/v手段/n】/wky血常规/n:/wpHb141g/L/xu、/wnWBC7.81×109/L/xu、/wnG56.30%/n、/wnL31.5%/n、/wnRBC4.23×1012/L/xu,/wd尿/n、/wn便/d常规/n均/d无/v异常/a。/wj胸/ng透/v:/wp心/n肺/n膈/w未/d见/v明显/a异常/a。/wj心电图/n示/vg:/wp窦性/nr心律/n大致/d正常/a心电图/n。/wj【/wkz疾病/n】/wky1/m、/wn高血压/n病/n2/m级/q2/m、/wn高/a脂/w血/n症/ng3/m、/wn上/f唿/n吸/v道/qv感染/v【/wkz疾病/n诊断/vn分类/vn】/wky极/d高危/a【/wkz治疗/v】/wky1/m、/wn低/a盐/n、/wn低/a脂/w饮食/n;/wf2/m、/wn继续/v规律/n药物/n治疗/vn,/wd定期/d复查/v(/wkz1月/t)/wky;/wf3/m、/wn不适/a随/dg诊/vg。/wj2.3.3摘要提取摘要提取是从要分析的文本中自动的抽取出关键的语句。基本的核心就是通过模拟人类的理解方式,对文本中的句子拟定一个评分标准作为句子的权重,之后对权重高的句子抽取出来作为摘要。主要的算法是TextRank[19],公式如下:𝑤𝑗𝑖WS(𝑉𝑖)=(1−d)+d∗∑𝑉𝑗𝜖𝐼𝑛(𝑉𝑖)∑𝑤WS(𝑉𝑗)(2.3)𝑉𝑘𝜖𝑂𝑢𝑡(𝑉𝑗)𝑗𝑘WS(𝑉𝑖)为一个句子的权重,等式右边的求和是计算每个相邻的句子对现在分析的句子的影响程度。𝑤𝑗𝑘是表示两个句子的相似程度。在分析过程中使用迭代的方式不断的用公式计算文本中每个句子的权重最后提取出关键字。下面是针对上面电子病历的摘要提取结果如表2.4所示:18 中北大学学位论文表2.4摘要抽取表1周前患者再次出现头晕、头痛等不适症状,不伴胸闷、发憋、心悸及恶心等症状,无呕吐物,无胸痛、放射痛,无咳嗽、咳痰等不适症状,自行服用药物,症状可缓解。【检查】体温37.1℃脉搏78次分唿吸20次分血压12075mmHg。双侧肱二、三头肌腱反射及膝、跟腱反射正常存在,双侧巴氏征,克氏征,布氏征均阴性。2.3.4依存句法解析在自然语言处理的领域中最核心的关键环节就是句法分析。其重要性主要是体现在对文本处理中体系库的构建的正确性和准确性的验证,以及对应用层的支持。例如文本信息的抽取,搜索引擎用户查询的分析,关键词的识别,自动翻译等相关方面。在句法分析中又分为两个主要的体系,分别为短语结构和依存结构。依存结构是在计算机语言学中最为重要的理论之一,对后来自然语言处理有着重要的作用。主要是通过分析文本中粒度最小的语言单位分析其内部存在的各种关系,从而清晰的展现出句子中的语法结构以及核心内容。在中文信息处理的研究中主要有以下五个公理[20]:(1)在一个完整的文本句子中,分析出的结果中句子中只有一个成分必须是独立的;(2)在句子中的成分必须依赖与某一个成分;(3)句子中的任何一个成分都不能依赖两个或者是两个以上的成分;(4)如果A成分直接依存于B成分,而C成分在句中位于A和B之间,那么C或者直接依存于B,或者直接依存于A和B之间的某一成分;(5)核心成分左右的部分不发生依存关系。依存关系具有适用普遍性,能够反映出句子中各个成分之间的修饰关系,在分析后的句子成分中存在的相互支配、依存、等关系在中文词汇、短语、简单句、复合句中都可以独立的应用在语言不同粒度环境中。它不受句子结构的长度和语言单位成文的位置而影响。19 中北大学学位论文表2.5依存句法分析依存关系标记含义表:依存关系标记标记含义依存关系标记标记含义定中关系ATT(attribute)关联结构CNJ(conjunctive)数量关系QUN(quantity)语态结构MT(mood-tense)并列关系COO(coordinate)独立结构IS(independentstructure)同位关系APP(appositive)状中结构ADV(adverbial)前附加关系LAD(leftadjunct)动补结构CMP(complement)后附加关系RAD(rightadjunct)“的”字结构DE动宾关系VOB(verb-object)“地”字结构DI介宾关系POB(preposition-object)“得”字结构DEI主谓关系SBV(subject-verb)“把”字结构BA比拟关系SIM(similarity)“被”字结构BEI核心HED(head)独立分句IC(independentclause)连动结构VV(verb-verb)依存分句DC(dependentclause)在Hanlp中使用的是最大生成树模型来定义句法树的,打分值是树中各条边打分的加权和[21]:s(x,y)=∑(𝑖,𝑗)∈𝑦s(i,j)=∑(𝑖,𝑗)∈𝑦w∙f(i,j)(2.4)s表示打分值,y是句子x的一棵依存树,(i,j)是y中的两个单词构成的一条边(依存关系),f是取值为1或0的高维二元特征函数向量,表示结点xi和xj之间是否存在依存关系。w是特征f(i,j)的权值向量,w在确定了特征后由样本训练得到。对训练集中的任意一个句子的单词集合(包括虚根),取出任意两个单词(i,j),将(i,j)的a依存关系作为事件名(即使它们之间没有依存关系,也取“null”作为事件名),将i和j自身以及周围的环境选取为特征,如表2.6所示:20 中北大学学位论文表2.6特征模板表W(i)W(j)P(i)P(j)P(i+1)P(j+1)P(i+2)P(j+2)P(i-1)P(j-1)W(i)W(j)P(i-2)P(j-2)Dis=(i-j)W(i)+W(j)P(i)+P(j)W(i)+W(j)+DisP(i)+P(j)+DisP(i)+P(j)+P(i-1)P(i)+P(j)+P(i+1)P(i)+P(j)+P(j-1)P(i)+P(j)+P(j+1)W表示单词本身,P表示词性,Dis表示i和j的距离,有正负之分,加号表示组合多种特征。下图是对电子病历中的一句话进行句法分析的结果。如图2.6所示。图2.6句法分析结果图2.4实体关系抽取实体关系抽取是对中文电子病历中出现的具有含义的实体进行识别和关系抽取。将电子病历中有用的信息结构抽取出来为后续的处理做好基础。我们前面通过一系列的自然语言处理后,从文本中提取出我们需要的实体结构,实体关系的基本特征如表2.7所21 中北大学学位论文示。表2.7实体关系基本特征表特征分类特征描述词特征实体本身包含的词词特征实体本身包含的词的词性上下文特征实体前2个词上下文特征实体后2个词上下文特征实体前2个词的词性上下文特征实体后2个词的词性上下文特征实体之间的距离特征实体特征两个实体的各自类别特征在电子病历实体结构中,由节点表示实体属性,边表示相应实体间的关系。个人信息为一个节点(I),医疗信息为一个节点(N),药品信息为一个节点(M)。如图2.7所示:IMN图2.7电子病历实体关系图其中,个人信息作为其中的一个子图,又包含了姓名(I1)、性别(I2)、病史(I3)、过敏史(I4)等子节点。如图所2.8示:II1I2I3I4图2.8个人信息实体关系图医疗信息包含了疾病(N1)、疾病诊断分类(N2)、症状(N3)、检查手段(N4)和治疗(N5)等子节点,症状又分为自述症状(N31)和异常检查结果(N32)两类,检查手段分为检查设备、检查程序、检查项目三类,治疗又分为药物治疗(N51)和处置(N52)。如图2.9所示:22 中北大学学位论文NN1N2N3N4N5N31N32N51N52图2.9医疗信息实体关系图药品信息包含药品名(M1)、剂量(M2)、功效(M3)、持续时长(M4)等子节点。如图2.10所示:MM1M2M3M4图2.10药品信息实体关系图其中,电子病历中的大部分信息都在医疗信息中,医疗工作者通过对患者的一系列诊疗活动可以概括为:患者自述身体不舒服的表现(症状、部位、持续时间等),医生通过检查手段(通过检查设备、程序、项目等)发现疾病的症状,给出相应的诊断结论,并根据诊疗结论,给出治疗措施(药物治疗或手术)。2.5本章小结在本章中首先详细的分析了电子病历的结构和一些特点,然后对针对电子病历进行预料标注进行了介绍。对本文使用的中文处理工具进行了详细的分析和介绍,最后对电子病历中实体关系抽取出的实体关系进行了介绍。为后续的研究打好基础。23 中北大学学位论文24 中北大学学位论文3基于电子病历用户查询意图识别方法研究用户意图识别方法研究是帮助人们从海量的目标数据中更加迅速更加准确的获取到匹配用户意图的信息的一种技术,对于传统的用户意图识别并不适用于电子病历的查询,不能满足电子病历查询的专业性和特殊性,为了更好的获取到电子病历中的医疗信息,匹配目标用户查询的意图,本文使用两种方法来对用户的查询意图进行识别,一是针对用户的查询历史,以及对用户日常的查询方式进行聚类分析,分析用户的潜在意图。二是通过对查询中出现的专业性医疗术语进行信息熵的计算,在此基础上,通过和医疗术语集中的数据进行计算相似度的方式来匹配用户对专业医疗词汇的意图。综合结果得出最终用户对电子病历查询的意图。3.1基于聚类算法的子意图识别聚类算法常用在非监督的学习算法中,对没有标注过的数据进行分析,通过聚类的方式将类似的数据分成不同的组别或者是集合。使具有相同属性的数据在一个集合中,聚类算法已经应用在多个领域中。在意图识别方面也有了成熟的应用。例如在查找相似的文档,互联网舆情信息的主题聚类等。通过聚类的方式来识别用户的查询意图关键就是分析语义之间的距离,挖掘语义的特征等[22]。对于用户意图识别的聚类分析方法研究中,有下面两个研究类别,语义距离相似度计算的研究和聚类算法的研究。例如有欧氏距离,马氏距离等多种距离度量的方法。在聚类算法中,有K-means聚类算法,基于分层的聚类算法、基于网格的聚类算法、基于密度的聚类算法等。在电子病历查询中对用户的意图识别,主要是针对用户的查询历史以及常见的用户的查询方式的数据进行分析,对于数据的高离散性以及文本数据相似性计算的考量上,本文选取基于密度的聚类算法DBscan(Density-BasedSpatialClusteringofApplicationswithNoise)来作为用户意图识别的聚类算法。DBscan聚类算法对比其他聚类算法有以下几个优点,DBscan算法主要是在数据中过滤掉密度低的数据,将密度高的样本点提取出来,在本文要分析的数据中可以更好的过滤到影响因子比较低的噪声25 中北大学学位论文点。而且与传统的聚类算法是通过划分区域实现凸簇的方式不同,该算法是可以在训练样本数据时发现任何形状的类簇,而且不需要划分聚类的个数,可以更好的通过数据来分析出数据中潜在的用户意图。通过聚类算法来确定最终数据中产生用户的意图个数。同时也可以不需要考虑多维数据的降维。该算法对类簇的形状没有偏移。3.1.1DBscan算法DBscan算法是密度聚类算法中最经典的算法之一。在给定的样本数据空间中,可以将样本数据密度高的区域识别出来。能够在噪声数据空间中聚类出任意形状的类簇。在本文中对用户查询日志的分析中,可以有效的过滤掉样本噪声数据,精确的识别高密度区域。算法中的主要概念如下:R领域:在目标对象中划分半径为R内的区域为目标对象的领域。核心对象:在目标对象的领域中样本空间中的数据点的个数大于等于给定的阈值MinPts,称为目标对象的核心对象。直接密度可达:在样本空间数据集合E,如果样本点q在p的领域中,同时p是核心对象,则数据对象q从目标对象p直接密度可达。密度可达:对于样本空间数据集合E,给定一些列的样本数据点,p1,p2……pn,p=p1,q=pn,假设对象pi从pi-1直接密度可达,那么对象q从对象p密度可达。密度相连:在样本空间数据集合E中的一个点m,如果对象m到对象p和对象q全部是密度可达的那么说明p、q是密度相连的。具体的算法描述如下:(1)确定样本数据集合,以及半径R,和领域内最少的数目MinPts。(2)在样本数据中随机选取一个未经处理的数据点。(3)如果抽取的数据点是核心数据点然后遍历所有的数据点找到从该数据点密度可达的数据点形成一个类簇。(4)如果选取的数据点不是核心对象,则选取下一个数据点。(5)直到所有的样本数据点都被遍历处理过。算法的示例图如图3.1所示。26 中北大学学位论文图3.1DBscan算法示例图在给定的数据集合中,假设Minpts=3,算法从A0开始遍历,将A0,A1,A2,A3,A4,A5标记为核心对象。而B1,B2,B3,B4为边缘对象。N为噪声对象。因为所有的边缘对象对于A0都是密度可达的,因此聚类成一个类簇,并将噪声对象过滤掉。3.1.2基于DBscan的意图聚类基于Dbscan聚类的意图识别方法[23],主要思路:首先分析用户查询日志,抽取用户查询里的关键词作为用户的潜在查询意图。将分析出的潜在查询意图计算Jaccard距离。然后进行聚类分析,将得到的类簇中的核心对象作为用户意图的子意图集合。主要流程如图3.2所示。27 中北大学学位论文子主题1信息检索与数据挖掘系统子主题2输入:1、查询关键词提取.查询(歧义或宽泛)2、基Jaccard的距离计算.3、子主题聚类.子主题n输出输入SNOMEDCT查询日志术语集图3.2意图聚类流程图在本文中Dbscan选用Jaccard距离作为度量,对聚类的样本数据通过Jaccard距离来反映数据点之间的密度,通过实验和经验的方式确定算法中的两个参数:半径Eps和领域内最少的数据点个数MinPts。Jaccard相似系数是用来比较样本空间数据集中数据之间的相似性和差异性的。通过Jaccard相似系数可以计算出Jaccard距离,表示各个数据之间的关系。Jaccard距离越大则样本相似度越低。Jaccard相似系数在本文中用来衡量用户查询日志中每条记录之间的相似程度,是通过给定了两条记录A和B,从记录中通过第二章中的中文处理方法抽取出关键词来计算A与B差集的值与并集的值的商值。公式如下|𝐴∩𝐵||𝐴∩𝐵|J(A,B)==(3.1)|𝐴∪𝐵||𝐴|+|𝐵|−|𝐴∩𝐵|通过Jaccard相似系数来计算出Jaccard距离,公式如下。|𝐴∪𝐵|−|𝐴∩𝐵|𝐴∆𝐵d𝑗(A,B)=1−J(A,B)==(3.2)|𝐴∪𝐵||𝐴∪𝐵|连通核心对象生成簇,核心点能够连通即密度可达,它们构成的以Eps长度为半径的圆形邻域相互连接或重叠,这些连通的核心点及其所处的邻域内的全部点构成一个簇。则密度可达的核心对象示例如图3.3所示。28 中北大学学位论文图3.3密度可达的核心对象示例图计算密度可达的核心对象是基于广度遍历与深度遍历集合的方式:从核心对象集合S中取出一个点p,计算点p与S集合中每个点(除了p点)是否密度可达,可能会得到一个密度可达的核心对象的集合C1,然后从集合S中删除点p和C1集合中的点,得到核心对象集合S1;再从S1中取出一个点p1,计算p1与核心对象集合S1集中每个点(除了p1点)是否密度可达,可能得到一个密度可达核心对象集合C2,再从集合S1中删除点p1和C2集合中所有点,得到核心对象集合S2、……,最后得到p、p1、p2、……,以及C1、C2、……,就构成一个簇的核心对象。最终将核心点集合S中的点都遍历完成,得到所有的簇。下面给出算法的具体步骤:(1)对用户查询日志进行分析,抽取每条查询日志里的意图关键词。(2)计算每个关键词与其他关键词之间的Jaccard距离。(3)根据MinPts和半径Eps的值,计算样本空间数据中的所有核心对象,并且建立核心对象与到核心对象之间的Jaccard距离小于半径的映射。(4)根据得到的核心对象的数据集合,以及半径,计算所有能够密度可达的核心对象,得出噪声对象。(5)将能够密度可达的每一个核心对象,以及到核心对象距离小于半径的数据,29 中北大学学位论文归属为一个集合形成一个类簇,就是最终通过聚类的方式得出的子意图。3.1.3MinPts和半径Eps的值我们通过经验和实验对比将MinPts确定为100。DBSCAN聚类使用到一个k-距离的概念,k-距离是指:给定数据集P={p(i);i=0,1,…n},对于任意点P(i),计算点P(i)到集合D的子集S={p(1),p(2),…,p(i-1),p(i+1),…,p(n)}中所有点之间的距离,距离按照从小到大的顺序排序,假设排序后的距离集合为D={d(1),d(2),…,d(k-1),d(k),d(k+1),…,d(n)},则d(k)就被称为k-距离[24]。也就是说,k-距离是点p(i)到所有点(除了p(i)点)之间距离第k近的距离。对待聚类集合中每个点p(i)都计算k-距离,最后得到所有点的k-距离集合E={e(1),e(2),…,e(n)}。根据得到的所有点的k-距离集合E,对集合E进行升序排序后得到k-距离集合E’,需要拟合一条排序后的E’集合中k-距离的变化曲线图,然后绘出曲线,通过观察,将急剧发生变化的位置所对应的k-距离的值,确定为半径Eps的值。首先,计算每个点的k-距离值,并对所有点的k-距离集合进行升序排序,输出排序后的k-距离值,然后,将所有点的k-距离值在坐标中展示出散点图,显示k-距离变化趋势根据散点图确定半径Eps的值。下面为用户查询日志的K-距离生成散点图,x轴坐标点我们直接使用递增的自然数序列,每个点对应一个自然数,y轴就是所有点的k-距离的大小,基于x坐标取了4个不同的范围,观察曲线的变化情况,0~3000、0~2000、1900~2700、0~2500各个x坐标范围内的点,对应的散点图分别如下所示:0.4000000.3500000.3000000.250000距离0.200000-K0.1500000.1000000.0500000.000000050010001500200025003000样本点数量图3.3结果图130 中北大学学位论文0.0085000.0075000.0065000.005500距离-0.004500K0.0035000.0025000.00150005001000150020002500样本点数量图3.4结果图20.0500000.0450000.0400000.0350000.030000距离-0.025000K0.0200000.0150000.0100000.0050001500170019002100230025002700样本点数量图3.5结果图30.0250000.0200000.015000距离-K0.0100000.0050000.000000050010001500200025003000样本点数量图3.6结果图431 中北大学学位论文通过上图中的分析可以得出在图3.3中,x取值在0到3000,当x的取值在2500之后时,K-距离的的变化太快,在之前k-距离的变化趋于平稳,无法准确的观察。在图3.4中x的取值范围0到2000,可以清晰的观察出k-距离的变化曲线。在图3.5中,x的取值在1900到2700,在x取值为2500之后k-距离的变化率明显。在图3.6中,x取值为0到2500,可以清晰的观察出k-距离的变化曲线的明显拐点,综合上面4个图,可以选择得到半径Eps的范围大致在0.002~0.006之间。从而确定算法中的半径参数。3.2基于信息熵的子意图识别在用户查询的过程中避免不了会出现大量的医疗专业概念,为了更好的识别用户的查询意图我们针对专业词汇进行意图识别。医疗概念是针对抽象的医疗领域知识中的基本原理、主要实体及活动关系通过概念实体和概念的特征信息进行的描述和定义。医疗本体(MedicalOntology)是医疗领域实体概念及相互关系、领域活动及该领域所具有的特性和规律的一种形式化描述[25]。其中包含医疗领域中概念与概念之间的关系以及概念的相关特征。医疗概念语义相似度计算本质上是抽取医疗本体或医疗语料库中医疗概念实体特征及概念关系,通过上下文关系、词的表义及主客观理解等综合因素,基于对本体中发现的语义证据来对医疗概念之间所蕴含的信息进行量化估计。例如:支气管炎和流行性感冒非常相似,两者都是呼吸系统紊乱引起的疾病;苯乙双服(降糖灵)和二甲双胍(降糖片)也非常相似,两者都是用来治疗糖尿病。在医疗领域,概念语义相似度能提高检索医疗源数据信息的效率,使得集成异构临床数据变得更加容易,也可以提高电子病历查询中用户医疗概念识别的精度,使得查询意图的理解更加高效。目前,国内外的学者已经对语义相似度计算进行了广泛的探索和研究。刘群等[26]提出通过分析词语间的结构得出语义距离来计算语义相似度。此方法忽略了影响语义的其他因素。在此基础上,李峰等[27]引入了事物信息的概念,通过义原信息对义项相似度的影响来研究语义相似度。王进等[28]提出的算法是结合语义向量的概念特征相似度和概念实例的属性相似度得到完整的语义相似度,但忽略了相关性对相似度的影响。之后李文庆等[29]引入计算概念信息量的算法,通过信息量分析词语的语义距离和语义深度计算相似度,但是只是通过概念在语料库中出现的概率来计算信息量,未能考虑概念本身具有的其他特征属性,不能全面的涵盖概念的信息量。32 中北大学学位论文针对上述研究现况,本文在医疗概念识别中首先通过朴素贝叶斯分类算法对医疗概念实体进行分类,计算概念信息量,然后引入一种评估函数,计算概念实体信息的熵值。在此基础上,基于信息论的相似性计算方法求得概念特征相似度,同时考虑到概念间的关联关系提出一种基于概念特征信息求概念相关度的算法,最后综合两者的计算结果求得最终的概念语义相似度。本文采用SNOMEDCT(SystematizedNomenclatureofMedicine--ClinicalTerms/医学系统命名法-临床术语)为知识源计算其语义相似度,并对计算结果进行分析和解释。实验结果表明本文提出的算法得出的结果更加接近医疗实际情况,能够在一定程度上解决医疗领域语义相似度不高的问题,进而对用户的查询意图进行精准的识别。3.2.1概念信息熵克劳德·艾尔伍德·香农(ClaudeElwoodShannon)在1948年提出信息熵(InformationEntropy)的概念,解决了对信息的量化度量问题[30]。香农借鉴热力学的概念,把信息中排除了冗余后的平均信息量称为“信息熵”,并给出了计算信息熵的数学表达式如下:H(x)=−∑𝑛𝑥𝑃(𝑥)𝑙𝑜𝑔2[𝑃(𝑥)](3.3)PhilipResnik[31]提出了信息量的概念,在医疗知识源中,通过分析概念的IC(InformationContent/信息量)来量化概念提供的信息。计算公式如下:IC(𝑥)=−𝑙𝑜𝑔2𝑃(𝑥)(3.4)其中:𝑃(𝑥)为概念信息的概率。信息熵定义为信息的期望值,在求解概念信息熵时,概念信息量作为其中的关键因素,下面给出求解概念信息量的具体步骤,最后得出概念信息熵求解公式。3.2.2朴素贝叶斯分类算法现阶段大多数概念信息概率计算直接采用计算词频的方式[32],这并不能精确的计算出概念实体中所涵盖的信息。本文中采用朴素贝叶斯的分类算法首先对医疗概念实体进行分类,计算得到概念实体在不同分类中的概率。通过这个方法,能够有效的计算出概念实体所涵盖信息的概率分布,因而对概念实体的信息量有一个全面精确的量化解释。朴素贝叶斯分类器的基本思路为:对于给定的待分类项,求在此项出现的条件下待33 中北大学学位论文分类项在各个类别出现的概率,此待分类项属于概率大的那个类别。贝叶斯分类模型是一种典型的基于统计方法的分类模型[33],它利用先验信息和样本数据信息来确定事件的后验概率。本文采用特征独立性假设,对词的概念分类来说,假设各个概念的概念特征信息ni和nj之间两两独立,原理如图3.7:Cn1n2n3nj图3.7朴素贝叶斯分类器通过对SNOMEDCT知识的随机抽取,对概念实体和概念特性以及相关联系的分析可以得到一个医疗概念实体信息集,如表3.1:表3.1医疗概念实体信息集概念实体概念特征信息阿司匹林抗偏头痛药、神经系统用药、化学药品、药用资源萘普生抗偏头痛、药神经系统用药、化学药品、药用资源巴比妥镇静药、神经系统用药、化学药品、药用资源羧甲司坦祛痰药、呼吸系统用药、化学药品、药用资源淡竹叶清热泻火药、清热药、中草药、药用资源决明子清热泻火药、清热药、中草药、药用资源枸杞子清肝明目药、清热药、中草药、药用资源满山红止咳平喘药、化咳止喘平痰药、中草药、药用资源天竺子止咳平喘药、化咳止喘平痰药、中草药、药用资源马兜铃止咳平喘药、化咳止喘平痰药、中草药、药用资源偏头痛神经系统疾病、内科、疾病慢性支气管炎呼吸系统疾病、内科、疾病哮喘呼吸系统疾病、内科、疾病神经组织神经系统、人体、病人肺呼吸系统、人体、病人支气管呼吸系统、人体、病人本文通过概念实体信息集中实体对应的概念特征信息对实体进行分类。34 中北大学学位论文假设通过医疗概念实体信息集得到的训练样本集分为k类,记为C={𝐶1,𝐶2,…,𝐶𝑘},则每个类𝐶𝑖的先验概率为P(𝐶𝑖),i=1,2,...,k,其值为𝐶𝑖类样本数与训练集总样本数M的比值,对于新样本w,其属于𝐶𝑖类的条件概率是P(w︱𝐶𝑖),根据朴素贝叶斯定理,𝐶𝑖类的后验概率为P(𝐶𝑖︱w),𝑃(𝑤|𝐶𝑖)𝑃(𝐶𝑖)P(𝐶𝑖|𝑤)=(3.5)𝑃(𝑤)𝑃(𝑤)对于所有的分类为常数,为避免值越界采用拉普拉斯概率估计:1+|𝑤𝐶|𝑖P(𝐶𝑖)=(3.6)|𝐶|+|𝑤𝐶|公式3.6中:|𝐶|为训练集中类的数目,|𝑤𝐶|为训练集中属于类Ci的概念实体数,𝑖|𝑤𝐶|为训练集包含的总概念实体数。对公式3.6简化为:P(𝐶𝑖|𝑤)∝𝑃(𝑤|𝐶𝑖)𝑃(𝐶𝑖)(3.7)在朴素贝叶斯分类器中对于新的未知样本属于类𝐶𝑖的依据,如下:P(𝐶𝑖|𝑤)=arg𝑚𝑎𝑥{𝑃(𝑤|𝐶𝑗)𝑃(𝐶𝑗)}(3.8)j=1,2,3,…,k.概念实体w中包含的概念特征信息表示为w=(𝑛1,𝑛2,…,𝑛𝑚),m是w所涵盖的概念特征信息个数|w|,wj是第j个概念信息,则得P(𝑤|𝐶)=P((𝑛,𝑛,…,𝑛)|𝐶)=∏𝑚𝑃(𝑛|𝐶)(3.9)𝑖12𝑚𝑖𝑗=1𝑗𝑖其中:𝑃(𝑛𝑗|𝐶𝑖)表示分类器预测概念特征信息nj在类Cj的词中发生的概率,因此可将简化后的公式3.9代入3.7中变为:|𝑤|P(𝐶𝑖|𝑤)∝𝑃(𝐶𝑖)∏𝑗=1𝑃(𝑛𝑗|𝐶𝑖)(3.10)针对𝑃(𝑛𝑗|𝐶𝑖)的计算提出两种计算公式,分别为概念特征信息型和概念频率型:1)概念特征信息型:只考虑概念特征信息是否在该概念实体中出现,出现表示为1,未出现表示为0,计算如公式3.11:1+𝐺(𝑤𝑛|𝐶𝑖)𝑗𝑃(𝑛𝑗|𝐶𝑖)=(3.11)2+|𝑤𝐶|其中:𝐺(𝑤𝑛𝑗|𝐶𝑖)为Cj类概念实体中出现概念特征信息nj的个数。2)概念频率型:考虑在各个语料库中概念特征在词中出现的频次,计算如公式3.12:35 中北大学学位论文1+𝑇𝐹(𝑛𝑗,𝐶𝑖)𝑃(𝑛𝑗|𝐶𝑖)=|𝑉|(3.12)|𝑉|+∑𝑘=1𝑇𝐹(𝑛𝑘,𝐶𝑖)其中|𝑉|表示总概念特征信息数,𝑇𝐹(𝑛𝑗,𝐶𝑖)表示概念特征信息𝑛𝑗在类𝐶𝑖的所有概念实体中出现的频次之和,加入一个概念特征的调节函数𝑈(𝑛𝑗),将公式3.10改进为:|𝑤|𝑈(𝑛𝑗)P(𝐶𝑖|𝑤)∝𝑃(𝐶𝑖)∏𝑗=1𝑃(𝑛𝑗|𝐶𝑖)(3.13)在改进后的公式3.13中,𝑈(𝑛𝑗)的值越小,概念特征信息𝑛𝑗在分类过程中的作用越小。3.2.3概念信息熵通过上述朴素贝叶斯分类算法对概念实体进行分类后概念信息量公式如下:IC(𝑤𝑖)=−𝑙𝑜𝑔2𝑃(𝐶𝑖|𝑤)(3.14)本文中通过准确率和召回率的评价思想[34]引入一种新的分类质量的评估函数f(w),对概念实体的分类进行量化评估如下:𝑃(𝐶𝑗|𝑤)f(w)=𝑘(3.15)∑𝑃(𝐶𝑖|𝑤)𝑖=1其中:𝑃(𝐶|𝑤)为概念实体w在类𝐶中的概率,∑𝑘𝑃(𝐶|𝑤)为概念实体w在所有类𝑗𝑗𝑖=1𝑖𝐶𝑖中的概率之和。最后,得出概念信息熵计算公式如下:H(w)=−∑𝑘𝑃(𝐶|𝑤)𝑙𝑜𝑔𝑃(𝐶|𝑤)∙𝑓(𝑤)(3.16)𝑖=1𝑖2𝑖H(w)的值越大,说明此概念实体的分类的概率越低,所含有的信息越多,该值对概念实体区分的作用也就越小。根据朴素贝叶斯分类后得出信息熵可以对概念实体做出全面的量化计算。将信息熵引入到语义相似度和相关度计算中,使单个概念信息量的估算更加准确。3.2.4概念语义相似度计算(1)概念特征相似度计算概念特征相似度是一个主观性非常强的概念,在不同的应用领域,相似度表示的意义也大不相同。在信息检索领域,相似度表示的是用户查询的关键词或概念信息与文本36 中北大学学位论文在意义上的符合程度[35]。关键词或概念信息和文本的符合程度越高,表示相似度越高,反之相似度越低。为使本体内部的概念信息的相似度计算更加客观准确,结合前人的研究经验,我们首先给出一个概念特征相似度基本的形式化定义:定义1:当两个概念A,B在某些方面具有共同的特征时,则定义它们是相似的,Sim(A,B)表示概念A,B间的特征相似度。从信息论[36]的角度分析,任何两个事物由他们的共性和个性决定其相似度,给出相似度的公式:log𝑃(𝑐𝑜𝑚𝑚𝑜𝑛(𝐴,𝐵))Sim(A,B)=(3.17)log𝑃(𝑑𝑒𝑠𝑐𝑟𝑖𝑝𝑡𝑖𝑜𝑛(𝐴,𝐵))其中:log𝑃(𝑐𝑜𝑚𝑚𝑜𝑛(𝐴,𝐵))为事物A和事物B的共有信息量,log𝑃(𝑑𝑒𝑠𝑐𝑟𝑖𝑝𝑡𝑖𝑜𝑛(𝐴,𝐵))为描述事物A和事物B的各自的信息量。基于上述相似度计算公式的思想,两个概念实体的相似度可表示为:两个概念实体共有信息熵与两个概念实体的信息熵和的比值,H(𝑤1,𝑤2)为两个概念实体共有的信息熵值。本文由朴素贝叶斯的分类思想提出一种简单的共有信息熵的计算方法,计算方式如下:𝑘H(𝑤1,𝑤2)=−∑𝑃(𝐶𝑖|𝑤1,𝑤2)𝑙𝑜𝑔2𝑃(𝐶𝑖|𝑤1,𝑤2)∙𝑓(𝑤1,𝑤2)𝑖=1(3.18)其中:𝑃(𝐶𝑖|𝑤1,𝑤2)为概念实体𝑤1和𝑤2同属一个类𝐶𝑖的概率。通过上述计算根据公式3.18可得两个概念实体相似度的计算公式为:2×H(𝑤1,𝑤2)+𝛿Sim(𝑤1,𝑤2)=(3.19)𝐻(𝑤1)+𝐻(𝑤2)+𝛿其中:𝛿为一个实数,取值大于0,其作用是避免分母出现为0的情况。(2)概念相关度计算概念实体之间不仅有表达意思的联系还有复杂的关系结构,它们的相似程度从简单的一个方面考虑很难进行度量。从某一角度也许非常相近的词语,从另一个角度考虑可能差异会非常大,所以本文中引进概念的相关度作为另一个重要的衡量标准。概念的相关度描述的是两个概念实体互相关联的程度,可用这两个概念实体在同一个分类的趋近程度来衡量。相关度与相似性相比是一个更加深入的概念,相似度说明两个概念实体所37 中北大学学位论文表达的信息在某些特征方面有一定的重合,相关度则表明两个概念在某些方面具有很强的关联关系,它们所表现的一些特征可能并不直接重合。如药物和药效,有着很强的相关性但是却并不相似;而感冒药和止疼药在某些功能上相似但并没有很强的相关性;同时两个概念实体可以由他们的相似性而认为他们也具有相关性,如中药和西药;同样具有很强的相关性的实体也有可能不相似,如药物和疾病。因此,在医疗领域中,除了特征信息的联系和上下文的关系外,还存在概念的关联关系。定义2:概念A和概念B之间存在某种关联关系,则定义他们是相关的,用Rel(A,B)表示他们的相关性。本文提出一种新的计算相关度的算法,通过对概念实体共有信息熵和概念分类的趋近程度以及不同概念实体之间概念特征信息交集的分析后,基于概念特征信息从不同维度对概念的关联性进行计算,最后提出的概念相关性的计算公式如下:1𝐶𝑜𝑢𝑛𝑡(𝑤1∩𝑤2)𝜀Rel(𝑤1,𝑤2)=∙∙H(𝑤1,𝑤2)𝐶𝑜𝑢𝑛𝑡(𝑤1)+𝐶𝑜𝑢𝑛𝑡(𝑤2)𝑚𝑖𝑛|𝑃(𝐶𝑖|𝑤1)−𝑃(𝐶𝑖|𝑤2)|+𝜀(3.20)其中:H(𝑤1,𝑤2)是两个概念实体的共有信息熵,𝑚𝑖𝑛|𝑃(𝐶𝑖|𝑤1)−𝑃(𝐶𝑖|𝑤2)|为两个概念实体在类𝐶𝑖的趋近程度,值越小则关联程度越高,𝐶𝑜𝑢𝑛𝑡(𝑤1∩𝑤2)为概念实体𝑤1和𝑤2的特征信息交集的个数,𝐶𝑜𝑢𝑛𝑡(𝑤)为概念实体的特征信息个数,𝜀为一个大于零的实数参数。当概念实体𝑤1和𝑤2不存在关联时Rel(𝑤1,𝑤2)=0。结合前面得到的概念特征相似度算法公式3.19和概念相关度算法公式3.20,本文最终得出综合概念语义相似度关系式如下SimRel(𝑤1,𝑤2)=α∙Sim(𝑤1,𝑤2)+(1−α)∙Rel(𝑤1,𝑤2)(3.21)其中:α为一个调节因子,用来调节相关度和相似度的权值。3.2.5实验结果及分析SNOMEDCT术语集提供了一套完整全面统一的医学属于系统,由993420条描述构成庞大的描述表,其中包含了36万条概念,近146万条关系。这套术语集,提供了一套全面统一的医学术语系统,涵盖大多数方面的临床信息,包括临床发现、操作、可观察实体、身体结构、有机体、物质、联接概念、社会环境等,便于计算机处理。实验38 中北大学学位论文选取SNOMEDCT作为领域本体。在上述抽取的医疗概念实体信息集中,取部分概念实体和概念特征信息分别利用文献[26]、文献[29]和本文提出的相似度计算方法进行综合概念语义相似度计算,并将得到的结果与经医疗领域专家分析得到的数据进行比较。在计算时,根据具体情况设置参数。公式3.19中的𝛿和公式3.20中的𝜀由统计的方法确定,在这里都设置为1。公式3.21中,α的值与领域本体有关,可将α设置为0.5。实验结果如表3.2所示:表3.2各种算法相似度大小实验数据医疗概念1医疗概念2文献[26]文献[29]本文算法医疗领域专家1阿司匹林化学药品0.76450.73850.69260.702满山红慢性支气管炎0.28520.35270.82150.823人体神经组织0.75850.69310.77560.804化学药品中草药0.79000.13580.45280.525呼吸系统用药神经系统0.13250.23540.15220.146药用资源支气管0.25280.18250.12560.107肺支气管0.65780.72130.85920.898马兜铃支气管0.32850.27060.79820.739阿司匹林偏头痛0.16230.11790.85290.9310呼吸系统用药羧甲司坦0.62250.89460.75210.73表3.2所示即为三种算法得出的相似度和医疗领域专家经验评估值。分析表3.2中的结果,可以画出如图3.8的对比图:文献[26]文献[29]本文算法医疗领域专家10.90.80.70.60.50.40.30.20.1012345678910图3.8实验结果分析图39 中北大学学位论文从图3.8可以看出本文提出的综合概念语义相似度算法的值更接近于专家的经验评估值,与医疗领域的实际情况相符。实验结果分析如下:(1)从第一行的结果来看,阿司匹林属于化学药品,所以两者之间的相似性很高,三种算法计算得出的数值与医疗领域专家的评估值都很高,与实际情况相符。(2)从第二行的结果来看,满山红和慢性支气管炎看起来没有相似点,两者之间的相似度很低,文献[26]和文献[29]计算的数值很低,分别为0.2852和0.3527。这是因为文献[26]和文献[29]只考虑单个节点与单个节点的相似度,没考虑树与树之间的相关度。满山红属于止咳平喘药,可以治疗慢性支气管炎,两者的相关性很高,本文提出的算法计算的结果为0.8215,接近于专家的评估值0.82,证明本文提出的算法与医疗领域的实际情况更加相符。(3)从第四行的结果来看,化学药品和中草药是两种不同的药物类别,两者同属于药物资源的类别下,实际情况中相似性一般。但是文献[26]计算的相似度值较高,为0.7900,这是因为文献[29]只考虑语义深度对相似度的影响,在本体库中两者的深度很接近,所得到的结果不准确。而文献[29]计算的结果为0.1358,相似度很低,这是因为文献[26]只考虑了单个词语之间的相似性,忽略了相关度对综合概念语义相似度的影响,也与实际情况不符。本文的算法既克服了语义深度对词语相似度的影响,又引入新的相关度计算方法来衡量综合概念语义相似度,得出的结果为0.4528,与专家的评估值0.52接近,更加符合医疗实际情况。概念语义相似度计算应用在医疗领域的最终目的是精确的模拟人对语义相似性的判断。本文研究基于信息熵计算概念特征相似度和概念相关度,并综合两者计算结果得出最终的概念语义相似度算法,对比已有文献的相关算法,分析影响相似度的主要因素,对传统的求解信息量的方法进行优化,克服了基于数据库IC计算模型的限制,通过贝叶斯分类和信息熵对概念信息量做出全面的量化,同时将概念相关度的影响考虑进来,并通过基于SNOMEDCT术语集的实验与传统的计算方法对比,证明本文的概念语义相似度算法对于不同概念的评估具有更好的全面性和有效性,在相似度的计算上更加精确,得出的结果更加符合医疗实际情况。40 中北大学学位论文3.3本章小结在本章中首先通过Dbscan算法对用户的查询日志进行聚类的分析,针对查询的宽泛性和歧义性来识别用户查询的意图。然后针对用户查询中出现的医疗专业概念通过信息熵计算相似度的方式在医疗术语集中寻找匹配的内容,从医疗专业概念方面进行意图的匹配。进而能够准确的识别用户查询意图。41 中北大学学位论文42 中北大学学位论文4电子病历图结构化检索方法研究以电子病历为医疗信息载体的智慧医疗体系正在蓬勃发展[37]。EMR是基于一个特定系统的电子化病人记录,该系统提供用户访问完整准确的数据、警示、提示和临床决策支持系统的能力[38],它包含了大量与患者健康状况密切相关的医疗数据。目前电子病历普遍采用的存储方式是通过关系数据库的方式存储的[38],但是,我们发现关系数据库在性能、扩展性、数据的快速备份和恢复、满足需求的易用性上并不总是能很好的满足我们的需要,而性能的低下会导致用户搜索满意度降低,因此成为现在需要解决的关键问题。针对以上问题,改进一种高效的基于电子病历的检索和多样化排序算法。首先,将电子病历的数据转化为图数据存储在图数据库中,当用户发出一个检索需求时,利用EMRTree索引和Upperbound模型对存储在图数据库中的数据进行剪枝,筛选出与检索具有强联系的数据,然后,通过EMRSearch算法得到一个最优结果集。实验证明,该方法可以提高用户检索效率,并在最大程度上匹配用户的检索意图。4.1电子病历的图结构化图数据是一种利用数据结构中图结构的的方式来进行存储数据的一种方式。在图数据库中有开源的Neo4j,其核心就是图论中的基本要素。数据实体和实体之间的关系用节点和边来表示,在图数据库中的映射就是节点、关系和属性。在电子病历中包含着大量的这种结构。在本文中提到通过中文处理方法分析的电子病历实体关系抽取。将电子病历中的信息结构抽取出来。个人信息为一个节点(I),医疗信息为一个节点(N),药品信息为一个节点(M)。如图4.1所示:IMN图4.1电子病历实体关系图将电子病历中的医疗信息抽取成图的结构,存储在图数据库中,然后根据上面识别的用户意图作为查询图,在图数据库中进行检索。下面是对电子病历图结构化的一个示43 中北大学学位论文意图。症状:胸闷、心悸症状:头昏、头胀症状:头疼:无检查:ST/改变:曾经治疗:于丹参片、麝香保心丸[现病史]诊断:高血压:两年治疗:坎地沙坦:两年检查:呼吸试验/阳性:2016/10/16诊断:糖尿病:无:以往[既往史]症状:胸闷、心悸:当前症状:恶心、呕吐:无:当前[现病史]时间诊断/初步:高血压/2级;无:脑梗塞:当前图4.2电子病历图结构化示例图4.2基本概念4.2.1电子病历实体通过对海量的电子病历的分析[39]得到其中包含了大量的不同类型的实体,在这里归纳为三大类型实体:个人信息、医疗概念和药品信息。而医疗知识的主要体现正是这些实体间的关系。这些关系可以从不同的角度反映电子病历中的医疗知识和患者健康状况之间的关系。4.2.2具体定义定义1电子病历数据图(EMRDataGraph)表示为:G=⟨VG,EG,LG,WG⟩,其中,VG为电子病历数据图G中的实体节点的集合,EG为电子病历数据图G中联系的集合,LG为图中每个顶点的到属性的映射函数[40],也就是说每个顶点都有相应的属性,WG为数据图中边和权值的映射,即图中每条边都带有一个相应的权值.44 中北大学学位论文定义2用户检索图(UserQueryGraph)表示为:Q=⟨VQ,EQ,LQ,WQ⟩,同理,各项表示意义同上,我们要将检索转化为图结构来进行匹配。同时根据用户意图识别出的检索信息得出一个用户检索阈值δ。比如:男性、头疼、芬必得,这就对应是I、N、M的具体体现,我们可以构建相应的用户检索图,如图4.3所示:IiMiNi图4.3用户检索图Q定义3信息分类(InformationCategory),表示为:C={Q,r},其中,C(Q)为用户检索Q的分类,C(r)为检索结果r的分类。例如:具有三个病历实体属性的无向带权数据图G,如图4.4所示:17II0.20.30.40.70.3δ=12N0.7M38N0.2M90.30.2I4N10I0.5N110.50.40.20.30.40.20.6M0.7N13MN5IM6120.3图4.4数据图G和检索图Q定义4EMR-Tree索引EMR-Tree是根据G数分级拓扑结构的树状索引建立的,根据文献[41]中GN算法的执行过程进行构建。如图4.5可将电子病历数据图G建立索引结构:N01-13N1N21-67-13N3N4N5N61-34-67-910-13图4.5EMR-Tree索引定义5SL索引(sortedlistsindex)SL索引是按照边的权值递减的顺序排列的索引结构[42]。在每一组边中,最大权值的边在列表的最上方。电子病历数据图G的SL索引结构如表4.1所示:45 中北大学学位论文表4.1SL索引N3N4N5N6IINN(11,13)0.2MMIN(1,2)0.2(4,5)0.5(7,8)0.7(10,11)0.5(8,10)0.2(10,13)0.4IM(1,3)0.3(5,6)0.6(7,9)0.3(10,12)0.3MN(2,3)0.7(4,6)0.4(8,9)0.2(12,13)0.2(3,4)0.3(4,12)0.2定义6UpperBound模型对于一个检索子图,UpperBound为检索图与数据图匹配的过程中的上界值。在一个子区域内,如果UpperBound的值小于等于用户检索意图的阈值δ,在这个子区域中一定不存在满足要求的匹配。定义7d跳节点匹配区域将树形节点的d跳邻居节点扩展加入到子区域中,表示为NS(Ni,d),Ni为子区域,d表示规定的跳数。4.3改进的EMRSearch算法首先将大量的电子病历数据信息存储在图数据库中,然后对EMRSearch检索算法进行改进,将已有的索引应用其中,从而解决用户检索效率低的问题。电子病历中实体有着庞大而复杂的联系,利用具有很好拓扑性的图结构能够充分反映各个实体间的联系[43]。在这种命名实体和实体关系图上搜索具有特定关系的检索的问题可以转化成图中指定节点和子图的匹配问题。电子病历中各个实体间既存在强联系也存在弱联系,所以,将电子病历转化为图结构可以更加方便和直观的对电子病历中的数据进行检索和分析。已有的检索算法GPSearch直接对图进行匹配,检索效率低下,该算法将EMR-Tree索引和SL索引应用其中,并引入新的Upperbound模型,依据EMR-Tree具有强大的裁剪能力,使检索效率和质量都有明显的提高。46 中北大学学位论文算法1:EMRSearch算法输入:电子病历数据图G、用户检索图Q、EMR-Tree索引T、SL索引L、节点区域Ni、Q的直径D、用户检索意图阈值δ;输出:所有与Q同构而且权值和大于δ的子图,用R表示1:R=∅2:Ni为T的根节点3:当Ni中存在满足Q中带权属性边的权值时搜索EMR-Tree中节点NS(Ni,D)并计算Upperbound(NS(Ni,D))的值4:IfUpperbound(NS(Ni,D))>then将其加入大根堆H中;5:EndIf6:WhileH包含非叶节点then7:选择H中非叶节点Ni;8:IfNi是非叶子节点then9:将Ni从H中移除;10:Forn是Ni的孩子顶点执行3~5步11:EndFor12:EndIf13:EndWhile14:ReturnH15:WhileH>0do选择H中的头节点Ni;16:将Ni从H中移除;17:EndWhile18:输出所有的R中的匹配在给定电子病历数据图G、用户检索图Q、EMR-Tree索引T、SL索引L、用户检索意图阈值δ后,根据图4.4给出的电子病历图G和用户检索图Q,已知用户给定阈值δ=1.0,Q的直径为1,具体步骤如下:步骤一:将初始匹配集合设置为空,此时引入EMR-Tree索引T求出根节点Ni,对于每个分好的区域只需1跳标签搜索区域。对于数据图G,首先判断N0中存在属性边的权47 中北大学学位论文值的最大值与检索图Q中相应的属性边的权值的大小,即(2,3);0.7>0.3,边(2,3)符合条件。步骤二:计算EMR-Tree中叶子节点区域UpperBound的值,将满足用户给定阈值δ的区域放入大根堆H中。在EMR-Tree索引中,将叶节点按照UpperBound值降序排列,如果一个子区域不满足用户检索意图阈值δ,那么这个区域被裁剪掉。如果这子区域不是叶节点,那么以它为根的子树均被裁剪掉。具体来说,在G中,EMR-tree的父节点N0下包含所有的子节点,并根据之前建立的SL索引可以计算出Upperbound(NS(N0,1))=0.7+0.6+0.7+0.2=2.2>1.0,所以将N0加入H中,执行算法7~10,因为H中包含了父节点N0,所以将N0移除,对N0的子节点N1和N2重复执行3~5步,得出(2,3)的权值0.7>0.3,Upperbound(NS(N1,1))=0.5+0.6+0.7=2.0>1.0,所以,将N1加入H中。同理,N2中的NM边最大权值0.2<0.3,所以将以N2为父节点的整棵树裁剪掉。因为H中包含父节点N1,所以将N1从H中移除并继续以同样的方法计算子节点N3和N4所代表的区域。N3中MN的属性边的最大权值0.7>0.3,Upperbound(NS(N3,1))=0.2+0.3+0.7=1.2>1.0,将N3加入到H中,同理N4中MN的属性边的最大权值0.4>0.3,Upperbound(NS(N4,1))=1.5>1.0,将N4也加入到H中。步骤三:从H中选出具有最大UpperBound值的候选子图,对子区域进行子图匹配,匹配结束后将该子图从H中移除,当H为空时,输出满足要求的匹配集合R。此时堆H中有N3和N4,即为匹配出来的结果。4.4实验结果及分析为了验证改进后的EMRSearch算法不论在精度上还是效率上都具有优势,根据比较EMRSearch算法、文本匹配算法SAPHIRE和Single-BlockMatch算法的查全率、查准率和检索速度来说明三种算法的优劣。实验获取ClinicalTrial注册库中的临床试验数据[45]。该注册库目前包含174个国家的103109个临床试验数据。48 中北大学学位论文4.4.1检索质量评价指标在具体评价一个信息检索系统的检索效果时,往往使用几个指标来反映评价结果,其中,查全率(RecallRatio)和查准率(PrecisionRatio)一直以来都是检索系统性能评价中两个极为重要而经典的指标。这两个概念最早是由Perry和Kent在1957年提出的,他们结合起来,描述了系统的检索成功,其值越高,表示检索的效果越好。在本章中,用G代表检索系统中存贮的医疗信息总数,a代表检索出的相关医疗结果,b代表检索出的不相关结果,c代表未检索出的相关结果,d代表未检索出的不相关结果。其中,G=a+b+c+d;a+b=检索出的结果;c+d=未检出的结果;a+c=相关结果;b+d=不相关结果。查全率是衡量系统在进行检索时检出相关结果能力的一种测度指标,因此,计算方法为:𝑎Recall=(4.1)𝑎+𝑐查准率是衡量系统在检索时检索精确度的一个测度指标,因此,计算方法为:𝑎Precision=(4.2)𝑎+𝑏4.4.2实验结果分析用户发出的意图检索为Q,EMRSearch算法中,Q是︱VQ︱=5的有权检索图,用户的检索意图阈值设置为δ=2.0。将其划分为四个子集合,子集合G1:实体数为1000;子集合G2:实体数为10000;子集合G3:实体数为50000;子集合G4:实体数为100000.实验在不同规模的数据集下,观察随着数据集的增大,三个算法的查全率、查准率和检索速度的变化情况。实验结果如下:49 中北大学学位论文SAPHIRESingle-BlockMatchEMRSearch100908070%6050查全率403020100G1G2G3G4图4.6三种检索算法查全率比较SAPHIRESingle-BlockMatchEMRSearch100908070%6050查准率403020100G1G2G3G4图4.7三种检索算法查准率比较在图4.6和4.7中,X轴表示不同数据集,Y轴分别表示查全率和查准率,由柱状图可以看出,各个算法在数据集不同时,查全率和查准率有有所不同,在相同的数据集下,EMRsearch算法的查全率和查准率均要优于其他两种算法。所以,EMRsearch算法具有更高的查全率和查准率。这是因为,EMRsearch算法在进行检索前对查询意图进行了识别,这就可以在一定程度上提高检索的精度。50 中北大学学位论文18SAPHIRE161412Single-BlockMatch108检索运行时间2-610EMRSearch420G1G2G3G4图4.8三种检索算法速度比较在图4.8中,X轴表示数据集大小,Y轴表示检索运行时间,由图可以看出,各个算法随着数据集的增大,运行时间也逐渐增大,但在相同的数据集大小下,EMRsearch算法的速度要优于其他两种算法。所以,EMRsearch算法更适用于大规模数据图的检索。这是因为,EMRsearch算法在运行时首先进行了裁剪,这就可以大大加快运行速度。4.5本章小结本章中利用图数据具有的拓扑结构以及电子病历中实体之间的联系从而将电子病历图结构化,进而通过EMRSearch算法和索引的结合,使用户发出检索时可以高效的匹配出更加符合用户意图的结果。51 中北大学学位论文52 中北大学学位论文5电子病历查询结果多样化排序首先,我们要明白为什么上述检索结果依旧不能很好的满足用户的需求。比如flash的例子,并假设用户真正的查询是关于flash软件的。假设第一页共有10个检索结果其中有6个是关于“AdobeFlashPlayer”的。但是,官方的Adobe网站显示在第一个结果上,那么用户选择其他5种不同的网站的概率将会极大地减小,我们就没有必要将这5个网站显示在第一页上。这个简单的例子说明,当我们已经检索出来自同一类别的高质量的检索结果后,那么选择其他结果的可能性将会大大降低。从早期的信息检索工作到现在,检索结果多样化的重要性已经是有目共睹的了。一组结果集的相关性不仅取决于其个体的相关性,同时也取决于他们彼此的相关性。理想情况下,一组结果集应该适当的考虑所有结果的利益。特别的,在局部分类学上,我们假设存在一个信息的分类和一个用户意图模型。在这种分类学上,检索词和结果可能不仅仅是属于一种分类。在这种分类中,我们假设使用统计数据已经收集用户的意图的分布规律。我们的方法考虑了结果与结果之间的相关性。在检索的结果中,我们通过类别进行分类。而现在大多数搜索引擎都使用标准的排名的算法。当我们考虑了结果的多样性以后,就可以更大程度的增加用户的满意度。本章介绍一种经典的多样性排序算法并将这个算法应用到在电子病历中检索出来的结果排序问题上。求最优解的问题现在已被证明是一个NP困难问题[46]。但利用这个算法可以实现在局部最优结果并计算出最优排序,我们利用经典的评估指标来评价我们的算法,并和通过商业搜索引擎产生的结果集进行比较。通过实验可以看出,在任何情况下,我们的结果多样性算法都可以更好的将更加符合用户的查询意图的检索结果排在前面。5.1前期研究关于多样性的研究在早期就已经有很多,其中比较有影响力的研究是通过Carbonell和Goldstein提出的MMR(MaximalMarginalRelevance)模型[47]。在他们的研究中,新颖性和检索结果的相关性是通过两个方面衡量,一是测定文档之间的相似性,二是测定53 中北大学学位论文其它文档和查询之间的相似性。其中,用一个参数来控制权衡的程度。但是因为没有将任何文档或查询分类,多样性是通过相似度函数体现的,因此并不能很好的体现出检索结果的多样性。Zhai[48]等人指出,这在一般情况下不足以简单地返回一组多样性结果,结果之间的相关性也很重要。Lafferty[49]提出了一个信息检索的风险最小化的框架,允许用户在集中返回的结果后定义任意损失函数。此功能将用户对于一个检索出来的结果集的不满体现了出来。为了把理论应用到实践中,我们需要指定一个损失函数。在Zhai等人提出了一系列可供选择的多样化结果的损失函数,但是这些损失函数依赖于一定的语言模型,而不包含对文档进行分类的信息。5.2多样性排序算法一般而言,通过简单的算法就可以实现排序的目标,但是由于意图匹配的子意图集和检索的结果是相对应的,简单的排序不能够很好的将结果匹配用户的真实意图。而在在单个分类中结果排序是否为最佳可以被证明出来。下面详细介绍多样性排序的算法,将查询结果进行分类实现最优排序。5.2.1初期首先将检索出的图回溯成最初的文本信息集合,便于用户查看具体的信息,假设存在一个信息分类,并且该用户的意图以这种分类的局部等级建模。根据这个分类将检索词和检索结果分类。其中检索Q所属的分类为C(q),检索结果r的分类为C(R)。注意,检索词或结果可能属于多个类别。对于给定的查询q和得出的结果集r,其种类可能不重叠,即,C(D)交C(q)的可能是空的。进一步假设有一个已知的给定类别的查询的分布概率𝑃(𝑐|𝑞),并且∑𝑐∈𝐶(𝑞)𝑃(𝑐|𝑞)=1.此公式可在一些实践的方法中得出[50]。令𝑉(𝑟|𝑞,𝑐)表示预期的类别为c时一个结果r的对查询Q的质量值,用来衡量文档的相关性。为了保证一般性,让其值在[0,1]。我们给出了一个用概率解释的质量值:他们近似满足给定查询的用户意图的结果。此值可以使用各种技术来估计[51]。在我们的推理步骤中,𝑉(𝑟|𝑞,𝑐)是基于结果和查询的,并通过该结果属于特定类别的可能性的加54 中北大学学位论文权的内容的计分函数来确定。我们作出一个的独立性假设:给定一个查询和意图的类别,满足用户这两个结果的条件概率是独立的。也就是说,假设在一个查询Q下两个结果r1和r2都属于c类时并且值为(1−V(𝑟1|𝑞,𝑐))(1−V(𝑟2|𝑞,𝑐))时,那么概率将会是空。注意,当两个结果属于不同类别时这个假设不适用。5.2.2问题的公式化假设用户仅考虑前k个返回的查询的结果。我们的目标是将用户发现前k结果中至少有一个有用的结果的概率最大化。多样性研究D(k):给定一个查询q,一组检索结果集R,查询q属于c类的分布概率P(𝑐|𝑞),结果的质量值𝑉(𝑟|𝑞,𝑐))和一个整数k。找到一组结果集R并且|𝑅|=𝑘,使公式最大化:P(𝑆|𝑞)=∑𝑐P(𝑐|𝑞)(1−∏𝑑∈𝑆(1−𝑉(𝑟|𝑞,𝑐)))(5.1)其中,𝑉(𝑟|𝑞,𝑐)可以被解释为是在c类下一个结果r满足发出该查询Q的概率。值1−𝑉(𝑟|𝑞,𝑐))是使r不满足查询的概率。其中减去乘积等于结果集满足C类的概率。最后,在所有类别下,由P(𝑐|𝑞)加权,得出的概率是一组结果集R满足用户发出查询Q的概率。注意,这个公式解决了我们在前面提到的一部分问题。特别是,当我们的查询是“flash”(查询q)时,如果我们在软件部分(C类)有一个很好的结果,如“AdobeFlashPlayer”(结果r)时,𝑉(𝑟|𝑞,𝑐))会非常高。而其他软件结果能满足用户的意图的概率是非常小的,所以这个公式可以很好的使我们在软件类的结果中花费更少的时间。如所陈述,D(k)不考虑结果的排序。这是因为用户会考虑所有的k结果的假设。在实际情况中,k的精确值当然是事先不知道的,即,不同的用户可在不同数目的结果的停止检索。尽管如此,考虑到排序的重要性,我们的算法也被设计以产生对结果的排序,而不是仅仅一组结果。事实上,当结果属于多种分类时,对于所有k有可能不存在文件的单一排序使得D(k)的值最大化。这是因为,对于D(K-1)的最佳结果并不是D(k)的一个子集。考虑多样性研究(two-category,three-document)实例[52]。假设P(𝑐|𝑞)=P(𝑐|𝑞)=0.5.更进1255 中北大学学位论文一步假设在𝑉(𝑟|𝑞,𝑐)对于不同类别的值根据表5.1给出。通过计算,D(1)的最佳排序为r1,r2,r3,而对于D(2)为r2,r3,r1.表5.1D(k)质量值结果文本V(r︱Q,C1)V(r︱Q,C2)r10.800.80r21.000.00r30.001.005.2.3D(k)的贪心算法我们提出了一个贪心算法去解决这一问题。设R是第四章检索结果的前k个文件。我们的算法将重新对R进行排序。𝑉(𝑟|𝑞,𝑐)是C类下结果集R满足用户的需求的概率。U(C︱Q,S)表示检索Q属于C类时在集合中的所有结果S不能满足用户需求的条件概率。首先,在未选择任何结果之前,U(C︱Q,∅)=P(c︱Q)。该算法一次输出一个结果。在每一步中,它选择具有最高的边际效用的值输出,即将r带入g(r︱Q,c,S)中,比较𝑔(𝑟︱𝑄,𝑐,𝑆)的值,将使𝑔(𝑟︱𝑄,𝑐,𝑆)的值最大的r输出。这种边际效用可以解释为所选的结果不满足用户意图的可能性。在循环结束时,条件分布更新为反映列入新文件的结果集。算法3:SortDiversity算法输入:k,用户查询Q,C(Q),R,C(r),P(c︱Q),V(r︱Q,c)输出:一组重排序的多样化结果S1:𝑆=∅2:∀c,U(C︱Q,S)=P(c︱Q)3:while︱S︱<kdo4:ford∈Rdo5:𝑔(𝑑︱𝑄,𝑐,𝑆)←∑𝑐∈𝑐(𝑑)𝑈(𝑐︱Q,𝑆)𝑉(𝑑︱𝑄,𝑐)6:Endfor7:𝑑′←Max𝑔(𝑑︱𝑄,𝑐,𝑆)断开联系56 中北大学学位论文8:𝑆←𝑆∪{𝑑′}9:∀𝑐∈𝑐(𝑑′),𝑈(𝑐︱𝑄,𝑆)=(1−𝑉(𝑑′︱𝑄,𝑐)𝑈(𝑐︱𝑞,𝑆{𝑑′}))10:𝑅←𝑅{𝑑′}11:Endwhile12:returnS5.2.4算法描述我们描述一个使用算法的例子。我们假设用户发出的检索Q属于C1的概率是0.7,属于C2的概率是0.3,并且假定结果集R={r1,r2,……,r10},根据表2给定的质量值V,我们通过算法计算排名前五的顺序结果。表5.2质量值结果文本V(r︱Q,C1)V(r︱Q,C2)r10.500.00r20.200.00r30.150.00r4,r5,r6,r70.050.00r8r9r100.000.33具体步骤如下:步骤一:将S设置为空。之前的EMRSearch算法的结果集R包含了两类与用户检索意图相匹配的信息,可知用户发出的检索Q就在这两个类别C1和C2中。步骤二:通过在C类下的条件分布结果和检索文档的质量值来计算检索的最大边际效益,这种边际效用可以解释为所选的结果不满足用户意图的可能性[13]。由假设可知,U(C1︱Q,S)=P(c1︱Q)=0.7,U(C2︱Q,S)=P(c2︱Q)=0.3步骤三:我们根据文本r的边际效益大小对他们进行排序,选择具有最高边际效益的文档输出。通过计算,由于g(r1︱Q,c1,S)=0.35,所以r1是在C1类下具有最大边际效益的文本,因此被添加到S中,添加了r1的𝑈(𝑐︱Q,{r1})被更新为0.35。同理得出,属于C2下的{r8,r9,r10}中的任意一个具有最大边际效益g(r1︱Q,c2,r8)=0.099,我们任意选择r8添加进S中,𝑈(𝑐︱Q,{r1,r8})被更新为0.2。步骤四:在循环结束时,条件分布更新为反映列入新文件的结果集。以此类推,我们得57 中北大学学位论文到重新排序的结果集S={r1,r8,r2,r9,r10}.5.3实验结果通过第三章的两种方法对用户的查询子意图进行识别。第一种方法是:针对用户查询语句的歧义性和宽泛性,通过密度聚类的方式进行子意图识别,研究子意图聚类算法中的阈值确定和半径的计算方法。第二种方法是:针对查询语句中医疗词汇进行精准的子意图匹配。之后通过朴素贝叶斯分类算法来训练样本来计算信息熵后,通过语义相似性和相关性来衡量子意图的匹配程度。接着在第四章为使用户在电子病历中的检索更贴近用户意图,提高用户检索的效率提出用图结构来表示电子病历数据的研究方法。通过上面的用户查询意图识别和有效的检索之后,对检索到的结果集重新进行多样化排序,得到的结果集会更加满足用户的查询意图,而衡量新的排序结果集是否真正更加贴近用户的查询结果,就需要用一个现有的成熟的评价指标来评价。常见的一些经典的IR指标有MAP、MMR和NDCG[53],这些指标被广泛应用到测量搜索质量中。因为MAP和MMR中并没有考虑到多样性的因素,所以本实验运用广为人知的测量搜索质量和排序质量的NDCG(NormalizedDiscountedCumulativeGain)指标来评价最终得到的多样性排序结果集。NDCG是指归一化折损累积增益,可以以实数的形式对排序结果进行打分,进而达到对排序结果进行评价的目的。首先,通过上面的SortDiversity排序算法,得到一些结果并形成了一个排序列表,我们要计算这个列表相较于之前有多好。然后,每一个结果都有一个相关的评分值,通常来讲,这些分值是非负的,这就是G(Gain增益)。接着,我们把这些分数相加,就得到了CG(CumulativeGain累计增益)。在实际情况中,我们首先看到的是那些位于列表前面的最相关的结果,因此,在我们把这些分数相加以前,将每一项除以一个递增的值(一般用该项位置的对数来表示),这个就是折损值,即DCG(DiscountedCumulativeGain)。表达式如下:𝑘2𝑟(𝑗)−1DCG(Q,k)=∑𝑗=1(5.2)log(1+𝑗)其中,r(j)表示在查询结果Q下的排名为j的结果的评分值,在这里设定为0=bad,1=fair,2=good,3=excellent。58 中北大学学位论文由于在用户与用户之间DCG的值没有直接的可比性,所以我们要对这个值继续进行归一化处理,得到NDCG。为了得到最好的,我们把测试集中的所有项放置在理想的次序下,采取的是前k项并计算他们的DCG。最后,将原DCG与理想状态下的DCG相除,得到NDCG@k,表达式如下:DCG(Q,k)NDCG(Q,k)=(5.3)DCG(R,k)这个值为一个0到1之间的数,值越大,表明这个结果集的排序结果越好,反映在本文中就表示得到的结果集更加满足用户的检索意图。在本实验中,我们通过与以往的排序算法:基于SVM的RankingSVM算法和基于样本队列的Listwise算法,与本文的SortDiversity算法进行比较,计算他们的NDCG@k值,来证明我们的算法的NDCG@k的值是最高的来说明我们的排序效果好。实验数据根据4.4的实验数据得出,分别运用三种算法得出排序结果,然后分别计算NDCG@1、NDCG@3和NDCG@5的值,得到实验如图5.1所示:SortDiversityRankingSVMListwise0.620.60.58值0.56NDCG0.540.520.5NDCG@1NDCG@3NDCG@5图5.1三种算法的NDCG@n值从图5.1中可以看出,不论是NDCG@k中的取值为多少,算法SortDiversity的NDCG的值都高于RankingSVM算法和Listwise算法,说明SortDiversity算法得出的排序结果更为精确,更贴近用户的检索意图,可以使用户的检索满意度提到最高。59 中北大学学位论文5.4本章小结在本章中首先介绍了多样性排序算法,为了更好的增加用户检索的满意度,将检索结果与多样性排序算法SortDiversity相结合,对查询结果进行排序,使最符合用户意图的结果显示在最前面。使用户能迅速精准的查找到对自己有用的信息。60 中北大学学位论文6总结与展望6.1总结随着互联网技术的不断发展同时医疗信息也在不断的完善,通过信息技术来查询获取医疗信息变的越来越普及,专业的医务人员也希望通过海量的医疗数据获取医疗信息。我国政府也在不断的深化医疗电子化的改革,电子病历逐渐的替代了传统病历,通过电子信息技术来记录医疗过程,实现医疗记录的存储、管理和传输。在面对海量的电子化的医疗数据,对医疗数据的挖掘和医疗信息的获取变的尤为重要。正是在这样的背景下,本文通过对用户的意图识别以及改进的检索技术对医疗数据进行查询,最后对结果进行多样化排序。使查询结果尽可能匹配用户的查询意图,提高用户使用的满意度。本文是首先是对医疗数据的特殊性进行了分析,详细的分析了电子病历中数据的结构,通过中文处理工具首先对电子病历中的自由文本数据进行处理。然后抽取内部的医疗实体信息和实体关系。在用户意图识别方面,本文用两种方式来进行处理,针对用户查询的宽泛性则通过对用户查询的历史数据用聚类的方式来获取用户查询的子意图,针对用户查询中的医疗专业词汇本文通过朴素贝叶斯分类算法对医疗语料库进行处理,计算其信息熵,从而计算医疗专业词汇之间的相似度和相关度。最后对查询中的医疗专业词汇识别意图。然后将电子病历中抽取的医疗信息转化为图结构,应用改进的检索算法使检索的效率和准确度提高。通过识别出的子意图检索得到的结果又通过多样化排序使更加符合用户意图的结果展示在最前面。通过实验证明,本文的方法和改进的算法能够有效的提供用户查询的效率和准确度。对于医生或者患者在获取医疗信息中都有显著的帮助。6.2展望基于用户意图分析的电子病历检索技术研究,虽然在用户意图识别,图结构数据检61 中北大学学位论文索以及多样化排序方面都有一定的提高,但是目前的研究依然有很多的欠缺和局限。首先本文在电子病历的中文处理方面对实体的抽取并不完善,由于医疗本体数据的欠缺可能会导致部分数据的丢失,在语料标注方面依然还有很大的改进空间。其次,在用户意图分析方面本文采取的是将用户查询意图的宽泛性和专业术语的意图识别分开来计算,最后综合在一起,未来可以将两个方面结合在一起进行分析,增加数据的互动和联系。在聚类算法中的阈值的选取和确定也存在一定的问题。未来还可以通过其他的方式进行用户主题聚类。最后,在用户查询结果的多样性排序也可以通过多种方式来匹配用户意图,可以将意图识别的结果与排序联系起来进行分析。对于电子病历检索本身就是一个不断改进不断深入的问题,通过深入分析医疗领域数据的结构特性,结合不同的算法使效果越来越好。62 中北大学学位论文参考文献[1]周迎,曾凡,黄昊.浅谈云计算在医疗卫生信息化建设中的应用前景[J].中国医学教育技术,2010,24(4):350-353.[2]吴伟斌,肖强,陈联忠等.电子病历系统的研究与开发[J].中华医院管理杂志,2004,20(4):204-206.[3]陈金雄.电子病历与电子病历系统[J].医疗卫生装备,2010,31(10):4-7.[4]高春芳,唐晓东,罗娟.电子病历系统应用现状及前景展望[J].医疗卫生装备,2013(3):76-78.[5]陈飞,刘奕群,张敏,等.基于查询子主题分类的多样性搜索评价方法[J].软件学报,2015,26(12):3130-3139.[6]郭鹏飞.一种基于后缀数组和倒排表的全文索引模型[D].北京交通大学,2014,35-39.[7]刘滔,雷霖,陈荦,等.基于MapReduce的中文词性标注CRF模型并行化训练研究[J].北京大学学报(自然科学版),2013,49(1):147-152.[8]陈永莉,洪漪.检索语言在医学信息管理与检索中的应用综述[J].图书情报知识,2015,3-10.[9]XuYongdong,QuanGuangri,WangYadong.ResearchofelectronicmedicalrecordkeyinformationextractionbasedonHL7[J].JOURN-ALOFHARBININSTITUTEOFTECHNOL-OGY.2011,43(11):89-94.(徐永东,权光日,王亚东.基于HL7的电子病历关键信息抽取技术研究[J].哈尔滨工业大学学报,2011,43(11):89-94.)[10]YangShuxin,XuLiping,XiaXiaoyun,etal.AdvancesinKeywordSearchoverGraphData[J].ACTAELECTRONICASINICA,2014,42(11):2260-2267.(杨书新,徐丽萍,夏小云,等.图数据关键词检索研究进展[J].电子学报,2014,42(11):2260-2267.).[11]王琳.电子病历的安全管理策略分析[J].当代医学,2013,19(7):17-18.[12]HanZ,ShuangmeiL.中心度指标对语义述谓网络概念抽取的比较分析——以疾病63 中北大学学位论文治疗学研究为例[J].现代图书情报技术,2013(6):30-35.[13]郭拥宾,施运梅,李宁.基于文档标注和锁的一致性维护方法[J].计算机工程与设计,2016,37(8):2087-2092.[14]DongZ,ChenH,ChenJ,etal.ADemonstrationofQASystemBasedonKnowledgeBase[C]//Asia-PacificWebConference.SpringerInternationalPublishing,2016:579-582.[15]GuH,ChenY,HeZ,etal.QualityAssuranceofUMLSSemanticTypeAssignmentsUsingSNOMEDCTHierarchies[J].Methodsofinformationinmedicine,2016,55(2):158-165.[16]雷东,王韬,王晓晗,等.基于前导码挖掘的未知协议帧切分算法[J].计算机应用,2017,7(2):440-444.[17]尹存燕,黄书剑,戴新宇,等.中英命名实体识别及对齐中的中文分词优化[J].电子学报,2015,43(8):1481-1487.[18]潘慧,朱信忠,赵建民,等.基于Hadoop云测试体系架构的设计[J].计算机工程与科学,2013,35(10):72-78.[19]YuS,SuJ,LiP,etal.Towardshighperformancetextmining:aTextRank-basedmethodforautomatictextsummarization[J].InternationalJournalofGridandHighPerformanceComputing(IJGHPC),2016,8(2):58-75.[20]冯潇婧.“大数据”时代背景下计算机信息处理技术的分析[J].计算机光盘软件与应用,2014,17(5):105-105.[21]崔建群,陈爱玲,夏振厂,等.一种高稳定性低延迟的应用层组播生成树算法[J].计算机科学,2016,43(6):77-81.[22]彭绍东.大数据时代网上学习行为研究的挖掘方法模型与应用[J].电化教育研究,2017,38(1):70-79.[23]石崇林,淦文燕,吴琳,等.计算机兵棋作战实体轨迹聚类算法[J].JournalofSoftware,2013,24(3).57-60.[24]伊华伟,张付志,兰洁.基于k-距离与重加权M-估计量的鲁棒协同推荐算法(英文)[J].中国通信,2014,9-12.64 中北大学学位论文[25]GuoHuiyu,ZhangWenju,LiNa,etal.Co-wordVisualisationofScientometrics:ResearchHotspotsAboutMedicalDomainOntologyinChina[J].JournalofPreventiveMedicineInformation[J],2012,28:397-401.(郭会雨,张文举,李娜,等.我国医学领域本体研究热点分析—共词可视化视角[J].预防医学情报杂志,2012,28:397-401.)[26]ZhangKeliang,HuangJinzhu,CaoRong,etal.TextsentimentalorientationanalysisbasedonHNCcontextualframeworkandsentimentaldictionaries[J].JournalofShandongUniversity(NaturalScience),2016,51(7):51-58.(张克亮,黄金柱,曹蓉,等.基于HNC语境框架和情感词典的文本情感倾向分析[J].山东大学学报(理学版),2016,51(7):51-58.)[27]TianD.LargeScaleWebPageClassificationAlgorithmBasedonSpectralHashing[J].SoftwareEngineeringandApplications,2016,5(1):65-74.[28]LiWenqing,XieHongwei.Semanticsimilarityestimationmethodbasedonmedicalontology[J].COMPUTERENGINEERINGANDDESIGN,2013(4):1287-1291(inChinese).(李文庆,谢红薇.基于医疗本体的语义相似度评估方法[J].计算机工程与设计,2013(4):1287-1291.)[29]MonsenKA,FinnRS,FlemingTE,etal.Rigorinelectronichealthrecordknowledgerepresentation:lessonslearnedfromaSNOMEDCTclinicalcontentencodingexercise[J].InformaticsforHealthandSocialCare,2016,41(2):97-111.[30]JiangY,ZhangX,TangY,etal.Feature-basedapproachestosemanticsimilarityassessmentofconceptsusingWikipedia[J].InformationProcessing&Management,2015,51(3):215-234.[31]YouBin,YanYuesong,SunYingge,etal.MethodofInformationContentEvaluatingSemanticSimilarityonHowNet[J].ComputerSystems&Applications,2013,15(1):129-133(inChinese).(游彬,严岳松,孙英阁等.基于HowNet的信息量计算语义相似度算法[J].计算机系统应用,2013,15(1):129-133.)[32]ZhangYaping,HuXuegang,FangZhenguo,etal.IBayesianoptimizationalgorithmunder65 中北大学学位论文conditionsofincompletedata[J].ComputerEngineeringandApplications,2012,48(11):111-114.(张亚萍,胡学钢,方振国,等.数据缺失条件下的贝叶斯优化算法[J].计算机工程与应用,2012,48(11):111-114.)1[33]YuanJunyi,XieJingjing,TangQinhua.DesignandThinkingofanIntegratedSchemaSystemforPatientInformationintheHospital[J].ChinaMedicalDevices,2015,30(3):79-80.(袁骏毅,谢晶晶,汤钦华.医院患者信息集成视图的设计与思考[J].中国医疗设备,2015,30(3):79-80.)[34]ChangJW,LeeMC,WangTI.Integratingasemantic-basedretrievalagentintocase-basedreasoningsystems:Acasestudyofanonlinebookstore[J].ComputersinIndustry,2016,78(6):29-42.[35]HasanbelliuE,SanchezGL,PrincipeJC.InformationTheoreticShapeMatching.[J].IEEETransactionsonPatternAnalysis&MachineIntelligence,2014,36(12):2436-51.[36]ZouXiaoyan.ADiscussiononManagementofElectronicMedicalRecords[J].ChineseMedicalRecord,2012(2012年03):4-5.(邹小颜.探讨电子病案的管理[J].中国病案,2012(2012年03):4-5.)[37]GaoChunfang,TangXiaodong,LuoJuan.ApplicationStatusandProspectsofElectronicMedicalRecordSystem[J].ChineseMedicalEquipmentJournal,2013,34(3):76-78(高春芳,唐晓东,罗娟.电子病历系统应用现状及前景展望[J].医疗卫生装备,2013(3):76-78.)[38]ZhaoYang,LiWanlong,BaiJieying.ElectronicMedicalRecordRetrievalSystemBasedonOntology[J].COMPUTERTECHNOLOGYANDDEVELOPMENT,2010,20(3):211-213.(赵洋,李万龙,白杰英.基于本体的电子病历检索系统研究[J].计算机技术与发展,2010,20(3):211-213.)[39]YangShuxin,XuLiping,XiaXiaoyun,etal.AdvancesinKeywordSearchoverGraphData[J].ACTAELECTRONICASINICA,2014,42(11):2260-2267.(杨书新,徐丽萍,夏小云,等.图数据关键词检索研究进展[J].电子学报,2014,42(11):2260-2267.)66 中北大学学位论文[40]LiHaomin,DuanHuilong,LvXudong,etal.Methodofstructuredelectronichealthrecorddataentry[J].JournalofZhejiangUniversity(Eng-ineeringScience):2008,42(10):1693-1696.(李昊旻,段会龙,吕旭东,等.结构化电子病历数据录入方法[J].浙江大学学报:工学版,2008,42(10):1693-1696.)[41]MashhourSolh,GhassanAlRegib.Hierarch-icalHole-FillingForDepth-BasedViewSynthesisinFTVand3DVideo[J].SignalProcessing,2012,6(5):495-504.[42]NEWMANMEJ,GIRVANM.Findingandevfllua-tingcommunitystructureinnetworks[J].Phys.Rev,E,2004,69:1l3—126.[43]ZhaoXiaohuan.FIGScaleDataProcessingTechnologyCloudComputingEnvironmentAnalysis.FORGIENINVESTMENTINCHINA[J].2012(10):275-275.(赵小换.云计算环境下的大规模图数据处理技术分析[J].中国外资,2012(10):275-275.).[44]ZhengW,WangX,FangH,etal.Coverage-basedsearchresultdiversification[J].InformationRetrieval,2012,15(5):433-457.[45]Ruiz-MartinezJM,Valencia-GarciaR,Fernandez-BreisJT,etal.OntologylearningfrombiomedicalnaturallanguagedocumentsusingUMLS.ExpertSystemswithApplications,2011,38(10):12365-123781.[46]梅文宝,吕文阁,陈凯.基于竞选算法的特征点图像匹配研究[J].机电工程技术,2016(4):7-10.[47]HeEY,HawkinsNJ,MakG,etal.Theimpactofmismatchrepairstatusincolorectalcanceronthedecisiontotreatwithadjuvantchemotherapy:anAustralianpopulation-basedmulticenterstudy[J].Theoncologist,2016,21(5):618-625.[48]YuZ,TetardL,ZhaiL,etal.Supercapacitorelectrodematerials:nanostructuresfrom0to3dimensions[J].Energy&EnvironmentalScience,2015,8(3):702-730.[49]AaijR,AdevaB,AdinolfiM,etal.ObservationofJ/ψpResonancesConsistentwithPentaquarkStatesinΛb0→J/ψK−pDecays[J].Physicalreviewletters,2015,115(7):72-85.67 中北大学学位论文[50]王佳信,周宗红,赵婷,等.基于Alpha稳定分布概率神经网络的围岩稳定性分类研究[J].RockandSoilMechanics,2016,205-207.[51]宋亚楠,仲茜,刘斌.基于边际效用函数的网络资源调度[J].电子学报,2013,41(4):632-638.[52]IannellaR.HeuristicUserInterfaceEvaluation:ThreeCaseStudiesofDialogDesign[C]//ProceedingsofOZCHI94-AustralianCHISIGAnnualConference.Eds.Howard&Leung.Melbourne(Nov/Dec1994).2009:127-132.[53]WangY,WangL,LiY,etal.AtheoreticalanalysisofNDCGrankingmeasures[C]//Proceedingsofthe26thAnnualConferenceonLearningTheory(COLT2013).2013,208-220.68 中北大学学位论文攻读硕士学位期间发表的论文及所取得的研究成果发表论文[1]王超,宋文爱,富丽贞,张晶亮.电子病历的检索和结果多样化算法研究[J].科学技术与工程,2016,(36):190-195+200.软件著作权[1]李华玲,张晶亮,原豪,王超.智能超市购物APP软件,简称:智购,v1.0.69 中北大学学位论文致谢时光飞逝,岁月如梭,眨眼间,我的研究生生涯已经接近尾声,不胜唏嘘。研究生生活比起大学四年是曲折的,可比起大学生活也是充实而快乐的。在这曲折而又短暂的三年的硕士生活中,我历经了自弃,失落与迷茫的同时,也享受了欢乐,喜悦与收获,是这些泪水与欢乐让我成长,让我自强。我要感谢所有给予我教诲,支持,鼓励与陪伴的老师亲人朋友同学师兄师姐师弟们,在我硕士毕业论文即将完成之际,我要对你们所有人说一声:谢谢!首先,我要特别感谢我的导师宋文爱教授。宋老师治学严谨,造诣颇深,为人热心,爱护学生。不仅指出了云计算与大数据领域的前沿方向,而且热心指导我们论文的构思与写作要领。硕士三年的科研道路是艰难而又曲折的,尤其是初入研一时,整日沉浸在失落与迷茫的低落情绪中,看不到希望的曙光。幸得宋老师和富老师在学术研究方面的指点迷津,使我重获信心振作起来寻找科研的乐趣;宋老师和富老师的无私帮助,周密指导,才让我得以感受到柳暗花明又一村的喜悦,可以收获到科研的丰厚果实。宋老师是我们学习上的好导师,也是我们人生的好导师。宋老师,我以有这样一位能力超凡而又光彩夺目的老师而骄傲和自豪。在这里,我只想对宋老师深深的道一声感谢,谢谢您的教诲,谢谢您的包容与支持,谢谢!其次,我要感谢全体课题组的各位老师们。是你们为我们共同创建和维护了一个良好的学术氛围,让我可以在一个和谐而又具有浓厚学术氛围的实验室中安心地学习,快乐地科研;也感谢曾经对我的学习或者人生提出过诸多宝贵意见和建议的各们老师们,谢谢你们的指导与教诲,谢谢!然后,我要感谢与我共同学习,协作科研的各位师兄师姐师弟师妹们,是大家共同的努力才有了我硕士三年的研究成果。我的学习离不开你们,你们是我硕士三年最好的同学与伙伴,是我学生生涯中最为宝贵的财富,谢谢你们,谢谢!最后,我要向所有参与评审论文的专家们致以衷心的感谢,谢谢!70

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
关闭