疾病—症状语义网构建及应用研究

疾病—症状语义网构建及应用研究

ID:77830203

大小:3.48 MB

页数:50页

时间:2024-02-04

上传者:笑似︶ㄣ無奈
疾病—症状语义网构建及应用研究_第1页
疾病—症状语义网构建及应用研究_第2页
疾病—症状语义网构建及应用研究_第3页
疾病—症状语义网构建及应用研究_第4页
疾病—症状语义网构建及应用研究_第5页
疾病—症状语义网构建及应用研究_第6页
疾病—症状语义网构建及应用研究_第7页
疾病—症状语义网构建及应用研究_第8页
疾病—症状语义网构建及应用研究_第9页
疾病—症状语义网构建及应用研究_第10页
资源描述:

《疾病—症状语义网构建及应用研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

分类号TP182单位代码:10183:4026密级:公开研究生学号:201554m吉林大学硕士学位论文专业学位()疾病—症状语义网构建及应用研究-mSemanicNetResearchonDiseaseSymptotConstructionandApplication作者姓名:纪林影类别:工程硕士领域(方向):软件工程指导教师:黄岚教授培养单位:软件学院2018年4月 疾病一症状语义网构建及应用研究ResearchonD-miseaseSyptomSemanticNetConstructionandApplication作者姓名:纪林影领域(方向):软件工程指导教师:黄岚教授类别:工程硕士答辩日期:州/g年6月>日 未经本论文作者的书面授权,依法收存和保管本论文书面版本、电子版本的任何单位和个人,均不得对本论文的全部或部分内容进行任何形式的复制、修改、发行、出租、改编等有碍作者著作权的商业性使用(但纯学术性使用不在此限)。否则,应承担侵权的法律责任。吉林大学硕士学位论文原创性声明本人郑重声明:所呈交学位论文,是本人在指导教师的指导下,独立进行研宄工作所取得的成果。除文中已经注明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的作品成果。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。学位论文作者签名:2吡日期:年#月k日 摘要疾病-症状语义网构建及应用研究误诊是在临床诊疗实践中存在的一种普遍现象。它造成的后果程度不一,轻者增加病人身心痛苦,延迟康复时间,重则危及生命,是医疗事故和医疗纠纷的主要原因之一。在临床诊断过程中,由于人们认识水平的局限性和疾病变化的复杂性,医生的初诊结果与疾病的实质不相符的现象时有发生,随着科学技术的进步和现代医学的发展,临床中不断引入各种现代化的检查仪器,使得诊断手段有了很大进步,然而临床误诊率并没有因此下降。根据粗略的统计,疾病误诊率仍在10%~15%。误诊的最主要原因是相似症状的混淆。症状是临床诊断的主要依据,容易误诊的疾病通常是由于其症状相似。易误诊疾病及症状的知识大量存储在各种书籍文献和开放的网络数据库中。因此,整合相关知识源,构建一个“疾病-症状”知识系统对疾病诊断过程中可能发生的误诊作出提示,对提升临床诊断效果有着重要的意义。近年来,生物医学知识表示领域取得了一系列的进展:(1)结构化生物医学知识表示与发现。本体是一种重要的结构化知识表示方法,是共享概念模型的明确的形式化规范说明,它的主要功能在于实现知识的共享和复用。一些主要领域的本体已经建立,如基因本体、疾病本体、人类表型本体等。(2)非结构化生物医学知识表示与发现。近些年,大量生物医学信息和知识以学术论文、医学教科书、病例报告等半结构化和非结构化表示形式在互联网上发表。Liu等人针对语义生物信息数据库整合领域,解决了数据资源链接问题;Mohammed等人通过连接疾病与症状之间的关系,将疾病本体与症状本体整合融合在一起;Cheng等人通过建立疾病相关数据库的语义关系来整合关于人类疾病的各种知识源;Huang等人设计了一种基于网络的算法,从多种生物医学语料库中抽取了疾病和基因的关系;Bai等人通过连接多种生物医学本体和知识源构建了一个混合的生物医学知识网络。然而,在对误诊提示的支持方面,此领域仍然存在一些尚未解决的问题。首先,现有的症状本体是基于解剖学的,其概念之间没有语义上的联系,使得症状间的相似关系在本体中没有得到体现。其次,症状与疾病间的关系存储在非结构化的文本中,未被抽取出来进行结构化的表示。而且,症状与疾病间不是简单的一对一关系,还存在常见、I 罕见的区别。最重要的是,现有医学知识表示系统中都未包含疾病间的鉴别诊断(易误诊)知识。鉴别诊断知识通常存储在诊疗手册等文献内,尚未结构化地表达在计算机系统中,限制了疾病间易误诊知识的直接利用。综上,本文构建了一个疾病-症状语义网DSSN(Disease-Symptomsemanticnet)。首先,从多个医学领域知识库中获取描述症状文本的语料库,在此语料库中进行症状描述词语的识别,得到丰富的症状词汇候选集;然后,计算症状词汇候选集中症状词汇间的语义相似度,根据症状词语之间的语义相似度合并相近语义症状,建立一个新的症状本体;接着,对多个医学领域知识库进行自然语言处理和文本挖掘,获得疾病-症状间的关系、疾病间的易误诊关系及鉴别诊断知识;最后,在所构建的症状本体基础上,加入这些关系与知识,构建成一个疾病-症状语义网DSSN。此外,作为DSSN在误诊方面研究的一部分,本文开发了一个基于Protégé的误诊提示工具。此工具以DSSN为数据基础,用户可以通过简单的查询直接获取某种疾病的症状及其易误诊疾病,还可以清晰地获得疾病间的相同症状与不同症状,以此来支持临床医疗诊断的误诊提示,降低误诊发生的概率。关键词:知识发现,疾病-症状语义网,文本挖掘,误诊II AbstractResearchonDisease-SymptomSemanticNetConstructionandApplicationMisdiagnosisisacommonphenomenoninclinicaldiagnosis.Theconsequencesofmisdiagnosisaredifferent,somepeopleincreasetheirphysicalandpsychologicalsuffer,anddelaytherehabilitationtime;somepeopleevenlosetheirlives.Misdiagnosisisoneofthemaincausesofmedicalmalpracticeandmedicaldisputes.Inclinicaldiagnosis,duetothelimitationsofpeople'sunderstandingandthecomplexityofthedisease,thephenomenonsthatthedoctor'spreliminarydiagnosisdoesnotaccordwiththeessenceofthediseaseoccurfromtimetotime.Withtheadvancementoftechnologyandthedevelopmentofmodernmedicine,avarietyofmoderninspectionsequipmentinclinicalpracticemakethediagnosticmethodsgreatlyimproved,however,theclinicalmisdiagnosisratedoesnotdecline.Accordingtoroughstatistics,themisdiagnosisrateisstill10%-15%.Themainreasonformisdiagnosisistheconfusionofsimilarsymptoms.Symptomsaretheprimarybasesforclinicaldiagnosis.Theknowledgeofsymptomsandmisdiagnosisismassivelystoredinvariousbooks、literaturesandopensourcedatabases.Therefore,itisofgreatsignificanceforimprovingclinicaldiagnosisratetointegraterelevantknowledgesourcesandconstructa"disease-symptom"knowledgesystem.Thesystemcanpromptthemisdiagnosisintheprocessofdiseasediagnosis.Inrecentyears,muchprogresshasbeenmadeinthefieldofbiomedicalknowledgerepresentation:(1)Structuredbiomedicalknowledgerepresentationanddiscovery.Ontologyisanimportantmethodofstructuredknowledgerepresentationandaclearformalspecificationofsharedconceptualmodels.Itsmainfunctionistorealizeknowledgesharingandknowledgereuse.Someontologiesofthemainareashavebeenestablished,suchasgeneontology,diseaseontology,humanphenotypeontology.(2)Unstructuredbiomedicalknowledgerepresentationanddiscovery.Inrecentyears,alargenumberofbiomedicalinformationandknowledgehavebeenpublishedontheInternet,intheformsofsemi-structuredandunstructuredtexts,suchasacademicpapers,medicaltextbooksandcasereports.Liuetal.III integratedthefieldofsemanticbioinformaticsandsolvedtheproblemofdataresourcelinking.Mohammedetal.linkedthediseaseontologywiththesymptomontology,byconnectingtherelationshipbetweenthediseaseandthesymptom.Chengetal.integratedvarioussourcesofknowledgeabouthumandiseases,byestablishingsemanticrelationshipsofdisease-relateddatabases;Huangetal.designedaweb-basedalgorithmtoextracttherelationshipbetweendiseasesandgenesfromavarietyofbiomedicalcorpora.Baietal.constructedahybridbiomedicalknowledgenetwork,byconnectingmultiplebiomedicalontologyandknowledgesources.However,therearestillsomeunresolvedproblemsinthefieldofthesupportformisdiagnosisprompts.First,theexistingsymptomontologyisbasedonanatomy,thereisnosemanticrelationshipbetweenconcepts,sothesimilaritiesbetweensymptomsarenotreflectedintheontology.Second,therelationshipsbetweensymptomsanddiseasesarestoredinunstructuredtextandnotextractedforstructuredrepresentation.Moreover,thesymptomsanddiseasesarenotsimpleone-to-onerelationships,therearealsocommonrelationshipsandrarerelationships.Mostimportantly,noneoftheexistingmedicalknowledgerepresentationsystemscontaintheknowledgeofthedifferentialdiagnosis(misdiagnosis).Theknowledgeofdifferentialdiagnosisisusuallystoredinmedicalmanualsandotherliteratures,andisnotexpressedstructurallyincomputersystems,itlimitsthedirectuseoftheknowledgeofmisdiagnosisbetweendiseases.Insummary,aDisease-SymptomSemanticNet(DSSN)wasconstructedinthisarticle.Firstly,thecorporadescribingthesymptomtextswereobtainedfromseveralknowledgebasesofmedicaldomain,symptomwordswererecognizedfrommedicalcorpora,andtherichsymptomwordscandidatesetsareobtained.Then,thesemanticsimilaritiesbetweenthesymptomwordsinthecandidatesetwerecalculated,synonymsweremergedaccordingtothesemanticsimilarities,asymptomontologybasedonsemanticrelationsbetweensymptomwordswasestablished.Andthen,throughthenaturallanguageprocessingandtextminingofknowledgebaseinmultiplemedicalfields,disease-symptomrelationshipsandmisdiagnosisIV relationshipswereobtained.Finally,basedontheestablishedsymptomontology,theserelationshipswereaddedtoconstructaDisease-SymptomSemanticNet(DSSN).Inaddition,aspartofresearchonDSSNapplication,atoolformisdiagnosispromptbasedonProtégéweredeveloped.Byusingthistool,userscandirectlyobtainthesymptomsofadiseaseanditsmisdiagnosis,andcanclearlyobtainthesamesymptomsanddifferentsymptomsofthedisease.So,thetoolcanpromptmisdiagnosisinformationintheprocessofclinicalmedicaldiagnosisandreducetheprobabilityofmisdiagnosis.Keywords:knowledgediscovery,Disease-Symptomsemanticnet,textmining,misdiagnosisV 目录第1章绪论...........................................................................................................11.1选题背景与意义.........................................................................................11.2国内外研究现状.........................................................................................21.3本文工作与结构.........................................................................................3第2章相关背景知识...........................................................................................42.1语义网..........................................................................................................42.1.1语义网的概念与意义..........................................................................42.1.2语义网的体系结构..............................................................................52.1.3Wordnet................................................................................................72.2本体..............................................................................................................82.2.1本体的概念及意义..............................................................................92.2.2本体构建工具......................................................................................92.2.3疾病本体............................................................................................112.2.4症状本体............................................................................................122.3医疗相关数据............................................................................................132.3.1Wikipedia..........................................................................................132.3.2MayoClinic......................................................................................142.3.3ClevelandClinic............................................................................142.4本章小结....................................................................................................14I 第3章症状本体构建.........................................................................................153.1语料库........................................................................................................163.2症状词语识别............................................................................................173.3同义症状合并............................................................................................193.4症状本体构建............................................................................................20第4章疾病-症状语义网构建.............................................................................224.1疾病-症状关系抽取.................................................................................224.2疾病间易误诊关系的获取与建立...........................................................234.3疾病-症状语义网建立.............................................................................25第5章基于Protégé的误诊提示工具开发.....................................................275.1开发平台....................................................................................................275.2工具的设计与实现...................................................................................285.2.1语义网存储模块................................................................................285.2.2查询检索模块....................................................................................295.2.3用户界面............................................................................................305.3基于Protégé的误诊提示工具的应用...................................................31第6章总结与展望.............................................................................................34参考文献.................................................................................................................35作者简介及科研成果.............................................................................................39致谢.................................................................................................................40II 第1章绪论第1章绪论1.1选题背景与意义人类社会的发展推动了各领域学科的进步,医学的进步是一个充满着探索和艰辛的漫长历程。尤其是临床医学,人类疾病种类繁多,成因复杂,在医疗诊断过程中我们既有成功的经验,也有误诊的教训。诊断是医生将所获得的各种临床资料经过分析、评价、整理后,对病人所患疾病提出的一种符合临床思维逻辑的判断。如果这种逻辑判断符合疾病的客观存在,诊断就应该是正确的;如果不符合客观存在,则诊断就是错误的[1]。诊断过程中的任何错误或失败,都会导致误诊。误诊[2]是在临床诊疗实践中存在的一种普遍现象。误诊不但未能阻止病情的继续恶化,反而延长和加重了患者的身心痛苦和经济负担,严重影响了患者的康复治疗,是医疗纠纷事件的主要原因[3]。在临床诊断过程中,由于临床医学科技发展的历史阶段性,医务人员对全部医学发展成果了解的局限性,患者病情的个体差异性,接诊时间的紧迫性,疾病早期阶段主要矛盾尚未显露等客观现实,医生的初诊结果与疾病的实质不相符的现象是客观存在且不可避免的[4]。随着医疗科学技术的进步和现代医学的发展,临床中不断引入各种现代化的检查仪器,诊断手段有了很大提升,然而临床误诊率仍然居高不下。据统计,疾病的平均误诊率为10%~15%[5],有些疾病甚至更高,如心肌梗死的误诊率达20%,肺栓塞误诊率可达55%[6]。误诊具有客观性和主观性,误诊的原因复杂繁多,其最主要原因是相似症状的混淆。症状是诊病、辨证的主要依据,一般是指患者通过感官主观感觉到的不适或某些病态改变。医生依据获取的症状体征信息,通过综合分析,对病人所患疾病做出诊断。因此,容易误诊的疾病通常是由于其症状的相似。易误诊疾病及症状的知识大量存储在各种书籍文献和开放的网络数据库中,包括SNOMED-CT1,LOINCICD-9CM3,MeSH4,Wikipedia,MayoClinic,ClevelandClinicUMLS5和SymptomOntology等。尽管这些资源在易误诊方面提供了有价值的信息,但是分布式存储和多样化数据表示使得这些信息缺乏系统级的集成和互操作的能力。因此,整合相关知识源,构建一个“疾病-症状”知识系统对疾病诊断过程中可能发1 第1章绪论生的误诊作出提示,对提升临床诊断效果有着重要的意义。1.2国内外研究现状本文要构建的“疾病-症状”知识系统的知识来源主要包括本体等结构化知识源和文献等非结构化知识源。近年来,这两种知识源上的知识表示和发现都取得了一定的进展:(1)结构化生物医学知识表示与发现。本体是一种重要的结构化知识表示方法,它的主要功能在于实现知识的共享和复用[7]。医学本体是用来储存和检索医学知识的有效方法,它可以定义、一致化和结构化标准的生物医学词汇。一些主要领域的本体已经建立,如包含基因和基因产物属性的基因本体(GeneOntology,GO)[8]、表示人类疾病症状的症状本体(SymptomsOntology,SYMP)[9]、描述人类疾病导致表现型异常的人类表型本体(HumanPhenotypeOntology,HPO)[10]、集合人类疾病的疾病本体(DiseaseOntology,DO)[11]、集合生物群落,环境特征和环境物质的环境本体[12]、关于体检项目的医疗检测本体(MedicalExaminationOntology,MEO)[13]、蛋白本体等。(2)非结构化生物医学知识表示与发现。近年来,大量生物医学信息和知识以学术论文、医学教科书、病例报告等半结构化和非结构化表示形式在互联网上发表,越来越多的研究工作从中萃取疾病相关的知识。麻省理工大学(MassachusettsInstituteofTechnology)和哈佛大学(HarvardUniversity)的Marwah和Katzin等人应用一种上下文相关的贝叶斯框架来计算不同生物医学本体中概念间功能联系[14];南开大学谢茂强等人基于集成异构网络挖掘表型-基因关联[15];Xu等人从文献中抽取疾病与症状表现之间的关系[16];Liu等针对语义生物信息数据库整合领域,解决了数据资源链接问题[17];Mohammed等人通过连接疾病与症状之间的关系,将疾病本体与症状本体整合融合在一起,实现本体文件在医疗诊断中的应用[18];Iglesia等人将临床试验信息进行分类,并构建成本体中的概念[19];Isern等人构建本体来表示临床诊疗指南中的知识[20];LiangCheng等人通过建立疾病相关数据库的语义关系来整合关于人类疾病的各种知识源,从而将收集到的所有关系数据整合成了一个以疾病为中心的系统[20];Huang等设计了一种基于网络的算法,从多种生物医学语料库中抽取了疾病和基因的关系[22];Bai等通过连接多种生物医学本体和知识源构建了一个混合的生物医学知识网络[23]。2 第1章绪论1.3本文工作与结构本文主要工作为构建一个知识系统,此知识系统主要包含两个部分。一部分是构建了疾病-症状语义网DSSN(Disease-Symptomsemanticnet),其包含了疾病本体DO(DiseaseOntology)、症状本体及疾病间的易误诊关系。另一部分是构建了一个基于Protégé的临床辅助诊断工具,以DSSN为数据基础,对诊断过程中可能出现的误诊进行提示。通过这两部分,就建立了疾病、症状和鉴别诊断(易误诊)知识的连接,使得医生可以依据此工具对临床诊断结果进行辅助查询,从而达到误诊提示的目的。在本文接下来的内容中,将会按照如下的结构进行相关的介绍:第1章是绪论。主要为选题背景与意义,国内外研究现状和本文工作的简要概述。第2章是相关背景知识。这一章节主要介绍语义网,本体和医疗相关数据。第3章是症状本体构建。这一章节主要介绍了症状本体的构建过程,分为语料库的选择、症状词语识别、同义症状合并和症状本体构建四个部分。第4章是疾病-症状语义网构建。这一章节主要介绍了疾病-症状语义网的构建过程,分为疾病-症状关系获取、疾病间易误诊关系的获取与建立和疾病-症状语义网构建三个部分。第5章是基于Protégé的误诊提示工具开发。主要是设计和实现了一个基于Protégé的临床诊断误诊提示工具。第6章是总结与展望。3 第2章相关背景知识第2章相关背景知识2.1语义网2.1.1语义网的概念与意义语义网(SemanticWeb)[24][25]是由万维网的创始人TimBerners-Lee在2001年提出的一个概念,指的是链接数据的网络。语义网是万维网的扩展与延伸,可使互联网上的数据语义互联,使其语义可以被机器自动理解。语义网继承了其前身SemanticNetwork的知识表达能力,并提高了语义的互操作性和推理能力。语义网的任务是解决网络信息爆炸时代的信息处理问题。WWW包含约数十亿个网页,网页的主要内容是自然语言。这海量的可读数据增加了用户的寻找,访问,使用和信息维护的难度。用户需要借助机器来智能地访问网络内容,并根据用户需求来执行任务。语义网的出现丰富了数据,文档,应用程序和其他类型的网络资源,使它们为机器可读并互相联系。在语义网中,在线资源是可标记的,并以一种有意义的方式连接在一起。通过构建分层语义体系结构,语义网可以自动浏览机器可读数据以进行精确搜索和过滤。因为语义网可以“理解”内容,所以还可以利用其推理能力从已经明确表达的内容中推断新知识。因此,语义网在知识共享过程中显著地提高了可扩展性,可见性和推理能力。自语义网被提出以来,FOAF、TrueKnowledge等众多应用在科学领域和商业领域迅速崛起。根据谷歌的语义网文档搜索引擎Swoogle显示,Swoogle已经以RDF、RDFS和OWL等形式为语义网文档编制了数百万个索引,不仅是生物医学科学和地球科学等科研组织积极参与语义网的开发,而且Oracle、Vodafone、Google、Baidu、Facebook、Amazon.com、Adobe和Yahoo等行业领导企业也在智慧网络技术上投入了巨资。例如:Oracle开发了第一个RDF管理系统,以支持生命科学、企业应用程序和供应链管理领域的应用程序集成,Oracle还在此平台中扩展了OWL支持;Vodafone作为欧洲领先的电信公司,在其网站上使用RDF描述铃声,游戏和图片,从而带来了更好的用户体验,并4 第2章相关背景知识增加了公司收入;Google、Baidu等搜索引擎公司使用语义网技术来提高搜索质量,提升了用户使用的方便度,也使得信息搜索结果简洁直观,如Google公司构建了知识图谱(KnowledgeGraph),Baidu构建了知心知识图谱;Facebook公司引入语义网推出了社交图谱(SocialGraph)。通过上面各大科技网络公司我们可以发现,语义网的影响正在学术界和商业界中扩大。2.1.2语义网的体系结构语义网从各个技术层面来实现其目标,2001年TimBerners-Lee定义了语义网的体系结构,具体如图2.1所示,语义Web体系结构从下至上共为七层,各层功能从下至上逐渐増强。图2.1语义网的体系结构语义网的第一层是编码定位层(Unicode+URI):国际码字符集(Unicode)用于资源的编码;统一资源标识符(URI)用于描述资源和关系。第二层是XML结构层(XML+NS+xmlsschema):可扩展标记语言(XML)是定义特定应用标记的元语言,作为一种语法来确保知识符合XML语法;命名空间(NS)由URI索引确定,可以简化URI的书写形式;可扩展标记语言大纲(xmlsschema)提供一种标签使用的约束机制。第三层是资源描述层(RDF+RDFSchema):资源描述框架(ResourceDescriptionFramework,5 第2章相关背景知识RDF)是一种用于描述Web资源的标记语言,RDF提供了一个基于图像的参考模型,通常以三元组形式描述资源,即“资源-属性-属性值”,可用一个RDF有向图表示,如图2.2所示。RDF还配备了名为SPARQL的标准查询语言来满足从RDF检索信息的基本需求。如图2.3所示为W3C代码片段,用RDF语言描述了一个名叫EricMiller的人,与代码对应的RDF图如图2.4所示。资源描述框架大纲(RDFSchema)强化了RDF,提供了更强的表述体系对资源进行定义和分类。第四层是本体词汇层(OntologyVocabulary),代表了语义Web本体语言的演变,为网络信息的共享与复用提供了语义基础。第五层是逻辑层(Logic),根据规则定义逻辑层的内容,为推理提供了实现依据。第六层是验证层(Proof),提供一种规则机制对信息源进行验证。第七层是信任层(Trust),通过数字签名(DigitalSignature)等技术对信息交换提供安全保障。图2.2RDF有向图图2.3描述EricMiller的RDF语言6 第2章相关背景知识图2.4描述EricMiller的RDF图2.1.3WordnetWordNet[26][27]是一个英文电子词汇数据库,提供了对词汇数据库的最新描述。名词、动词、形容词和副词等词性各自分开组成一个同义词集合,每个集合都表示一个不同的概念。同义词间通过概念语义和词汇关系互相联系。WordNet的结构使其成为计算语言学和自然语言处理的重要工具。Wordnet中词汇间的主要关系是同义关系,如图2.5所示:“encephalitis”、“halitis”和“enitis”为同义关系。同义词——相同概念并且在许多情况下可互换的词汇——被分组为一组无序的集合(同义词集合)。Wordnet中的117000个同义词集皆通过少量的“概念关系”连接到其他同义词集。除此之外,同义词集包含了一个简短的定义,在大多数情况下,一个或多个短句子可以表明同义词集中词汇的作用。具有多种不同含义的单词形式会在多种不同的同义词集中表示。因此,Wordnet中单词的“形式-含义”都是唯一的。7 第2章相关背景知识图2.5Wordnet在线搜索界面2.2本体语义网与本体之间的关系非常紧密,可以说本体是语义网的核心。语义网主要提供了信息的语义表示机制,最终目的是实现信息的共享和语义的互操作,因此,语义网需要以本体论为指导对知识的共享和复用进行管理。本体是语义网中便于计算机理解的标准概念体系,W3C已经定义语义网中的OWL层标准为本体语言。本体可以提供语义网中资源相互联系的主要技术,是实现语义网的关键。目前,对本体的研究和开发己涉及众多领域,人工智能、电子商务、信息检索、生物信息、自然语言处理等领域的组织机构从不同的角度对本体进行了研究和应用,本体学习技术已经发展成为知识表示、知识共享和知识复用的主流技术。8 第2章相关背景知识2.2.1本体的概念及意义近年来,本体这个词语已经被赋予了新的含义。本体在科学技术领域内的应用源于其在古典哲学里的含义。在哲学范畴内,本体论是“对存在的系统解释”,换句话说,本体论就是“存在论”。而信息科学将本体的概念由抽象化到具体化,并产生了多种定义。1995年,本体研究领域的领导者ThomasGruber定义本体为“概念化的明确表示”[28],其中概念化是指将领域实体的名称与人类可读文本联系起来,并用规范化的公理限制这些术语的解释及其合理的应用。Gruber的定义经常被引用,是本体研究的主要来源之一。1997年Swartout等提出“本体是一个可以将领域概念结构化表达的知识库骨骼架构”[29]。1999年Chandrasekaran等提出,“本体是可以复用的领域知识结构”[30]。2001年Noy和McGuiness提出了一个比较完整的定义,本体是“领域概念的正式的明确的描述,每个概念特性描述概念的各种特征和属性,以及对时隙的限制”[31]。这个定义为BIM使用本体提供了平台。2008年Arvidsson和Flycht-Eriksson提出了一个最明确的定义,“本体提供了一个共享词汇集,用来模型化一个领域,即对象的类型和存在的概念,以及它们的属性和关系”[32]。本体能够精细地处理并准确地描述专业术语的概念,并达到语义共享、互操作及复用的目标。越来越多的学科采用本体作为共享,重用和处理领域知识的方式。在生物医学中,本体在定义标准化概念中起着至关重要的作用。除了定义标准,他们将概念安排到is-a和同级层次结构中,这些结构有效地将这些概念以结构化方式相关联,在检索时提供有价值的推断。2.2.2本体构建工具一个复杂的知识库的开发,如生物本体(例如,基因本体包含43980个类),需要在多个层面上提供工具支持,本体构建工具就是用来辅助专业人员完成这个任务的。目前,各机构研发出了多种本体构建工具,常用本体开发工具如图2.6所示,主要分为以下两类:9 第2章相关背景知识图2.6常用本体开发工具第一类是支持多种描述语言的本体开发工具,如OilEd[33]、OntoEdit[34]、Protégé[35]等,它们不依赖于某种特定的语言。OilEd是由曼彻斯特大学(UniversityofManchester)开发的用于创建和编辑OIL本体的图形工具,可以展示DAML+OIL语言的用法。OilEd使用逻辑描述系统FaCT系统来检查本体中陈述的结果。与框架系统相比,OilEd是基于逻辑描述的知识模型,允许类的任意布尔组合及多种类型的约束,如值类型和基数限制等。OntoEdit是由Ontoprise开发的一个本体工程环境,它允许检查,浏览,编辑和修改本体文件。使用OntoEdit建模本体意味着在概念层面建模,即尽可能独立于具体的表述语言。OntoEdit使用图形用户界面(GUI)来表示概念结构,例如概念层次结构中排序的概念、实例、公理、领域和范围的关系等。10 第2章相关背景知识Protégé是由斯坦福大学医学院研究开发的本体编辑工具。它具有多项特点:(1)允许编辑本体的各个方面,包括类、关系、逻辑公理和元数据。(2)支持推理,Protégé中内置了自动推理机HermiT和Fact++,可以用来检查逻辑错误。(3)支持本体可视化,Protégé使用多种算法展示了不同的可视化视图。(4)Protégé是免费且开源的,允许自定义模块化扩展。(5)支持多种文件格式,如RDF/XML,OWL/XML等。(6)支持后台数据库存储,可以将本体存储到数据库中。第二类是支持某种特定的描述语言的本体开发工具,例如Ontolingua[36]、WebOnto[37]等。Ontolingua由斯坦福大学开发,使用一套定义来规定类和关系。这些定义的主体是表达概念语义的KIF句子。Ontolingua使用标准原语扩展KIF,以便组织面向对象层次结构中的知识。它的定义类似Lisp的形式,将符号与参数列表、文档字符串、句子相关联。Ontolingua允许指定一组定义把模块分解为本体。WebOnto是由KIM开发的一种基于Web的本体编辑器,它提供多重继承、锁机制,可以浏览,编辑和可视化本体。WebOnto允许开发和维护OCML中指定的本体和知识模型。本体可以看作是某个领域的概念结构模型,而WebOnto提供了以图形方式表示的方法。2.2.3疾病本体疾病本体(DiseaseOntology,DO)数据库是一个集合了8043个遗传的、发育的和获得性人类疾病的综合知识库。西北大学基因医学中心(NorthwesternUniversity,CenterforGeneticMedicine)和马里兰大学医学院基因组科学研究所(theUniversityofMarylandSchoolofMedicine,InstituteforGenomeSciences)将其作为人类疾病的标准化本体共同努力发展起来,目的是使人类疾病术语、表型特征和相关医学词汇疾病概念具有一致性,重用性和可持续性,能够在生物医学界广泛使用。通过对MeSH、ICD、NCI词典、SNOMEDCT和OMIM疾病特异术语及标识符的大量交叉映射和整合,疾病本体DO语义地整合了疾病和医学词汇表。11 第2章相关背景知识图2.7疾病本体(DiseaseOntology,DO)2.2.4症状本体症状本体(SymptomOntology,SYMP)是围绕症状的指导性概念设计的,这里的症状是指:“患者所报告的功能、感觉或外观的感知变化,这种变化暗示了某种疾病”。症状是对疾病的客观观察,症状本体努力扩大它的范围,以捕获和记录症状、体征这两套术语间的密切关系,有时,同一个术语可能既是症状又是体征。2005年,SMYP作为Gemina项目的一部分在TIGR开始开发,由马里兰大学基因组科学研究所(IGS)完成。SYMP是基于人体解剖学构建的,主要由各个身体区域和一个名为“一般症状”的分支组成,如今它包含942个症状。12 第2章相关背景知识图2.8症状本体(SymptomOntology,SYMP)2.3医疗相关数据图2.9医疗相关数据2.3.1Wikipedia维基百科(Wikipedia)[38]是一个免费的在线百科全书。它包含国际疾病统计分类和13 第2章相关背景知识相关健康问题,通常被称为国际疾病分类(ICD)。ICD由世界卫生组织维持,被设计为医疗保健分类系统,提供用于疾病分类的诊断代码系统,包括对各种体征,症状,异常发现,社会环境以及损伤或疾病的外部原因的细微差别分类。2.3.2MayoClinicMayoClinic[39]于1863年在美国创立,以不断创新的医学教育和世界领先的医学研究为基础,建立起全美规模最大、设备最先进的综合性医疗体系。MayoClinic是一家致力于临床实践,教育和研究的非营利组织,为需要康复治疗的每个人提供专业的专人护理。在U.S.News&WorldReport2017-2018的排名中,MayoClinic全美医院排名第一。2.3.3ClevelandClinic克利夫兰医学中心(ClevelandClinic)[40]是美国顶尖的综合医疗机构,成立于1921年,位于俄亥俄州克利夫兰,是一家非营利,多专业的学术医疗中心。该中心集医疗服务、学术研究及教学于一体,连续五年蝉联全美医院综合排名第四位,其麾下的心脏和心血管外科专业连续16年位列全美第一。2.4本章小结本章节对论文中使用到的概念和数据进行了详细的说明。首先介绍的是语义网和本体,主要介绍了语义网和本体的概念,及本文中会用到的语义网和本体文件,即Wordnet、症状本体和疾病本体。最后介绍了其他医疗相关数据,这些数据大部分会作为知识源使用。14 第3章症状本体构建第3章症状本体构建本文主要工作是构建一个疾病-症状语义网DSSN,DSSN包含疾病本体,症状本体和鉴别诊断知识。本文使用DO作为DSSN中的疾病本体,而现有的症状本体SYMP是基于解剖学构建的,概念间的层级结构没有语义上的联系,使得症状间的相似关系在本体中没有得到体现,且有部分症状描述词汇仍没有纳入到SYMP中。所以,本文要构建一个新的症状本体。症状本体构建分为以下4个步骤。1)从SYMP,Wikipedia,ClevelandClinic和MayoClinic等医疗领域知识库中获取描述症状文本的语料库;2)在此语料库中进行症状描述词语的识别,得到尽量丰富的症状词汇候选集;3)计算候选集中症状词汇间的语义相似度;4)根据症状词语之间的语义相似度合并相近语义症状,建立一个新的症状本体。下文将详细描述各步骤,流程如图3.1所示。SYMP/ClevelandClinic/Wikipedia/症状文本语料库MayoClinic知识库获取症状词语识别症状词汇候选集症状词语语义相似同义症状度计算症状本体构建新的症状本体图3.1症状本体的构建流程图15 第3章症状本体构建3.1语料库为了获得全面、准确的症状词汇,本文选用SYMP,Wikipedia,ClevelandClinic和MayoClinic作为症状本体构建的语料库。SYMP是一个以解剖学为基础的症状本体,包含942个症状。Wikipedia中包含了以ICD-10为标准的全部疾病的百科知识页面,其中每个疾病都包含了其常见和罕见的症状描述。ClevelandClinic和MayoClinic是美国顶尖的综合医疗机构,集医疗服务、学术研究及教学于一体,其各自网站上建立了疾病相关诊疗知识的知识库,包含了各种疾病的症状描述。确定URL队列输入URL是否存在此URLY下载网页内容NN解析网页内容并URL队列为空提取目标文本Y结束图3.2网页爬虫流程图本文将SYMP中的全部症状词汇直接放入数据库中,但是Wikipedia,ClevelandClinic和MayoClinic都是包含复杂信息的非结构化网页文本,因此,首先需要精准地提取其16 第3章症状本体构建中关于疾病症状描述部分的文本作为症状识别的语料库。在文本提取的过程中,本文使用了网页爬虫技术。具体爬虫流程如图3.2所示:(1)确定URL队列。通过对所要爬取的URL分析后,我们发现URL为“固定字符串+疾病名称”的格式。所以,我们将DO中的疾病词汇与固定字符串拼接,形成URL队列;(2)输入URL。每次输入队列中的一个URL;(3)若此URL存在,转(5);若此URL不存在。转(4);(4)若URL队列为空,结束;若URL队列不为空,转(2);(5)下载网页内容;(6)解析网页内容,并提取网页中关于疾病的症状描述文本,转(4)。3.2症状词语识别我们在上文中已经从SYMP,Wikipedia,ClevelandClinic和MayoClinic等医疗领域知识库中获取了描述症状文本的语料库,为了建立症状本体,我们必须要获得症状词语,因此接下来我们要在此语料库中进行症状描述词语的识别,以得到尽量丰富的症状词汇候选集。许多研究机构研发了多种生物医学注释工具,如NCBOannotator,cTAKES,MetaMap和BeCAS。其中,应用比较广泛的是NCBOannotator[41]和MetaMap[42],NCBOannotator利用UMLSMetathesaurus的术语集和NCBOBioportal的200多个本体中的概念来标注生物信息学领域资源,MetaMap是一个把生物医学文本与UMLS元词典中的医学概念匹配起来的程序软件。它们都可以高精度注释与疾病和症状相关的术语。然而,在本文选用的语料库中,大量相关的词汇并不是出自已有本体,甚至有些不是由单独的单词构成,所以不能被传统的注释工具完全识别。为了全面、准确地提取所有症状词汇,本文预先把文本语料库分为结构化语料和非结构化语料。对于这两种类型的语料,症状词语识别流程如图3.3所示。17 第3章症状本体构建文本语料库结构化语料非结构化语料使用PorterStemmer算法,提取相同词根词语基于Wordnet,提取语义相似度高的词语扩充的症状词汇候选集图3.3症状词语识别流程图结构化语料是指结构化文本及本体,结构化文本中症状词汇逐条清晰地列在疾病词条下,不需要进行文本处理,本体中词汇亦可直接获得,因此,此部分语料可将之直接放入症状词汇候选集中。非结构化语料是指非结构化的文本,本文通过文本挖掘提取此语料中的症状词汇。在英语词典中,许多单词表达的是同一种含义,这种单词分为两种类型。第一种类型是这些单词词干相同而词形不同,如以“ed”,“ing”,“ization”结尾的单词,为了避免因词形而对单词提取造成遗漏,本文使用了PorterStemmer算法[41]。PorterStemmer算法是由剑桥大学MartinPorter开发的用于删除英语单词中通用形态和屈折词缀的算法,此算法可以提取英语单词的词干。本文中我们使用PorterStemmer算法将文本中词语的词干提出与词汇候选集中词语的词干进行对比,最终提取文本中与症状词汇候选集中词汇具有相同词干的词语,依此,我们首先获取了词干相同而词形不同的单词;第二种类型是这些单词词干完全不同但语义相近,即同义词,例如“spasm”与“cramp”。为了避免因不同知识源所用词汇不同而对单词提取造成遗漏,本文使用了基于WordNet的英语词语相似度计算算法[44]。此算法是由颜伟和荀恩东在2004年提出的,18 第3章症状本体构建从Wordnet中提取同义词并采用向量空间方法来计算英语词语相似度的算法。本文使用此算法来提取语义相近的单词:首先对症状词汇进行特征提取,计算特征值;通过其在特征空间中的距离来计算意义相似度;再根据意义相似度计算词语相似度,以此来提取文本中与症状候选集中词汇语义相似度高的词语。最终,我们就可以识别出文本中所有的症状词语,如图3.4所示,从Wikipedia中的脑炎(Encephalitis)的症状描述部分中识别症状词汇。至此,本文就获得了扩充的症状词汇候选集,共为2250个。EncephalitisSignsandsymptomsAdultpatientswithencephalitispresentwithacuteonsetoffever,headache,confusion,andsometimesseizures.YoungerchildrenorInfantsmaypresentirritability,poorappetiteandfever.Neurologicalexaminationsusuallyrevealadrowsyorconfusedpatient.Stiffneck,duetotheirritationofthemeningescoveringthebrain,indicatesthatthepatienthaseithermeningitisormeningoencephalitis.图3.4症状词语识别结果3.3同义症状合并不同语料库对于同一种现象描述的词汇可能是不同的,例如对于“麻痹”这个症状,就有“paralysis”、“numbness”和“palsy”三种不同表达形式,为了统一表示相同意义的症状描述词汇,本文对症状描述词汇进行同义词合并处理。处理分为两步,第一步,在症状语料中,对于同一症状有不同的描述时,往往用括号注释,例如:difficultyswallowing(dysphagia)和redspots(petechiae),所以,我们首先识别文本中所有此类形式的同义词。第二步,通过基于WordNet的英语词语相似度计算算法,计算词语间相似度值,并以此识别词库中有着相同或相近语义的症状描述词汇,合并同义症状。19 第3章症状本体构建3.4症状本体构建图3.5症状本体中概念间的层级结构已有的症状本体SYMP是基于解剖学构建的,例如把症状分为腹部症状,心血管系统症状,消化系统症状,神经系统症状和泌尿系统症状等,将症状与解剖学名词关联,如腹部绞痛,胸部充血。而在本文要建立的症状本体中,概念间的层级构建是基于症状词语间的语义关系。本文使用Protégé构建症状本体,Protégé是由斯坦福大学开发的本体编辑工具,用Java语言开发,跨平台执行,并因其开放的源码、具有设计优良的插件等优势,得到了业界广泛的应用。通过这个软件我们可以查看本体知识,并且对本体进行编辑和构建。首先,获取症状本体中的概念,本文将症状词汇候选集中的症状词汇作为基本概念,例如“cough”,“fever”等,将这些概念输入至Protégé本体构建平台,成为本体中的类;然后,定义本体中概念间的关系,前文已经进行了同义症状合并,得到了症状词语的同义词(别称Xref),这些同义症状在所构建的症状本体中由一个概念(节点)来表示。而表示相近症状描述的词语,我们根据其词根等词法特征,以及语义范畴特征,建立这些相近症状词汇在语义上的“is-a”关系。例如:“肿胀”在症状本体中记为bloating(swollen),其子类(近义词)为puffiness,edema,abdominalswelling,postprandialbloating20 第3章症状本体构建等,如图3.5所示为症状本体中概念间的层级结构。依此,最终构建了一个基于概念间语义关系的症状本体,如图3.6所示。图3.6症状本体21 第4章疾病-症状语义网构建第4章疾病-症状语义网构建本章是在第三章所构建的症状本体基础上,加入疾病本体,易误诊关系和鉴别诊断知识,构建成一个疾病-症状语义网。4.1疾病-症状关系抽取症状的发生往往源自于某一疾病,疾病和症状之间的导致关系是临床诊断重要的知识。此章中我们首先要获取疾病-症状关系。疾病-症状关系抽取方法如下:首先,在Wikipedia,ClevelandClinic和MayoClinic语料库中,通过爬虫技术获取其中描述某种疾病的症状部分的文本;然后,使用PorterStemmer算法,在文本中提取与症状词汇候选集中词汇具有相同词干的词语,再使用基于WordNet的英语词语相似度计算算法,进行特征提取,计算特征值,以此来提取文本中与候选集中词汇语义相似度高的词语,从而识别出文本中所有的症状词语;最后,将提取的症状词汇关联到具体疾病,即建立症状-疾病间的关系“hassymptom”。如图3.4所示,从Wikipedia中关于脑炎(Encephalitis)的症状描述文本中,提取了其中的症状词汇:acuteonsetoffever,headache,confusion,seizures,irritability,poorappetite,ever,drowsy,confused,stiffneck。从而,将脑炎与其症状连接起来。依此,建立所有疾病和症状的简单关系“hassymptom”。疾病和症状不完全是简单的一对一的关系,对于某种疾病,有些症状是常见的,有些症状是罕见的,例如在患有多系统退化(multi-systemdegeneration)疾病的病人中,62%的人会出现运动-刚性综合征(akinetic-rigidsyndrome),22%的人会出现平衡障碍(problemswithbalance),9%的人会出现生殖泌尿问题(genito-urinaryproblems)[38]。因此,本文除了建立“hassymptom”这种疾病和症状间的简单关系外,将其常见或罕见程度的关系也提取并建立在疾病-症状语义网中。方法如下:首先在语料文本中获取描述频率的词语,本文通过对语料库的分析和归类确定了如表4.1所示的10余个描述症状频率的词汇。在语料文本中首先定位到这些描述频率的词汇,再依据扩充的症状词汇候选集,提取同一句子中的症状词汇。依此可以确定某种疾22 第4章疾病-症状语义网构建病中该症状发生的频率,并将其建立在疾病和症状的关系上。本文在Wikipedia,MayoClinic,ClevelandClinic中提取了363个频率词语,如表4.1所示。通过对临床医生的咨询,依据频率词语把症状分为三类:“most”,“mostcommon”,“common”,“usually”,“often”,“≥10%”描述的症状是“常见症状”;“sometimes”,“lesscommonly”,“lessoften”,“3%~10%”描述的症状是“一般症状”;“occasionally”,“rare”,“≤3%”描述的症状是“罕见症状”。表4.1频率提取结果frequencycountsmost34mostcommon32common56328usually54often115≥10%37sometimes17lesscommonly223lessoften23%-10%2occasionally6rare412≤3%2Total3633634.2疾病间易误诊关系的获取与建立疾病间的易误诊(鉴别诊断)知识,是构建疾病-症状语义网的核心。对疾病的误诊使很多本不严重的病情,因为延误了治疗时机而带来了不良后果,易误诊知识对于疾病的诊断是必不可少的,所以本文在疾病-症状语义网中涵盖了这种知识。对于疾病易误诊关系的获取,本文选用经典诊疗手册《Currentessentialsofmedicine》[45]作为知识源。书中描述了561种常见疾病的“诊断要点”和“鉴别诊断”信息,本文23 第4章疾病-症状语义网构建以此建立疾病间的易误诊关系。再将这种关系及鉴别诊断信息建立到疾病-症状语义网中,使得此语义网中的疾病依据易误诊关系相互关联,构成了可以在医疗诊断过程中对误诊进行提示的知识库。如图4.1所示,以偏头痛(migraine)为例,首先,于书中获取偏头痛的页面,依据“鉴别诊断(DifferentialDiagnosis)”文本,获取其易误诊疾病为:丛集性头痛(clusterheadache),脑膜炎(meningitis),蛛网膜下腔出血(subarachnoidhemorrhage),巨细胞动脉炎(giantcellarteritis)等疾病;并依据“诊断要点(EssentialsofDiagnosis)”文本,获取其鉴别诊断的描述性文本信息;最后,将此易误诊关系及鉴别诊断信息建立到疾病-症状语义网中。MigraineHeadache■EssentialsofDiagnosis·Onsetusuallyinadolescenceorearlyadulthood·Maybetriggeredbystress,foods(chocolate,redwine),smells(eg,migraineheadacheperfume,carexhaust),dehydration,lackofsleep,menses·Commonmigraine:Lasts4–72hours,unilateral,throbbing,moderatetosevereintensity,aggravatedbyroutinephysicalactivity,associatedwithnausea,vomiting,photophobia,phonophobia·Classicmigraine(onlyapproximately20%ofcases):Samesymptomsascommonmigrainewithaprodrome(aura)thatincludesahomonymousvisualdisturbance,unilateralnumbness,paresthesias,orweakness·Basilarvariant:Brainstemandcerebellarfindingsfollowedbyismisdiagnosedasismisdiagnosedasismisdiagnosedasoccipitalheadacheismisdiagnosedas·Ophthalmicvariant:Painlesslossofvision,scotomas,usuallyunilateral■DifferentialDiagnosisareextracedas·Clusterheadacheorothertrigeminalautonomiccephalgia·Giantcellarteritis·Subarachnoidhemorrhage·Masslesion(eg,tumororabscess)·Meningitis·Increasedintracranialpressureofothercause■Treatment·Avoidanceoftriggers·Acutetreatment:Triptans,ergotaminewithcaffeine,NSAIDsclustersubarachnoidgiantcell(preferablyatonsetofprodrome)meningitisheadachehemorrhagearthritis·Prophylaxisshouldbeconsideredformorethanthreemigrainespermonthandincludespropranolol,amitriptyline,verapamil,Differentialdiagnosis:clusterheadachespresentswithone-sidednosestuffiness,tearsandvalproicacid,andmanyothersseverepainaroundtheorbits,meningitiswithfevers,andsubarachnoidhemorrhage…图4.1偏头痛易误诊疾病关系,鉴别诊断知识的获取与建立24 第4章疾病-症状语义网构建4.3疾病-症状语义网建立本文使用Protégé构建“疾病-症状语义网”(Disease-Symptomsemanticnet,DSSN)。首先,获取疾病-症状语义网中的概念,本文将疾病本体中的疾病词汇和症状本体中的症状词汇作为基本概念,将这些概念输入至Protégé,成为基本类;然后,定义概念间的关系,本文概念间的关系主要通过对象属性定义。即:OWL类定义:疾病词汇、症状词汇。OWL对象属性定义:对象属性代表类之间的关系,本文疾病和症状间对象属性为“hassymptom”、“hassymptom:common”、“hassymptom:general”、“hassymptom:rare”及疾病间的“ismisdiagnosedas”(易误诊),共5种对象属性。对象属性如表4.2所示。对于每一个对象属性,都有其特定的范围和领域。表4.2对象属性描述ObjectPropertiesDomainandRangehassymptomDomain:"Disease"andRange:"Symptom"hassymptom:commonDomain:"Disease"andRange:"Symptom"hassymptom:generalDomain:"Disease"andRange:"Symptom"hassymptom:rareDomain:"Disease"andRange:"Symptom"ismisdiagnosedasDomain:"Disease"andRange:"Disease"根据以上OWL定义,本文基于语义概念及其关系建立了疾病-症状语义网DSSN,其中有965个疾病词汇,2250个症状词汇,共3215个概念,在DSSN中,含有疾病-症状间的关系,疾病-疾病间的易误诊关系及鉴别诊断知识,所建立的DSSN的部分网络如图4.2所示。该语义网中表示了疾病之间的易误诊关系,以及易误诊疾病之间症状的异同,如图4.3所示为易误诊疾病偏头痛(migraineheadache)和丛集性头痛(clusterheadache),以及两者间的各自症状区别。25 第4章疾病-症状语义网构建图4.2疾病-症状语义网DSSN图4.3DSSN中易误诊疾病例子26 第5章基于Protégé的误诊提示工具开发第5章基于Protégé的误诊提示工具开发疾病-症状语义网DSSN能够清晰地表示疾病及症状的概念术语,并明确地定义了这些概念术语间的相互关系,这有助于消除生物医学知识领域内部在疾病和症状定义上的分歧,为生物知识领域内的概念提供共同理解。相似症状的混淆是误诊发生的主要原因,鉴别诊断是防止和减少误诊发生的关键。为了快速准确地对疾病进行区分和提示,必须要清晰地知道易误诊疾病间的不同症状和相关鉴别诊断知识。基于DSSN中疾病-症状间的关系,疾病-疾病间易误诊关系及鉴别诊断知识,DSSN可以支持医疗诊断中的误诊提示。作为疾病-症状本体语义网DSSN在误诊方面研究的一部分,本文开发了一种用于医疗诊断过程中的误诊提示工具。在现今的本体构建工具中,应用最广泛的是由斯坦福大学医学院研究开发的本体编辑工具Protégé。为了使本文构建的疾病-症状语义网DSSN可以被方便查看及使用,并使此误诊提示工具能够被简单地使用及广泛地传播,本文将开发一个基于Protégé的误诊提示工具。这种工具可以直接对某种疾病的症状及其易误诊疾病查询,并清晰地获得疾病间的相同症状和不同症状,从而有效地提高用户使用的便利性。在误诊提示工具的设计和实现过程中,DSSN为其提供疾病和症状的明确定义及概念间的相互关系,并提供对相关领域概念的共同理解。此误诊提示工具为了实现对医疗诊断中的误诊提示,需要完成以下工作:(1)实现对某种疾病的症状查询;(2)实现对某种疾病的易误诊疾病查询;(3)实现对疾病间的相同症状和不同症状查询。为了完成以上功能,此误诊提示工具主要分为三大功能:语义网存储模块、查询检索模块、用户界面。5.1开发平台操作系统:Windows1027 第5章基于Protégé的误诊提示工具开发语言:JavaJava工具包:Protégé-editor-owl、Jena、Swing开发包JDK版本:jdkl.8开发平台:Eclipse数据库:Mysql5.2工具的设计与实现5.2.1语义网存储模块此误诊提示工具的数据基础是本文构建的疾病-症状语义网DSSN,DSSN中包含疾病本体,症状本体及鉴别诊断知识,可以作为数据基础来支持医疗过程中的误诊提示。数据的查询与存储主要借助Jena实现。Jena是一个Java语言开发的API,支持多种格式(RDF,OWL,XML)的本体文件的读取与解析。Jena可以将本体文件存储于关系数据库中,数据库存储有利于提高本体管理、应用的效率和相关数据的后续操作。本文借助Jena将DSSN存储到Mysql数据库中。将DSSN存入数据库的主要实现代码如下:publicvoidgetProperty(StringtableName){//创建一个本体语言指定语言类型.OntModelontModel=ModelFactory.createOntologyModel(OntModelSpec.OWL_MEM);try{ontModel.read(newFileInputStream("c:/util/owl/dssn.owl"),"");}catch(FileNotFoundExceptione1){e1.printStackTrace();}//迭代显示模型中的类,在迭代过程中完成各种操作for(Iteratori=ontModel.listClasses();i.hasNext();){parentList.clear();OntClassc=(OntClass)i.next();if(!c.isAnon()){//如果不是匿名类,则打印类的名字//迭代显示当前类的直接父类28 第5章基于Protégé的误诊提示工具开发for(Iteratorit=c.listSuperClasses();it.hasNext();){OntClasssp=(OntClass)it.next();}//迭代显示当前类的直接子类for(Iteratorit=c.listSubClasses();it.hasNext();){OntClasssb=(OntClass)it.next();}StmtIteratoriterator=c.listProperties();if(parentList.size()==0){sql="insertinto"+tableName+"(id,name,namespace,def,synonym,is_obsolete,xref,hasAlternativeid,childId,parentId,comment)"+"values('"+id+"','"+name+"','"+namespace+"','"+def+"','"+synonym+"',"+isObsolete+",'"+xref+"','"+alt_id+"','"+childId+"','null','"+comment+"')";sqlList.add(sql);}else{for(StringparentId:parentList){parentId=parentId.replace("_",":");sql="insertinto"+tableName+"(id,name,namespace,def,synonym,is_obsolete,xref,hasAlternativeid,childId,parentId,comment)"+"values('"+id+"','"+name+"','"+namespace+"','"+def+"','"+synonym+"',"+isObsolete+",'"+xref+"','"+alt_id+"','"+childId+"','"+parentId+"','"+comment+"')";sqlList.add(sql);}}}5.2.2查询检索模块查询检索模块的主要功能是将用户的查询请求与语义网数据进行匹配并将查询结果返回到用户界面。在此误诊提示工具中,用户主要查询疾病的症状及其易误诊疾病,和疾病间的相同与不同症状。在查询疾病的症状及其易误诊疾病时,本文直接将用户输入的检索词送入到数据库中进行查询。在查询疾病间的相同与不同症状时,本文在将检索词送入数据库查询后,还需要使用KMP算法进行字符串匹配来判断症状是否相同。29 第5章基于Protégé的误诊提示工具开发5.2.3用户界面用户界面是为了方便用户使用此误诊提示工具而搭建的友好型界面。本文设计的误诊提示工具是基于Protégé开发的,Protégé中的protégécore和OWLeditorkit提供了可重用的UI组件和实用程序,这些组件和程序可以用来生成用户界面。因此,在开发用户界面时,首先需要导入Protégé-editor-owl等包,然后在编写标签与视图时,标签类要继承于OWLWorkspaceViewsTab类,视图类要继承于AbstractOWLViewComponent类。本文还采用Swing设计开发查询界面,具体的用户界面的主要实现代码如下:publicclassMetricsextendsJPanel{refreshButton1=newJButton("QuerySymptoms");refreshButton2=newJButton("QueryMisdiagnosedDiseases");refreshButton3=newJButton("SameSymptoms");refreshButton4=newJButton("DifferentSymptoms");refreshAction=e->actionPerf();refreshAction2=e->actionPerf2();refreshAction3=e->actionPerf3();refreshAction4=e->actionPerf4();publicMetrics(OWLModelManagermodelManager){refreshButton1.addActionListener(refreshAction);refreshButton2.addActionListener(refreshAction2);refreshButton3.addActionListener(refreshAction3);refreshButton4.addActionListener(refreshAction4);recalculate();add(refreshButton1);recalculate2();add(refreshButton2);recalculate3();add(refreshButton3);recalculate4();add(refreshButton4);}privatevoidrecalculate(){30 第5章基于Protégé的误诊提示工具开发textComponent.setText("pleaseinputdiseasename:")}privatevoidrecalculate2(){textComponent2.setText("pleaseinputdiseasename:");}privatevoidrecalculate3(){textComponent7.setText("disease1:");privatevoidrecalculate4(){textComponent8.setText("disease2:");}}}5.3基于Protégé的误诊提示工具的应用本文以Eclipse为开发工具,通过连接数据库及使用相关jar包,设计与实现了基于Protégé的误诊提示工具,如图5.1所示,用户可以在此界面中对疾病的症状,易误诊疾病及疾病间的相同症状和不同症状进行查询。图5.1基于Protégé的误诊提示工具界面31 第5章基于Protégé的误诊提示工具开发本文以阑尾炎为例,说明此工具如何支持医疗诊断中的误诊提示。阑尾炎(appendicitis)是最常见的外科急腹症之一,其临床实践中往往会出现误诊、误治现象,其误诊率约为9%~36%,大约15%阑尾炎手术为误切正常阑尾[46]。下面我们以一个用例来说明误诊提示工具的应用。假设医生对某位患者的初步诊断为阑尾炎,为防止误诊发生,他可以使用误诊提示工具在DSSN中通过检索阑尾炎(Appendicitis)相关易误诊知识来减少误诊发生。图5.2在基于Protégé的误诊提示工具中查询如图5.2所示,用户可以在基于Protégé的误诊提示工具界面中输入关键字,以便查询阑尾炎的症状及其易误诊疾病。查询结果如图5.3所示,基于DSSN获取到阑尾炎症状为腹痛(stomachache(abdominalpain))、右下腹痛(paininthelowerrightabdomen)、发烧(fever)、呕吐(vomiting(nausea)(retching))、便秘(dyschezia(constipation))和脐周痛(painaroundthenavel),其易误诊疾病为胃肠炎(Gastroenteritis)、胰腺炎(Pancreatitis)、胆囊炎(Ileus)和异位妊娠(Ectopicpregnancy)。以上所列症状和易误诊疾病对临床医生的诊断是一个提示,在所列出的易误诊疾病中,若医生认为胃肠炎32 第5章基于Protégé的误诊提示工具开发也有潜在可能,如图5.2所示,他可以通过同时查询阑尾炎(Appendicitis)及胃肠炎(Gastroenteritis)来获取当前初步诊断疾病“阑尾炎”和“胃肠炎”在症状上的异同,即阑尾炎和胃肠炎的相同症状及独有症状。如图5.3所示,它们相同症状为腹痛(stomachache(abdominalpain))、呕吐(vomiting(nausea)(retching))和发烧(fever),阑尾炎的独有症状为便秘(dyschezia(constipation))、右下腹痛(paininthelowerrightabdomen)和脐周痛(painaroundthenavel),胃肠炎的独有症状为腹泻(diarrhea)和弥漫性疼痛(diffusepain)。依此,医生就可以根据患者的具体情况作出鉴别诊断。图5.3误诊提示工具查询结果综上,本文以DSSN为数据基础,使用基于Protégé的误诊提示工具可以清晰地获得疾病的症状及其易误诊疾病,并得到疾病间的相同与不同症状,以此来支持临床医疗诊断的误诊提示,从而降低误诊发生的概率。33 第6章总结与展望第6章总结与展望误诊是临床诊断过程中一种常见的现象,其具有客观性和不可避免性。疾病误诊率常年居高不下。误诊的主要原因是易误诊疾病之间有着相似的症状,而疾病的症状及疾病之间的易误诊关系(鉴别诊断)等知识大量存储在医学文献及医疗知识库中。因此,整合相关数据源,构建一个“疾病-症状”知识系统对疾病诊断过程中可能发生的误诊作出提示,对提升临床诊断效果有着重要的意义。因此,本文构建了一种疾病-症状语义网DSSN,并开发了一个基于Protégé的误诊提示工具。本文通过构建疾病-症状语义网DSSN,从而能将疾病、症状和鉴别诊断等知识结构化地表达。即:通过对多个医学领域知识库进行自然语言处理和文本挖掘,获得了扩充的症状词汇候选集、疾病-症状间的关系以及疾病间的易误诊关系和鉴别诊断知识,并将这些关系和知识构建成语义网的表达形式(DSSN)。此外,我们还开发了一个基于Protégé的误诊提示工具,此工具以DSSN为数据基础,可以直观简单地查询某种疾病的症状及其易误诊疾病,还可以获得疾病间的相同症状与不同症状,文章通过一个用例详细说明了此工具在临床辅助诊断过程中对易误诊疾病提示的帮助。随着生物信息学的不断发展及相关数据源的不断增多,在今后的研究中,我们将侧重于把更多相关的生物医学特征加入DSSN中,使DSSN成为语义更准确,关系更全面的语义网;并继续开发DSSN的相关工具,使其在临床诊断领域有更多应用。34 参考文献参考文献[1]孙国庆.社区常见健康问题诊断与处理[M].南京:东南大学出版社,2009.[2]BaloghEP,MillerBT,BallJR,etal.ImprovingDiagnosisinHealthcare[R].Washington,DC:TheNationalAcademiesPress,2015.[3]SchiffGD,HasanO,KimS,etal.Diagnosticerrorinmedicine:analysisof583physicianreportederrors[J].ArchInternMed,2009,169(20):1881–1887.[4]李芹,李祥,盛云建,邓存良.误诊误治病例所致医疗纠纷分析———附3例报告[J].医学与哲学(临床决策论坛版),2007,28(2):57-58.[5]JWEly,MLGraber,PCroskerry.CheckliststoReduceDiagnosticErrors[J].AcademicMedicine,2011,86(3):307-313.[6]EtaS.Berner,EdD,MarkL.Graber,MD.OverconfidenceasaCauseofDiagnosticErrorinMedicine[J].TheAmericanJournalofMedicine,2008,121(5):2-23.[7]ZhanP,JayaramU,KimO,ZhuL.KnowledgeRepresentationandOntologyMappingmethodsforProductDatainEngineeringApplications[J].JournalofComputingandInformationScienceinEngineering,2010,10(2):699-715.[8]GeneOntologyConsortium.TheGeneOntology(GO)DatabaseandInformaticsResource[J].NucleicAcidsResearch,2004,32(Databaseissue):D258–D261.[9]SchrimlLM,ArzeC,NadendlaS,etal.DiseaseOntology:aBackboneforDiseaseSemanticIntegration[J].NucleicAcidsResearch,2012,40(Databaseissue):D940–D946.[10]KohlerS,DoelkenSC,MungallCJ,etal.TheHumanPhenotypeOntologyProject:LinkingMolecularBiologyandDiseasethroughPhenotypeData[J].NucleicAcidsResearch,2014,42(Databaseissue):D966-D974.[11]KibbeWA,ArzeC,FelixV,MitrakaE,BoltonE,FuG,MungallCJ,BinderJX,MaloneJ,VasantD,ParkinsonH,SchrimlLM.DiseaseOntology2015update:anexpandedandupdateddatabaseofhumandiseasesforlinkingbiomedicalknowledgethroughdiseasedata[J].NucleicAcidsResearch,2015,43(Database35 参考文献issue):1071-1078.[12]ButtigiegPL,MorrisonN,SmithB,MungallCJ,LewisSE,andtheENVOConsortium.Theenvironmentontology:contextualisingbiologicalandbiomedicalentities[J].JBiomedSemant.2013,4(1):1-9.[13]王也.面向患者的生物本体映射研究[D].吉林:吉林大学,2015.[14]MarwahK,KatzinD,ZollanvariA,NoyNF,RamoniM,AlterovitzG.Context-specificontologyintegration:aBayesianapproach[C]//AMIASummitsTranslSciProc2012.2012:79-86.[15]MaoQiangXie,ingJieXu,aoGongZhang,TaeHyunHwang,RuiKuang.Network-basedPhenome-GenomeAssociationPredictionbyBi-RandomWalk[J].PLoSONE,2015,10(5):e0125138.[16]RongXu,LiLi,QuanQiuWang.Towardsbuildingadisease-phenotypeknowledgebase:extractingdisease-manifestationrelationshipfromliterature[J].Bioinformatics,2013,29(17):2186-94.[17]刘彦斌,周春光,张重毅,等.基于本体的语义生物信息数据库资源链接[J].吉林大学学报:工学版,2010,40(6):1651-1654.[18]MohammedO,BenlamriR,FongS.BuildingaDiseasesSymptomsOntologyforMedicalDiagnosis:AnIntegrativeApproach[C]//ProcoftheIEEEInternationalConferenceonFutureGenerationCommunicationTechnology.London:BritishComputerSociety,2012:104-108.[19]DianadelaIglesia,MiguelGarcı´a-Remesal,AlbertoAnguita,MiguelMun˜oz-Ma´rmol,CasimirKulikowski,Vı´ctorMaojo.AMachineLearningApproachtoIdentifyClinicalTrialsInvolvingNanodrugsandNanodevicesfromClinicalTrials.gov[J].MethodsofInformationinMedicine,2015,54(01):50-55.[20]DavidIsern,DavidSánchez,AntonioMoreno.Ontology-drivenexecutionofclinicalguidelines[J].ComputerMethodsandProgramsinBiomedicine,2012,107(2):122-139.[21]ChengL,WangG,LiJ,etal.SIDD:ASemanticallyIntegratedDatabasetowardsaGlobal36 参考文献ViewofHumanDisease[J].PlosOne,2013,8(10):e75504.[22]LanHuang,YeWang,YanWang,etal.Gene-DiseaseInteractionRetrievalfromMultipleSources:ANetworkBasedMethod[J].BiomedResearchInternational,2016,2016(3):1~9.[23]TianBai,LeiguangGong,YeWang,etal.AMethodforExploringImplicitConceptRelatednessinBiomedicalKnowledgeNetwork[J].BMCBioinformatics,2016,17(9):53-66.[24]Berners-LeeT,HendlerJ,LassilaO.Thesemanticweb[J].Scientificamerican,2001,284(5):28-37.[25]ShadboltN,HallW,Berners-LeeT.Thesemanticwebrevisited[J].IntellifentStstemsIEEE,2006,21(3):96-101.[26]GeorgeA.Miller.WordNet:ALexicalDatabaseforEnglish[J].CommunicationsoftheACM.1995,38(11):39-41.[27]ChristianeFellbaum.WordNet:AnElectronicLexicalDatabase[M].Cambridge,MA:MITPress,1998.[28]GruberTR.Atranslationapproachtoportableontologyspecifications[J].KnowledgeAcquisition,1993,5(2):199-220.[29]SwartoutB,PatilR,KnightK,etal.TowardsDistributedUseofLarge-ScaleOntologies[C]//SpringSymposiumSeriesonOntologicalEngineering.Stanford:1997,33-40.[30]ChandrasekaranB.AI,KnowledgeandtheQuestforSmartSystems[J].IEEEExpert,1994,9(6):2-6.[31]Noy,N.F.,McGuiness,D.L.OntologyDevelopment101:AGuidetoCreatingYourFirstOntology[J].BiomedicalInformaticsReseach,2001,7-25.[32]FredrikArvidsson,AnnikaFlycht-Eriksson.OntologiesI[M].2008.[33]BechhoferS,HorrocksI,GobleCA,etal.OilEd:aReason-ableOntologyEditorfortheSemanticWeb[C]//ProceedingsoftheJointGerman/AustrianConferenceonAI:AdvancesinArtificialIntelligence.SpringerBerlinHeidelberg,2001:396-408.37 参考文献[34]SureY,ErdmannM,AngeleJUR,etal.OntoEdit:CollaborativeOntologyDevelopmentfortheSemanticWeb[C]//TheSemanticWeb—ISWC2002.London,UK:Springer-Verlag,2002:221-235.[35]J.H.Gennari,M.A.Musen,R.W.Fergerson,etal.TheevolutionofProtégé:anenvironmentforknowledgebasedsystemsdevelopment[J].InternationalJournalofHuman-computerstudies,2009,58(1):89-123.[36]T.R.Gruber.Ontolingua:Amechanismtosupportportableontologies[J].TechnicalReportKSL91-66,1992,91-96.[37]Domingue,John.TadzebaoandWebOnto:discussing,browsing,andeditingontologiesontheWeb[C]//EleventhWorkshoponKnowledgeAcquisition,ModelingandManagement,18-23April1998,Banff,Alberta,Canada.[38]www.wikipedia.org[39]www.mayoclinic.org[40]civiceducation.clevelandclinic.org[41]C.Jonquet,N.Shah,C.Youn,etal.NCBOannotator:semanticannotationofbiomedicaldata[C]//Procofthe8thIntSemanticWebConf,PosterandDemonstrationSession.Berlin:Springer,2009:2-3.[42]DinaDemner-Fushman,WillieJRoger,Alan.R.Aronson.MetaMapLite:anevaluationofanewJavaimplementationofMetaMap[J].JAmMedInformAssoc,2017,0(0):1-5.[43]M.F.Porter.Analgorithmforsuffixstripping[J].ProgramElectronicLibrary&InformationSystems,2006,14(3):130-137[44]颜伟,荀恩东.基于WordNet的英语词语相似度计算[C]//第二届全国学生计算语言学研讨会论文集.哈尔滨:哈尔滨工业大学出版社,2004.[45]LawrenceM.Tierney,Jr.,SanjaySaint,MaryA.Whooley.CurrentEssentialsofMedicine[M].McGraw-HillCompanies,Inc,2011.[46]孙宝志.临床医学导论[M].北京:高等教育出版社,2013.38 学位论文作者简介及科研成果纪林影,女,汉族,1992年11月30日出生于吉林省德惠市,2011—2015年就读于吉林大学软件学院软件工程专业,2015年6月获得学士学位。2015—2018年在吉林大学软件学院软件工程专业攻读硕士学位,主要研究方向为生物信息学。科研成果:黄岚,纪林影,姚刚,翟睿峰,白天.面向误诊提示的疾病-症状语义网构建[J].吉林大学学报:工学版,DOI:10.13229/j.cnki.jdxbgxb20170406。39 学位论文致谢感谢我的导师黄岚老师,她正直谦逊,治学严谨,以她渊博的知识和丰富的经验指导着我们学术和生活上的每一处,无条件地为我们创造良好的学习平台,让每个人的想法都能得到最大的施展。从本科的毕业论文,到研究生时发表的小论文,再到硕士的毕业论文,每一个关键的时刻,黄老师都给出了宝贵的意见,使我一路走来受益良多。感谢白天老师,他认真负责,每周以讨论班的形式带领我们互相学习,指导我们工作进展,一步一步地指引我们走入学术的世界;他亲近平和,多次组织户外娱乐活动,学习与娱乐结合,让我们用积极地心态对待学习生涯。感谢他对我的耐心和及时的教导,让我度过了一个有意义的研究生生涯。感谢王喆老师,他风趣幽默,寓教于乐,创造了一个积极良好的实验室氛围,感谢他在学术上的正确指引,同时感谢梯队和为我授课的所有老师,感谢每位老师在课堂上的严谨授课和课后的认真辅导,感谢他们使我顺利地完成了研究生课程。感谢师兄师姐们在学习和生活上的帮助,感谢师弟师妹们的热情鼓舞。感谢我的室友和好朋友们,感谢她们的陪伴使我快乐地度过研究生生涯。感谢我的父母,感谢他们对我的包容,信任。感谢生命的每一刻美好。40

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
关闭