基于半监督学习的中文电子病历分词和名实体挖掘

基于半监督学习的中文电子病历分词和名实体挖掘

ID:77656277

大小:2.66 MB

页数:56页

时间:2024-02-04

上传者:笑似︶ㄣ無奈
基于半监督学习的中文电子病历分词和名实体挖掘_第1页
基于半监督学习的中文电子病历分词和名实体挖掘_第2页
基于半监督学习的中文电子病历分词和名实体挖掘_第3页
基于半监督学习的中文电子病历分词和名实体挖掘_第4页
基于半监督学习的中文电子病历分词和名实体挖掘_第5页
基于半监督学习的中文电子病历分词和名实体挖掘_第6页
基于半监督学习的中文电子病历分词和名实体挖掘_第7页
基于半监督学习的中文电子病历分词和名实体挖掘_第8页
基于半监督学习的中文电子病历分词和名实体挖掘_第9页
基于半监督学习的中文电子病历分词和名实体挖掘_第10页
资源描述:

《基于半监督学习的中文电子病历分词和名实体挖掘》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

硕士学位论文基于半监督学习的中文电子病历分词和名实体挖掘WORDSEGMENTATIONANDNAMEDENTITYMININGBASEDONSEMISUPERVISEDLEARNINGFORCHINESEEMR张立邦哈尔滨工业大学2014年6月 国内图书分类号:TP391.1学校代码:10213国际图书分类号:638.1密级:公开工学硕士学位论文基于半监督学习的中文电子病历分词和名实体挖掘硕士研究生:张立邦导师:关毅申请学位:工学硕士学科:计算机科学与技术所在单位:计算机科学与技术学院答辩日期:2014年6月授予学位单位:哈尔滨工业大学 ClassifiedIndex:391.1U.D.C:638.1DissertationfortheMasterDegreeinEngineeringWORDSEGMENTATIONANDNAMEDENTITYMININGBASEDONSEMISUPERVISEDLEARNINGFORCHINESEEMRCandidate:ZhangLibangSupervisor:GuanYiAcademicDegreeAppliedfor:MasterofEngineeringSpeciality:ComputerScienceandTechnologyAffiliation:SchoolofComputerScienceandTechnologyDateofDefence:June,2014Degree-Conferring-Institution:HarbinInstituteofTechnology 哈尔滨工业大学工学硕士学位论文摘要电子病历是由医务人员撰写的面向患者个体的描述医疗活动过程的数字化记录,是传统纸质病历的替代品。电子病历包含了关于病人个体健康信息的全面、详实、专业、即时、准确的描述,是一种非常宝贵的知识资源。通过分析和挖掘电子病历,可以从中获得大量与患者密切相关的医疗知识。这些知识可应用于构建临床决策支持系统和提供个性化健康信息服务。电子病历并非完全结构化的数据,其中自由文本形式的非结构化数据在电子病历中占有重要地位。因此,分词和名实体识别等自然语言处理技术将在电子病历知识挖掘中发挥重要作用。目前最有效的分词和名实体识别方法是基于词典或有监督机器学习的方法。但由于电子病历的专业性,人工构建专业词典或训练语料的难度极大。为了克服获取熟语料困难的问题,本文分别提出了基于半监督学习的中文电子病历分词和名实体挖掘方法。大量的未登录词是中文电子病历分词所面临的的最大挑战,它们通常是医疗专业术语及缩写。本文将电子病历分词分为两个步骤。首先,使用开放领域词典,根据最大似然原则对电子病历进行初步的切分。其中,词的出现概率由EM算法从大规模未标注语料中学习得出。然后,利用字串的边界熵、长度等信息,通过有序聚类算法对初步切分结果进行调整,以达到识别未登录词的目的。实验结果表明,该方法是可行的,具有较强的识别未登录词的能力,其效果优于基于边界熵的无监督分词。与开放领域文本相比,中文电子病历文本具有很多不同之处,主要体现在使用半结构化的方式组织各部分内容以及语言简洁且模式化较强这两个方面。针对这些特点,文本提出了分而治之的处理策略,即利用文本模式从病历的不同部分挖掘不同类型的实体。其中,文本模式由Bootstrapping算法利用少量已标注的实体从大规模未标注语料中学习得出。实验结果表明,该方法在挖掘疾病类实体时效果较好,但在挖掘治疗和药品时效果较差,仍需进一步改进。关键词:电子病历;半监督学习;EM算法;有序聚类;Bootstrapping算法-I- 哈尔滨工业大学工学硕士学位论文AbstractElectronicmedicalrecords(EMRs)aredigitizedrecordswrittenbythemedicalstafffortheindividualpatient'smedicalactivities.Theyarethealternativetothetraditionalpaper-basedmedicalrecords.EMRscontaincomprehensive,informative,professional,real-time,accuratedescriptionaboutindividualpatients’health.Itisaveryvaluableknowledgeresource.Throughanalysisandminingofelectronicmedicalrecords,wecanderivealotofmedicalknowledgewhicharecloselyrelatedtopatients.Theseknowledgecanbeusedtobuildclinicaldecisionsupportsystemsandprovidepersonalizedhealthinformationservices.EMRsarenotfullystructureddata.UnstructureddataintheformoffreetextoccupiesanimportantpositionintheEMRs.Thus,wordsegmentationandnamedentityrecognitionandothernaturallanguageprocessingtechnologieswillplayanimportantroleintheEMRdatamining.Themosteffectivewordsegmentationandnamedentityrecognitionapproachesarebasedondictionaryorsupervisedmachinelearning.However,duetotheprofessionalismofelectronicmedicalrecords,constructingspecializeddictionariesortrainingcorpusisextremelydifficult.Inordertoovercomethedifficultiesofobtainingmaterialcorpus,thispaperproposesEMRwordssegmentationandnamedentityminingmethodsbasedonsemisupervisedlearning.AlargenumberofunknownwordsarethegreatestchallengetoChinesewordEMRwordsegmentation.Theyareusuallythemedicaljargonandabbreviations.ThisarticledivideEMRwordsegmentationintotwosteps.First,weusealexiconofgeneraldomaintogenerateaninitialsegmentation.Todealwiththeambiguityproblem,webuildaprobabilisticmodel.TheprobabilitiesofwordsareestimatedbyanEMprocedure.Thenweusetheleftandrightbranchingentropytobuildgoodnessmeasureandregardtherecognitionofunknownwordsasanoptimizationproblemwhichcanbesolvedbydynamicprogramming.Experimentalresultsshowthatthemethodisfeasible,withastrongabilitytoidentifyunknownwords,itisbetterthantheentropy-basedboundaryunsupervisedsegmentation.The-II- 哈尔滨工业大学工学硕士学位论文experimentalresultsshowthatourmethodiseffectiveandbetterthanunsupervisedmethods.Comparedwiththeopenfieldtexts,therearemanydifferencesinChineseEMR.EMRsusesemi-structuredwaytoorganizethevariouspartsandthelanguageinEMRscontainsmanysignificantpatterns.Forthesefeatures,weproposeadivideandconquerstrategy.Weusetextpatternstoextractdifferenttypesofentitiesfromdifferentpartofcontent.ThepatternscanbelearnedbyBootstrappingalgorithmfromlargeunlabeledcorpususingasmallamountoflabeledentities.TheexperimentalresultsshowthatourmethodiseffectivewhenextractingdiseasesfromEMRs.However,itneedsfurtherimprovementwhenextractingtreatmentsanddrugs.Keywords:electronicmedicalrecords;semisupervisedlearning;sequenceclusteranalysis;EMalgorithm;Bootstrappingalgorithm-III- 哈尔滨工业大学工学硕士学位论文目录摘要..........................................................................................................................IABSTRACT................................................................................................................II目录.......................................................................................................................IV第1章绪论...............................................................................................................11.1课题研究的背景...............................................................................................11.1.1电子病历概述............................................................................................11.1.2医学信息学与电子病历............................................................................21.2课题研究的目的及意义...................................................................................31.3国内外研究现状...............................................................................................41.3.1中文分词....................................................................................................41.3.2名实体识别................................................................................................61.4本文的主要研究内容.......................................................................................81.4.1基于半监督学习的中文电子病历分词....................................................81.4.2基于半监督学习的中文电子病历名实体挖掘........................................91.5本文的结构安排...............................................................................................9第2章中文电子病历文本特点分析.....................................................................102.1结构特点.........................................................................................................102.1.1出院小结的结构特点..............................................................................102.1.2病程记录的结构特点..............................................................................122.2语言特点.........................................................................................................132.3实体分布的密集程度.....................................................................................132.4本章小结.........................................................................................................14第3章基于半监督学习的中文电子病历分词.....................................................153.1无监督分词.....................................................................................................153.1.1良度概述..................................................................................................153.1.2边界熵的快速计算..................................................................................183.1.3基于边界熵的无监督分词......................................................................203.1.4实验结果与分析......................................................................................213.2基于半监督学习的中文电子病历分词.........................................................233.2.1基于EM算法的初步切分......................................................................23-IV- 哈尔滨工业大学工学硕士学位论文3.2.2基于有序聚类的结果调整......................................................................243.2.3实验结果与分析......................................................................................263.3本章小结.........................................................................................................27第4章基于半监督学习的中文电子病历名实体挖掘.........................................284.1基于BOOTSTRAPPING算法的名实体挖掘.....................................................304.1.1模式的定义...............................................................................................314.1.2模式的发现...............................................................................................334.1.3候选实体的挖掘.......................................................................................334.1.4模式的评价...............................................................................................344.1.5候选实体的评价.......................................................................................354.1.6Bootstrapping算法的详细流程...............................................................354.2实验结果与分析.............................................................................................364.3本章小结.........................................................................................................39结论.......................................................................................................................40参考文献...................................................................................................................41攻读硕士学位期间发表的论文...............................................................................46致谢...........................................................................................................................48-V- 哈尔滨工业大学工学硕士学位论文第1章绪论1.1课题研究的背景1.1.1电子病历概述电子病历是指医务人员在医疗活动过程中,使用医疗机构信息系统生成的文字、符号、图表、图形、数据、影像等数字化信息,并能实现存储、管理、[1]传输和重现的医疗记录,是病历的一种记录形式,是由医务人员撰写的、面向患者个体的、描述医疗活动过程的数字化记录。传统的纸质病历需由医生手工撰写,通常字迹潦草,难以辨认,且不易保存、传输和复制。为了克服这些问题,随着信息技术的发展,电子病历应运而生。早在20世纪70年代,英国和荷兰就已经在其社区医疗系统中使用电子病历[2]来记录患者就诊的情况,这一举措在改善疾病的统计质量上起到了很大作用。随后,电子病历便开始在欧洲和美国迅速推广并展开应用。20世纪80年代末期,电子病历逐渐在这些地区的综合性医疗中心及专科医院中得到普及,并得到了[2]越来越多的关注和认可。而到了21世纪,电子病历已经在美国、英国、荷兰、[2]日本等国家具有了较高程度的研究和应用。[3]电子病历的发展主要经历了三个阶段:起初,电子病历只是简单的将纸质病历电子化,即由医务人员通过文本编辑软件以打字的方式撰写病历,并以电子文档的形式进行存储。这一阶段的电子病历解决了传统纸质病历可读性不强的问题,实现了病历数据在医院内的初步共享,但由于需要逐字输入,导致了病历模板的滥用,容易出现病历质量不高的问题;随后,电子病历逐渐转变为结构化的形式,借助于标准表单式的输入界面,用户可以自己键入内容,也可通过鼠标点击直接选择输入项目。这使得医生避免了繁琐的打字操作,并使得数据颗粒化,便于存储和分析,从而极大地提高了病历质量;而随着互联网时代的到来,城市内部的各个医院之间的电子病历系统开始互相联网,从而实现了病历数据的城市级共享。电子病历系统发展的终极目标是建立国家级的病历数据中心,该中心包含了所有公民从出生到死亡的病历记录。政府可以通过这个庞大的数据中心随时获取国民的详细体质资料,这将为领导层决策提供坚实的依据。-1- 哈尔滨工业大学工学硕士学位论文国内的电子病历由于起步较晚,在大多数地区其发展状况目前仍处于第一[3]阶段和第二阶段之间,其发展过程也并不顺利,主要遇到了以下四个问题:(1)由于国内医疗资源分布不均,电子病历系统在各个地区的推广、应用也并不平衡;(2)各个地区甚至同一地区的不同医院所使用的电子病历标准不统一,导致难实现数据共享;(3)电子病历在法律法规中缺乏明确的地位;(4)电子病历涉及患者隐私,其数据在授权、管理、安全等方面仍存在尚待解决的问题。为此,我国在2006年5月出台的《“十一五”卫生信息化建设设想》和《2006-2020年国家信息化发展战略》中均明确提出要加快推进电子病历等医疗卫生信息化建设,这为电子病历的进一步研发、推广和普及提供了有力的理论支撑和政策保障。1.1.2医学信息学与电子病历医学信息学是信息技术学和各医疗卫生科学的交叉科学。在过去的几十年里,它获得了充分的关注与发展。医学信息学的研究起源于为医生和专家提供决策支持,即构建临床决策支持系统(ClinicalDecision-MakingSupportSystem,CDSS)。随着医学研究的不断发展,医务人员开始面临知识爆炸所带来的严峻挑战。尽管临床上划分科室可以一定程度地缓解这一矛盾,但还是无法从根本上解决问题。因为人的精力有限,即便在是很专业的医学领域,其知识的更新和增长速度也会大大超出医生可以学习和掌握的限度。与人不同的是,计算机拥有异常强大的存储和计算能力,如果能将海量的知识数据存储于计算机中,并为医务人员提供自动分类、智能诊断支持、治疗推荐、临床问答等功能,那么这一状况便可以得到很大地改善。于是,临床决策支持系统应运而生。已有[4]医疗机构表明使用临床支持系统确实可以提高医疗质量并降低医疗成本。显然,临床智能支持的研究与实现必须立足于已有的生物医学文献和电子病历的数据。为此,国内外纷纷出台了电子病历系统的分级标准,美国医疗卫生信息与管理系统协会(HIMSS)于2008年推出电子病历分级实施模型、欧洲于2010年推出电子病历分级实施模型,中国也于2010年推出电子病历系统功能应用水[5]平分级评价方法及标准。这些分级标准把电子病历系统分成8级,从第3级开始就要求电子病历系统引入智能支持,而且级别越高,要求智能支持的力度越大。另一方面,随着近些年来Internet的迅猛发展以及人们对自身健康的关注程度与日俱增,医学信息学的研究趋势开始由为医生、专家提供服务转变成为普通患者、患者家属(用户)提供服务,并且逐渐发展为一门新兴学科,即用户-2- 哈尔滨工业大学工学硕士学位论文健康信息学(ConsumerHealthInformatics)。用户健康信息学作为医学信息学的分支,分析用户对医疗信息的需求;研究并实现使用户更好获取医疗信息的[6]方法;为用户的个人需求、偏好建立模型并整合到医疗信息系统中。目前,对这门新兴学科的研究已经在美国等国家广泛开展起来,重点研究非医学专业用户的医学信息利用的相关问题,Google、微软、IBM等公司也开始提供一些用户健康服务,分别是GoogleHealth、Healthvault、智慧的医疗。近些年来,一些客观条件的进步为用户健康信息学的发展提供了非常有利的机遇:首先,互联网、移动通信设备的迅速普及使得普通大众从来没有像今天一样能够有机会获取如此大量的信息、知识,其中,就包括海量的医疗健康知识。人们迫切希望从互联网上获取自己需要的医疗健康知识,然而由于普通用户不具备专业素养,使得他们在获取、理解相关知识上面临不少困难与障碍;其次,传统的纸质病历开始向电子病历过渡且逐步对患者及患者家属开放,这是一个非常有意义、里程碑的进步,标志着患者及其家属可以更加主动地掌握自己的健康信息,更加主动地参与到自身的治疗过程之中。因此,如果电子病历中所包含的医疗信息可以被计算机自动获取、表示、更新和利用,为用户的健康状况建模,并基于此为病人提供个性化的医疗健康信息服务,将对病人健康状祝的改善大有益处。综上所述,在医疗领域,利用电子病历系统提供的决策支持、循证医学和疾病监控提高医疗服务质量已经是大势所趋。1.2课题研究的目的及意义电子病历包含了关于病人个体健康信息的全面、详实、专业、即时、准确的描述,是一种非常宝贵的知识资源。通过分析和挖掘电子病历,可以从中获[7]得大量与患者密切相关的医疗知识。例如,在某患者的电子病历中,有如下描述“高血压病口服拜新同控制”,利用技术手段,我们可以从中挖掘出疾病名称“高血压病”以及药品名称“拜新同”,并识别出两者之间的关系即“高血压病”可通过药物“拜新同”进行治疗或缓解;而从描述“头CT检查显示双侧多发脑梗死”中我们可以抽取出检查名称“头CT”和疾病名称“脑梗死”,并得出两者的关系为“脑梗死”可以通过检查手段“头CT”来进行确认。这些知识可用于构建临床决策支持系统为专业医疗人员提供服务,解决医生在知识上的局限性,从而减少人为疏忽,帮助医生做出正确有效的诊断决策;另一方面,也可应用于用户健康状况模型的建立进而为普通患者和用户提供个性化医疗健康信息服务。因此,研究如何从电子病历中自动挖掘知识具有深远意义。-3- 哈尔滨工业大学工学硕士学位论文电子病历并非完全由结构化数据构成,其中,以自由文本形式存在的非结构化数据亦是电子病历中非常重要的组成部分,包括主诉、现病史、既往史、病程记录和病历小结等。这种自由文本信息方便于医务人员描述概念和事件,但却为计算机的自动处理制造了障碍。因此,分词和名实识别等自然语言处理技术将在电子病历的数据挖掘中发挥重要作用。本课题研究的目的是针对中文电子病历的分词和名实体挖掘方法展开系统的研究,并给出可行的解决方案。由于现有的效果较好的中文分词和名实体识别方法通常是基于词典或有监督机器学习的,而电子病历具有极强的专业性,人工标注电子病历需要一定的医疗知识背景,直接构建训练语料的难度过大,因此,如何在尽可能少的人工干预下产生满足一定要求的处理结果将是本课题研究的重点。1.3国内外研究现状1.3.1中文分词通常,自动分词是处理中文文本的第一个关键步骤。与英文文本不同的是,在中文文本中,句子由一串连续的汉子或中文字符所组成,词和词之间没有明显的边界,如空格。因此,在对中文文本进行自然语言处理时,首先要做的是识别出句子中哪些字串是词,并在相应的位置上标出边界。近十几年来,国内外学者针对这一问题展开了大量研究,并取得了不错的成绩。目前主流的分词方法有两种,即基于词典的分词方法和基于有监督统计机器学习的分词方法。基于词典的方法通常使用事先人工编制好的领域词典,然后按照“切分出的词数尽可能少”的原则进行词表匹配,如正、逆向最大匹配算[8]法,这类方法的优点是,实现简单,速度较快,通常被应用在如搜索引擎等在线的、对处理效率要求较高的场景中,在词典质量较高的情况下也能取得较好的分词效果;其缺点是过分依赖于词典,无法自动识别文本中的未登录词,且[9]对歧义的处理能力较差。基于有监督统计机器学习的分词方法通常先将分词[10]转化为字的序列标注问题,然后再通过机器学习算法进行求解。Xue等根据字符与词的位置关系,将文本中的每个字符打上四种标签中的一种,即“LL”,“RR”,“MM”和“LR”。其中,“LL”表示当前字符是某个词的左边界,并与它右边的字符一起组成词,“RR”表示当前字符是某个词的右边界,并与它左边的字符一起组成词,“MM”表示当前字符位于某个才词之中,“LR”表示当前字符是一个单字词。例如,句子“哈尔滨是黑龙江省省会”所对应的标记方式为“哈/LL尔/MM滨/RR是/LR黑/LL龙/MM江/MM省/RR省/LL会/RR”。首先-4- 哈尔滨工业大学工学硕士学位论文由人手工为一定量的文本中的每个字打上正确的标签作为训练集,然后使用最大熵模型(MME,MaximumEntropyModel)对生语料进行标注,再根据标注[11]的结果得出最终的分词结果。Peng等在“字标注”思想的基础上进行了改进,将领域词典融入了特征模板中,并使用条件随机域(CRF,ConditionalRandomField)模型代替最大熵模型,使得分词效果得到了进一步地提升,取得了目前已知的中文分词的最好结果。这类方法的优点是对文本中的未登录词和歧义问题均有较强的鲁棒性,准确率和召回率较高,但缺点也很明显,即需要人工构建大规模标注语料作为训练数据。而且,由于不同领域的文本通常具有不同的语法形态特点,使用某一个领域的标注语料训练得出的模型往往无法直接应用在另一个领域的相关文本的处理中,即有监督分词难以适应不同领域的应用需求。无监督学习和半监督学习是克服获取熟语料困难的有效途径。基于无监督学习的分词方法也因此一直受到学术界的关注。与有监督分词方法相比,无监督分词通常准确率较低,但可以在极低的人工干预下产生满足一定要求的分词[12]结果并且一般不受语料所属领域的限制。随着自然语言处理的不断发展,出现了越来越多的对分词精度要求并不十分苛刻的应用,如信息检索,信息抽取,文本聚类,自动文摘等,如何利用未标注语料训练出满足一定要求的分词系统[12][13]也因此而变得越来越重要。自从Sproat等于1990年提出使用互信息(MutualInformation)来进行分词以来,便有大量学者相继投入到无监督分词的[14]研究工作中。Ge等使用EM算法从生语料中学习词频,通过迭代的过程不[15,16]断优化分词结果。Peng等提出了一种基于改进的EM算法的无监督分词,并使用互信息对结果中的噪声进行过滤,随后他们又提出一种层次化的学习方式对无监督分词进行了进一步的探索,即首先使用EM算法从生语料中学习词[17]的片段,然后再在此基础上学习完整的词。Feng等提出了邻接字变化数(AccessorVariety)这一统计指标,并用其衡量字串成词可能性的大小,再使[18]用动态规划算法产生分词结果。Jin等提出了分支信息熵(BranchingEntropy)[19]这一概念,并利用其在句子中的极值点来发现词的边界。Chen等从PageRank算法中得到启发,将词类别成网页,并提出了WordRank算法用来计算字串成[20]词的可能性,再通过最优化方法搜索得出最佳分词结果。Wang等提出了ESA算法进行无监督分词,在“E”步利用统计信息评估每个字串成词的可能性,在“S”步利用动态规划算法选择当前最好的切分结果,在“A”步利用切分结果更新统[21]计信息,然后重新执行“E”步,不断迭代直到收敛。Magistry等使用规范化-5- 哈尔滨工业大学工学硕士学位论文后的分支信息熵的变化率衡量字串成词的可能性,并将分词转化为维特比解码问题进行求解。总而言之,自动分词作为中文自然语言处理中的经典问题之一,早已获得了国内外学者的广泛关注和深入研究,相关成果层出不穷。然而,在笔者目前所阅读的所有关于分词算法的文献中,无论是有监督方法还是无监督方法,基本上都是面向开放领域语料的,针对专业领域语料的研究极少,而针对中文电子病历的分词方法的研究目前更是处于空白阶段。1.3.2名实体识别名实体识别(NER,NamedEntityRecognition)是指识别文本中具有特定意[22]义的实体,主要包括人、地名、机构名、专有名词等。名实体本质上是词,它具有独立、完整的意义。从语言分析的全过程来看,命名实体识别属于词法分析中未登录词识别的范畴。名实体识别技术是信息抽取、信息检索、机器翻译、问答系统等多种自然语言处理技术必不可少的组成部分,它也因此一直受到学术界和工业界的广泛关注。目前,名实体识别最常用的方法包括基于规则、基于词典和基于有监督机器学习的方法。基于规则和词典的方法通常先由语言学专家手工构造规则模板[23]或专业词典,再采用模式和字符串匹配算法进行识别。王宁等曾采用基于规则的方法识别中文金融新闻中的公司名,对比其封闭测试和开放测试的结果不难发现,这类方法过分依赖于人工知识库,具有很强的局限性。与有监督分词相似,基于有监督机器学习的名实体识别通常将名实体识别转化为词的序列标注问题。但标签定义有所不同,除了位置标签外还添加了实体类别标签。例如,标签可以用B_C、I_C、O的形式给出,其中B和I是位置标签,B代表一个实体的开头,I代表实体的继续,C为实体类别标签,而O表示当前词不属于已定义的任何一种实体。例如句子“周杰伦新歌最长的电影”对应的标记为“周杰伦/B_PER新歌/O最长的/B_SNG电影/I_SNG”,其中“PER”代表人名,“SNG”代表歌曲名。先后有学者采用隐马尔可夫模型(HMM,HiddenMarkovModel)、最大熵马尔可夫模型(MEMM,MaximumEntropyMarkovModel)和条件随机[24][24]域等模型进行求解。赵等通过对比实验发现采用条件随机域模型的识别相对较好。目前,基于有监督机器学习的名实体识别技术已经非常成熟。然而,与有监督分词相同,有监督名实体识别同样面临着构建训练语料困难和领域适应性较差的问题。半监督学习则是克服这一问题的常用手段之一。半监督学习是指基于少量的标注语料,对未标注语料自动标注,逐步扩充模型-6- 哈尔滨工业大学工学硕士学位论文的训练集。半监督学习旨在利用未标记数据所带来的信息,以提高学习器预测[25-31]的准确率。常用的半监督学习方法包括自训练、协同训练等。在文本挖掘领域,半监督学习已经被广泛应用,如文本分类,名实体识别和关系抽取等。[32]Thelen等将少量的标注语料作为种子,采用统计滚雪球(Bootstrapping)的[33]方式,迭代地从未标注文本中挖掘不同类型的名实体。Xiao等将半监督学习协同训练(Co-Training)算法应用在中文组织名识别的任务中,利用少量的标注语料,结合大量的未标注语料,协同训练CRF模型和SVM模型。很多学者的研究成果表明,在一定条件下,使用半监督学习,即使只有少量的标注语料,也能够获得满足一定要求的识别效果。国外对医疗领域的名实体识别已展开相当程度的研究。医疗领域名实体识别的主要任务是从电子病历文本中识别出具有独立、完整意义的医疗领域专业术语。电子病历文本中的名实体主要涉及与患者接受医疗诊治相关的实体,包括疾病名、症状、药品名、检查名、医疗手段等。I2B22010首次对英文电子病历名实体进行了系统的分类,该分类依据参照UMLS定义的语义类型,把名[34]实体分为三类,即医疗问题(包括疾病和症状)、治疗和检查。这种分类充分体现了面向问题的思想,医疗手段是为了治疗医疗问题,检查是为了确认医疗问题。这三类实体的定义分别为:(1)医疗问题(Problem):主要指的是描述患者的身体或者精神上由疾病引起的异常现象的短语,如“脑梗死(疾病)”、“糖尿病(疾病)”、“高血压(疾病)”、“神志不清(症状)”、“发烧(症状)”等;(2)检查(Test):主要是指为了发现、证实医疗问题或者找到更多关于医疗问题的信息而施加给患者的检查过程、仪器等,如“头CT”、“胸透”、“彩超”等;(3)治疗(Treatment):主要是指为了解决医疗问题而施加给病人的治疗程序、干预措施、给予物品,如“拜新同(药名)”、“诺和灵(药名)”、“改[34]善脑循环(治疗过程)”、“保护脑组织(治疗过程)”等。Uzuner等概括了参加I2B22010评测的各个小组实现电子病历名实体识别的方法,其中大部分采用的是基于有监督机器学习的方法,并在特征模板中融入了UMLS知识库。[35]BerrydeBruijn等在该评测中取得了最好成绩,他们采用了半监督学习方法,并将cTAKES的识别结果和UMLS知识库加入到特征模板中。目前国内对医疗领域名实体识别的研究较少,尤其是针对中文电子病历的[36]研究。叶等采用CRF模型,利用上下文特征和专业词典对中文电子病历中的疾病、临床症状和手术操作这三类实体进行了识别,该研究国内外学者在中文电子病历中名实体识别任务中的首次探索。-7- 哈尔滨工业大学工学硕士学位论文1.4本文的主要研究内容电子病历包含了关于患者个人健康信息的全面、详实、专业、即时、准确的描述,挖掘电子病历中的医疗信息对于构建临床决策支持系统和提供个性化医疗健康信息服务具有重要意义。以自由文本形式存在的非结构化数据在电子病历中占有重要地位。对这些自由文本数据进行自然语言处理,是分析和挖掘电子病历的必要前提。本课题研究的重点则是开发出针对中文电子病历语言特点的自动分词和名实体识别方法。大量的未登录词是中文电子病历分词和名实体识别所面临的最大挑战,它们通常是医疗领域的专业术语或缩写,如“黄疸(症状)”、“诺和灵(药品)”、“核磁共振(检查)”、“降纤(‘降低纤维蛋白原’的缩写)”。由于没有完备的专业词典,基于词典的分词和名实体识别方法将不再奏效。另一方面,由于电子病历的专业性,标注电子病历需要一定的医疗知识,直接人工构建训练语料的难度过大。而且,由于临床背景的不同,来自不同科室的电子病历通常具有较大的差别,使用某一科室的标注语料训练出来的模型将不再适用于另一科室。因此,基于有监督机器学习的分词和名实体识别方法也将不在适用。考虑以上原因,本课题将目光聚焦于基于半监督学习的方法上,针对中文电子病历的自动分词和名实体识别作出开创性的探索工作。1.4.1基于半监督学习的中文电子病历分词无监督分词方法通常是基于统计良度(goodness)的,即利用字串在的在未标注语料中的统计信息来衡量字串成词可能性的大小,再以良度为基础求出[20]最佳切分结果。然而,由于电子病历语法形态的特殊性,基于开放领域文本的语言现象所提出的良度方法无法完全准确地反映电子病历的文本特点,这使得分词的准确率大大降低。针对这一问题,本课题采用半监督的学习方式,引入开放领域的词典和未标注语料中的词频信息来弥补良度有效性降低所带来的影响。首先,使用开放领域词典对电子病历进行初步的切分,为了更好地处理歧义问题,通过EM算法从生语料中迭代地学习词频,再按照最大似然原则进行分词。然后,再利用字串的良度和长度等信息,通过有序聚类算法对初步切分的结果进行调整,从而达到识别未登录词的目的。实验结果表明,本课题所提出的方法优于无监督分词。-8- 哈尔滨工业大学工学硕士学位论文1.4.2基于半监督学习的中文电子病历名实体挖掘中文电子病历文本和开放领域文本有很大不同,它通常用半结构化的方式组织各部分内容,语言简洁且模式化较强。根据这些特点,本课题利用文本模式从病历的不同部分抽取不同类型的实体。首先人工标注少量实体作为种子,然后通过Bootstrapping算法以自学习的方式发现模式并挖掘新的实体。实验结果表明,本课题所提出的方法在挖掘疾病时效果较好,但对治疗和药品的挖掘效果较差。再对数据进行分析后,我们提出了改进的方案。1.5本文的结构安排本文主共包括四章。第一章为绪论,主要介绍了课题背景、研究的目的及意义以及国内外研究现状,并提出了本课题的主要研究内容。第二章首先简要介绍了中文电子病历的内容,然后针对其结构特点和语言特点展开了详细的分析、说明。第三章首先介绍了传统的无监督分词方法,然后针对其在处理中文电子病历时的缺陷提出了本课题的半监督分词方法,并通过实验证明了本课题方法的可行性和优越性。第四章针对中文电子病历的结构特点和语言特点提出了“分而治之”的半监督医疗实体挖掘方法,并通过实验分析了该方法的有效性和局限性。最后,在结论中对全文工作进行了总结回顾,并对未来工作进行了展望。-9- 哈尔滨工业大学工学硕士学位论文第2章中文电子病历文本特点分析电子病历产生于患者在医疗机构就诊的过程中。当人们身体不适或患有疾病时,一般情况下,只要条件允许,都会选择接受来自医疗结构的医疗服务。因此,每天都会有大量的电子病历数据产生。电子病历数据的形式主要包括表格、图像和自由文本。其中自由文本形式的数据在电子病历中占有重要地位,因此,本课题仅针对电子病历自由文本数据进行研究,主要包括出院小结、病程记录、主诉、现病史、病历小结、医患沟通记录、医患协议、超声报告等。出院小结是对患者治疗过程和治疗效果的总结;病程记录是对患者临床表现、所经历的检查和治疗过程的阶段性记录;主诉、现病史和病历小结均包含在出院小结和病程记录里;超声报告是关于超声波单项检查的记录,它和检查结果均包含在病程记录里;医患沟通是医务人员对患者治疗风险的描述与告知;医患协议是医生和患者双方就费用、风险等事宜所达成的共识。其中,出院小结和病程记录包含了患者的症状和检查结果,医生的诊断和诊疗方案,是医务人员专业医疗知识和患者个性化健康信息的集中体现。因此,本课题研究的电子病历自由文本只限于出院小结和病程记录。与开放领域文本相比,电子病历特别强调文本数据的输入便捷性、可理解[37]性和良好的呈现方式。输入便捷性是指电子病历的形式应当便于医生输入内容,尽量减少输入时间,电子病例中简洁精练的语言、同一科室中形式相似的模板都是输入便捷性的体现;可理解性是指电子病历的文本内容应当易于理解,尽量避免语法错误或歧义;良好的呈现方式是指电子病历应该结构清晰,医生或患者可以快速找到想要了解的内容,电子病历变结构化的内容组织方式正是[38]良好呈现方式的体现。因此,与开放领域的文本相比,中文电子病历中的文本在结构上和语言上都有很多新的特点。2.1结构特点2.1.1出院小结的结构特点出院记录是指经治医师对患者此次住院期间诊疗情况的总结,内容主要包括入院日期、出院日期、入院情况、入院诊断、诊疗经过、出院诊断、出院情况、出院医嘱、医师签名等。图2-1是脑梗死患者出院小结的一个样例。-10- 哈尔滨工业大学工学硕士学位论文图2-1某脑梗死患者出院小结从图2-1看出,出院小结分为6个部分(section),诊断部分说明患者确诊的疾病;入院时症状可以认为是疾病的症状,和出院时症状相比,不良症状得到治愈或缓解;给予的治疗部分简单列出了治疗措施;治疗效果明确表示本次治疗是有效的;出院医嘱简单列出后续的治疗措施和注意事项。每部分以标题和冒号开头,治疗经过和出院医嘱以条目的形式罗列,呈现出半结构化的形式。这六个部分描述内容单一,可根据不同部分制定不同的抽取策略。从内容上看,诊断部分没有说明诊断的依据,治疗部分没有说明具体治疗措施,只是粗略的提及改善脑循环、支持对症,出院医嘱部分也没有太明确的指导。在实体抽取方面,从诊断部分可以抽取疾病名、入院症状部分可以抽取与疾病相关的症状,治疗部分可以抽取治疗措施。对比入院时症状和出院时症状,可以抽取症状的变化情况。结合诊断和入院时症状可以抽取疾病和症状的关系,结合诊断、治疗和治疗效果,可以抽取治疗和疾病的关系,结合入院时症状、治疗和治疗效果,可以抽取治疗和症状的关系,这些关系不是发生在一个句子范围内,甚至不在同一个部分(section)里。-11- 哈尔滨工业大学工学硕士学位论文2.1.2病程记录的结构特点病程记录主要有三类:首次病程记录、日常病程记录(也叫查房记录)、上级医师查房记录。由于中文电子病历尚存在模板滥用问题,导致首次病程记录与日常病程记录和上级医师查房记录的实质内容基本相同,因此本课题仅关注首次病程记录中的数据。首次病程记录是指患者入院后由经治医师或值班医师书写的第一次病程记录,内容包括病例特点、拟诊讨论(诊断依据及鉴别诊断)、诊疗计划等。病例特点在对病史、体格检查和辅助检查进行全面分析、归纳和整理后写出本病例特征,包括阳性发现和具有鉴别诊断意义的阴性症状和体征等。拟诊讨论(诊断依据及鉴别诊断)根据病例特点,提出初步诊断和诊断依据;对诊断不明的写出鉴别诊断并进行分析;并对下一步诊治措施进行分析。诊疗计划提出具体的检查及治疗措施安排。首次病程记录详细记录了患者的病例特点、诊断和诊疗计划,下面分析首次病程记录结构特点。图2-2是某脑梗死患者首次病程记录。图2-2某脑梗死患者首次病程记录从图2-2的例子可以看出,病例特点可以分为既往史、主观症状、客观检查三部分。总体看来,首次病程记录基本按照面相医疗问题的方式组织病历,即SOAP(Subjective,Objective,Assessment,Plan)结构组织病历,以医疗问题为中心,先描述主观症状,后描述客观的检查,接着是评估和诊断,最后是-12- 哈尔滨工业大学工学硕士学位论文诊疗计划。从文本组织形式看,首次病程记录明显的分为几个部分(Section),每一个部分以名称(SectionName)和冒号表示出来。每个部分的内容以条目的形式罗列,总体表现出明显的半结构化形式。从内容上看,诊断依据只是简单的复述病例特点,没有对诊断依据进行提炼指出关键性证据。诊疗计划也不够明确。2.2语言特点由于电子病历更加注重文本数据的输入便捷性、可理解性和良好的呈现方[38]式,使得电子病历文本与开放领域文本有很大不同,其使用的语言呈现出独[38]特的子语言(Sublanguage)特性,观察图2-1和图2-2不难发现,这些特性包括:(1)包含大量的医疗领域专业术语,如“脑白质病”、“眼震”、“复视”等;(2)包含大量的医疗领域习惯用语,如“无”、“示”、“伴”、“否认”、“尚可”等;(3)包含一些以数字和单位表示的检查结果,如“100/70mmHg”、“3.0mm”等;(4)包含一些用英文缩写词表示的检查或治疗手段,如“CT”、“MMR”等。(5)句子简短且语法成分不完整,如“神志清楚”和“言语稍笨”中均缺少动词;(6)表达模式化较强,如描述症状是身体部位+描述(“上肢可抬举”,“言语笨拙”),排出症状是“否认|无”+描述(“无发热”)。2.3实体分布的密集程度医生针对患者的诊疗活动主要是:借助(或者不借助)检查手段发现疾病的表现,给出诊断结论,并基于诊断结论,给出治疗措施。因此,我们把中文电子病历中的医疗实体分为四个类别:第一类实体是疾病,泛指导致患者处于非健康状态(bewrongwiththepatient)的原因(不包括不良生活习惯)或者医生根据患者的身体状况作出的诊断。疾病是可以治愈或改善的。第二类实体是疾病的表现,在本规范中称为症状,泛指疾病导致的不适或异常感觉和显式表达的异常检查结果。虽然这两类症状都是疾病表现,但又明显不同,因此症状细分为两个子类:自诉症状和异常检查结果。第三类实体是检查手段,在本规范中简称为检查,泛指为了得到更多的由疾病导致的异常表现以支持诊断而采取的检查设备、检查程序、检查项目等。第四类实体是治疗手段,在本规范中简称为治疗,泛指为了治愈疾病、缓解或者改善症状(也就是疾病的表现)而是给予患者的药物、手术等。本课题从哈医大二院获取了144230份2012年就诊于此的患者的电子病历,其中共包含科室35个,子科室87个。我们随机地从每个子科室中选出一定数-13- 哈尔滨工业大学工学硕士学位论文量的电子病历进行人工标注,共3825份。目前完成标注的病历共991份。在标注的过程中我们发现,在中文电子病历中,实体分布的密集程度似乎远高于开放领域文本。而统计结果也证实了我们的观点。我们将已标注的991份中文电子病历和开放领域语料(MET-2[1]中的中文新闻语料,共104个文档)中的实体分布情况进行了对比,结果如表2-1所示:表2-1中文电子病历语料与中文通用语料实体密集度对照表项目中文电子病历语料开放领域语料字符数47942040480实体数353271881实体字符数1472876563单位长所含实体数(每1000个字符)73.6869550746.4673913实体字符所占语料比例0.307219140.162129447由此可见,中文电子病历语料中实体字符所占语料比例接近中文通用语料的2倍,这说明了中文电子病历是一种知识密集型的文本,该数据十分具有研究价值,但这同时也可能会给中文电子病历的自然语言处理制造更多的障碍。2.4本章小结本章首先简要介绍了中文电子病历的主要内容,然后从结构和语言两个方面对电子病历的特点进行了详细的分析,发现电子病历文本和开放领域文本具有很大不同。对已标注数据进行统计发现,在中文电子病历中,名实体的分布的密集程度接近开放领域文本的2倍。这些特点给自然语言处理技术的应用带来新的挑战,同时如果充分利用这些特点,也非常有利于电子病历文本信息抽取的研究,所以本课题的研究要针对电子病历文本的特点探索适合电子病历的自动分词和名实体挖掘方法。-14- 哈尔滨工业大学工学硕士学位论文第3章基于半监督学习的中文电子病历分词中文电子病历是一个尚待开发的知识资源,目前还没有针对它的完备的专业词典或大规模标注语料。又由于其专业性,直接人工构造标注语料的难度过大,因此,本课题从无监督和半监督方法的角度入手,以克服获取熟语料困难[17,40]的问题。本课题首先参照文献中的思想实现了一个无监督分词方法,并针对中文电子病历语料进行了实验。然后,分析了它在处理电子病历时的所遇到的问题,并针对其缺陷,提出了半监督的分词方法。下面,本文将分小结对相关内容展开详细的叙述。3.1无监督分词3.1.1良度概述无监督分词最近20多年里一直受到学术界的关注。它可以自动提取未标注语料的统计特征,并利用其产生分词结果。在大多数情况下,无监督分词都可以归纳为同一种算法框架,即首先根据用语言学假设,利用字串在未标注语料中的统计信息,构建可以衡量字串成词可能性大小的指标,这类指标被称作良[39,41-44]度(goodness),然后再通过良度将分词问题转化为最优化问题进行求解。由此可见,良度是影响无监督分词效果的最关键因素。一般情况下,一个字串的良度越大,它越可能是一个词。不同的无监督分词方法通常提出并使用不同的良度,下面本文就几种常用的且效果相对较好的良度展开介绍:[13](1)互信息(MutualInformation):一个词中的各个字符通常会以搭配的形式经常出现,也就是说,直觉上,一个字串的频率越高,它越可能是一个词语。但事实证明,一个经常出现的字串在很多时候并不是词。例如,在某语料库中,非词字串“的人”出现了389次,而名词“人们”则只出现了175次。这是因为“的”字和“人”字的出现频率都很高,而他们共现频率也就理所应当地高;而“们”字的出现词次相对较少,导致“人们”的共现次数也不可能很高。为了减少这种字本身的频次所带来的影响,可以使用互信息来更好地衡量两个字结合的紧密度。对于字串AB,令字A的出现概率为P(A),字B的出现概率为PAB()P(B),字串AB的出现概率为P(AB),则有MIAB()log。因此,互2PAPB()()信息可以用来衡量一个字串成词可能性的大小,一般地,互信息越大,该字串-15- 哈尔滨工业大学工学硕士学位论文越可能是一个词。使用互信息进行无监督分词的缺点包括:单字词并不存在互信息,因此无法衡量一个字成词可能性的大小;当字串中包含两个以上字符时,互信息难以计算;互信息只利用了字串内部的特征,而忽略了它与上下文的关系。[40](2)削减后的字串频次(FrequencyofSubstringwithReduction):利用字串的频次来衡量其成词可能性的大小,但对重叠子串进行了处理,若字串A和字串B的频次相同,且A是B的子串,则将A的频次置为0,这是因为,在这种情况下,A最多可能是某个词的一部分,而非一个完整的词。将这样的字串的频次设置为0,可以一定程度地避免噪声的产生,提高分词的精度。文[45]献提出了一种快速算法,可以在线性时间内完成字串频率的削减。然而,与互信息相同,削减后的字串频次同样只考虑了字串本身的内部特征,而缺乏对[40]字串所处语言环境的考察。Zhao等通过实验证明,仅利用削减后的字串频率进行分词效果较差。[17](3)邻接字变化数(AccessorVariety):理论上,在中文文本中,一个句子的任何一个子串,都可能是一个潜在的词。然而,只有那些具有独立、完整、明确意义的子串才是真正的词。例如,句子“门把手弄坏了”共有21个子串,然而只有4个子串可以被认为是词(这里不考虑单字词),即“门把”、“把手”、“弄坏”、“门把手”。邻接字变化数是基于这样一个语言学规律提出的:当一个字串频繁地在不同的语言环境中出现时,它很可能是一个词。也就是说,邻接字变化数是一种用来衡量字串在语料中的自由程度的指标,进而反映该字串成词可能性的大小。为了简明扼要地阐述这个概念,下面我们分析表3-1中的四个例句:表3-1:介绍邻接字变化数的例句句子A门把手弄坏了句子B小明修好了门把手句子C这个门把手很漂亮句子D这个门把手坏了观察字串“门把手”我们不难发现,它有三个不同的左邻接字,即“S”、“了”、“个”,以及四个不同的右邻接字,即“弄”、“E”、“很”、“坏”,其中“S”表示一个句子的开始,“E”表示一个句子的结束。这意味着,字串“门把手”可以在至少三种不同的语言环境中使用,并且可能具有独立于四个句子中其他字符的含义。-16- 哈尔滨工业大学工学硕士学位论文我们将3min{3,4}定义为子串“门把手”的邻接字变化数。对于任意一个字串s,我们将它的邻接字变化数定义为AVs()min{LsRs(),()}(3-1)avav其中L为s的左邻接字变化数,即s左边总出现了多少个不同的字(每一av个句子的开头处“S”都算作一个不同的字符);相似地,R代表s的右邻接字av变化数,即s右边总出现了多少个不同的字(每一个句子的结尾处“E”都算作一个不同的字符)。在统计过程中,“S”和“E”是重复计数的。这是因为,一些词经常出现在一个句子的开头或结尾处。例如词语“突然”通常在一个句子的开头出现,这使得它的左邻接字种类很少,为了保证它的AV值不会过低,我们需要将句子的开头“S”重复计数。通常一个字串的AV值越大,这个字串越可能是一个词。与前两种良度不同,邻接字变化数没有使用字串本身的内部特征,而[17]是利用了字串的上下文信息。Feng等通过实验证明了利用邻接字变化数进行无监督分词可以取得不错的效果。[18][18](4)边界熵(BranchingEntropy):Jin等在文献中提出这样的语言学假设:如果紧跟一个字串的字符的不确定性很大,那么这个字串和字符之间可能存在词的边界。一般地,在一个词中,从词的一端开始,当子串的长度不断增加时,该子串在另一端方向上的邻接字的不确定性会越来越低。例如,我们很难预测“门”字后面会出现什么字,但预测“门把”后面的邻接字则相对容易得多。然而,当子串不断向另一端延伸,以至于超出词的覆盖范围时,其邻接字的不确定性将会陡然上升。比如,我们很难猜出“门把手”的后面将会出现什么字。因此,我们可以利用这一规律来发现词边界。对于一个给定的字串,它的左右边界熵的形式化定义如式(2-2)和(2-3)所示hxL(ij)pax(ij|xij)log2pax(ij|xij)(32)aVhxR(ij)px(ijbx|ij)log2px(ijbx|ij)(33)bV其中x是当前的字串,V为文本中的字符集合,p(ax|x)是字串x左边ijijijij出现字符a的概率,p(xb|x)是字串x右边出现字符b的概率,h(x)和ijijijLijh(x)分别是字串x的左右边界熵,它们反应了该字串与左右相邻字符的搭Rijij配的不确定性。若一个字串的左右边界熵都比较高,则代表该字串的两边可能出现了词边界,它很可能是一个词。因此,我们将hx()min{(hxhx),()}(34)ijLijRij-17- 哈尔滨工业大学工学硕士学位论文定义为字串x的边界熵,并将其作为衡量字串成词可能性的良度。h(x)越ijij大,字串x成词的可能性越高。事实上,边界熵与邻接字变化数的思想一致,ij只不过前者用信息熵的形式进行表达、计算,而后者只是简单的计数。Zhao等[40]通过对比实验证明了使用边界熵进行无监督分词的效果略好于邻接字变化数。由于衡量不同良度之间的优劣并不是本课题的研究重点,因此我们仅选择边界熵作为良度。3.1.2边界熵的快速计算由于电子病历中很少有长度超过6的词,因此,我们将未标注文本中词的最大长度设定为6。我们需要计算语料库中所有长度从1到6的字串的左右边界熵。如果使用朴素的方法,当语料规模较大时,计算左右边界熵将消耗大量的时间和并占用较大的内存。本课题提出一种新的算法,它可以快速地从大规模语料中统计边界息熵,并且可以实现增量式的计算,即当有新的数据加入时,无需将整个数据完全重新计算一遍,而只需处理新的数据和部分已保留的中间结果。算法的大致包括三个步骤:(1)对于语料中的每个句子,枚举它的所有长度从1到6的子串,同时将该子串和它的左邻接字打印到输出文件L中,子串和它的右邻接字打印到输出文件R中。例如,对于句子“口服拜新同”,算法输出到L文件中的内容如下:口tS服t口拜t服新t服同t新口服tS服拜t口拜新t服新同t拜口服拜tS服拜新t口拜新同t服算法输出到R文件中的内容如下:口t服服t拜-18- 哈尔滨工业大学工学硕士学位论文拜t新新t同同tE口服t拜服拜t新拜新t同新同tE口服拜t新服拜新t同拜新同tE(2)分别对L文件和R文件的内容按照字节进行排序。由于当语料库较大时,产生的L、R文件无法被一次性地读入内存,我们采用外部排序的方法,即首先将大文件切分成若干个小文件,使得每个小文件的大小都小于计算机的内存,然后利用内部排序算法如快速排序对每个小文件进行排序,最终,将若干个有序的小文件进行多路归并,合并成一个有序的大文件,并在此过程中去掉重复的行、统计频次。(3)经过排序、去重后,关于同一字串的行将会紧邻地排列在一起,因此我们可以线性地扫描L文件和R文件来快速地计算左、右边界熵。例如,经过上一步处理后,L文件中的内容如下拜新同t“t1拜新同t用t2拜新同t、t2拜新同t吃t1拜新同t服t5肌张力t肢t5肌张力t体t1肌张力t、t2肌张力t侧t3我们可以依次读入每一行,利用split函数,以制表符为分隔符,对行的内容进行分割,提取出字串和该行对应的频次。当字串没有发生改变时,我们对频次进行累加;当字串发生变化时,我们回溯上一个字串所对应的行,用每一行的频次除以该字串的频次总和作为每个邻接字的出现概率,最终得出该字串的边界熵。例如,初始时,频次之和为0;当读取第1行时,字串为“拜新同”,频-19- 哈尔滨工业大学工学硕士学位论文次之和为“1”;当读取到第5行时,字串仍为“拜新同”,而频次之和为“11”;当读取到底6行时,字串变成了“肌张力”,我们回溯之前的字串“拜新同”所对应的行,分别计算每个邻接字的概率为1/11,2/11,2/11,1/11,5/11,进而可以得出字串“拜新同”的左边界信息熵为1.20;然后,将频次和更改为当前行的频次,再按照相同的方式计算字串“肌张力”的左边界熵。最终,将所有字串及其对应的左右边界熵分别按行输出到文件L_entropy和R_entropy中。在实际应用中,语料库往往不是一成不变的,随着研究和应用过程的发展,语料库的规模往往会不断地扩大。如果每当语料库发生变更时都对全部数据重新进行一次计算,将会浪费大量的时间。但倘若可以实现增量式的计算,即每次只对新增的语料进行处理,那么将会大大降低运行的成本。观察本课题所提出的计算方法,不难发现,如果我们每次计算不仅保留含有信息熵的最终结果,即L_entropy和R_entropy,而对于第(1)、(2)步处理后所产生的L、R文件也进行保存,那么,当有新的语料加入时,我们只需先对新语料进行第(1)、(2)步处理,得出L_new和R_new,然后将L和L_new这两个有序文件归并为L,将R和R_new归并为R。然后再通过第(3)步对L、R进行处理,既可得出最终结果。这样便避免了对整个语料的重新处理,大大节省了计算时间。3.1.3基于边界熵的无监督分词在确定良度之后,无监督分词方法通常将分词转化为最优化问题,即从一[40]个句子的所有可能的切分结果中,找出使得目标函数值最大的切分方式。在本课题中,我们只考虑长度小于等于6的字串,因为在电子病历中,只有极少数的词的长度可以超过6。对于长度大于6的字串,我们默认它的良度为0。我们使用前文所提到的边界熵作为良度,在分词前,所有字串的边界熵已经从未标注语料统计得出。令S为一个尚待切分的句子,SS为S的一种切分方式,n为句子S中的字符数,m为切分结果SS中所包含的片段数,则S和SS可以用如下方式进行表示:SCCCC12inSSWWWW12jm*其中C为句子S中的字符,W为切分SS中的片段。令C为语料库中所有字串ij*的集合,则目标函数f的定义域为C,对于每一种切分方式SS,目标函数f的值为SS中所有片段W所对应的f值之和。在一些文献中,研究者们使用的是乘积而非加和,然而,乘法运算可以通过对数运算在不改变单调性的情况下变换-20- 哈尔滨工业大学工学硕士学位论文为加法,而且当数值非常小时,加法运算可以更好地避免精度问题。我们令fW()为目标函数f在片段W上的值,fSS()为目标函数f在切分SS上的值,则根据之前的讨论,我们可以得出mfSS()fW(j)(35)j1对于固定的目标函数f,以及给定的句子S,我们从S的所有可能的切分方式中选择使得fSS()的值最大的作为最终的分词结果。在计算fW()时,我们需要考虑两个因素,首先是W的边界熵hW(),其次是W的长度||W。因此fW()可以表示为hW()和||W的函数,即fW()fhwW((),||)。我们可以将fW()看作是边界熵hW()的一种规范化,它在字串边界熵和字串长度这两个因素之间取得平衡。之所以这样设计,是因为较短的字串通常具有较高的边界熵,而在分词时,我们更偏好粒度较大的切分结果。具体的,我们定义其中,x为指数,通过调整x的大小,可以平衡边界熵hW()和字串长度||W两个因素对分词结果的影响。确定了以上信息后,我们便可以进行最优切分的求解。由于目标函数的特殊结构,每种切分方式所对应的函数值的计算是相互独立的,我们可以使用动态规划算法计算目标函数的最大值。令f表示句子SCCCC的前缀i12inCCC所对应的最优切分及其函数值,设W为子串CCC,我们可12iijij12iji以得到如下递推公式f0;0ffW(C);(37)1111fmax{ffW()},2in;iijij1jimin{,6}从公式可以看出,每一轮迭代最多只有N次计算,N为词的最大长度,在本课题中N6。因此,算法的时间复杂度为On(),即字串长度的线性时间。3.1.4实验结果与分析本课题从哈医大二院获取了3000份来自神经内科的电子病历,并从中截取出出院小结与病程记录作为实验语料,汇总后共包含59433行文本,总大小为6.3M。我们将其全部作为无监督分词的训练语料,先通过它计算所有长度大于等于1且小于等于6的字串的边界熵,再使用动态规划算法求出语料中所有句子的最佳切分结果。然后,我们从语料中随机选择400行进行人工手动分词,-21- 哈尔滨工业大学工学硕士学位论文将其作为测试集,大小为52K,并与这400行语料所对应的自动分词结果进行对比。评价标准使用准确率P、召回率R和F值F。其中准确率为系统正确切分出的词数与系统切分出的总词数的比值,召回率为系统正确切分出的词数与人工切分出的总词数的比值,F值是综合考虑系统准确和召回能力的评价指标。具体地,其定义如下:分词结果中正确切分的词语数量P;(3-8)分词结果中词语的总数量分词结果中正确切分的词语数量R;(3-9)人工切分结果中词语的总数量2(1)PRF;(310)2PR其中是用来调和准确率P和召回率R两个评价指标的影响力的权值,在本课2PR题中,我们将取值为1,则F,即我们将准确率P与召回率R看做衡PR量系统效果的同等重要的因素。经多次调整试验,当指数x1.2时,F值最大。最终,基于边界熵的无监督分词的实验结果如表3-2所示:表3-2基于边界熵的无监督分词实验结果准确率召回率F值0.710.760.73从实验结果可以看出使用无监督方法对中文电子病历进行分词处理准确率较低,效果难以令人满意。观察且分词结果,发现其切分错误通常包括以下两种情况:(1)一些常用词被切散:由于电子病历封闭性,一些在开放领域语料中经常出现的词在电子病历中却非常少见,如“面积”、”应用”等,这使得这些词在电子病历语料中的良度值很低,从而导致他们被错误地分开;(2)正确词语与习惯用语过度合并:电子病历中经常使用“无”、“示”等习惯用语来修饰症状或描述检查结果,他们会和其他词语以搭配的形式出现在文本中,如“无明显”、“头CT示”等,这使得这些非词字串在语料中具有较高的良度值,从而被错误地合并。从根本上讲,无监督分词中所使用的良度方法是完全根据开放领域语料的语言特点提出的,它无法完全适应中文电子病历的语言特点。-22- 哈尔滨工业大学工学硕士学位论文3.2基于半监督学习的中文电子病历分词电子病历文本的行文风格与开放领域文本迥然不同,其语言呈现出独特的子语言特性,关于这一点,本文已经在第二章进行了详细的分析和说明。而现有的无监督分词方法中的良度都是根据开放领域文本的语言规律所提出的,这些良度方法无法很好地适应电子病历的语言特点,从而使其可信度有了一定程度的降低,进而影响分词精度。针对以上问题,本课题引入开放领域词典以及隐藏在未标注语料中的词频信息来弥补处理电子病历时良度可信度降低所带来的负面影响。我们将中文电子病历的分词分为两个主要步骤:首先,根据最大似然原则,使用开放领域词典对电子病历进行初步的切分,其中词的出现概率由EM算法从未标注的电子病历语料中学习得出,经过初步切分后,所有的未登录词都将被切成若干个连续的片段;然后,利用字串的良度(边界熵)和长度等信息,通过有序聚类算法,对初步切分的结果进行调整,从而将那些被切散的未登录词重新合并起来。由于该方法使用了开放领域词典,从语料标注量的角度来看(相当于仅标注了电子病历中那些被包含在开放领域词典中的词),它属于半监督方法。3.2.1基于EM算法的初步切分在给定词典的情况下,我们可以使用单纯基于字面匹配的方法进行分词,如正、逆向最大匹配算法,但这类方法往往无法很好地处理分词中的歧义问题。例如,在使用正向最大匹配算法时,句子“右面部外周感觉减退”会被切分成“右面部外周感觉减退”,而“可达到140-150/90mmHg”则被切分成“可达到140–150/mmHg”,其中“右面”和“可达”都是错误的切分。针对以上问题,我们引入概率模型来进行优化。给定一个字串SCCC,我们希望将它切分12n成词串SSWW12Wm,其中n是字串中的字数,m是切分结果中的词数,Wi来自于词典V{,Wi1,,|V|}。为了简化计算,采用一元统计模型,即假设词与i词之间是相互独立的,两个词同时出现的概率仅与他们各自的出现概率有关。若已知词的出现概率按{|pWi(),1,,|V|}分布,则我们可以根据最iii大似然原则求出字串的最优切分。对于字串S的任意一种切分方式SS,其似然函数为MprobSSS(,|)i(311)i1*我们的任务是找到一种切分方式SS,使得似然函数的值最大:-23- 哈尔滨工业大学工学硕士学位论文*SSargmax{probSSS(|;)}argmax{probSSS(,|)}(312-)SSSS*SS可以使用动态规划算法在多项式时间内求出。如果有事先人工切分好的语料,那么词的出现概率就可以根据词在语料中的出现次数进行计算。然而,标注电子病历需要专业的医疗知识,人工构建这样的语料难度非常大。因此,本文采用EM算法,从未标注语料中自动学习词的出现概率。其基本思想为:如果已知分词结果,我们就可以估计出词的出现概率;反之,如果已知词的出现概率,我们就可以对语料进行分词处理,通让过这两个过程相互迭代,可以使算法对词的出现概率的估计越来越接近真实值。[15,16]文献使用“软计数”的方式来更新词的频次,即对于某个句子,先计算出所有可能的切分结果的概率,然后在统计词频时使用归一化后的概率进行加权。该方法虽然在理论上可以获得更好的结果,但实现起来却比较复杂,而且当句子较长时,计算的过程中常会遇到精度问题,实际效果不佳。因此,本文采用[17]相对简单的维特比训练方法。具体地,初始时,使用正向最大匹配算法对语料进行切分,将切分结果中每个词的相对频率作为其初始概率;然后根据词的概率,使用动态规划算法,对语料进行重新切分;再一次地,根据切分结果,重新计算词的相对频率作为其出现概率。这一过程将一直循环直到语料的切分结果不再变化或迭代次数达到了预先规定的上限。经过初步切分,所有的未登录词都会被切分成若干连续的片段(单个汉字或通用词典中的词)。例如,句子“四肢肌张力正常”会被切分成“四肢肌张力正常”,句子“口服拜新同控制血压”会被切分成,“口服拜新同控制血压”,其中“拜新同”和“肌张力”是未登录词。3.2.2基于有序聚类的结果调整给定一个初步切分的结果SSWW12Wm,我们需要通过合并操作将它调整为最终的分词结果SSWWW,其中o是最终切分结果中的词数;12oWWW,11jjjjm,即W由一个或多个初步切分结ijiij1112oo1i果中的连续片段组成。对于初步切分结果“口服拜新同控制血压”,“口服拜新同控制血压”、“口服拜新同控制血压”和“口服拜新同控制血压”分别是三种不同的调整结果。调整的目的,是实现对未登录词的识别。我们希望找到一种调整方式使得那些被切散的未登录词尽可能地合并还原,同时还要尽量避免错误的合并。例如“拜新同”是我们想要的合并,而“口服拜”和“控制血[18]压”则是错误的合并。文献提出一种归纳未登录词的通用规则,并使用自底向-24- 哈尔滨工业大学工学硕士学位论文上的递归算法进行规则匹配,从而合并被切散的未登录词。这种方法虽然具有较高的准确率,但它需要事先从大规模标注语料中学习大量的规则,用来判定初步切分结果中的单个汉字是否可能是属于某个未登录词。本文主要以字串在大规模未标注语料中的统计特征为基础来实现对未登录词的识别,从而尽可能地减少算法对人工干预的依赖。有序聚类法又称最优分割法,是聚类分析法中的一种。与普通的聚类方法的不同是,后者通常将所有样品平等对待,即任何样品都可能被聚到一类,而不考虑样本的时间或空间顺序,而有序聚类法则要求聚类时不能打乱样品原来[46-49]的顺序。如果我们把初步切分结果中的每个片段都看做一个样品,把最终分词结果中的每个词都看作一个类别,那么结果调整的过程实际上就是一个有序聚类过程,即在不改变片段顺序的前提下,将属于同一个词的片段聚合在一起。例如,我们可以将片段序列“口服拜新同控制血压”聚成4类即“{口服},{拜,新,同},{控制},{血压}”。我们定义每类别的凝聚度为该类别所对应的字串的评价函数gW(),聚类结果的评价函数gSS()为ogSS()Wj(313-)j1我们的目标是找到使得评价函数值最大的聚类结果。在定义gW()时,我们借鉴无监督分词的思想,同时针对无监督分词在中文电子病历上的实验情况进行了改进,得出gW()的具体定义如下xlog(|W|hW()),ifWSLWSLgW()iijiij11(3-14)ielse即若某个类别所对应的字串W的前缀W或后缀W不在停用词词表SL中,则jiji11xgW()log(|W|hW());否则,令gW()。也就是说,我们禁止那些不符ii合规则的片段被合并。其中,停用词词表SL中包括“伴”、“行”、“无”、“示”、“为”、“至”、“在”、“约”、“于”等电子病历习惯用语。与无监督分词相似,有序聚类的目标函数的最大值同样可以用动态规划算法求解,我们令g表示初步切分结i果SSWW12Wm的前i个片段WW12Wi所对应的最佳聚类结果及目标函数值,设W为字串WWW,则我们可以得到如下递推公式ijij12iji-25- 哈尔滨工业大学工学硕士学位论文g0;0gfW(W);(315-)1111gmax{ggW()},2io;iijij1jimin{,6}从递推式不难得出,该算法的时间复杂度为Oo()。求出最佳聚类结果后,我们将每个类别中的片段进行合并,并将合并后的结果作为词,便得到了最终的分词结果。如,聚类结果“{口服},{拜,新,同},{控制},{血压}”所对应的分词结果为“口服拜新同控制血压”。3.2.3实验结果与分析采用与3.1.4中相同的实验数据和评价标准。开放领域词典采用从网络上下载的常用词词库,共包含65110个常用词,总大小为523K。首先,使用开放领域词典对电子病历进行初步切分,设定EM算法的迭代次数上限为10次。然后,通过有序聚类算法对初步切分结果进行调整,经过多次试验,最终确定最佳指数值为x1.7。为了反映半监督分词方法的未登录词识别能力,将基于同一开放领域词典的正向最大匹配分词作为基线实验。同时,为了体现本课题方法在处理中文电子病历时的优越性,将3.1.3中所实现的基于边界熵的无监督分词方法作为对比实验。最终实验结果如表3-3所示表3-3半监督分词实验结果方法准确率召回率F值正向最大匹配0.670.810.73无监督分词0.710.760.73半监督分词0.870.900.88从表3-3中可以看出,本课题所提出的半监督分词方法无论在准确率上还是召回率上均远高于正向最大匹配算法,这说明它具有较强的未登录词识别能力;基于边界熵的无监督分词的召回率甚至低于正向最大匹配,这说明有一部分常规词语无法被正确识别,根据开放领域文本特点所提出的良度方法在电子病历中并不完全适用;对比半监督和无监督分词的实验结果,可以看出引入开放领域的词典和未标注语料中的词频信息确实可以有效弥补良度可信度降低所带来的损失,本课题所提出的半监督分词方法在处理中文电子病历时具有更强的针对性和更好的效果。-26- 哈尔滨工业大学工学硕士学位论文3.3本章小结本章首先介绍了无监督分词算法的一般框架,阐述了良度的概念,实现了基于边界熵的无监督分词方法,并在中文电子病历语料上进行了实验。然后,针对实验结果中所呈现出的问题,提出了改进的方法,即引入开放领域的词典和未标注语料中的词频信息来弥补良度可信度降低所带来的影响。为了避免人工标注,使用EM算法从生语料中无指导地学习词的出现概率。借鉴无监督分词中的良度方法,使用有序聚类算法来识别未登录词。实验结果表明,改进后的半监督方法无论在准确率还是召回率上均优于无监督分词方法,可以在仅使用开放领域的词典的情况下产生精度较高的分词结果,无需多余的人工标注。-27- 哈尔滨工业大学工学硕士学位论文第4章基于半监督学习的中文电子病历名实体挖掘目前识别名实体的最有效方法是基于词典的方法和基于有监督机器学习的方法,但这两种方法需要完备的专业词典或大规模标注语料作为训练集。然而,中文电子病历具有很强的专业性,人工标注电子病历需要一定的医疗知识背景。即使是医生,由于每个人的临床经验和医疗认知不同,其标注结果也难以一致,因此,标注前还需要制定详细的标注规范,并对参与人员进行一定时间的培训,并且在标注的过程中还需要不断地针对所遇到的具体问题对规范进行修改调整。由此可见,直接构造专业词典或训练语料,其代价都是非常昂贵的。除此之外,由于来自不同科室的病历之间的差别较大,根据一个科室的标注语料得出的词典或训练出来的模型无法适应其他科室的病历文本。出于以上考虑,本课题决定将目光聚焦于基于半监督学习的方法,因为这类方法可以仅利用少量的标注语料来产生满足一定要求的识别结果,从而大大降低语料构建的成本。中文电子病历文本和开放领域文本有很大的不同,这主要体现在用半结构化的方式组织内容以及语言模式化较强这两个方面,充分利用这些特点,可以降低电子病历信息抽取的难度。电子病历实际上是对患者所接受的整个医疗过程的记录,因此它的内容具有较强的时序性。因此,为了表达清晰,医生通常按照半结构化的方式组织各部分内容,每个部分代表一个医疗子过程,并按照时间先后顺序排布。出院小结和病程记录是本课题重点关注的两类文本,其结构组织分别如图4-1和图4-2所示:图4-1出院小结文本结构-28- 哈尔滨工业大学工学硕士学位论文图4-2首次病程记录文本结构在出院小结中,诊断部分主要描述医生给出的诊断结论;入院时情况和出院时情况分别描述患者入院和出院时的表现和检查结果,以支持诊断和印证治疗效果;治疗经过简要描述所采取的一些治疗手段;出院医嘱简要描述后续应继续采取的治疗措施。在病程记录中,主诉介绍了患者入院的时间、科别及原因。病例特点部分内容较为丰富。既往史简要概括了患者曾经患有的疾病以及所接受过的相应的治疗手段。患者自述症状、查体以及辅助检查详细描述了患者所患疾病的一些表现,这些表现包括患者自诉主观感觉、采取的常规检查项目和检查结果、辅助检查及检查结果;临床初步诊断是医生根据病例特点给出的初步结论;鉴别诊断是对一些相似疾病的描述,并提醒医生通过哪些检查手段可以进一步确定患者所患的疾病;诊疗计划是根据临床初步诊断和病例特点采取的治疗措施。从上面的分析可以看出,利用电子病历的结构特点,我们可以从不同的部分抽取不同类型的实体。具体地,我们可以从出院小结的诊断、病程记录的既往史和鉴别诊断中抽取“疾病”,从病程记录的病历特点中抽取“症状”,从病程记录的查体和辅助检查中抽取“检查”,从病程记录的既往史以及诊疗计划中抽取“治疗”。在医院中,为了节约医生的时间,医生通常采用“先拷贝模板,再进行修改”的方式来撰写病历。这种撰写方式直接导致了中文电子病历语言模式化较强的特点。不同类型的实体通常具有不同的文本模式,即使是同一类型的实体在不同的位置出现时其模式也会有较大差别。具体的模式特点如表4-1所示:-29- 哈尔滨工业大学工学硕士学位论文表4-1实体的文本模式特点实体类型实体位置模式特点常用“<疾病>,<疾病>”、“<疾病><疾病>”等文疾病出院小结/诊断本模式书写诊断结果,如“<高血压>,<脑梗死>”、“<糖尿病><心脏病>”常用“曾患<疾病>,”、“否认<疾病>病史”等文疾病病程记录/既往史本模式叙述既往疾病史,如“曾患脑梗死,”、“否认糖尿病病史”常用“1、<疾病>:”、“2、<疾病>:”等文本模疾病病程记录/鉴别诊断式对需要鉴别的疾病展开描述,如“1、脑出血:”、“2、脑卒中:”常用“无<症状>,”、“及<症状>,”等文本模式症状病程记录/病例特点来描述患者的症状,如“无发热,”、“及头痛,”常用“行<检查>检查”、“,<检查>:”等文本模检查病程记录/查体式来介绍进行过的检查或描述检查结果,如“行胃镜检查”,“,脉搏:”常用“:<检查>示”、“:<检查>:”等文本模式来检查病程记录/辅助检查描述检查结果,如“:头CT示”、“:ECG:”常用“口服<治疗>控制”、“予<治疗>治疗”等文治疗病程记录/既往史本模式介绍患者曾经接受过的治疗,如“口服拜新同控制”、“予舒血宁等药”常用“1、<治疗>;”、“2、<治疗>;”等文本模治疗病程记录/诊疗计划式来描述检查结果,如“1、改善脑循环;”、“2、保护脑组织;”根据以上分析,本课题决定采用“分而治之”的思想,利用文本模式,从病历文本的不同部分抽取不同类型的实体,目标是仅利用少量的标注语料构建医疗实体词典。4.1基于Bootstrapping算法的名实体挖掘虽然电子病历文本模式化较强,但想要通过人工的方式穷举出所有文本模式几乎是不可能的。我们可以使用Bootstrapping算法,利用少量的人工标注出来的实体作为种子,从大规模未标注语料中自动发现文本模式,并利用这些文[50-55]本模式来挖掘新的实体。图4-3展示了Bootstrapping算法的大致流程。-30- 哈尔滨工业大学工学硕士学位论文图4-3Bootstrapping算法大致流程如图4-3所示,Bootstrapping算法的输入为已标注的某一类别的少量种子实体以及大量的未标注的中文电子病历文本。初始化时,将这些种子实体加入实体词典中。在每一轮迭代过程中,首先利用实体词典中的实体在未标注语料总进行搜索,从包含实体的句子中提取文本模式,并对所有模式按照某一标准进行评价,选择出得分最高的若干模式加入模式池中;然后,利用模式池中的文本模式在未标注语料中进行匹配,并将匹配到的实体全部加入候选实体池中;最后再对候选实体池中的实体进行评价,并将得分最高的且不在实体词典中的若干实体加入实体词典中。当算法达到收敛要求或者迭代次数超过事先设定的上限时,算法停止。下面本文分章节对算法的各个部分进行详细的说明。4.1.1模式的定义在设计挖掘算法之前,首先要对实体的文本模式给出形式化的定义。根据中文电子病历文的本特点,我们将实体左边的若干个字符以及实体右边的若干个字符作为实体的文本模式。令当前句子为SCCCC,句子S中的某12in一实体为ECC...CC,实体E的前驱LCCC,实体E的后继bb11eebpbp11bRCCC,则有文本模式PLER。其中,C为句子S中的字符;e12eeqib为实体E的开始位置,e为实体E的结束位置,1ben;p为前驱的长度,q为后继的长度,p和q的值需要由用户事先设定;E为模式中的槽。例如,当句子为“口服拜新同、诺和灵控制”时,我们令13p,13q,则实体“拜新同”和“诺和灵”与其文本模式P的对应关系如表4-2所示:-31- 哈尔滨工业大学工学硕士学位论文表4-2实体与文本模式示例1实体E文本模式P拜新同服、拜新同服、诺拜新同服、诺和拜新同口服、拜新同口服、诺拜新同口服、诺和诺和灵、控诺和灵、控制诺和灵同、控诺和灵同、控制诺和灵新同、控诺和灵新同、控制特别地,当b1,即实体E位于句子的开头处时,我们约定其前驱L^,其中“^”表示句子开头;相对地,当en,即实体E位于句子的结尾处时,我们约定其后继R$,其中“$”表示句子结尾。例如,当句子为“高血压糖尿病”时,令13p,13q,则实体“高血压”和“糖尿病”与其文本模式P的对应关系如表4-3所示:表4-3实体与文本模式示例2实体E文本模式P高血压^高血压^糖高血压^糖尿糖尿病$糖尿病压$糖尿病血压$通过上述定义和举例可知,如果已知实体E,我们可以得到它在未标注语料中的文本模式P;相反,如果已知文本模式P,我们便可以通过模式匹配算法抽取出相应的实体。-32- 哈尔滨工业大学工学硕士学位论文4.1.2模式的发现对于实体词典中的任一实体E,我们把它放在未标注文本的每一行中进行搜索,在每一个匹配的位置上,提取它的前驱L和后继R形成模式P,并将P加入模式池中。例如,某实词典中包含两个实体,分别是“高血压”和“糖尿病”,某语料中共包含两行文本,分别是“高血压糖尿病脑梗死”和“否认高血压和糖尿病病史”,则当12p,12q时,我们共可以得出14个模式,它们与实体的对应关系如表4-4所示表4-4实体与文本模式示例3实体E所属句子文本模式P高血压高血压糖尿病脑梗死^高血压高血压糖尿病脑梗死^糖高血压否认高血压和糖尿病病史认和高血压否认高血压和糖尿病病史认和糖高血压否认高血压和糖尿病病史否认和高血压否认高血压和糖尿病病史否认和糖糖尿病高血压糖尿病脑梗死糖尿病高血压糖尿病脑梗死脑糖尿病高血压糖尿病脑梗死压糖尿病高血压糖尿病脑梗死压脑糖尿病否认高血压和糖尿病病史和病糖尿病否认高血压和糖尿病病史和病史糖尿病否认高血压和糖尿病病史压和病糖尿病否认高血压和糖尿病病史压和病史4.1.3候选实体的挖掘给定一个模式PLER和一行文本SCCCC,我们需要将S中12in所有符合模式P的子串找出,并将其作为实体候选。最简单的方法是,首先枚举S的所有子串,然后对子串进行遍历,如果当前子串的前驱是L且后继是R,2则将该子串作为一个候选实体输出。然而,该方法不仅时间复杂度较高(On()),还会引入大量噪声。例如,当PE,,而S为“,高血压,脑梗死,糖尿病,”时,可得候选实体共6个,即“高血压”、“脑梗死”、“糖尿病”、“高血压,脑梗-33- 哈尔滨工业大学工学硕士学位论文死”、“脑梗死,糖尿病”、“高血压,脑梗死,糖尿病”,其中“高血压,脑梗死”、“脑梗死,糖尿病”和“高血压,脑梗死,糖尿病”均为噪声。又如,当PE无及,S为“无啰音,无发热及头痛。”时,算法会挖出两个候选实体,即“啰音,无发热”和“发热”,其中“啰音,无发热”为噪声。针对以上问题,考虑到实体本身通常不会包含L和R的字串内容,我们对实体挖掘算法进行了改进,即首先我们在S中找出所有L的位置以及所有R的位置,然后只将相邻的L和R之间的内容取出作为候选实体,如图4-4所示图4-4实体挖掘算法示意图其中实线箭头指出了S中所有L的位置,虚线箭头指出了S中所有R的位置,而代表三个候选实体。按照改进后的算法,当PE,,而S为“,高血压,脑梗死,糖尿病,”时,将只有“高血压”、“脑梗死”和“糖尿病”这3个候选实体被抽出,而当PE无及,S为“无啰音,无发热及头痛。”时,则只有“发热”会被抽出。改进后的挖掘算法不但可以避免很多噪声数据的产生,同时在效率上有很大的提升,时间复杂度为On()。4.1.4模式的评价经过模式发现后,如果不经过筛选处理,模式池中将包含大量的文本模式。使用过量的模式进行实体挖掘,不但会大幅增加算法地时间开销,同时由于模式质量的参差不齐,还会导致大量噪声数据被引入候选实体池,从而影响最终的挖掘效果。因此,根据模式的质量对模式进行筛选,剔除质量不高的模式,对于提升挖掘效果至关重要。对于模式质量的评价,通常有两个重要指标,即精准度和召回能力。精准度太低的模式会导致大量噪声的引入,而召回能力太弱的模式则失去了挖掘新实体的作用。通常情况下,这两个指标是相互制约的,即精确度较高的模式通常召回能力较弱,反之亦然。因此,我们在评价模式时,[50]需要综合考虑。具体地,我们按照如下公式计算每个模式的分值:FiscoreP()*log(F1)(41)ii2Ni-34- 哈尔滨工业大学工学硕士学位论文其中N是模式P所挖掘的候选实体的总数,F是模式P所挖掘到的已经在实体iiiiFi词典中的实体数,反映了模式P的精准度,log(F1)反映了模式P的召回iiiNi能力,scoreP()越大模式P的质量越高。例如,当实体词典中包含3个实体即“高ii血压”、“糖尿病”、“脑梗死”时,模式P共挖掘了4个候选实体“高血压”、“脑i2梗死”、“心脏病”、“脑出血”,则scoreP()*log(21)0.55。在每一轮迭代i24中,我们对所有模式按照分值由高到低进行排序,并仅取其中的前p个加入模式池中。4.1.5候选实体的评价即使模式池中的模式已经经过了评价和筛选,但他们所挖掘出的候选实体仍然会有大量噪声。如果照单全收,将候选实体池中的实体全部加入实体词典,将会极大降低实体词典的质量。在下一次迭代时,这些错误的实体又会产生错误的模式,进而引发恶性循环。因此,对候选实体池中的实体进行评价和筛选也是非常必要的。我们通过与候选实体对应的模式来间接地评价候选实体的可信度。具体地,我们按照如下公式计算每个候选实体的分值:npilog(2Fj1)j1scoreE()(42)inpi其中np为可以抽取出候选实体E的模式的数量,F为第j个与实体E对应的iiji模式所挖掘的实体词典中的实体数。也就是说,当候选实体所对应的模式具有较强地抽取该类别实体的倾向时,我们会认为当前的候选实体更有可能是正确的实体。在每一轮迭代中,我们对候选实体池中的实体按照分值由高到低进行排序,并仅将其中的前q个未在实体词典中出现过的实体加入实体词典中。4.1.6Bootstrapping算法的详细流程在确定了模式发现算法、实体挖掘算法、模式评价方式以及候选实体评价方式之后,我们便可以得出Bootstrapping算法的详细流程如下:(1)人工标注某一类别的少量实体作为种子并将其加入实体词典中,i0(2)根据实体词典和未标注语料发现文本模式(3)对文本模式进行评价并选择其中分值最高的xis*个加入模式池中(4)使用模式池中的模式挖掘实体并将所得到的实体加入候选实体池中-35- 哈尔滨工业大学工学硕士学位论文(5)对候选实体进行评价并选择其中分值最高的y个加入实体词典中(6)ii1;如果imax_iter,算法终止;否则,跳转到(2)其中i表示当前迭代的轮次,max_iter为迭代次数上限,需要用户事先设定,s为每轮迭代时模式池需要扩大的增量。对模式池的大小设置增量是因为如果模式池始终不进行扩充,将可能导致算法停滞不前,永远无法将新的候选实体加入实体词典中。4.2实验结果与分析本课题从144230份来自不同科室的中文电子病历中随机选取了991份作为实验语料。对这991份病历的每一份进行了实体标注,以用作测试集,并保留了对应的原始语料作为训练集。评价指标依然使用准确率、召回率和F值。本课题先后针对疾病、治疗和药品这三类实体进行了挖掘实验,下面分别进行详细的叙述:(1)针对疾病的实验结果与分析:首先,标注出991份病历中的疾病类实体,共计1521个,然后,我们从中随机选出152个(10%)作为种子。从与标注语料对应的991份未标注的电子病历文本中截取出出院小结/诊断、病程记录/既往史和病程记录/鉴别诊断作为训练语料。根据疾病的模式特点,设定模式中L的长度范围为11p,R的长度范围为11p,第i轮迭代时模式池的大小为50i*10,并在每次迭代时向实体词典中加入20个新的实体,迭代次数上限为100次,得出实验结果如图4-5所示:图4-5针对疾病的实验结果其中横轴为迭代次数,纵轴为准确率、召回率和F值的数值大小,红色线、绿色线和蓝色线分别为准确率、召回率和F值随迭代次数的变化曲线。从图中可以看出,随着算法迭代过程的进行,准确率不断下降,召回率不断提高,F值先上升后下降。在迭代50次左右时,F值达到最高,此时准确率为0.93,召回-36- 哈尔滨工业大学工学硕士学位论文率为0.67,F值为0.78。召回率较低的原因是,语料中有些模式和实体的出现频次很低,这使得它们在评价模块中得分很低,始终不能通过筛选而被加入模式池或实体词典。增加种子的数量或扩大训练语料的规模可以克服这一问题。在迭代50次之后,准确率开始大幅下降,这是由于实体词典中错误实体的大量加入加速了算法的恶性循环。我们对实体词典中的噪声数据进行了分析,发现错误的实体主要来源于实体字串内容的嵌套。例如,由于“直肠癌术后”、“阑尾炎术后”都是正确实体,而“直肠癌”、“阑尾炎”也是正确实体,这使得R为“术后”的模式被高估,进而导致“PCI”、“PVMB”等错误实体被抽出,而“PCI”、“PVMB”均为手术名称。这类问题可能需要增强模式的定义才能解决。(2)针对治疗的实验结果与分析:已标注的991份电子病历中共包括治疗类实体1149个,我们从中随机选出115个(10%)作为种子。从991份对应的未标注的电子病历文本中截取出病程记录/既往史和病程记录/诊疗计划作为学习语料。根据治疗的模式特点,设定模式中L的长度范围为12p,R的长度范围为12p,第i轮迭代时模式池的大小为50i*10,并在每一轮迭代中向实体词典中加入20个新的实体,迭代次数上限为100次,得出实验结果如图4-6所示:图4-6针对治疗的实验结果从图中可以看出,虽然准确率迅速下降,但召回率和F值却没有明显提升。在F值最高时,准确率仅为43%,召回率仅达到17%。可以说,目前的方法对治疗类实体的挖掘完全不适用。通过对数据进行分析,我们发现,目前的标注规范对于“治疗”的定义过于泛化,既包括“药品”、“手术”等具体的治疗方式,又包含“加强营养”、“保护脑组织”等宽泛的治疗计划,而每类治疗的分布情况和模式特点又差别较大,这导致在挖掘的过程中,它们的模式相互干扰,从而引入大量噪声。例如,药品主要分布在病程记录的既往史中,而“加强营养”、“保-37- 哈尔滨工业大学工学硕士学位论文护脑组织”这类比较模糊的治疗主要分布在病程记录的诊疗计划中,诊疗计划中治疗的模式特点又恰巧与既往史中疾病和症状的模式特点非常相似,从而使得大量疾病、症状等噪声被抽出。要想解决这一问题,可能需要针对治疗的概念进行进一步地划分,然后再针对每一小类进行挖掘。为此,我们又单独针对药品类实体进行了实验。(3)针对药品的实验结果与分析:已标注的991份电子病历中共包括药品类实体282个,我们从中随机选出28个(10%)作为种子。从对应的991份未标注的病历文本中截取出病程记录/既往史作为学习语料。根据疾病的模式特点,设定模式中L的长度范围为12p,R的长度范围为12p,第i轮迭代时模式池的大小为50i*10,并在每一轮迭代中向实体词典中加入10个新的实体,迭代次数上限为50次,得出实验结果如图4-7所示:图4-7针对药品的实验结果从图中可以看出,实验结果仍然较差。通过分析数据,我们发现,在挖掘药品类实体时,我们所定义的模式PLER已经不再适用。中文电子病历经常使用并列的表达方式来陈述患者既往使用药品的情况,如“口服拜新同、诺和灵,效果不佳”、“医院给予疏血通、舒血宁等药物”等。在这种情况下,定义模式时仅仅考虑实体的前驱和后继是不够的。例如,按照原来的模式定义,句子“无头痛、发热等症状”和“无实物旋转、视物模糊,”中的“发热”和“视物模糊”将会被错误地抽出。针对这一问题,我们可以考虑增加模式的维度,例如,将模式的定义修改为PP1E1P2E2P3,即一个模式可以同时抽取两个实体,模式的由三个部分组成。-38- 哈尔滨工业大学工学硕士学位论文4.3本章小结本章首先简要回顾了中文电子病历的文本特点,并针对这些特点提出了“分而治之”的实体挖掘方法,即利用文本模式从不同部分的内容中抽取不同类型的医疗实体。使用Bootstrapping算法,利用少量标注的实体作为种子,迭代地发现文本模式并挖掘新的实体。然后分小节详细介绍了模式的定义、模式的发现、候选实体的挖掘、模式的评价以及候选实体的评价方法。实验结果表明,该方法在抽取疾病类实体时具有较好的效果,但在挖掘治疗和药品时效果较差,仍需要进一步地改善。-39- 哈尔滨工业大学工学硕士学位论文结论统计结果表明,中文电子病历中的实体分布密集度是开放领域文本的2倍。这说明电子病历是知识密集型的文本,具有很高的研究和应用价值。电子病历的专业性为其语料构建工作制造了巨大的障碍,因此利用无监督和半监督学习方法减少人工标注的成本具有重要意义。与开放领域文本相比,中文电子病历具有很多独特之处。大量的未登录词、半结构化的内容组织方式、简略且模式化较强的语言表达,这些特点使得针对中文电子病历的分词和名实体识别任务成为更大的挑战。本课题首先参照已有文献实现了一个传统的无监督分词方法,但其实验结果并不令人满意,准确率为0.71,召回率0.76,F值0.73。其原因是根据开放领域文本语言学规律所提出的良度方法无法很好地适应中文电子病历的语言特点。针对这一问题,本课题利用开放领域词典和未标注语料中的词频信息来弥补良度可信度降低所带来的负面影响,使得分词效果有了很大提升,准确率提升到了0.87,召回率达到了0.90,F值为0.88。该分词方法既可以直接为一些对分词精度本身要求不是十分苛刻的自然语言处理应用如信息检索、信息抽取、文本聚类和自动文摘等提供服务,也可以作为作为人工标注前的预处理,降低语料构建的工作量。针对电子病历的结构和语言特点,本课题提出了分而治之的处理方式,利用文本模式,从病历的不同部分挖掘不同类型的医疗实体。使用Bootstrapping算法,在少量标注实体的基础上从大规模未标注语料中挖掘新的实体。但在实验中我们发现,目前的方法仅对疾病类实体的挖掘奏效,在取实体总数的10%作为种子的情况下,准确率达到了0.93,召回率为0.67,F值为0.78。在挖掘其他类别实体时效果较差,F值甚至无法达到0.30以上。通过对实验结果进行分析,我们得知需要从以下两个方面进行改进:一是对每一类实体的定义进行进一步的细分;二是针对不同类别的实体定义不同形式的模式。模式定义的好坏是影响实体挖掘效果的最关键因素。今后在定义模式时,我们不仅需要考虑实体的上下文信息,对实体本身的字串内容也要进行建模。例如,很多治疗类实体符合“加强xxx”、“保护xxx”、“抗xxx”的模式,很多症状类实体符合“<部位><异常><异常程度>”的模式。另外,模式的维度也是需要重点考虑的因素,例如,很多药品符合“口服<药品>、<药品>,”的文本模式。-40- 哈尔滨工业大学工学硕士学位论文参考文献[1]卫生部.电子病历基本规范(试行)[J].中国病案,2010,11(3):64-64.[2]陈丽欣,张荣霞,刘燕超.电子病历的现状及发展[J].中国误诊学杂志,2009(10):2285-2286.[3]袁雪莉.电子病历的现状与难点分析[J].计算机与现代化,2010(10):198-200.[4]邓艺,彭柳芬.临床用药决策支持系统的研究[J].医学信息(西安上半月),2007,20(10):1746-1750.[5]赵霞,李小华,刘晓辉.应用《电子病历应用水平分级评价方法及标准》促进医院信息化建设持续发展[J].中国数字医学ISTIC,2014(1).[6]EysenbachG.Consumerhealthinformatics[J].Bmj,2000,320(7251):1713-1716.[7]R.C.Wasserman.Electronicmedicalrecords(EMRs),epidemiology,andepistemology:reflectionsonEMRsandfuturepediatricclinicalre-search[J].AcadPediatr.,2011,11(4):280–287[8]ChenKJ,LiuSH.WordidentificationforMandarinChinesesentences[C]//Proceedingsofthe14thconferenceonComputationallinguistics-Volume1.AssociationforComputationalLinguistics,1992:101-107.[9]翟凤文,赫枫龄,左万利.字典与统计相结合的中文分词方法[J].小型微型计算机系统,2006,27(9):1766-1771.[10]XueN.Chinesewordsegmentationascharactertagging[J].ComputationalLinguisticsandChineseLanguageProcessing,2003,8(1):29-48.[11]PengF,FengF,McCallumA.Chinesesegmentationandnewworddetectionusingconditionalrandomfields[C]//Proceedingsofthe20thinternationalconferenceonComputationalLinguistics.AssociationforComputationalLinguistics,2004:562.[12]王伟,钟义信.一种基于EM非监督训练的自组织分词歧义解决方案[J].中文信息学报,2001,15(2):38-44.[13]Sproat,Richard,ChilinShih.AstatisticalmethodforfindingwordboundariesinChinesetext[J].ComputerProcessingofChineseandOrientalLanguages,1990(4):336–351-41- 哈尔滨工业大学工学硕士学位论文[14]GeX,PrattW,SmythP.DiscoveringChinesewordsfromunsegmentedtext(posterabstract)[C]//Proceedingsofthe22ndannualinternationalACMSIGIRconferenceonResearchanddevelopmentininformationretrieval.ACM,1999:271-272.[15]PengF,SchuurmansD.Self-supervisedChinesewordsegmentation[M]//AdvancesinIntelligentDataAnalysis.SpringerBerlinHeidelberg,2001:238-247.[16]PengF,SchuurmansD.AHierarchicalEMApproachtoWordSegmentation[C]//NLPRS.2001:475-480.[17]FengH,ChenK,KitC,etal.UnsupervisedsegmentationofChinesecorpususingaccessorvariety[M]//NaturalLanguageProcessing–IJCNLP2004.SpringerBerlinHeidelberg,2005:694-703.[18]JinZ,Tanaka-IshiiK.UnsupervisedsegmentationofChinesetextbyuseofbranchingentropy[C]//ProceedingsoftheCOLING/ACLonMainconferencepostersessions.AssociationforComputationalLinguistics,2006:428-435.[19]ChenS,XuY,ChangH.ASimpleandEffectiveUnsupervisedWordSegmentationApproach[C]//AAAI.2011.[20]WangH,ZhuJ,TangS,etal.Anewunsupervisedapproachtowordsegmentation[J].ComputationalLinguistics,2011,37(3):421-454.[21]MagistryP,SagotB.Unsupervizedwordsegmentation:thecaseformandarinchinese[C]//Proceedingsofthe50thAnnualMeetingoftheAssociationforComputationalLinguistics:ShortPapers-Volume2.AssociationforComputationalLinguistics,2012:383-387.[22]GrishmanR,SundheimB.MessageUnderstandingConference-6:ABriefHistory[C]//COLING.1996,96:466-471.[23]王宁,黄锦辉.中文金融新闻中公司名的识别[J].中文信息学报,2002,16(2):1-6.[24]赵健.条件概率模型研究及其在中文名实体识别中的应用[D].哈尔滨工业大学博士论文,2006:1757-1862[25]YarowskyD.Unsupervisedwordsensedisambiguationrivalingsupervisedmethods[C]//Proceedingsofthe33rdannualmeetingonAssociationforComputationalLinguistics.AssociationforComputationalLinguistics,1995:189-196.[26]AgichteinE,GravanoL.Snowball:Extractingrelationsfromlargeplain-textcollections[C]//ProceedingsofthefifthACMconferenceonDigitallibraries.ACM,2000:85-94.-42- 哈尔滨工业大学工学硕士学位论文[27]McCloskyD,CharniakE,JohnsonM.Effectiveself-trainingforparsing[C]//ProceedingsofthemainconferenceonhumanlanguagetechnologyconferenceoftheNorthAmericanChapteroftheAssociationofComputationalLinguistics.AssociationforComputationalLinguistics,2006:152-159.[28]BlumA,MitchellT.Combininglabeledandunlabeleddatawithco-training[C]//ProceedingsoftheeleventhannualconferenceonComputationallearningtheory.ACM,1998:92-100.[29]NigamK,GhaniR.Analyzingtheeffectivenessandapplicabilityofco-training[C]//ProceedingsoftheninthinternationalconferenceonInformationandknowledgemanagement.ACM,2000:86-93.[30]ZhouY,GoldmanS.Democraticco-learning[C]//ToolswithArtificialIntelligence,2004.ICTAI2004.16thIEEEInternationalConferenceon.IEEE,2004:594-602.[31]ZhouZH,LiM.Tri-training:Exploitingunlabeleddatausingthreeclassifiers[J].KnowledgeandDataEngineering,IEEETransactionson,2005,17(11):1529-1541.[32]ThelenM,RiloffE.Abootstrappingmethodforlearningsemanticlexiconsusingextractionpatterncontexts[C]//ProceedingsoftheACL-02conferenceonEmpiricalmethodsinnaturallanguageprocessing-Volume10.AssociationforComputationalLinguistics,2002:214-221.[33]XiaoK,ShaoziL.Chineseorganizationnamerecognitionbasedonco-trainingalgorithm[C]//IntelligentSystemandKnowledgeEngineering,2008.ISKE2008.3rdInternationalConferenceon.IEEE,2008,1:771-777.[34]UzunerÖ,SouthBR,ShenS,etal.2010i2b2/VAchallengeonconcepts,assertions,andrelationsinclinicaltext[J].JournaloftheAmericanMedicalInformaticsAssociation,2011.[35]deBruijnB,CherryC,KiritchenkoS,etal.Machine-learnedsolutionsforthreestagesofclinicalinformationextraction:thestateoftheartati2b22010[J].JournaloftheAmericanMedicalInformaticsAssociation,2011,18(5):557-562.[36]叶枫,陈莺莺,周根贵,等.电子病历中命名实体的智能识别[J].中国生物医学工程学报,2011,30(2):256-262.[37]TangeHJ,HasmanA,deVriesRobbéPF,etal.Medicalnarrativesinelectronicmedicalrecords[J].Internationaljournalofmedicalinformatics,1997,46(1):7-29.-43- 哈尔滨工业大学工学硕士学位论文[38]HirschmanL,SagerN.Automaticinformationformattingofamedicalsublanguage[J].Sublanguage:studiesoflanguageinrestrictedsemanticdomains,1982:27-80.[39]ZhaoH,KitC.AnEmpiricalComparisonofGoodnessMeasuresforUnsupervisedChineseWordSegmentationwithaUnifiedFramework[C]//IJCNLP.2008:9-16.[40]PeiW,HanD,ChangB.ARefinedHDP-BasedModelforUnsupervisedChineseWordSegmentation[M]//ChineseComputationalLinguisticsandNaturalLanguageProcessingBasedonNaturallyAnnotatedBigData.SpringerBerlinHeidelberg,2013:44-51.[41]LiangW,KaiYongZ.Detectproteinsecondarystructurebasedonunsupervisedwordsegmentationmethods[J].arXivpreprintarXiv:1404.6866,2014.[42]HeymannJ,WalterO,Haeb-UmbachR,etal.Unsupervisedwordsegmentationfromnoisyinput[C]//AutomaticSpeechRecognitionandUnderstanding(ASRU),2013IEEEWorkshopon.IEEE,2013:458-463.[43]XiuC,SongR.Disambiguationofdomainwordsegmentationbasedonunsupervisedlearning[J].JisuanjiYingyong/JournalofComputerApplications,2013,33(3):780-783.[44]ChenRC.AnimprovedMDL-basedcompressionalgorithmforunsupervisedwordsegmentation[C]//ACL(2).2013:166-170.[45]LüX,ZhangL,HuJ.Statisticalsubstringreductioninlineartime[M]//NaturalLanguageProcessing–IJCNLP2004.SpringerBerlinHeidelberg,2005:320-327.[46]方开泰.有序样品的一些聚类方法[J].应用数学学报,1982,5(1):94-101.[47]陈远中,陆宝宏,张育德,等.改进的有序聚类分析法提取时间序列转折点[J].水文,2011,31(1):41-44.[48]张多,韩逢庆.基于支持向量机和有序聚类的岩层识别[J].智能系统学报,2014(1).[49]王信增,焦峰.基于有序聚类法的土壤水分剖面划分[J].西北农林科技大学学报:自然科学版,2011,39(2):191-196.[50]RiloffE.Automaticallygeneratingextractionpatternsfromuntaggedtext[C]//Proceedingsofthenationalconferenceonartificialintelligence.1996:1044-1049.[51]PutthividhyaDP,HuJ.Bootstrappednamedentityrecognitionforproductattributeextraction[C]//ProceedingsoftheConferenceonEmpiricalMethods-44- 哈尔滨工业大学工学硕士学位论文inNaturalLanguageProcessing.AssociationforComputationalLinguistics,2011:1557-1567.[52]NothmanJ,RinglandN,RadfordW,etal.LearningmultilingualnamedentityrecognitionfromWikipedia[J].ArtificialIntelligence,2013,194:151-175.[53]SunA,GrishmanR.Cross-domainbootstrappingfornamedentityrecognition[J].Balogetal.[3],2011:33-40.[54]PolifroniJ,KissI,AdlerM.BootstrappingNamedEntityExtractionfortheCreationofMobileServices[C]//LREC.2010.[55]EkT,KirkegaardC,JonssonH,etal.Namedentityrecognitionforshorttextmessages[J].Procedia-SocialandBehavioralSciences,2011,27:178-187.-45- 哈尔滨工业大学工学硕士学位论文攻读硕士学位期间发表的论文1.张立邦,关毅,杨锦锋.基于无监督学习的中文电子病历分词[J].智能计算机与应用(已录用,2014,6)-46- 哈尔滨工业大学工学硕士学位论文哈尔滨工业大学学位论文原创性声明和使用权限学位论文原创性声明本人郑重声明:此处所提交的学位论文《基于半监督学习的中文电子病历分词和名实体挖掘》,是本人在导师指导下,在哈尔滨工业大学攻读学位期间独立进行研究工作所取得的成果,且学位论文中除已标注引用文献的部分外不包含他人完成或已发表的研究成果。对本学位论文的研究工作做出重要贡献的个人和集体,均已在文中以明确方式注明。学位论文使用权限学位论文是研究生在哈尔滨工业大学攻读学位期间完成的成果,知识产权归属哈尔滨工业大学。学位论文的使用权限如下:(1)学校可以采用影印、缩印或其他复制手段保存研究生上交的学位论文,并向国家图书馆报送学位论文;(2)学校可以将学位论文部分或全部内容编入有关数据库进行检索和提供相应阅览服务;(3)研究生毕业后发表与此学位论文研究成果相关的学术论文和其他成果时,应征得导师同意,且第一署名单位为哈尔滨工业大学。保密论文在保密期内遵守有关保密规定,解密后适用于此使用权限规定。本人知悉学位论文的使用权限,并将遵守有关规定。-47- 哈尔滨工业大学工学硕士学位论文致谢两年的读研时间一晃而过。在毕业论文完成之际,我在此由衷地感谢所有曾经帮助过我的人们。首先,我要感谢我的导师,关毅教授。关老师不仅在学术研究上对我心细指导,在为人处事上也让我学会很多。而他那种求真务实,坚持不懈的科研精神,将会影响我的一生。其次,我要感谢杨锦锋博士。在读研的两年期间,正是杨师兄教会了我如何搜索并快速阅读文献,如何有条不紊的完成项目。此外,我要感谢何彬博士,每当遇到技术上的问题,我都会向他询问,是他教会了我如何快速学会Python这门语言。最后,感谢我的家人和朋友们,你们永远是我坚强的后盾。-48-

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
关闭