基于无监督学习的中文电子病历分词

基于无监督学习的中文电子病历分词

ID:20659939

大小:84.68 KB

页数:19页

时间:2018-10-14

基于无监督学习的中文电子病历分词_第1页
基于无监督学习的中文电子病历分词_第2页
基于无监督学习的中文电子病历分词_第3页
基于无监督学习的中文电子病历分词_第4页
基于无监督学习的中文电子病历分词_第5页
资源描述:

《基于无监督学习的中文电子病历分词》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基于无监督学习的中文电子病历分词摘要:电子病历中包含大量有用的医疗知识,抽取这些知识对于构建临床决策支持系统和个性化医疗健康信息服务具有重要意义。自动分词是分析和挖掘中文电子病历的关键基础。为了克服获取标注语料的困难,提出了一种基于无监督学习的中文电子病历分词方法。首先,使用通用颂域的词典对电子病历进行初步的切分,为了更好地解决歧义问题,引入概率模型,并通过EM算法从生语料中估计词的出现概率。然后,利用字串的左右分支信息熵构建良度,将未登录词识别转化为最优化问题,并使用动态规划算法进行求解。最后,在30

2、00来自神经内科的中文电子病历上进行实验,证明了该方法的有效性。摘关键词:中文电子病历;无监督分词;EM算法;分支信息熵;动态规划中图分类号:TP391文献标识码:A文章编号:2095-2163(2014)02-AnUnsupervisedApproachtoWordSegmentationinChineseEMRsZHANGLibang,GUANYi,YANGJinfeng(SchoolofComputerScienceandTechnology,HarbinInstituteofTechnology

3、,Harbin150001,China)Abstract:Electronicmedicalrecords(EMR)containalotofusefulmedicalknowledge.Extractingtheseknowledgeareimportantforbuildingclinicaldecisionsupportsystemandpersonalizedhealthcareinformationservice.Automaticwordsegmentationisakeyprecursor

4、foranalysisandminingofChineseEMRs.Inordertoovercomethedifficultiesofobtaininglabeledcorpus,thepaperproposesanunsupervisedapproachtowordsegmentationinChineseEMRs.First,thepaperusesalexiconofgeneraldomaintogenerateaninitialsegmentation.Todealwiththeambigui

5、typroblem,thepaperalsobuildsaprobabilisticmodel.TheprobabilitiesofwordsareestimatedbyanEMprocedure.Thenthepaperusestheleftandrightbranchingentropytobuildgoodnessmeasureandregardstherecognitionofunknownwordsasanoptimizationproblemwhichcanbesolvedbydynamic

6、programming.Finally,toprovetheeffectivenessofourapproach,experimentsareconductedon3,000copiesofChineseEMRsfromtheDepartmentofNeurology.Keywords:ChineseEMRs;UnsupervisedSegmentation;EMAlgorithm;BranchingEntropy;DynamicProgramming0引言电子病历是指医务人员在医疗活动过程中,使用医疗

7、机构信息系统生成的面向患者个体的数字化医疗记录[1]。近年来,随着医院信息化建设的发展,电子病历的使用在临床中已经逐渐普及。电子病历包含了关于病人个体健康信息的全面、详实、专业、即时、准确的描述,是一种非常宝贵的知识资源。通过分析和挖掘电子病历,可以从中获得大量的医疗知识[2],而这些知识可应用于临床决策支持[3]和个性化医疗健康信息服务[4]等方面。电子病历由结构化数据和非结构化数据组成。其中,自由文本形式的非结构化数据是电子病历中最为重要的部分,包括主诉、现病史、病程记录、病历小结。因此,自然语言处

8、理技术将在电子病历的分析、挖掘中发挥重要的作用,而自动分词则是中文电子病历处理的基础和关键一环。基于词典的方法和基于有监督机器学习的方法是目前中文分词的主流方法。基于词典的方法通常按照“分词数目最少”的原则进行词表匹配,如正向最大匹配算法[5],这类方法简单实用,但过分依赖于词典,无法自动识别文本中的未登录词。而大量的未登录词正是中文电子病历分词所面临的最大挑战。这些未登录词主要是医疗颂域的专业术语和缩写,如“?音(症状)”、“拜新同(药品

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。