中文电子病历信息抽取关键技术研究

中文电子病历信息抽取关键技术研究

ID:20804101

大小:1.38 MB

页数:80页

时间:2018-10-16

中文电子病历信息抽取关键技术研究_第1页
中文电子病历信息抽取关键技术研究_第2页
中文电子病历信息抽取关键技术研究_第3页
中文电子病历信息抽取关键技术研究_第4页
中文电子病历信息抽取关键技术研究_第5页
资源描述:

《中文电子病历信息抽取关键技术研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、中文图书分类号:TP391密级:公开UDC:621.3学校代码:10005硕士学位论文MASTERALDISSERTATION论文题目:中文电子病历信息抽取关键技术研究论文作者:于楠学科:控制科学与工程指导教师:王普论文提交日期:2017年5月UDC:621.3学校代码:10005中文图书分类号:TP391学号:S201402097密级:公开北京工业大学工学硕士学位论文题目:中文电子病历信息抽取关键技术研究英文题目:STUDYONKEYTECHNOLOGYOFCHINESEELECTRONICMEDI

2、CALRECORDSINFORMATIONEXTRACTION论文作者:于楠学科专业:控制科学与工程研究方向:模式识别与智能系统申请学位:工学硕士指导教师:王普教授所在单位:信息学部答辩日期:2017年5月授予学位单位:北京工业大学独创性声明本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得北京工业大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的

3、任何贡献均已在论文中作了明确的说明并表示了谢意。签名:于楠日期:2017年5月24日关于论文使用授权的说明本人完全了解北京工业大学有关保留、使用学位论文的规定,即:学校有权保留送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部或部分内容,可以采用影印、缩印或其他复制手段保存论文。(保密的论文在解密后应遵守此规定)签名:于楠日期:2017年5月24日导师签名:王普日期:2017年5月24日摘要摘要数字化医疗和医疗信息化已经成为当前医学领域中的重要研究内容,由此出现的电子病历的研究在近些年得到

4、了普遍的应用和迅速的发展。结构化电子病历应用之前,医院保存了大量的非结构化电子病历数据,这些数据对于科研和临床都有着重要的意义,然而并不便于有效的信息检索,大量医学信息不能被有效的利用,造成了资源的严重浪费。因此,电子病历的信息挖掘研究至关重要,是现代化医疗中的一项重要任务,也是重要的挑战之一。电子病历信息抽取为非结构化电子病历数据的信息挖掘和分析提供了技术支撑。由于我国研究起步较晚,病历中自然语言表达较灵活,以及包含众多的专业术语等特点,进行电子病历的信息抽取研究有一定的难度。信息抽取中基础且重要的

5、过程是命名实体识别,是本文研究的重要内容。基于命名实体识别,对病历中的实体关系抽取技术进行了研究。最后对本文研究内容进行了总结和展望。本文主要研究内容如下:(1)针对电子病历非结构化文本的特点,提出一种多特征融合条件随机场的命名实体识别方法。选取某三甲医院的600份病历作为实验数据,随机选取400份病历作为训练集,剩余200份病历作为测试集。将条件随机场模型特征分为基本特征和高级特征,通过选取不同的特征与特征模板,确定实验参数以及最佳特征组合,最终对电子病历的疾病、症状、手术等实体的识别取得了很好的效

6、果。(2)考虑到目前并没有大型的、公开的、全面的中文电子病历语料库,提出一种半监督的命名实体识别方法,采用Bootstrapping算法,并结合最大熵模型的优点对其进行改进。该方法实现了仅使用少量种子词,通过不断地循环学习,对最大熵模型进行优化,识别电子病历中的命名实体。通过几组对比实验,确定了实验的最优参数,并且通过与命名实体识别的其他几种模型对比结果中,发现此方法有效提高了电子病历命名实体识别的效果。(3)在电子病历命名实体识别的基础上,对疾病、症状、手术之间的关系进行抽取。考虑到中文电子病历文本

7、中的语句结构与描述方式具有相似性,提出基于卷积树核的病历实体关系抽取方法。对病历文本进行预处理,将其转换为句法树的形式并标注,采用“一对一”的方法构建SVM多类分类器,在此基础上分别采用基于子树核和子集树核的方法进行实验。对比实验结果发现基于子集树核的方法对病历实体关系抽取的性能优于子树核。I北京工业大学工学硕士学位论文对中文电子病历信息抽取关键技术的研究,为医学信息的挖掘、统计和分析做好了准备工作,同时也为非结构化电子病历向结构化电子病历的转换提供了有效的方法和思路。关键词:电子病历;信息抽取;条件

8、随机场;Bootstrapping算法;卷积树核IIAbstractAbstractDigitalmedicalandmedicalinformatizationhasbecomeanimportantresearchcontentinthefieldofmedicine,theresearchofelectronicmedicalrecordshasbeenwidelyappliedandrapidlydevelopedinrecentyears.Be

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。