面向医疗知识的PDF文本内容提取系统设计与实现.pdf

面向医疗知识的PDF文本内容提取系统设计与实现.pdf

ID:35009596

大小:3.96 MB

页数:63页

时间:2019-03-16

面向医疗知识的PDF文本内容提取系统设计与实现.pdf_第1页
面向医疗知识的PDF文本内容提取系统设计与实现.pdf_第2页
面向医疗知识的PDF文本内容提取系统设计与实现.pdf_第3页
面向医疗知识的PDF文本内容提取系统设计与实现.pdf_第4页
面向医疗知识的PDF文本内容提取系统设计与实现.pdf_第5页
资源描述:

《面向医疗知识的PDF文本内容提取系统设计与实现.pdf》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、硕士学位论文面向医疗知识的PDF文本内容提取系统设计与实现DESIGNANDIMPLEMENTATIONOFPDFTEXTCONTENTEXTRACTIONSYSTEMFORMEDICALKNOWLEDGE刘现营哈尔滨工业大学2018年6月国内图书分类号:TP311学校代码:10213国际图书分类号:621.3密级:公开工程硕士学位论文面向医疗知识的PDF文本内容提取系统设计与实现硕士研究生:刘现营导师:关毅教授申请学位:工程硕士学科:软件工程所在单位:计算机科学与技术学院答辩日期:2018年6月授予

2、学位单位:哈尔滨工业大学ClassifiedIndex:TP311U.D.C.:621.3DissertationfortheMaster’sDegreeinEngineeringDESIGNANDIMPLEMENTATIONOFPDFTEXTCONTENTEXTRACTIONSYSTEMFORMEDICALKNOWLEDGECandidate:LiuXianyingSupervisor:Prof.GuanYiAcademicDegreeAppliedfor:MasterofEngineeringSp

3、eciality:SoftwareEngineeringAffiliation:SchoolofComputerScienceandTechnologyDateofDefence:June,2018Degree-Conferring-Institution:HarbinInstituteofTechnology哈尔滨工业大学工程硕士学位论文摘要随着医疗信息化的发展,医学电子数据有了一定的积累。面对海量的医疗信息与数据资源,人们常常面临一个难题,信息量大但是可用信息比较少。因此如何从中获取隐含的有用的知

4、识,是一个迫切解决的问题,于是知识挖掘应运而生。知识挖掘的第一步就是数据的采集,能够方便地采集到感兴趣的信息是知识挖掘的重要基础。本课题是面向医疗知识的PDF文本内容提取系统。本文以医疗知识挖掘系统为背景,主要阐述了当前医疗知识挖掘、PDF文档应用、文档格式转换技术的研究现状,以及课题的需求分析、系统设计、具体实现、系统测试等几个方面。通过以上步骤,完成了PDF文本内容提取系统。作为医疗知识挖掘系统下的子系统,本系统完成了PDF文档解析、TXT格式转换方案设计与实现、XML格式转换方案设计与实现。TX

5、T格式转换模块基于PDF文档结构特点,提出了一种新的解析思路,通过忽略次要信息来定位关键位置。在这个基础上,对几种过滤器处理的数据流给出了具体的解决方案。其中涉及到开源工具PDF-Box的应用,阐述了如何从源代码中取出正文内容字符串流并进行解码。XML转换模块通过对大量PDF文档的总结,定义了一种新的标记规则,建立了该标记规则到XML模式的一种映射,实现一种从PDF格式到XML格式的转换方法。最后,经过实际的测试,证明了本系统可以完成自动化的文本内容提取,有利于PDF在医疗信息处理领域中的进一步开发利

6、用,对当前医疗知识挖掘课题研究具有重要意义。关键词:知识挖掘;PDF文档;文件解析;文本提取;XML文件I哈尔滨工业大学工程硕士学位论文AbstractWiththedevelopmentofmedicalinformatization,medicalelectronicdatahasbeenaccumulated.Facingwiththemassivemedicalinformationanddataresources,peopleoftenfaceadifficultproblemwhichth

7、eamountofinformationislargebuttheavailableinformationisless.Sohowtoobtainthehiddenandusefulknowledgeisanurgentproblem,andsoknowledgeminingemergesasthetimesrequire.Thefirststepofknowledgeminingisdataacquisition.Itisanimportantbasisforknowledgeminingtocol

8、lectinformationofinteresteasily.ThistopicisaPDFtextcontentextractionsystemformedicalknowledgemining.Basedonthebackgroundofmedicalknowledgeminingsystem,thispapermainlyexpoundsthecurrentresearchstatusofmedicalknowledgemining,PDFdoc

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。