面向医疗知识的PDF文本内容提取系统设计与实现.pdf

ID：35009596

大小：3.96 MB

页数：63页

时间：2019-03-16

资源描述：

《面向医疗知识的PDF文本内容提取系统设计与实现.pdf》由会员上传分享，免费在线阅读，更多相关内容在学术论文-天天文库。

1、硕士学位论文面向医疗知识的PDF文本内容提取系统设计与实现DESIGNANDIMPLEMENTATIONOFPDFTEXTCONTENTEXTRACTIONSYSTEMFORMEDICALKNOWLEDGE刘现营哈尔滨工业大学2018年6月国内图书分类号：TP311学校代码：10213国际图书分类号：621.3密级：公开工程硕士学位论文面向医疗知识的PDF文本内容提取系统设计与实现硕士研究生：刘现营导师：关毅教授申请学位：工程硕士学科：软件工程所在单位：计算机科学与技术学院答辩日期：2018年6月授予

2、学位单位：哈尔滨工业大学ClassifiedIndex：TP311U.D.C.：621.3DissertationfortheMaster’sDegreeinEngineeringDESIGNANDIMPLEMENTATIONOFPDFTEXTCONTENTEXTRACTIONSYSTEMFORMEDICALKNOWLEDGECandidate：LiuXianyingSupervisor：Prof.GuanYiAcademicDegreeAppliedfor：MasterofEngineeringSp

3、eciality：SoftwareEngineeringAffiliation：SchoolofComputerScienceandTechnologyDateofDefence：June,2018Degree-Conferring-Institution：HarbinInstituteofTechnology哈尔滨工业大学工程硕士学位论文摘要随着医疗信息化的发展，医学电子数据有了一定的积累。面对海量的医疗信息与数据资源，人们常常面临一个难题，信息量大但是可用信息比较少。因此如何从中获取隐含的有用的知

4、识，是一个迫切解决的问题，于是知识挖掘应运而生。知识挖掘的第一步就是数据的采集，能够方便地采集到感兴趣的信息是知识挖掘的重要基础。本课题是面向医疗知识的PDF文本内容提取系统。本文以医疗知识挖掘系统为背景，主要阐述了当前医疗知识挖掘、PDF文档应用、文档格式转换技术的研究现状，以及课题的需求分析、系统设计、具体实现、系统测试等几个方面。通过以上步骤，完成了PDF文本内容提取系统。作为医疗知识挖掘系统下的子系统，本系统完成了PDF文档解析、TXT格式转换方案设计与实现、XML格式转换方案设计与实现。TX

5、T格式转换模块基于PDF文档结构特点，提出了一种新的解析思路，通过忽略次要信息来定位关键位置。在这个基础上，对几种过滤器处理的数据流给出了具体的解决方案。其中涉及到开源工具PDF-Box的应用，阐述了如何从源代码中取出正文内容字符串流并进行解码。XML转换模块通过对大量PDF文档的总结，定义了一种新的标记规则，建立了该标记规则到XML模式的一种映射，实现一种从PDF格式到XML格式的转换方法。最后，经过实际的测试，证明了本系统可以完成自动化的文本内容提取，有利于PDF在医疗信息处理领域中的进一步开发利

6、用，对当前医疗知识挖掘课题研究具有重要意义。关键词：知识挖掘；PDF文档；文件解析；文本提取；XML文件I哈尔滨工业大学工程硕士学位论文AbstractWiththedevelopmentofmedicalinformatization,medicalelectronicdatahasbeenaccumulated.Facingwiththemassivemedicalinformationanddataresources,peopleoftenfaceadifficultproblemwhichth

7、eamountofinformationislargebuttheavailableinformationisless.Sohowtoobtainthehiddenandusefulknowledgeisanurgentproblem,andsoknowledgeminingemergesasthetimesrequire.Thefirststepofknowledgeminingisdataacquisition.Itisanimportantbasisforknowledgeminingtocol

8、lectinformationofinteresteasily.ThistopicisaPDFtextcontentextractionsystemformedicalknowledgemining.Basedonthebackgroundofmedicalknowledgeminingsystem,thispapermainlyexpoundsthecurrentresearchstatusofmedicalknowledgemining,PDFdoc

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 63



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

面向医疗知识的PDF文本内容提取系统设计与实现.pdf

面向医疗知识的PDF文本内容提取系统设计与实现.pdf

相关文章

相关标签