欢迎来到天天文库
浏览记录
ID:35009596
大小:3.96 MB
页数:63页
时间:2019-03-16
《面向医疗知识的PDF文本内容提取系统设计与实现.pdf》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、硕士学位论文面向医疗知识的PDF文本内容提取系统设计与实现DESIGNANDIMPLEMENTATIONOFPDFTEXTCONTENTEXTRACTIONSYSTEMFORMEDICALKNOWLEDGE刘现营哈尔滨工业大学2018年6月国内图书分类号:TP311学校代码:10213国际图书分类号:621.3密级:公开工程硕士学位论文面向医疗知识的PDF文本内容提取系统设计与实现硕士研究生:刘现营导师:关毅教授申请学位:工程硕士学科:软件工程所在单位:计算机科学与技术学院答辩日期:2018年6月授予
2、学位单位:哈尔滨工业大学ClassifiedIndex:TP311U.D.C.:621.3DissertationfortheMaster’sDegreeinEngineeringDESIGNANDIMPLEMENTATIONOFPDFTEXTCONTENTEXTRACTIONSYSTEMFORMEDICALKNOWLEDGECandidate:LiuXianyingSupervisor:Prof.GuanYiAcademicDegreeAppliedfor:MasterofEngineeringSp
3、eciality:SoftwareEngineeringAffiliation:SchoolofComputerScienceandTechnologyDateofDefence:June,2018Degree-Conferring-Institution:HarbinInstituteofTechnology哈尔滨工业大学工程硕士学位论文摘要随着医疗信息化的发展,医学电子数据有了一定的积累。面对海量的医疗信息与数据资源,人们常常面临一个难题,信息量大但是可用信息比较少。因此如何从中获取隐含的有用的知
4、识,是一个迫切解决的问题,于是知识挖掘应运而生。知识挖掘的第一步就是数据的采集,能够方便地采集到感兴趣的信息是知识挖掘的重要基础。本课题是面向医疗知识的PDF文本内容提取系统。本文以医疗知识挖掘系统为背景,主要阐述了当前医疗知识挖掘、PDF文档应用、文档格式转换技术的研究现状,以及课题的需求分析、系统设计、具体实现、系统测试等几个方面。通过以上步骤,完成了PDF文本内容提取系统。作为医疗知识挖掘系统下的子系统,本系统完成了PDF文档解析、TXT格式转换方案设计与实现、XML格式转换方案设计与实现。TX
5、T格式转换模块基于PDF文档结构特点,提出了一种新的解析思路,通过忽略次要信息来定位关键位置。在这个基础上,对几种过滤器处理的数据流给出了具体的解决方案。其中涉及到开源工具PDF-Box的应用,阐述了如何从源代码中取出正文内容字符串流并进行解码。XML转换模块通过对大量PDF文档的总结,定义了一种新的标记规则,建立了该标记规则到XML模式的一种映射,实现一种从PDF格式到XML格式的转换方法。最后,经过实际的测试,证明了本系统可以完成自动化的文本内容提取,有利于PDF在医疗信息处理领域中的进一步开发利
6、用,对当前医疗知识挖掘课题研究具有重要意义。关键词:知识挖掘;PDF文档;文件解析;文本提取;XML文件I哈尔滨工业大学工程硕士学位论文AbstractWiththedevelopmentofmedicalinformatization,medicalelectronicdatahasbeenaccumulated.Facingwiththemassivemedicalinformationanddataresources,peopleoftenfaceadifficultproblemwhichth
7、eamountofinformationislargebuttheavailableinformationisless.Sohowtoobtainthehiddenandusefulknowledgeisanurgentproblem,andsoknowledgeminingemergesasthetimesrequire.Thefirststepofknowledgeminingisdataacquisition.Itisanimportantbasisforknowledgeminingtocol
8、lectinformationofinteresteasily.ThistopicisaPDFtextcontentextractionsystemformedicalknowledgemining.Basedonthebackgroundofmedicalknowledgeminingsystem,thispapermainlyexpoundsthecurrentresearchstatusofmedicalknowledgemining,PDFdoc
此文档下载收益归作者所有