试论pdf文档语义信息抽取研究

试论pdf文档语义信息抽取研究

ID:35122045

大小:1.38 MB

页数:44页

时间:2019-03-19

试论pdf文档语义信息抽取研究_第1页
试论pdf文档语义信息抽取研究_第2页
试论pdf文档语义信息抽取研究_第3页
试论pdf文档语义信息抽取研究_第4页
试论pdf文档语义信息抽取研究_第5页
资源描述:

《试论pdf文档语义信息抽取研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、河北大学硕士学位论文PDF文档语义信息抽取研究姓名:张波申请学位级别:硕士专业:计算机应用技术指导教师:李天柱20040601摘要PDF文档应用范围十分广泛,数量极其巨大,而且PDF的应用仍然处于继续发展的状态,它在不断地被更多的用户所接受和采纳。PDF应用的广泛性和它继续蓬勃发展的状态与对PDF文档的有效管理的滞后性形成了一对十分尖锐的矛盾,对PDF基于语义的精确查询和管理势在必行。本系统的将信息抽取技术和机器学习技术的思想相结合,实现了从PDF文档中按语义抽取出有用的数据,并包装成XML文档。本系统的实现主要分为两个过程,一是通过样

2、本学习生成抽取规则,即用户先在PDF视图环境中根据对PDF样本文档理解,创建语义模式,对页面信息附加语义,然后通过用户标记PDF样本文档中的数据项,并在用户创建的语义模式中选择相应的语义项,在语义模式语义项与PDF样本文档中数据项之间建立映射关系;在创建语义模式、建立映射关系的同时,用户将PDF样本文档也提交到预处理模块,经过转化得到样本XML文档;系统针对前面建立的映射关系和样本XML文档进行自动地学习,生成抽取规则;二是利用抽取规则从文档集中抽取出有用数据,并自动包装成包含语义的数据,即用户将PDF文档集及其领域信息一起提交给系统,

3、系统自动地将文档集通过预处理生成Well.formedXML文档集,同时根据领域知识获取相应的抽取规则,然后自动地将抽取规则应用于Well.formedXML文档集,得到具有自描述陛的包含语义的XML文档。本系统对于实现PDF文档基于语义的精确查询和管理具有十分重要的现实意义。关键词PDF;信息抽取;XML;语义AbstractPDFdocumentsarewidelyused,thenumberofPDFusedissignificantlylarge,andtheapplicationofPDFkeepsdeveloping,mor

4、eandmorepeopleorinstitutionsbegintoadoptPDETheuniversityofPDFusedandthestatusoftheitsrapiddevelopmentformastrikingcontrasttoitslowefficiencyofmanagement.semantic—basedqueryandmanagementforPDFmustbedonenow.Thissystemcombinesthetechnologyofinformationextractionwitllthatofm

5、achinelearning.VNuabledataCanbeex仃actedfromPDFdocumentaccordingtosemanticsanditthenwillbewrappedintoXML.Thissystemhastwoprincipleprocesses.Oneisformingextractionrules.UserunderstandsthesampledocumentinPDFvieweratfirst,thencreatessemanticsschemaforitandestablishesthemappi

6、ngbetweensemanticiternofschemaanddataiteminPDEAtthesametimeofuserlearning,thesamplePDFisconvertedintoWell—formedXML.Aftertheuserlearninganddocumentconversion,thesystemautomaticallyproducestherulesfromtheWell—formedXMLaccordingtothemapping.Theotherisinformationextractionb

7、yusingtherulesandinformationwrapping.UsersubmitsthePDFdocumentsandthedomaininformation.ThesystempreproeessesthePDFdocumentsintoWell—formedXMLdocuments,thengetstheex仃actionrulesaccordingtothedomaininformation,thenappliestherulestotheWell—formedXMLdocuments,SOwegettheself-

8、describedandsemi·structured.XML.OursystemhasaimportantmeaningOnthesemantic—basedqueryandmanagementforPD

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。