基于网页结构的web数据抽取方法研究

基于网页结构的web数据抽取方法研究

ID:32968230

大小:3.96 MB

页数:49页

时间:2019-02-18

基于网页结构的web数据抽取方法研究_第1页
基于网页结构的web数据抽取方法研究_第2页
基于网页结构的web数据抽取方法研究_第3页
基于网页结构的web数据抽取方法研究_第4页
基于网页结构的web数据抽取方法研究_第5页
资源描述:

《基于网页结构的web数据抽取方法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、武汉科技大学硕士学位论文基于网页结构的Web数据抽取方法研究姓名:朱汉超申请学位级别:硕士专业:计算机应用技术指导教师:张晓龙20090420武汉科技大学硕士学位论文第1页摘要随着互联网的飞速发展,目前Web上的数据泛滥,在海量的数据中人们无法快速准确地找到需要的数据,如何快速准确地得到这些数据是亟待解决的问题。Web数据抽取技术已成为当今研究的一个热点。利用Web数据抽取技术,通过对特定网站或网页中数据的结构进行分析,设定特定的抽取规则,可以将感兴趣的信息从中抽取出来,并保存到数据库或其他格式文

2、件中,以供SQL或XML查询语言查询,或者供其他应用程序使用。论文从研究Web数据抽取基础开始,建立了Web数据抽取模型。首先采用Java语言设计了一个原型系统,使用基于HTML的方法进行了抽取,由于不涉及HTML文档的层次结构,该系统在抽取结果上不是很符合需求;然后通过分析HTML层次结构,利用基于XML的技术,使用XSLT文件映射的方法,可以产生针对特定网页格式良好的抽取结果,但该方法的通用性不是很好,对网页的结构的要求也比较严格;最后本文提出了一种针对特定内容的Web数据抽取方法,将半自动产

3、生的XSLT中间表示文件与DOM相结合实现对相似内容的XML文件进行映射抽取。该方法在一定程度上满足了通用性,并以针对特定内容(新闻网)为例进行了分析,实验结果表明该方法具有一定的可行性。关键词:Web数据抽取;HTML层次结构;XSLT:DOMAbstractAstherapiddevelopmentofIntemet,thedataonthewebspreadwithoutrestriction,onecan’tfindtherequireddataquicklyandaccuratelyfr

4、ommasswebdata,howtoquicklyandaccuratelyobtainthesedataisaurgentproblemneedtoresolve.Webdataextractiontechnologyhasbecomeahotresearch.ThroughanalyzingthestructureofthedatawhichWasgotfromaparticularwebsiteorwebpage,settingparticularextractedrules,wecall

5、extractinterestinginformation,andsaveintodatabaseorotherformattedfilesforSQLorXMLquerylanguagetoquery,orprovidingforotherapplications.ThisthesisintroducestheWebdataextractionresearchandtheWebdataextractionmodel.AprototypesystemwasdesignedwithJavaandus

6、edtodoextractiondatabasedonHTML.SincenotreferringtothearrangementstructureofHTMLdocuments,thesystemcan’tmeettheextractionrequirement.ThroughanalyzingthearrangementstructureofHTML,amethodthatusingXSLTfilestomapcouldmakewell.formedresultforspecialwebpag

7、es.Butthecommonalityofthemethodisn’tSOgood,andrequiresthestructureofwebpagesstrictly.Finally,thisthesisproposesamethodofWebdataextractionforspecialcontent,usesparsingalgorithmcombinedwithDOMtoselectspecialnodesandmappingwithXSLTfiles.Toacertainextentt

8、hemethodmeetsthecommonality,andmakesanalyzingforspecialcontent(NewsWeb),theexperimentalresultsshowthatthemethodisfeasibleinacertaindegree.Key-words:WebDataExtraction,ArrangementStructureofHTML,XSLT,DOM武汉科技大学研究生学位论文创新性声明本人郑重声明:所呈交的学位论文是本人在导师指导下

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。