基于网页结构的web数据抽取方法研究

ID：32968230

大小：3.96 MB

页数：49页

时间：2019-02-18

资源描述：

《基于网页结构的web数据抽取方法研究》由会员上传分享，免费在线阅读，更多相关内容在学术论文-天天文库。

1、武汉科技大学硕士学位论文基于网页结构的Web数据抽取方法研究姓名：朱汉超申请学位级别：硕士专业：计算机应用技术指导教师：张晓龙20090420武汉科技大学硕士学位论文第1页摘要随着互联网的飞速发展，目前Web上的数据泛滥，在海量的数据中人们无法快速准确地找到需要的数据，如何快速准确地得到这些数据是亟待解决的问题。Web数据抽取技术已成为当今研究的一个热点。利用Web数据抽取技术，通过对特定网站或网页中数据的结构进行分析，设定特定的抽取规则，可以将感兴趣的信息从中抽取出来，并保存到数据库或其他格式文

2、件中，以供SQL或XML查询语言查询，或者供其他应用程序使用。论文从研究Web数据抽取基础开始，建立了Web数据抽取模型。首先采用Java语言设计了一个原型系统，使用基于HTML的方法进行了抽取，由于不涉及HTML文档的层次结构，该系统在抽取结果上不是很符合需求；然后通过分析HTML层次结构，利用基于XML的技术，使用XSLT文件映射的方法，可以产生针对特定网页格式良好的抽取结果，但该方法的通用性不是很好，对网页的结构的要求也比较严格；最后本文提出了一种针对特定内容的Web数据抽取方法，将半自动产

3、生的XSLT中间表示文件与DOM相结合实现对相似内容的XML文件进行映射抽取。该方法在一定程度上满足了通用性，并以针对特定内容(新闻网)为例进行了分析，实验结果表明该方法具有一定的可行性。关键词：Web数据抽取；HTML层次结构；XSLT：DOMAbstractAstherapiddevelopmentofIntemet，thedataonthewebspreadwithoutrestriction,onecan’tfindtherequireddataquicklyandaccuratelyfr

4、ommasswebdata,howtoquicklyandaccuratelyobtainthesedataisaurgentproblemneedtoresolve．Webdataextractiontechnologyhasbecomeahotresearch．ThroughanalyzingthestructureofthedatawhichWasgotfromaparticularwebsiteorwebpage,settingparticularextractedrules，wecall

5、extractinterestinginformation，andsaveintodatabaseorotherformattedfilesforSQLorXMLquerylanguagetoquery,orprovidingforotherapplications．ThisthesisintroducestheWebdataextractionresearchandtheWebdataextractionmodel．AprototypesystemwasdesignedwithJavaandus

6、edtodoextractiondatabasedonHTML．SincenotreferringtothearrangementstructureofHTMLdocuments，thesystemcan’tmeettheextractionrequirement．ThroughanalyzingthearrangementstructureofHTML，amethodthatusingXSLTfilestomapcouldmakewell．formedresultforspecialwebpag

7、es．Butthecommonalityofthemethodisn’tSOgood，andrequiresthestructureofwebpagesstrictly．Finally,thisthesisproposesamethodofWebdataextractionforspecialcontent，usesparsingalgorithmcombinedwithDOMtoselectspecialnodesandmappingwithXSLTfiles．Toacertainextentt

8、hemethodmeetsthecommonality,andmakesanalyzingforspecialcontent(NewsWeb)，theexperimentalresultsshowthatthemethodisfeasibleinacertaindegree．Key-words：WebDataExtraction,ArrangementStructureofHTML，XSLT，DOM武汉科技大学研究生学位论文创新性声明本人郑重声明：所呈交的学位论文是本人在导师指导下

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 49



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

基于网页结构的web数据抽取方法研究

基于网页结构的web数据抽取方法研究

相关文章

相关标签