试论基于dom的web信息抽取技术的研究与实现

试论基于dom的web信息抽取技术的研究与实现

ID:35131238

大小:3.14 MB

页数:61页

时间:2019-03-19

试论基于dom的web信息抽取技术的研究与实现_第1页
试论基于dom的web信息抽取技术的研究与实现_第2页
试论基于dom的web信息抽取技术的研究与实现_第3页
试论基于dom的web信息抽取技术的研究与实现_第4页
试论基于dom的web信息抽取技术的研究与实现_第5页
资源描述:

《试论基于dom的web信息抽取技术的研究与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、大连理工大学硕士学位论文基于DOM的Web信息抽取技术的研究与实现姓名:李猛申请学位级别:硕士专业:控制理论与控制工程指导教师:仲崇权;张利20081201大连理工大学硕士学位论文摘要当前,互联网已成为全球信息传播与共享的重要渠道,但随着其数据量的爆炸性增长,用户查找自己所需的信息却变得越来越困难。在这种情况下,如何从浩繁的Web数据中抽取出有用的信息就成为了众多研究工作者希望解决的问题。近年来国内外已涌现了多种Web信息抽取方法,这些方法各有侧重地解决了信息抽取中所面临的问题。虽然在总体上取得了良好的效果,但仍然存在着对样本需求过多,工作量大的缺陷。

2、针对现有方法的不足,提出一种半自动化Web信息抽取方法,主要内容包括以下几个方面:首先,在相似页面的获取上,采用基于URL结构比较和简单树匹配算法相结合的方式来进行。即对爬虫程序在网站内获取的超链接采用URL比较法进行先过滤,去掉不满足匹配条件的网页。然后使用简单树匹配法对剩下的网页进行后过滤,以此来得到最终的相似页面。这样在网页的相似性度量上,不仅考虑了URL,还考虑了网页的实际结构,弥补了单纯根据URL获取相似页面的不足。’其次,提出一种基于DOM的Web信息抽取方法,通过对用户标记项与测试网页中数据项进行比较来获取有效信息。即先将样本网页进行解析

3、,提取其中感兴趣数据项的特征。当输入测试网页时j通过与其中所有的数据项进行特征比较来获得抽取结果。采用这种方式进行信息抽取克服了传统基于DOM的信息抽取方法对网页结构变化适应性不强的缺点。第三,针对多记录网页特别是记录数目不固定的网页进行信息抽取时,提出一种试探策略。在计算出用户标记记录与测试网页中记录的相似度矩阵后,通过矩阵的变化情况来确定记录间的分界点,进而获得所有记录,降低了抽取难度。最后,根据以上分析对基于DOM的Web信息抽取原型系统进行了设计与实现。系统为用户提供可视化操作界面,便于使用。通过不同功能模块的结合满足了抽取任务的要求。对一些数

4、据源的实验结果表明,。在单样本网页训练情况下,所提出方法可以有效抽取出网页中的数据。即使网页中存在缺失项,系统依然具有良好的表现。关键词:Web信息抽取;DOM;特征比较;试探策略基于DOM的web信息抽取技术的研究与实现ResearchandRealizationofWebInformationExtractionBasedonD0lMAbstractAstherapiddevelopmentofIntemet,ithasbecomeanimportantchannelforglobalinformationspreadingandsharing.B

5、ut、Ⅳiththeexplosivegrowthofdata,itismoreandmoredifficulttofindinterestedinformationforusers。Underthecircumstances,howtoextractusefulinformationfromWebhasbecomearesearchfoCUS.VariOUSmethodsforinformationextractionhavebeenproposedathomeandabroadinrecentyears.Thesemethodsachievegoo

6、deffectasawhole.However,thedefecmsuchasneedingexcessivesamplepagesandheavyworkloadstillexist.Aimingtotheseshortages,asemiautomaticmethodforWebinformationextractionisproposed.Themaincontentisshownasbelow.Firstly,amethodcombinedURLcomparisonandSimplejtee_Matchingalgorithmisusedino

7、rdertOsolvetheproblemofsimilarpagesacquirement.AWebcrawlerisutilizedtoobtainhyperlinksonthefirststep.ThenthehyperlinksarefilteredbythemethodofURLcomparisonandtheoneswhichsatisfymatchingconditionareleft.OnthelaststeptheSimpleTreeMatchingalgorithmisusedtofiltertheresulthyperlinks.

8、ThefinalsimilarpagesCanbeacquiredatthistime.Ont

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。