试论基于dom的web信息抽取技术的研究与实现

ID：35131238

大小：3.14 MB

页数：61页

时间：2019-03-19

资源描述：

《试论基于dom的web信息抽取技术的研究与实现》由会员上传分享，免费在线阅读，更多相关内容在学术论文-天天文库。

1、大连理工大学硕士学位论文基于DOM的Web信息抽取技术的研究与实现姓名：李猛申请学位级别：硕士专业：控制理论与控制工程指导教师：仲崇权;张利20081201大连理工大学硕士学位论文摘要当前，互联网已成为全球信息传播与共享的重要渠道，但随着其数据量的爆炸性增长，用户查找自己所需的信息却变得越来越困难。在这种情况下，如何从浩繁的Web数据中抽取出有用的信息就成为了众多研究工作者希望解决的问题。近年来国内外已涌现了多种Web信息抽取方法，这些方法各有侧重地解决了信息抽取中所面临的问题。虽然在总体上取得了良好的效果，但仍然存在着对样本需求过多，工作量大的缺陷。

2、针对现有方法的不足，提出一种半自动化Web信息抽取方法，主要内容包括以下几个方面：首先，在相似页面的获取上，采用基于URL结构比较和简单树匹配算法相结合的方式来进行。即对爬虫程序在网站内获取的超链接采用URL比较法进行先过滤，去掉不满足匹配条件的网页。然后使用简单树匹配法对剩下的网页进行后过滤，以此来得到最终的相似页面。这样在网页的相似性度量上，不仅考虑了URL，还考虑了网页的实际结构，弥补了单纯根据URL获取相似页面的不足。’其次，提出一种基于DOM的Web信息抽取方法，通过对用户标记项与测试网页中数据项进行比较来获取有效信息。即先将样本网页进行解析

3、，提取其中感兴趣数据项的特征。当输入测试网页时j通过与其中所有的数据项进行特征比较来获得抽取结果。采用这种方式进行信息抽取克服了传统基于DOM的信息抽取方法对网页结构变化适应性不强的缺点。第三，针对多记录网页特别是记录数目不固定的网页进行信息抽取时，提出一种试探策略。在计算出用户标记记录与测试网页中记录的相似度矩阵后，通过矩阵的变化情况来确定记录间的分界点，进而获得所有记录，降低了抽取难度。最后，根据以上分析对基于DOM的Web信息抽取原型系统进行了设计与实现。系统为用户提供可视化操作界面，便于使用。通过不同功能模块的结合满足了抽取任务的要求。对一些数

4、据源的实验结果表明，。在单样本网页训练情况下，所提出方法可以有效抽取出网页中的数据。即使网页中存在缺失项，系统依然具有良好的表现。关键词：Web信息抽取；DOM；特征比较；试探策略基于DOM的web信息抽取技术的研究与实现ResearchandRealizationofWebInformationExtractionBasedonD0lMAbstractAstherapiddevelopmentofIntemet，ithasbecomeanimportantchannelforglobalinformationspreadingandsharing．B

5、ut、Ⅳiththeexplosivegrowthofdata,itismoreandmoredifficulttofindinterestedinformationforusers。Underthecircumstances，howtoextractusefulinformationfromWebhasbecomearesearchfoCUS．VariOUSmethodsforinformationextractionhavebeenproposedathomeandabroadinrecentyears．Thesemethodsachievegoo

6、deffectasawhole．However,thedefecmsuchasneedingexcessivesamplepagesandheavyworkloadstillexist．Aimingtotheseshortages，asemiautomaticmethodforWebinformationextractionisproposed．Themaincontentisshownasbelow．Firstly，amethodcombinedURLcomparisonandSimplejtee_Matchingalgorithmisusedino

7、rdertOsolvetheproblemofsimilarpagesacquirement．AWebcrawlerisutilizedtoobtainhyperlinksonthefirststep．ThenthehyperlinksarefilteredbythemethodofURLcomparisonandtheoneswhichsatisfymatchingconditionareleft．OnthelaststeptheSimpleTreeMatchingalgorithmisusedtofiltertheresulthyperlinks．

8、ThefinalsimilarpagesCanbeacquiredatthistime．Ont

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 61



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

试论基于dom的web信息抽取技术的研究与实现

试论基于dom的web信息抽取技术的研究与实现

相关文章

相关标签