基于Web的信息抽取技术研究硕士学位论文

ID：265405

大小：9.06 MB

页数：77页

时间：2017-07-16

资源描述：

《基于Web的信息抽取技术研究硕士学位论文》由会员上传分享，免费在线阅读，更多相关内容在学术论文-天天文库。

1、西南交通大学硕士学位论文基于Web的信息抽取技术研究姓名：王旭东申请学位级别：硕士专业：计算机应用技术指导教师：朱焱20080501西南交通大学硕士学位论文第l页摘要随着互联网的快速发展和普及，人们越来越依赖于网络获取信息。作为海量的信息来源，Web可以看成是一个巨大的数据库，包含着各种各样有价值的信息。基于Web的信息抽取技术就是研究如何从这些Web源中抽取出用户感兴趣的信息，并把这些抽取出的信息表示成更具有语义，更为结构化的形式，以便加以利用。该技术起源于信息抽取技术，但由于Web信息的自身特点，该技术已经和传统的基于纯文本的信息抽取技术有了很大的不

2、同。目前，大量Web信息被保存在网站的后台数据库中，这些信息在网页上的显示有一些共同的特征，即通常把数据库中的数据插入到网页的一个模板中，其表现形式就是网页的主体部分有多个局部信息块组成，局部信息块有多个数据项构成。这类网页被称为数据密集型(data-rich)网页，由于该类网页富含大量有价值的信息，因此，研究如何对这类网页进行Web信息抽取有重大的意义和实用价值。对于上述数据密集型网页，本文采用基于XML的相关技术来解决Web信息的抽取问题。其解决方案是：首先获得目标网页，并将该HTML文档以文档对象模型DOM为中介，转换为形式上的XML文档，然后根据

3、这类网页的特征，把该网页中信息的布局视为基于行和列的二维表形式，用户根据自身需求，通过与系统交互，系统半自动地生成基于行和相关列的XPath位置路径表达式作为抽取规则，根据抽取规则定位到待抽取的信息，从而实现信息的准确抽取，抽取的结果用XML来表示。本文开发了一个原型系统，系统能够完成对数据密集型网页和新闻网页的信息抽取，实验表明本文的系统具有一定的实用价值。关键词：Web信息抽取；DOM；XML；XPath西南交通大学硕士学位论文第lI页AbstractWiththerapiddevelopmentandpopularizationofInternet

4、，moreandmorepeopleobtaininformationfromWeb．Asthehugeinformationsource，Webcanberegardedasanenormousdatabaseincludingvariousvaluableinformation．ThegoalsofWebinformationextractionarehowtoextractinformationwhichpeopleareinterestedinandmaketheextractedinformationmorestructuredandmores

5、emantic．Thistechnologyoriginatedfromtraditionalinformationextractiontechnology，butitisverydifferentfromthetraditionalinformationextractionwhichextractsinformationfrompuretextdocument．Atpresent，alargeamountofwebinformationisstoredinthedatabaseofwebsites，thedisplayofthisinformation

6、onthewebpagehassomecommoncharacteristicsthatthesubjectpartofthewebpageismadeupofseveralinformationblocksandeac．hinformationblockhasseveraldataitems．Thiskind．ofwebpagesiscalleddata—richwebpage．Studyinghowtoextractinformationfromitmakessenseand·isveryvaluable．‘Thisthesisfocusesonth

7、emethodologyofextractinginformationfromthedata-richwebpagesmentionedabove．Inthisthesis，theXMLrelatedtechnologiesareappliedtosolvetheproblemofwebinformationextraction．Thestepsofthesolutionare：firstlytoobtainthewebpage，secondlytonormalizetheHTMLdocumentintoformalXMLdocumentusingDOM

8、，andthirdlytotreattheinformationlayoutas

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 77



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

基于Web的信息抽取技术研究硕士学位论文

基于Web的信息抽取技术研究硕士学位论文

相关文章

相关标签