基于Web的信息抽取技术研究硕士学位论文

基于Web的信息抽取技术研究硕士学位论文

ID:265405

大小:9.06 MB

页数:77页

时间:2017-07-16

基于Web的信息抽取技术研究硕士学位论文_第1页
基于Web的信息抽取技术研究硕士学位论文_第2页
基于Web的信息抽取技术研究硕士学位论文_第3页
基于Web的信息抽取技术研究硕士学位论文_第4页
基于Web的信息抽取技术研究硕士学位论文_第5页
资源描述:

《基于Web的信息抽取技术研究硕士学位论文》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、西南交通大学硕士学位论文基于Web的信息抽取技术研究姓名:王旭东申请学位级别:硕士专业:计算机应用技术指导教师:朱焱20080501西南交通大学硕士学位论文第l页摘要随着互联网的快速发展和普及,人们越来越依赖于网络获取信息。作为海量的信息来源,Web可以看成是一个巨大的数据库,包含着各种各样有价值的信息。基于Web的信息抽取技术就是研究如何从这些Web源中抽取出用户感兴趣的信息,并把这些抽取出的信息表示成更具有语义,更为结构化的形式,以便加以利用。该技术起源于信息抽取技术,但由于Web信息的自身特点,该技术已经和传统的基于纯文本的信息抽取技术有了很大的不

2、同。目前,大量Web信息被保存在网站的后台数据库中,这些信息在网页上的显示有一些共同的特征,即通常把数据库中的数据插入到网页的一个模板中,其表现形式就是网页的主体部分有多个局部信息块组成,局部信息块有多个数据项构成。这类网页被称为数据密集型(data-rich)网页,由于该类网页富含大量有价值的信息,因此,研究如何对这类网页进行Web信息抽取有重大的意义和实用价值。对于上述数据密集型网页,本文采用基于XML的相关技术来解决Web信息的抽取问题。其解决方案是:首先获得目标网页,并将该HTML文档以文档对象模型DOM为中介,转换为形式上的XML文档,然后根据

3、这类网页的特征,把该网页中信息的布局视为基于行和列的二维表形式,用户根据自身需求,通过与系统交互,系统半自动地生成基于行和相关列的XPath位置路径表达式作为抽取规则,根据抽取规则定位到待抽取的信息,从而实现信息的准确抽取,抽取的结果用XML来表示。本文开发了一个原型系统,系统能够完成对数据密集型网页和新闻网页的信息抽取,实验表明本文的系统具有一定的实用价值。关键词:Web信息抽取;DOM;XML;XPath西南交通大学硕士学位论文第lI页AbstractWiththerapiddevelopmentandpopularizationofInternet

4、,moreandmorepeopleobtaininformationfromWeb.Asthehugeinformationsource,Webcanberegardedasanenormousdatabaseincludingvariousvaluableinformation.ThegoalsofWebinformationextractionarehowtoextractinformationwhichpeopleareinterestedinandmaketheextractedinformationmorestructuredandmores

5、emantic.Thistechnologyoriginatedfromtraditionalinformationextractiontechnology,butitisverydifferentfromthetraditionalinformationextractionwhichextractsinformationfrompuretextdocument.Atpresent,alargeamountofwebinformationisstoredinthedatabaseofwebsites,thedisplayofthisinformation

6、onthewebpagehassomecommoncharacteristicsthatthesubjectpartofthewebpageismadeupofseveralinformationblocksandeac.hinformationblockhasseveraldataitems.Thiskind.ofwebpagesiscalleddata—richwebpage.Studyinghowtoextractinformationfromitmakessenseand·isveryvaluable.‘Thisthesisfocusesonth

7、emethodologyofextractinginformationfromthedata-richwebpagesmentionedabove.Inthisthesis,theXMLrelatedtechnologiesareappliedtosolvetheproblemofwebinformationextraction.Thestepsofthesolutionare:firstlytoobtainthewebpage,secondlytonormalizetheHTMLdocumentintoformalXMLdocumentusingDOM

8、,andthirdlytotreattheinformationlayoutas

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。