半结构化web信息抽取研究

半结构化web信息抽取研究

ID:33181351

大小:3.26 MB

页数:57页

时间:2019-02-21

半结构化web信息抽取研究_第1页
半结构化web信息抽取研究_第2页
半结构化web信息抽取研究_第3页
半结构化web信息抽取研究_第4页
半结构化web信息抽取研究_第5页
资源描述:

《半结构化web信息抽取研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、密级:——编号:——工学硕士学位论文半结构化Web信息抽取研究硕士研究生:指导教师:学位级别:学科、专业:所在单位:论文提交日期:论文答辩日期:学位授予单位:周盛强孙长嵩教授工学硕士计算机应用技术计算机科学与技术学院2009年2月2009年3月哈尔滨工程大学Ⅲ7一⋯⋯川9;洲1号舢8类㈣弘髅M4㈣Y哙尔滨t程大学硕士学位论文摘要随着互联网的侠速发展和普及,入翻越来越依赖于鼹络获取信惠。翔柯从中快速高效的获得想簧的信患成为迫切需要解决的问题,Web僚患抽取技术应运悉生。露前,己经产生了各种各样的方法来生成包装器,餐这些方法有苓网的局限性,在精确度、健壮性

2、和通用性方瑟难以达到很高熬要求。因此,信息抽取的研究重点就是如何构建良好的包装器。本文首先对现有的信息抽取技术和XML技术进行分析与研究,提出一个基于XML技术的Web信息抽取系统。通过该系统用户能够将HTML页蘧中感兴趣的信息点抽取出来,并用结构化和扩展性强的XML来表示抽取结果。该系统具有较好的逶用性期灵活性,用声能够快速定铡应用予不露领域的Web信息掏取包装器。本文应焉XPath技术在数据定位方面的特点,提出一种基于DOM的XPath生成算法。本文利瘸XSLT作为掏取规燹

3、j的描述语言,荠使用XPath来定位待抽取信息赢。对于Web信息抽取的问题

4、利用本文提出的Web信息抽取方法能够较好她解决,露时,系统的召圆率和准确率能够达到较高的酉分比。关键谲:数据挖懿;锗崽捶取;半结构化数攥;Web略尔滨=l二程大学硕士学袋论文AbstractWiththerapiddevelopmentandpopularizationofInteract,moreandmorepeopleobtaininformationfromwcb.TofindnecessaryinformationquicklyandefficientlyfromWebhasb∞omeaseriousproblem。Webinformatio

5、nextractiontechnologycomesinto蜥耀。Manyapproacheshavebeenproposedtogeneratewrapper,buttheyhavetoodifferentlimitationstomakewrapperaccurate,robustorgeneral.So,thepreparingbetterwrapperhasbecometheresearchemphasesofinformationextraction.Afterhavinganalyzedandresearchedthetechnologie

6、sofXMLandinformationextraction,asystemof飘毫§informationextractionbasedonXMLisdevelopedinthispaper.Withthissystem,稿鞫e懋callextractinteres*戳linformationfromHTMLpages,theextractionresultsareexpressedinXMLwhichhavestrongstructureandexpansion。朝瓣systemhasthegeneralityandflexibility.User

7、scanquicklycustomizethewebinformationextractionwrapperappliedtodifferent羽嬲.Inthispaper,byusingthecharacteroftheXPathpositioningtechnologyindataarea,aalgorithmofXPathbasedOnDOMisimplemented.XSLTisusedasthedescriptionlanguageofextractionrulesandXPathisusedtolocateinformationtobeex

8、tracted.期舱methodinW曲informationextractionpresentedinthisdissertation嘲bett娌solvetheproblemof∥曲informationextraction,andalsotheprecisionandrecallofthesystemCanreachahigherproportion.Keywords:datamining;informationextraction;semi·structureddata;Web哈尔滨工程大学学位论文原创性声明本人郑重声明:本论文的所有工作,是在

9、导师的指导下,由作者本人独立完成的。有关观点、方法、数据和文献的引用已在文中指出,并与参考文献

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。