deep+web环境下数据抽取及模式识别的研究

deep+web环境下数据抽取及模式识别的研究

ID:32941436

大小:2.83 MB

页数:80页

时间:2019-02-17

deep+web环境下数据抽取及模式识别的研究_第1页
deep+web环境下数据抽取及模式识别的研究_第2页
deep+web环境下数据抽取及模式识别的研究_第3页
deep+web环境下数据抽取及模式识别的研究_第4页
deep+web环境下数据抽取及模式识别的研究_第5页
资源描述:

《deep+web环境下数据抽取及模式识别的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、分类号UDC密级1930823学位论文DeepWeb环境下数据抽取及模式识别的研究刘为申德荣教授东北大学信息学院计算机软件与理论研究所‘申请学位级别:硕士学科类别:工学墓学科专业名称:计算机软件与理论论文提交日期:2008年06月20日论文答辩日期:2008年06月30Et}学位授予日期:2008年7月日答辩委员会主席:王大:陡.,评阅人:乙k燎诞王太硷东北大学2008年06月名师姓教者导作指r,r。o.¨0。毒~I●●;-l●,,●l●】l●1.。,●1.,11.静,,●■—●0,11,、11jj1byLiuWeiSupervisor:ProfessorShenDerongNort

2、heasternUniversityJune2008l--.I---I554j●lll独创性声明本人声明,所呈交的学位论文是在导师的指导下完成的。论文中取得的研究成果除加以标注和致谢的地方外,不包含其他人己经发表或撰写过的研究成果,也不包括本人为获得其他学位而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均己在论文中作了明确的说明并表示谢;亡厶恧o学位论文作者签名:友l】为日期:溯%、]、I学位论文版权使用授权书本学位论文作者和指导教师完全了解东北大学有关保留、使用学位论文的规定:即学校有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人同意东北大

3、学可以将学位论文的全部或部分内容编入有关数据库进行检索、交流。:◆一半年0一年口一年半口两年口≤学位论文作者签名:去p匆导师签名:\岢憎莩签字日期:加勺8.‘7,f签字日期:争∞彦、7、J■■k,jr—■-●■●i.,■一rL岁东北大学硕士学位论文摘要DeepWeb环境下数据抽取及模式识别的研究摘要DeepW.eb是指那些存储在Web数据库里、不能通过超链接访问而需要采用动态网页技术访问的资源集合。随着Web数据库的不断增长,通过对DeepWeb的访问逐渐成,为获取信息的主要手段,能够自动地获取蕴含在DeepW曲中丰富的数据资源并对其进、、

4、行大规模集成显得尤为重要。■现有的Deep

5、W曲数据源结构化数据抽取方法主要以数据为重点,对结构的重视还不够,很多方法抽取的结果还是无结构或水平结构的。其次,DeepWeb数据源往往会发生变化的,比如数据的过期失效、模式信息的改变、页面结构的调整,这些变化都影响原有抽取方法的准确率,带来大量维护问题。此外,目前还没有成熟的方法,将各个数据源中获取的数据整合。可见,这些问题都给DeepW曲数据源中结构化数据的抽取带来了困难,本文针对这些问题做了深入研究,并提出了可行的解决方案。本文提出了一套完整的数据抽取及模式识别解决方案,主要内容包括:提出了一种有效的DOM模型下基于聚类的数据抽取方法,结合DOM结构信息与可视化信息分析结果页

6、面,并采用基于聚类方法实现响应页面中的数据抽取,在面对结构复杂的数据和大量的噪声节点时,仍能够完整、准确的获得数据信息。提出了一种基于标签的结果模式抽取方法,通过一种两阶段式的标签获取方法,同步标签获取,对以往的标签获取方法做了很大的改进,一定程度的提高了获取标签的数量与准确性。此外,采用了基于LCS的模式标签匹配技术,提高了模式与标签之间的匹配精度。提出了一种简单有效的包装器模型,提高了数据抽取的时间效率。此外,还对包装o、.器的集成问题进行了深入的研究,解决了由Deepw曲数据源更新造成的包装器维护问^.1咫。:经过实验验证,本文提出的数据抽取方法能够真正有效的抽取响应页面中的有

7、用信叠息,并且在准确率和召回率方面都要优于现有方法,使得DeepW曲中丰富的高质量结构化信息得到充分利用,具有很高的应用价值,可以广泛的应用到各类DeepWeb信息集成中。关键词:DeepWeb;页面解析;数据抽取;模式识别;包装器一II—,、誓、~fj夸东北大学硕士学位论文AbstractResearchonDataExtractionandSchemaRecognitiononDeepWebAbstractDeepWebreferstodatasourcesthatarestoredindatabasesandcallnotbeaccessedbyhyper-linksbuton

8、lybydynamicwebpageaccessing.AstheincreaseofWebdatabases,accessingDeepWebforinformationgraduallybecomesthemainmethodtoacquireinformation,forwhichautomaticacquiringDeepWebdatasourcesforlargescaleintegrationiseventhemoreimportant.The

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。