deep web 接口集成 属性抽取论文

deep web 接口集成 属性抽取论文

ID:7781524

大小:110.50 KB

页数:4页

时间:2018-02-25

deep web 接口集成 属性抽取论文_第1页
deep web 接口集成 属性抽取论文_第2页
deep web 接口集成 属性抽取论文_第3页
deep web 接口集成 属性抽取论文_第4页
资源描述:

《deep web 接口集成 属性抽取论文》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、Deep论文:Deepweb中基于领域知识的接口集成【中文摘要】随着WWW技术的高速发展,基于网络数据库(WebDataBase,WDB)Web的应用程序数量呈指数级增加,随着这些应用程序的增加,互联网信息来源发生了巨大的改变。这改变对传统的基于搜索引擎的查询和获取信息的方式带来了巨大的挑战。由于这些基于Web的数据库,仅能通过HTML查询表单提交数据获得,并动态生成查询结果。这些信息不能为传统搜索引擎所获得,因此研究如何利用这部分即将成为Web信息最大来源的深度网(Deepweb)的数据,是十分有必要的。从1994年Dr.JillEllsworth提出了深度网的概念,国外就开始对深

2、度网进行了大量的研究工作。并提出了深度网信息集成框架,该框架共分三大部分:深度网接口集成,主要完成对深网接口的发现,分类以及模式抽取;查询处理,主要完成对客户查询请求的映射;结果处理模块,主要完成查询结果的抽取,变换与合并数据的任务。研究深度网的最终是为获取隐藏于Web应用之后的网络数据库中的数据。由于WDB仅仅只提供了基于HTML表单的查询接口,以及基于HTML的查询结果返回,并且HTML语法弹性过大,写法灵活,不包含任何WDB语义信息,所以通过HTML的分析来对WDB查...【英文摘要】WiththerapiddevelopmentofWWWtechnology,WDB-base

3、dWebapplicationsexponentiallyincrease,alongwiththeincreaseoftheseapplications;theInternetsourceofinformationhasundergonetremendouschanges.Thesechangeshavebroughtthetraditionalsearch-engine-basedqueryandwayofobtaininginformationhugechallenge.BecauseoftheseWeb-baseddatabase,queryresultswhichcanon

4、lybegotbysubmittingdatathroughtheHTMLqueryformandthengenerateddynamicallycannotbeobtainedbytraditio...【关键词】Deepweb接口集成属性抽取【英文关键词】DeepwebInterfaceIntegrationInterfaceSchemaextraction【目录】Deepweb中基于领域知识的接口集成摘要5-6Abstract6序论7-10第1章相关知识10-221.1HTML10-141.1.1HTTP简介101.1.2HTML表单10-121.1.3HTMLDOM12-131

5、.1.4HTTP协议13-141.2Deepweb接口抽取与集成技术框架14-221.2.1术语定义15-171.2.2接口的发现与判定17-181.2.3接口属性抽取18-191.2.4接口查询接口的集成19-22第2章接口集成理论22-302.1接口的发现23-252.1.1网络爬虫23-242.1.2基于网络爬虫的接口发现24-252.2接口的判定25-272.3接口属性抽取27-292.3.1N-Gram算法282.3.2基于N-Gram的属性抽取28-292.4接口模式抽取29-302.4.1接口属性的匹配292.4.2全局属性抽取29-30第3章接口集成系统30-483.

6、1基于聚焦网络爬虫的接口发现30-363.1.1爬虫入口30-313.1.2爬虫工作流程设计31-333.1.3页面预处理333.1.4页面词频的统计33-343.1.5爬虫限定条件34-353.1.6候选URL优化35-363.2查询接口的判别36-383.2.1分类器特征提取373.2.2使用感知器分类37-383.2.3去除非当前领域接口383.3基于N-Gram的接口属性抽38-413.3.1属性抽取总体流程38-393.3.2分解表单元素39-403.3.3N-Gram匹配过程40-413.3.4不匹配的情况413.4文本语义处理41-453.4.1中文分词41-433.4

7、.2同义词扩充43-443.4.3中文词汇翻译与缓存44-453.5领域词汇表更新策略45-48第4章有效性验证48-524.1实验环境484.2聚焦网络爬虫48-494.3基于N-Gram的接口抽取49-504.4接口属性集成50-52第5章总结52-545.1工作总结525.2改进之处52-535.3展望53-54参考资料54-58致谢58-60在学期间所发表的文章60

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。