基于本体论的web信息抽取new

基于本体论的web信息抽取new

ID:34138928

大小:328.54 KB

页数:8页

时间:2019-03-03

基于本体论的web信息抽取new_第1页
基于本体论的web信息抽取new_第2页
基于本体论的web信息抽取new_第3页
基于本体论的web信息抽取new_第4页
基于本体论的web信息抽取new_第5页
资源描述:

《基于本体论的web信息抽取new》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第16卷第4期计算机辅助设计与图形学学报Vol.16,No.42004年4月JOURNALOFCOMPUTER-AIDEDDESIGNSCOMPUTERGRAPHICSApr.,2004!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!基于本体论的Web信息抽取周明建高济李飞(浙江大学人工智能研究所杭州310027)摘要以本体论为基础,以所要提取的信息的层次结构作为信息提取的路径,定义了Web页面的信息项本体,并自动解析生成Web页面的结构本体.通过对这两个本体进行对比,构造了一种归纳学习算

2、法来半自动地生成信息提取规则,对Web页面的信息提取具有较高的效率.关键词本体论;Web;归纳学习;HTML中图法分类号TP311Ontology-basedlnformationextractionfromWebSourcesZhouMingianGaoJiLiFei(InstituteofArtificialIntelligence,ZhejiangUnioersity,Hangzhou310027)AbstractBasedontheontology,thispaperregardsthehiberarchyofinformationtobeextracted

3、asthepathofinformationextraction,definesaninformationitemontologyofWebpageandautomaticcreatesaconstructionontologybyparsingtheWebpage.Usingthesetwoontologies,anovelapproachtosemi-automaticallygenerateinformationextractionrulesispresentedforefficientlycollectinginformationfromWeb.Keywor

4、dsontology;Web;inductivelearning;HTML包装器是一种软件构件,一个包装器一般针对1引言某一类页面,负责将数据和查询请求由一种模式转换成另一种模式.在Web环境下,包装器负责将隐当前,Web已经成为人们获取信息的主要渠道.含在HTML文档中的信息抽取出来,并且转换成能在WWW这个快速增长的巨大信息库中,含有大量够进一步处理的以某种数据结构存储的数据.目有用的信息,其信息存储为静态HTML页面,主要前,人们一般针对不同的数据源手工编制特定的包通过浏览器来查看.然而,用于表达Web页面信息装器软件.但是,由于信息的数量巨大、网上新资源的H

5、TML标记语言存在着与生俱来的缺点:HTML频繁加入、现存资源的格式经常变化,以及人们对语言的“标记(tag)”只是告诉浏览器如何显示它所Web文档中的信息抽取目标经常发生变化,因此手定义的信息,却不包含任何语义.所以,由HTML工编制特定的包装器已经不能适应信息发展的语言所表述的Web页面只适合人们浏览,不适合作需要.为一种数据交换方式由计算机来阅读并处理.如何包装器软件的生成是信息搜索研究领域以及人从这种非结构化的知识管理、知识集成等信息密集工智能领域非常活跃的研究课题,已有一些关于型的、不含任何语义的文档中抽取所需要的信息,成Web数据包装器的实现技术和系统.

6、概括起来,绝为首先要解决的问题.大多数研究都是基于规则的方法生成包装器.根据原稿收到日期:2003-03-06;修改稿收到日期:2003-06-22.本课题得到国家自然科学基金(69773019)资助.周明建,男,1970年生,博士研究生,主要研究方向为知识管理、模式识别、数据集成、数据挖掘.高济,男,1946年生,教授,博士生导师,主要研究方向为智能软件与Agent技术、软件工程与软件合成、模式识别、知识管理与决策支持、网络计算与系统集成.李飞,男,1974年生,博士研究生,主要研究方向为知识管理、软件工程.536计算机辅助设计与图形学学报2004年规则生成方法的

7、不同,可以把这方面的研究归纳成种对于使用者来说简单、易操作的页面描述方法,对两类:(1)开发特别的语法来说明数据在~TML页于各种页面中的结构化和半结构化数据都统一处面中的分布以及如何抽取所需要的数据[1-3];(2)应理,并能把用户感兴趣的信息全部抽取出来.用归纳学习技术来自动或半自动地生成抽取规则[4-5].2用例及概念准备文献[1]是TSIMMIS数据集成项目的一部分,它设计了一种声明型的高级语言书写模板来定义抽为了介绍方便,本文给出了如图1所示的实例,取规则,描述包装器将接受的查询语言和将要返回下面将以这个实例来说明抽取规则的实现过程.该的对象.当查询与

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。