基于web的半结构化信息抽取技术研究

基于web的半结构化信息抽取技术研究

ID:33694387

大小:163.33 KB

页数:3页

时间:2019-02-28

基于web的半结构化信息抽取技术研究_第1页
基于web的半结构化信息抽取技术研究_第2页
基于web的半结构化信息抽取技术研究_第3页
资源描述:

《基于web的半结构化信息抽取技术研究》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、2004年5月系统工程与电子技术May2004第26卷 第5期SystemsEngineeringandElectronicsVol126No15 文章编号:10012506X(2004)0520610203基于Web的半结构化信息抽取技术研究张树瑜,杜国宁,朱仲英(上海交通大学自动化系,上海200030)摘 要:对信息抽取技术的发展和趋势作了一定分析,并讨论了当前半结构化信息检索领域的先进抽取技术。从应用的角度提出一种新的半结构化信息获取方法。该方法包括网页分析过程、映射的自动生成和信息抽取过程。通

2、过建立标记树来进行网页结构分析,利用实例路径归纳学习出用户需求信息的公共路径,将效用的抽取结果提交用户,减少了用户负担,提高了查全率和查准率,为进一步满足Web信息抽取提供了一种新的高效信息抽取工具。关键词:互联网;半结构化;标记树;自动映射中图分类号:TP393文献标识码:AStudyofsemi2structuredinformationretrivaltechnologybasedonWebZHANGShu2yu,DUGuo2ning,ZHUZhong2ying(DepartmentofAuto

3、mation,ShanghaiJiaotongUniversity,Shanghai200030,China)Abstract:Thedevelopmentofinformationretrivaltechnologyandadvancedinformationretrivaltechnologyisana2lyzed.Anewmethordofsemi2structuredinformationretrivalispresented.Theimprovedmethodincludestheproce

4、ssofWeb2pageanalysis,automaticmap,informationretrival.TheWeb2pagestructureanalysisismadebyusingmarked2tree,thecommonpathofcustomerneededinformationisinductivedbysamplepath.Sotheburdenofcustomerislessedandthecheckrateandaccuraterateareimproved,andanimpro

5、vedimplementofWebinformationretrivalispresented.Keywords:Internet;semi2structured;marked2tree;automaticmap来越重要的理论和现实意义。1 引 言2Web半结构化信息抽取技术当今社会计算机需处理的信息数量不断呈指数级增长,而数据信息库积累的数据越来越多,怎样快速、有效、经济地人们于20世纪80年代起开始对Web信息抽取技术进检索到某个主题的所有相关信息就成了一个十分热门的课行研究。目前较常用的Wrap

6、per方法按其工作原理可分为以题。信息检索已从手工建立关键字索引,发展到计算机自动下4类。索引的全文信息检索、自动信息文摘、自动信息分类并正朝(1)基于归纳学习的信息抽取技术着自然语言处理的方向发展。信息抽取的目的是直接从报基于归纳学习的信息抽取技术可以自动分析出待抽取纸或网页的自然语言文本中抽取出指定信息以帮助人们在信息在网页中的结构特征并实现信息抽取,是信息抽取中常某些领域对事态的发展动向作出判断并制定相应策略。由用的一种方法。该技术首次于1996年由美国华盛顿大学的[1]于不同网站的网页文件书写

7、格式各不相同,因此需要一种将N.Kushmerick提出。基于归纳学习的信息抽取模型如图1HTML网页所描述的信息内容转换为利用明确数据结构描述所示。通过对若干个待抽取网页实例进行学习,扩充资源的的方法。Wrapper方法能够代替人或者其它的软件而自主地泛度,来提高智能信息获取的查全率与查准率。工作。Wrapper是一个计算机软件,它能够将一种格式的数据或检索结果转换为另一种格式的数据。如B2C可以对商品的功能、产地、价格、数量、质量体系等提供详尽的信息;GIS可以对不同地区的经度、纬度、时区、地势形

8、态等进行比基于归纳学习的信息抽取技术要求用户提供大量实例,较,向用户提供及时准确的地理信息资源。随着电子技术与给用户增加了负担,并且对用户实例的学习也影响了信息查电子商务的发展与应用,Web半结构化信息抽取技术具有越收稿日期:2003-05-02;修回日期:2003-08-24。作者简介:张树瑜(1978-),男,博士研究生,主要研究方向为数据挖掘,智能决策支持系统等。第26卷 第5期基于Web的半结构化信息抽取技术研究·611·[2]询的准确度。因此,

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。