web信息提取技术研究与应用new

web信息提取技术研究与应用new

ID:34512125

大小:2.02 MB

页数:53页

时间:2019-03-07

web信息提取技术研究与应用new_第1页
web信息提取技术研究与应用new_第2页
web信息提取技术研究与应用new_第3页
web信息提取技术研究与应用new_第4页
web信息提取技术研究与应用new_第5页
资源描述:

《web信息提取技术研究与应用new》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、中国科学院计算技术研究所硕士学位论文Web信息提取技术研究与应用姓名:张玲申请学位级别:硕士专业:计算机应用指导教师:高文20030601竺!堕皇丝壁垫查型塑.!!竺旦壁——摘要Web信息提取是指从Web文档中自动提取感兴趣信息的过程。它主要用在元搜索、信息代理等场合。本义首先介绍了Web信息提取出现的背景和发展历史,详细阐述了Web信息提取的特征选择、提取知识表达、主要学习算法、评价标准,并介绍了Web信息提取的典型系统。对于“列表式”信息条目的提取,本文提出一种基于HTML结构树的提取算法.利用HTMl,标记出现的

2、规律,生成HTI口L结构树,并在结构树中寻找目标信息所在的最大扇出了树,然后再对此子树利用两个启发式策略,进行记录的划分。本算法提取“个人主页”中“论文列表”信息,达到了82.2%的准确率。对于密集型信息提取任务,本文提出一种基于隐马尔可夫模型的信息提取算法。该算法主要解决隐马尔可夫模型用于密集型信息提耿的结构学习问题。利用文法推断中的InferringTansducers算法提取文本的符号特征,并提出一种状态合并途径生成隐马尔可夫模型的拓扑结构,然后利用最大似然方法学习隐马尔可夫模型的概率分布,在识别时,采用修改的v

3、iterbi算法。本算法对“个人主页”中单条的论文信息进行进~步解析,达到了80%以上的准确率。对于稀疏型信息提取,本文实现了一种基于关系学习的信息提取算法。本算法利用三种文本特征:简单token特征、关系特征和HTML结构特征,利用一个自顶向下的关系学习算法对样本进行归纳,生成用于提取的一阶逻辑规则。本算法用于“个人主页”的人名和Email的提取,达到了较好的效果。实验结果表明,该算法对于稀疏型信息提取是一种有效的方法,只需要很少的样本数就可以学习出有效规则,并且学习结果易于理解。另外,本文分析了该算法存在的缺陷以及

4、改进方向。关键词:Web信息提取文法推断隐马尔可夫模型ttTML结构树关系学习————坐!!i皇堡壁!!生旦!堕!!!!L一——AbstractWebinformationextractionistheprocessofextractinginterestinginformatjonfromWebdocuments.Thistechnologyismainlyusedinmeta—searchingandinformationagent.Thispaperintroducedthebackgroundofinforma

5、tionextractionandit’shistory,andintroducedthefeature—selecting,extractionknowledgeexpressionIearningalgorithmsandevaluationstandards,andintroducedthetypicalsys:temsofWebinformationextraction.For1ist—likeinformation,thispaperputforwardaalgorithmbasedonhtmlstructu

6、retree.ThealgorithmbuildthestructuretreebyanalyzingthemodelofHTMLtag,foundthebiggestfan—outsubtreewithinwhichthetargetinformationoccured,andappliedtwoheuristicstrategiestothesubtreefordividingtherecords.Intheexperimentofextracting“publications’’informationfrompe

7、rsonalhomepage.theprecisionwasabove82.2%.Fordenseinformationextraction,thispaperputforwardaHMM—basedalgotithm.ThisalgorithmresolvedthestructurelearningofHMMfordenseinformationextraction.ItusedtheInferringTansducersalgorithmingrammar1nferencetolearnthetextfeature

8、s,putforwardaapproachofstate—mergingforbuildingthemlM,learnedtheprobabilitiesdiStributionthroughmaxJikelihoodapproachandextractedinformationthroughavariationofviterbi

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。