浅议互联网半结构化信息抽取研究

浅议互联网半结构化信息抽取研究

ID:34830202

大小:4.29 MB

页数:126页

时间:2019-03-12

浅议互联网半结构化信息抽取研究_第1页
浅议互联网半结构化信息抽取研究_第2页
浅议互联网半结构化信息抽取研究_第3页
浅议互联网半结构化信息抽取研究_第4页
浅议互联网半结构化信息抽取研究_第5页
资源描述:

《浅议互联网半结构化信息抽取研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、中国科学技术大学博士学位论文互联网半结构化信息抽取研究姓名:于琨申请学位级别:博士专业:计算机应用技术指导教师:蔡庆生;王煦法20050401中同科学技术人学博’I+学位论史摘婪摘要近年米,互联网的迅速发展导致人鲑YL-4i'I',结构化特征的信息山现(例如Email利网页笛)。对该类信息进行管理的需求促使、r结构化信息抽取成为自然语言处理领域的研究热点。米源丁且联网的、r结构化信息可以分为具有较强句法结构的、p结构化文本(例如Email平¨求JfI{简历)和』:L仃较强格式规仆l。I"J刚贝。、r自1i构化信息抽般研究划致n0特殊起渊,以及Ⅱjf琏例-{-信息

2、数埘人、信息类喇多的特_.i,导致心川_r、li纳年勾化信息的俯息舢取方“:必须同叫针刘信息数罐与信心类型具有较好的适应能力。现有的jIj结构化文本信息抽墩方法虽然具有较高的信息抽取效率,但是仅适川丁具有简单上r文芙系的文本。而对、n结构化文本的特征分析表明,一些i-结构化文本具有复杂的上F文芙系,并且常常包含!j目标信息特征相似的噪声信息。使用现有的信息抽取方法从这些文奉中j山般信息,会山现信息抽取模型与文本上。F文关系不匹配,或者抽取冗余信息等问题,导致信息抽圾方法针对信息类型的适应能力降低。此外,在现有的网页信息抽取方法中,基丁包姨器门纳的方法的抽取效率高

3、并且易于实现,闭此得剑广泛J节JL}J。但是,该方法利川网页的局部正复结构生成包姨器,无法考虑刚页的全局信息,蚓此当删贝中存以二局部结构特征相似的多类信息时.会山现由丁信息定位不准确导致的冗余信息抽取错误,导致该方法针对信息类小的适应能力F降。本}尊十论文以提高’p结构化信息抽取方法针对信息数最}Il信,皂.类烈的适应能力为目标,针对上述问题,分别刘、h结构化文本信息抽收和网页信息抽墩展开研究。贝体完成的l:作呵以概括为以F儿点:(1)仆埘、旧l;构化文本信息抽驭存在的问题.捉山舣层级IIj{信息抽墩思想:即将文本石作多层嵌套结构。分别从不同层次的文本中抽取信息

4、。并以此为基础,提出两种信息抽取方法:一种为基r分类的烈层级暇信息抽取方法,该方法在每层使Ⅲ分类模,弘实现信息抽取;另一种为将隐马尔科大模删(HMM)与分类相结合的信息抽取方法(即综台HMM与分类的舣层级联信息抽墩方法),该方法在不同层次使川不同的棋』鼬ll取信息。本文使川贝有复杂上F义笑系非包含噪卢信息灼求雌{简坜对这州黜方法进行实验。实验结果表明,基丁分类的烈层级联信息抽取方法通过层次化信息抽取,缩小了文本的抽敬范同,提高了包含噪卢信息的、li结构化文本的抽取准确率;而综台HMM与分类的舣层级联信息抽l双方法不仪进行层次化信息j山取,并且针对不同层次信息使州

5、不同信息抽取模型,肉此针对同时具有复杂上FV中冈币:}学拙术人学溥l‘学位论义摘蜚文天系和噪卢信息的!仁结构化文本,有效提高了信息抽墩的准确率年

6、

7、召闸率。(2)采川两种舣层级联信息抽收方法,台作开发了简历白动推荐系统.Polaris。该系统刺川、p}t~构化文本信恩抽墩技术,成功实现j’对简历等、r结构化文奉的£j动摊荐笛管理功能。并且,以该系统为,1£台的测试结果嵌叫,使川两利r舣层级l【跫信息抽墩方法均可以有效实现简历笛、p结构化文本的信息抽取。而且,由J.综台HMM与分炎的舣层级暇信息抽墩方法考虑lr文本的复杂上F文笑系,因此往、l!结构化文本的自动推荐

8、笛麻川tp具啊L卫§r的惠Hj前景。随后,对舣层级jfj{信息抽取方法中的分类模删进行改进,使川基丁主题特征的文本表示方法代替基丁词语的文本表示方法,以文本分类的准确性,为进一步改进般层级联信息抽取方法奠定基础。(3)针刘网页信息抽取存任的问题,利州网页结构分析,列垫丁包装器门纳的网页信息抽取方法进行改进,井捉山一种将结构分析与门纳学习相绡台的信息抽取方法(即综合结构分析与p悖自学习的网页信息抽取肖法)。该方法利Hj网页结构分析获取的全局信息生成包装器.可以针对具有特征相似的多类信息的网页,有效提高信息抽取的准确率。(4)以综合结构分析与门纳学习的网页信息抽取方

9、法为技术核心,合作开发了互联网竞争一}☆撤f’『lfi&监测系统一CIS.net。该系统不仪在互暇网上实时监洲川户感兴趣的M页,还利川信息舢取技术从网页中抽取山指定类刑的信息,,r将其存入数执}_『71i-{·。io传统的挫索引擎干¨其余信息获取系统相比,该系统Ii仅具有实时处理信息f由功能.并且由]:使川了信息抽取技术.获取的信息更加准确,还可以供Hj户巫复使_L}I,提高了信息的使川效率。针对以上研究.本文住以F方面贝有创新与特色之处:(1)提山基丁分类的域层级联信息抽敷方法,j书丁半结构化文本的信息抽取。该方法利_LI{、

10、j结构化文本的结构特征,层次化地

11、抽取信息。实验证明,针对

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。