浅议互联网半结构化信息抽取研究

ID：34830202

大小：4.29 MB

页数：126页

时间：2019-03-12

资源描述：

《浅议互联网半结构化信息抽取研究》由会员上传分享，免费在线阅读，更多相关内容在学术论文-天天文库。

1、中国科学技术大学博士学位论文互联网半结构化信息抽取研究姓名：于琨申请学位级别：博士专业：计算机应用技术指导教师：蔡庆生;王煦法20050401中同科学技术人学博’I+学位论史摘婪摘要近年米，互联网的迅速发展导致人鲑YL-4i'I',结构化特征的信息山现(例如Email利网页笛)。对该类信息进行管理的需求促使、r结构化信息抽取成为自然语言处理领域的研究热点。米源丁且联网的、r结构化信息可以分为具有较强句法结构的、p结构化文本(例如Email平¨求JfI{简历)和』：L仃较强格式规仆l。I"J刚贝。、r自1i构化信息抽般研究划致n0特殊起渊，以及Ⅱjf琏例-{-信息

2、数埘人、信息类喇多的特_．i，导致心川_r、li纳年勾化信息的俯息舢取方“：必须同叫针刘信息数罐与信心类型具有较好的适应能力。现有的jIj结构化文本信息抽墩方法虽然具有较高的信息抽取效率，但是仅适川丁具有简单上r文芙系的文本。而对、n结构化文本的特征分析表明，一些i-结构化文本具有复杂的上F文芙系，并且常常包含!j目标信息特征相似的噪声信息。使用现有的信息抽取方法从这些文奉中j山般信息，会山现信息抽取模型与文本上。F文关系不匹配，或者抽取冗余信息等问题，导致信息抽圾方法针对信息类型的适应能力降低。此外，在现有的网页信息抽取方法中，基丁包姨器门纳的方法的抽取效率高

3、并且易于实现，闭此得剑广泛J节JL}J。但是，该方法利川网页的局部正复结构生成包姨器，无法考虑刚页的全局信息，蚓此当删贝中存以二局部结构特征相似的多类信息时．会山现由丁信息定位不准确导致的冗余信息抽取错误，导致该方法针对信息类小的适应能力F降。本}尊十论文以提高’p结构化信息抽取方法针对信息数最}Il信，皂．类烈的适应能力为目标，针对上述问题，分别刘、h结构化文本信息抽收和网页信息抽墩展开研究。贝体完成的l：作呵以概括为以F儿点：(1)仆埘、旧l；构化文本信息抽驭存在的问题．捉山舣层级IIj{信息抽墩思想：即将文本石作多层嵌套结构。分别从不同层次的文本中抽取信息

4、。并以此为基础，提出两种信息抽取方法：一种为基r分类的烈层级暇信息抽取方法，该方法在每层使Ⅲ分类模，弘实现信息抽取；另一种为将隐马尔科大模删(HMM)与分类相结合的信息抽取方法(即综台HMM与分类的舣层级联信息抽墩方法)，该方法在不同层次使川不同的棋』鼬ll取信息。本文使川贝有复杂上F义笑系非包含噪卢信息灼求雌{简坜对这州黜方法进行实验。实验结果表明，基丁分类的烈层级联信息抽取方法通过层次化信息抽取，缩小了文本的抽敬范同，提高了包含噪卢信息的、li结构化文本的抽取准确率；而综台HMM与分类的舣层级联信息抽l双方法不仪进行层次化信息j山取，并且针对不同层次信息使州

5、不同信息抽取模型，肉此针对同时具有复杂上FV中冈币：}学拙术人学溥l‘学位论义摘蜚文天系和噪卢信息的!仁结构化文本，有效提高了信息抽墩的准确率年

6、

7、召闸率。(2)采川两种舣层级联信息抽收方法，台作开发了简历白动推荐系统．Polaris。该系统刺川、p}t～构化文本信恩抽墩技术，成功实现j’对简历等、r结构化文奉的￡j动摊荐笛管理功能。并且，以该系统为，1￡台的测试结果嵌叫，使川两利r舣层级l【跫信息抽墩方法均可以有效实现简历笛、p结构化文本的信息抽取。而且，由J．综台HMM与分炎的舣层级暇信息抽墩方法考虑lr文本的复杂上F文笑系，因此往、l!结构化文本的自动推荐

8、笛麻川tp具啊L卫§r的惠Hj前景。随后，对舣层级jfj{信息抽取方法中的分类模删进行改进，使川基丁主题特征的文本表示方法代替基丁词语的文本表示方法，以文本分类的准确性，为进一步改进般层级联信息抽取方法奠定基础。(3)针刘网页信息抽取存任的问题，利州网页结构分析，列垫丁包装器门纳的网页信息抽取方法进行改进，井捉山一种将结构分析与门纳学习相绡台的信息抽取方法(即综合结构分析与p悖自学习的网页信息抽取肖法)。该方法利Hj网页结构分析获取的全局信息生成包装器．可以针对具有特征相似的多类信息的网页，有效提高信息抽取的准确率。(4)以综合结构分析与门纳学习的网页信息抽取方

9、法为技术核心，合作开发了互联网竞争一}☆撤f’『lfi＆监测系统一CIS．net。该系统不仪在互暇网上实时监洲川户感兴趣的M页，还利川信息舢取技术从网页中抽取山指定类刑的信息，，r将其存入数执}_『71i-{·。io传统的挫索引擎干¨其余信息获取系统相比，该系统Ii仅具有实时处理信息f由功能．并且由]：使川了信息抽取技术．获取的信息更加准确，还可以供Hj户巫复使_L}I，提高了信息的使川效率。针对以上研究．本文住以F方面贝有创新与特色之处：(1)提山基丁分类的域层级联信息抽敷方法，j书丁半结构化文本的信息抽取。该方法利_LI{、

10、j结构化文本的结构特征，层次化地

11、抽取信息。实验证明，针对

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 126



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

浅议互联网半结构化信息抽取研究

浅议互联网半结构化信息抽取研究

相关文章

相关标签