基于统计滚雪球模型的知识挖掘理论与方法

基于统计滚雪球模型的知识挖掘理论与方法

ID:33166358

大小:6.56 MB

页数:100页

时间:2019-02-21

基于统计滚雪球模型的知识挖掘理论与方法_第1页
基于统计滚雪球模型的知识挖掘理论与方法_第2页
基于统计滚雪球模型的知识挖掘理论与方法_第3页
基于统计滚雪球模型的知识挖掘理论与方法_第4页
基于统计滚雪球模型的知识挖掘理论与方法_第5页
资源描述:

《基于统计滚雪球模型的知识挖掘理论与方法》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、中国科学技术大学博士学位论文基于统计滚雪球模型的知识挖掘理论与方法姓名:刘晓江申请学位级别:博士专业:信号与信息处理指导教师:俞能海;李明镜2011-05-05摘要摘要随着互联网技术的迅猛发展,互联网已成为一个巨大的信息源,其中含有大量的关于现实世界命名实体的信息。这些命名实体包括机构、地点和人物等,既涵盖了名人也涉及日常生活中的普通人。命名实体搜索引擎从大量的网页中挖掘出命名实体,并总结出与用户查询的命名实体相关的知识,直接返回给用户。与普通搜索引擎返回的非结构化网页相比,这种搜索引擎更快捷、更直观,已成为工业界和学术界关注的热点之一。要构建既快又

2、准的命名实体搜索引擎,就必须对命名实体知识进行深度挖掘。从网页中自动识别命名实体、对命名实体进行摘要和为命名实体建立联系并挖掘出其关系是实体知识挖掘的三个关键科学问题。本文围绕构建命名实体搜索中的这三个科学问题展开了深入的研究,提出了一个基于统计学习的自学习模型——统计滚雪球模型,弥补了现有自学习模型的不足。具体来说,本文的主要研究内容和创新之处如下:1.分析互联网搜索的需求,充分调研了互联网知识挖掘的特点,重点讨论了基于自然语言特征的有监督学习模型和基于模板的自学习模型的知识挖掘算法;分析了这两类方法的基本思想,讨论了每类模型代表性的工作,并发现了

3、其中的不足之处。2.提出了一种基于自学习的关系抽取模型:统计滚雪球模型。该模型使用基于统计的模板评价函数替代传统的基于手动构造的模板评价函数,使之能采用更高效的模板特征;同时采用马尔可夫逻辑网络作为底层的统计模型,从而融入各级关系联合抽取,充分地利用信息达到提高抽取性能的目的。在互联网真实数据上的关系抽取实验表明,相对于传统的自学习方法,统计滚雪球方法能在保持相同准确率的前提下,明显提升抽取的召回率。3.提出了一种迭代式命名实体识别和关系抽取的联合抽取模型。该模型扩展了实体识别的条件随机场模型,将基于关系抽取的特征加入到实体识别的过程中,从而提高实体

4、识别的性能;同时采用迭代挖掘的方法,在命名实体识别和关系抽取两个任务之间建立联系,使各自的结果能被另一个任务在决策时使用。在互联网真实数据下的实验表明,相对于传统的顺序式知识挖掘模型,联合挖掘模型对实体识别和关系抽取任务的性能都有较大提高。4.提出了一种基于统计滚雪球模型的命名实体摘要模型:摘要滚雪球。该模型充分利用互联网数据中命名实体的事实与摘要之间的对偶性,同时完成IX摘要命名实体的事实挖掘与摘要排序;同时采用自学习统计滚雪球框架,可以从少量种子出发,迭代式地同时增加命名实体事实与摘要。在互联网真实数据上的实验和用户调研表明,该模型在事实挖掘与摘

5、要排序问题上都取得了明显改进,也证明了统计滚雪球模型具有很广的适用性。5.构建了基于10亿网页的中文命名实体搜索引擎人立方和基于30亿网页的英文命名实体搜索引擎EntityCube。这两个命名实体搜索引擎能够在大规模互联网数据中挖掘出关于命名实体的各种有用信息,获得了巨大的成功和很好的反响。本文提出的关系抽取方法已经应用到实际系统之中,其他方法也都经过了真实系统数据的验证。最后,对全文工作进行了总结,并对下一步的研究方向进行了展望。关键词:知识挖掘,命名实体搜索,自学习,关系抽取,命名实体识别,命名实体摘要XAbstractABSTRACTWitht

6、herapiddevelopmentofInternettechnologies,theWorldWideWebhasbeengrowingrapidlyasahugeknowledgerepository,containingvariouskindsofvaluableinformationaboutreal-worldnamedentities.Thesenamedentitiescontainorganizations,locationsandpersons,coveringfromcelebritiestotheeverydayindivid

7、uals.NamedentitysearchenginesautomaticallyminethenamedentitiesfromWebpages,andsummarizeknowledgeforthembasedonthetheirWebappearances,whichcouldbedirectlyreturnedtousers.ComparedwiththegeneralsearchengineswhichcanonlyreturntheunstructuredWebpages,thistypeofsearchenginesprovidesf

8、asterandmoredirectuserexperience,andhasbecomeagreatres

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。