文本间语义相关性计算与其应用地研究

文本间语义相关性计算与其应用地研究

ID:27289636

大小:4.17 MB

页数:147页

时间:2018-12-02

文本间语义相关性计算与其应用地研究_第1页
文本间语义相关性计算与其应用地研究_第2页
文本间语义相关性计算与其应用地研究_第3页
文本间语义相关性计算与其应用地研究_第4页
文本间语义相关性计算与其应用地研究_第5页
资源描述:

《文本间语义相关性计算与其应用地研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、ClassifiedIndex:TP391.2U.D.C:681.37DissertationfortheDoctoralDegreeinEngineeringRESEARCHONTEXTSEMANTICRELEVANCECALCULATIONANDITSAPPLICATIONCandidate:ZhaoYumingSupervisor:Prof.WangXiaolongAcademicDegreeAppliedfor Speciality:DoctorofEngineering:ComputerApplicationTechnologyAffiliation:SchoolofCom

2、puterScienceandTechnologyDateofDefence:June,2009Degree-Conferring-Institution:HarbinInstituteofTechnology摘要摘要在信息飞速膨胀的当今世界,文本由于其表达灵活、信息容量大以及最为 关键的人性化特点,一直是信息传播和存储的主要形式。如何对浩如烟海的文本数据进行处理,帮助人们更好地管理和使用这些数据,是如今这个信息时代需 要分析和解决的根本问题之一。而对文本之间的关系进行考查,将这些纷杂的 文本依据它们的内容进行合理的关联和区分,从而使更加复杂和深入的后续处 理能够被顺畅的应用,则成为

3、文本信息处理的首要内容。长期以来,由于计算机领域的分析者们缺乏对相关性概念的深入思考,使 得在文本间关系的考察中,以相似性度量代替相关性度量的方法长期占据主流 地位。尽管在一些情况下,相似性度量能够在一定程度上模拟相关性度量。但 是,在很多着重强调考察文本之间关联程度而非相似程度的应用当中,由于此 类方法的出发点与应用的关注目标之间存在偏差,因此往往不能很好的满足应 用对计算效果的要求。本文借助认知科学与信息科学等多个领域的分析者对相关概念的实质所进 行的深入分析,在现有的技术条件下,对用户的一般性知识基础加以利用,在 语义层面上通过对系统角度的相关性计算模式进行改进,使之向用户角度

4、的相 关性计算靠近,对人类的相关判断行为进行模拟。针对语句和文档这两种不同 规模和级别的文本,本文对它们的相关性计算方法分别进行了分析,并探讨了 它们各自在相关领域中的应用。具体内容包括以下几个方面。面向自动问答系统中候选答案语句抽取的任务,提出了基于系统相似理论 的加强型系统相似模型,用以对问答系统中用户查询问句与候选文档问句之间 的关系进行计算。该模型引入候选答案要素,赋予其相应的模拟相似度,使其 对语句之间相似度产生正向贡献,进而实现相似性度量到相关性度量的转变, 更加准确地满足问答系统的需求。以该语句相关性计算方法为主要创新点的问 答系统在目前国际权威的问答系统评测中获得了优

5、异的评测成绩,同时,在此 评测数据集上针对该方法的测试结果也体现了该方法性能的优越性。除了对语句一级的文本间语义相关性计算方法进行分析,本文对文档之间 的相关性度量也提出了新的计算方法。利用文档所具有的词汇集聚特性,借助 语义辞典等知识源,本文对文档中词语间的语义链接关系进行了定义与考察,-I-哈尔滨工业大学工学博士学位论文并以之为基础提出了文档的词汇链形式化表示、词汇链权重计算,以及相应的文档匹配等方法。在对人类相关性判断行为的特点进行分析的基础上,提出了利用文本分类对相关性计算效果进行考察的评价方法。实验证明,基于词汇集聚的文档相关性计算方法取得了良好的计算效果。在此基础之上,本

6、文提出了可调节距离的词汇间链接关系定义方法,并且对文档词汇集聚所形成的词簇的内部结构做了进一步的分析,提出了对词簇结构信息加以利用的基于结构化词汇集聚的文档相关性计算方法。在相关实验中,该计算方法的优越性得到了充分的证实。此外,面向药物开发过程中,药代动力学模型训练所需的相关参数缺乏的问题,本文对基于词汇集聚的文本相关性计算方法在生物医药领域药代动力学参数相关文档过滤中的应用进行了分析,同时包括了系统的结构设计以及针对应用领域的特点所采取的特殊的文本预处理方法。在针对酶作用物、引物和抑制剂三个类别的8种药物的实验中,以基于词汇集聚的文本相关性计算方法为核心的文本过滤系统取得了良好的计

7、算效果,对提高生物医药领域药品开发过程的效率具有非常重大的实际意义。关键词:相关性;语义;词汇集聚;文本过滤;自动问答-II-AbstractAbstractIntheworldwithenormousinformation,textistheimportantformatforinformationdistributingandstorage,foritsflexibility,capabilityandconvenience.Howtoprocesst

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。