基于信息理论的鉴别信息测量_毕业论文

基于信息理论的鉴别信息测量_毕业论文

ID:882721

大小:3.98 MB

页数:31页

时间:2017-09-23

基于信息理论的鉴别信息测量_毕业论文_第1页
基于信息理论的鉴别信息测量_毕业论文_第2页
基于信息理论的鉴别信息测量_毕业论文_第3页
基于信息理论的鉴别信息测量_毕业论文_第4页
基于信息理论的鉴别信息测量_毕业论文_第5页
资源描述:

《基于信息理论的鉴别信息测量_毕业论文》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、毕业论文基于信息理论的鉴别信息测量[摘要]至今,在实际应用的合理、明确环境中,我们仍很难解释词所传达的大量鉴别信息的含义,并且将词之间的语义关联程度概念成功且有意义地引入到科学讨论中也不是那么容易的,本文就尝试完成这个任务。我们试图回答两个重要问题:1)鉴别信息中词所所传达的信息是什么以及我们如何测量它?2)什么是词之间的关联性以及怎样去判断?我们专注于第一个问题的研究,基于多种信息测量我们对鉴别测量进行了深入地调查研究,这个研究如今已经在很多领域得到了应用。根据各自的鉴别测量,关联性度量可以自然地确定。为阐明存在于关联性度量的潜在问题,一些关键点被

2、提出,并提出了一些解决方法。本文提供了两个在文本挖掘和信息检索方面应用的例子。研究的目的的本文的一个组成部分,它是建立一个以鉴别信息的测量为核心的统一理论框架,并实现有效的语义关联的测量。由于它的普遍性,我们的方法将被期待在多个领域被广泛应用。[索引词]统计语义分析,鉴别信息的测量,语义关联性的测量,识别信息术语,关键词提取,文本挖掘,信息检索1.引言本研究中主要有两个点:词的鉴别信息测量和词之间的语义关联性度量。1.1鉴别信息的测量词之间的鉴别信息测量(MDI)问题在科学研究的很多领域充当了重要的角色,其中包括知识表达、机器学习和翻译、计算机语言学

3、、自然语言处理、文本挖掘和注释、信息提取和检索、观点挖掘和情感分析、文件分类和综述、生物信息学和化学信息学等。本文中所用的词鉴别信息指的是属于某一种类关于确定主题的兴趣点并拒绝其他种类的词所传达的信息量。一个信息词,也常称为一个好的鉴别器,它对分类文件应该有很好的性能。31文件分类是基于它的主题内容将每个文件分到一个或多个类别中。为简化我们的讨论,本文中所用的分类是指基于一群不相关主题的相似点而将文件分类的过程,每个已知类别的文件都应该属于一类并仅仅属于这一类。根据这个观点,类别应该能明确地判定,类别之间相互排斥,文件分类是信息科学的另一个基本问题,

4、本文的研究是一个独特但相关的工作。词t’比其他词含有更多的信息量,这个观点很含糊。直觉上,具有更强识别力的词应该被认为具有更多的信息,这个观点是可以接受的。统计学上,具有更强识别力的词通常对信息的期望结果贡献更多。词可能贡献的程度被当作是词的信息量测量策略,用于计算程度的公式称为识别力测量。能够计算的潜在数学结构是从信息理论中提取出的散度测量,他们从词的分布情况判断预期散度,因此它为估算预期信息量提供一个有力的工具。1.2语义关联性的测定词之间的语义测定(MSR)问题在多个研究领域都有了一段很长的历史,我们预期基于词典的算法比基于全集的算法在捕获同义

5、词方面将得到更好的效果,因为词典(也就是词汇网络[1][2])提供了只隐含在体内的同义词信息,但是这个实验结果并不支持我们的直觉[3],原因可能是基于全集的方法通常能确定有相似同现模型的词,而并确定的词是相关的或互相相似,或者互相是完全相反的[4]。语义关联性比语义相似性更具有普遍性。相似的词由于它们词义的相似(同义)通常被认为是相关的;不相似的词通过词典的关系(上下文的关系、部分-整体的关系等),或者从语料库[5]中得到的同现统计也让其在语义上有关系。实际上,不见得一个词所支持的信息只出现在一个类别中。本文所研究的主要问题是,在所有类别中的每个词之

6、间的鉴别中最强支持类的鉴别(简称为ssc)。词t’指的是一些词t与其他词相比更紧密,这个说法还是很含糊。直观上,互相紧密联系的词应该在同类文件的相似上下文同时出现,这个说法是可接受的。统计学上,密切相关的词在分类上彼此往往有相同的最强支持类,并比其他词提供更高的相关性值到最强支持类中。潜在的正式分析是MDI,它为每个词确定其最强支持类,并测量词关于最强支持类的相关值,因而提供测量词之间的关联性的有效方法。31计算应用程序通常要求语义关联,而不仅仅是语义相似度[6]。许多应用程序被当作MSR是其主要关系的情况,例如,问答[7]、修饰语对[8]、同义词识

7、别[9]、语义关系相似性测量[3]、语篇衔接的测量[10]、潜在的语义分析[11]、文本挖掘[12]和词义消歧[13]。我们努力地提出了多种相关性测定方法:一些是应用了词典(手动建立词库)[14][15],一些是应用了共现统计(非监督学习语料库)[16][17][18][19][20][21][22][23][24][25][26][27],和一些是应用了混合技术(结合统计和词汇的综合信息)[28][29][30][25][31]。1.3本文的研究目的在实际应用的合理、明确环境中,我们仍很难解释词所传达的大量鉴别信息的含义,并且将词之间的语义关联程度

8、概念成功且有意义地引入到科学讨论中也不是那么容易的,本文就尝试完成这个任务。我们向有效的MSR试图建立一个理

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。