基于核模糊c均值聚类算法的词义排歧研究

基于核模糊c均值聚类算法的词义排歧研究

ID:31359934

大小:107.50 KB

页数:6页

时间:2019-01-09

基于核模糊c均值聚类算法的词义排歧研究_第1页
基于核模糊c均值聚类算法的词义排歧研究_第2页
基于核模糊c均值聚类算法的词义排歧研究_第3页
基于核模糊c均值聚类算法的词义排歧研究_第4页
基于核模糊c均值聚类算法的词义排歧研究_第5页
资源描述:

《基于核模糊c均值聚类算法的词义排歧研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基于核模糊C均值聚类算法的词义排歧研究  摘要:该文建立了一个无监督的词义排歧系统,并将它应用于生物医学领域的语料中。该系统使用未进行人工标注的语料进行机器学习,学习过程只需预先定义标准词义的数量,不需要其他人工干预。该系统使用了一种通常使用于图像识别领域的基于核的模糊C均值算法。该文针对文本应用改进该算法并将其应用在生物医学文本的词义排歧领域,并取得了较好的效果。  关键词:词义排歧;核模糊;C均值;聚类;无监督  中图分类号:TP18文献标识码:A文章编号:1009-3044(2015)34-000

2、1-03  1研究问题简介  词义排歧任务的目标是为多义词在当前上下文环境中选择合适的义项从而消除歧义。词义排歧是自然语言处理的基础工作,它是信息抽取、机器翻译、信息搜索等自然语言处理工作的基础。6  目前主流的基于语意的词义排歧方法主要有两种:第一种是基于有指导机器学习的方法,该方法使用一部分预先标注好的语料进行机器学习,训练好的算法再之后用于测试语料测试。该类方法往往有较好的实验效果,但是存在的问题是需要大量的人工标注语料,人工语料的标注成本较高使得该方法应用有所局限。第二种方法是基于无指导机器学习

3、的方法,这种方法直接使用原始语料进行训练学习,将训练好的算法用于测试语料,直接得到结果。  2生物医学领域词义排歧研究现状  在自然语言处理中,词义排歧问题在很多领域都是一项具有挑战性的基础工作。词义排歧的准确性会直接影响机器翻译、信息检索等工作的最终效果。词义排歧算法在生物医学领域主要分为以下三种研究方法:有监督学习方法、无监督学习方法和基于知识的学习方法。  目前大量的工作是基于有监督的机器学习方法。Hatzivassiloglouetal.使用三种机器学习方法的组合,它们是简单贝叶斯,决策树以及总

4、结的规则用来训练模型用于蛋白质、基因和mRNA的词义排岐工作。Gnteretal.使用了一种统计分类的方法并且对词袋权重表示做了改进。他们将靠近歧义词的上下文赋予更高的权重,之后使用基于SVM的分类器进行分类工作,他们的将基因、蛋白质名称的词义排歧工作的准确率由79%提高到了82%。LeroyandRindflesch提出了一种有监督的词义排歧方法将歧义词的词义映射到了UMLS上词义上,该方法在生物医学词义排歧领域有广泛的影响。在非生物领域也有些学者使用了一些核函数方法来提高词义排歧的效果。  第二类方

5、法为基于特征的无监督学习方法。这类方法使用通用的词典义项作为词义排歧的目标,通常使用通用词典义项作为最终评估标准,或者使用不同词义类别的区分程度来评估词义排歧的效果。Agirreetal.提出了一种基于图的方法实现了为另外一种常见的无监督学习思路。DuanWetal.提出了一种最大边的图模型无监督方法,在之前的方法基础上准确率有所提高。6  第三类方法是基于大规模外部资源的方法。Wrenetal.提出了一个数据库包含缩略语和它们的完整义项。Jimeno-Yepesetal.提出基于知识的词义排歧方法进一

6、步提高的准确率。  目前生物医学领域词义排歧问题已经研究比较深入,各个大类方法都有学者做出了深入研究取得较佳的研究效果。我们将在前人的研究基础上开展自己的工作,将研究深入下去。  3相关算法介绍  模糊C均值算法是经典的软聚类方法,它解决了传统K均值算法中聚类分割可能存在的问题。在近期的研究当中很多的学者将基于核函数的方法融入到其他算法中,对算法的改进提高有很大的帮助。  3.1模糊C均值算法(FCM)  模糊聚类(FCM)[9]中,每个点都有一个属于各个类的度。按照模糊理论,每个点不会完全的属于某一个

7、类,而是应该不同程度的属于各个类。一个点属于离它较远的类的程度较低,属于离它较近的点的程度较高。通常我们赋给一个点X到一个聚类C的权重度uic代表X相对于C的隶属度。所有的uic之和为固定值1,参见公式(1)。针对每个X属于每个C的距离和权重的关系由一个参数m来控制。表示点i到聚类C的距离。模糊C均值聚类的方法和普通的K均值聚类方法比较类似,开始都是随机分配一个类别方案,迭代运行聚类算法,保证每次聚类的结果比上一次要优,直到算法收敛。关于确定收敛这里有个ε参数,当两次迭代结果差异小于参数ε时,我们认为算

8、法已经收敛,迭代停止。这个参数有助于我们平衡算法效果和算法消耗的时间。模糊C均值算法相关的公式定义如下:6  具体的模糊C均值(FCM)算法步骤如下:  算法1:模糊C均值算法  1)给出N个初始点和聚类个数C,生成矩阵  2)初始化U  3)使用公式(4)更新V(t)=[]  4)使用公式(3)更新U(t)=  5)重复第3步和第4步直到

9、

10、U(t)-U(t-1)

11、

12、<ε  6)返回U(t)  模糊C均值算法,有助于更好的聚类,在类的划分

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。