基于概念语义分析的文本聚类研究

基于概念语义分析的文本聚类研究

ID:32741259

大小:10.18 MB

页数:33页

时间:2019-02-15

基于概念语义分析的文本聚类研究_第1页
基于概念语义分析的文本聚类研究_第2页
基于概念语义分析的文本聚类研究_第3页
基于概念语义分析的文本聚类研究_第4页
基于概念语义分析的文本聚类研究_第5页
资源描述:

《基于概念语义分析的文本聚类研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、东北师范大学硕士学位论文不同类别间的事物相似度尽量小哺。聚类作为一种非监督型的知识发现方法,不需要任何事先的训练数据,而仅仅按照相似度原则,将一组数据划分为事先未知的分类状态,因而是一种有效的,得到广泛应用的模式识别与知识发现的方法。在文本聚类中,短文档聚类存在高维稀疏性问题,导致了文档的查全率低下,本文基于这一问题在知网结构下进行概念语义分析,提出节点关键词映射知网关键词的匹配法,来解决高维稀疏性问题。文本聚类的方法大致可分为层次凝聚法和平面划分法两种类型盯’83传统的基于文本关键字的向量空间模型(VSM),用m个关键字

2、构成的文档向量Dj={dli,d2j,⋯,“i)表示文档集中的一个文档,这种方法存在一定的问题。表现在向量空间应用矢量内积计算文本向量空间的相似度,把词语看成了独立的元素,词语之间没有联系,不能明确表达文本语义内容。其次,语义的向量空间模型只是对文本中存在的词语进行匹配,忽略词语中的一词多义以及一个文本语义的多种表示方法。知网(HowNet)是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库,知网是面向计算机的双语常识知识库。目前,词条集合并不能完全准确

3、地反映文本的语义,可以通过改变文本聚类的途径来对文本的语义进行聚类。文本通过知网的内容来构建概念语义树,消除一词多义和一义多词及一个文本语义的内容可以有多种表达方式等问题的歧义性,将语义相近的文档实现基于内容的聚集。文本通过知网的内容来构建概念语义树,进行概念语义分析,消除一词多义、一义多词及一个文本语义内容可以有多种表达方式等问题的歧义性,并通过细粒度计算来解决稀疏性问题,提高查全率,从而将语义相近的文档实现基于内容的聚类本文。本文的结构如下:第一章,绪论主要介绍了研究背景及意义、文本聚类概念及本文的研究目标及主要工作;

4、第二介绍了文本聚类的主要因素;第三章:语义树及语义的相关度问题;第四章:介绍概念离线语义树和动态语义树的构建、查询及公式;第五章:实验部分,给出了实验结果以及实验分析,并对该工作进行总结,并提出了进一步研究设想,从而为后续研究提供了基本思路。2东北师范大学硕士学位论文1.1研究背景及意义第一章绪论21世纪,计算机技术和网络通信技术正在推动人类各方面的进步,互联网已经成为人们不可缺少的信息来源。目前,网络资源数据增长速度飞快,人们要获取所需的信息要花费很多时间,所以,如何快速准确获取信息成为焦点。传统的信息搜索技术存在着这局

5、限性,已经不能适应目前增加的大量文本数据处理,文本挖掘(TextMining)成了数据挖掘的一个很有前途的研究方向。文本处理的特殊性,不能像数据库中的数据,文本处理需要有自然语言理解的支持,目前机器对自然语言理解还存在很多歧义问题,因此文本挖掘还不能很好的表达理解的层次。文本数据挖掘中的概念与方法有很多是直接来源于传统的数据挖掘技术。数据挖掘技术是一种从大量数据中提取其潜在信息的方法论。聚类分析是文本挖掘的主要手段之一,他的主要作用是:1)通过对检索结果的聚类,将检索到的大量网页以一定的类别提供给用户,使用户能快速定位查找

6、的目标;2)自动生成分类目录;3)通过相似网页的归并便于分析网页的共性。其中的一个重要的应用方面就是聚类。对于文本数据来说,聚类就是尝试将不同的文档按照其内在的信息进行归类,使得聚类之后的各类文档,在同一个类中文档具有最大的相似性,而处于不同的类中的文档具有最大的差异性n川。从数学角度来看,文本聚类是一个映射的过程,它将未标明类别的文本映射到根据文本内容自发形成的类别当中,该映射可以是一对一映射,也可以是一对多的映射,因为通常一篇文本可以同多个类别相关联。用数学公式(卜1)表示如下:厂:彳一B;(卜1)其中,么为等待聚类的

7、文本集合,B为聚类系统中的类别集合;文本聚类作为基础研究,对已有网络信息资源的组织和检索起到很大作用。过去都是通过人工完成文档分类,费时费力。利用计算机进行文本分类是一种有效的方法。综上所述,文本聚类随着网络快速发展而得到重视和发展,文本聚类技术将成为人工智能领域一个重要的研究课题。目前,国内很多学者对中文文本分类进行了深入研究,如黄萱箐H5。等提出一种基于机器学习的、独立于语种的文本分类模型。周水庚H明等在论述隐含语义索引的理论基础,研究了隐含语义索引在中文文本处理中的应用。李荣陆H铂等使用最大熵模型对中文文本分类进行研

8、究。张剑H副等提出一种以wbrdNet语言本体库为基础,建立文本的概念向量空间模型作为文本特征向量的特征提取方法。对于中文文本分类的研究已经做了很多工作,中文与英文存在本质上的不同,中文存在多义词、同义词等等复杂情况,但是对东北师范大学硕士学位论文于多义词、同义词等问题也是可以解决的,本文提出了一种方法

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。