基于向量空间模型的文本聚类算法

基于向量空间模型的文本聚类算法

ID:13133487

大小:136.50 KB

页数:7页

时间:2018-07-20

基于向量空间模型的文本聚类算法_第1页
基于向量空间模型的文本聚类算法_第2页
基于向量空间模型的文本聚类算法_第3页
基于向量空间模型的文本聚类算法_第4页
基于向量空间模型的文本聚类算法_第5页
资源描述:

《基于向量空间模型的文本聚类算法》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、基于向量空间模型的文本聚类算法文章分类:综合技术转自:http://edu.codepub.com/2009/0910/15270.php1文本聚类研究现状Internet已经发展为当今世界上最大的信息库和全球范围内传播信息最主要的渠道。随着Internet的大规模普及和企业信息化程度的提高,各种资源呈爆炸式增长。在中国互联网络信息中心(CNNIC)2007年1月最新公布的中国互联网络发展状况统计报告中显示,70.2%的网络信息均以文本形式体现。对于这种半结构或无结构化数据,如何从中获取特定内容的信息和知识成为摆在人们面前的一道难题。近年来,

2、文本挖掘、信息过滤和信息检索等方面的研究出现了前所未有的高潮。作为一种无监督的机器学习方法,聚类技术可以将大量文本信息组成少数有意义的簇,并提供导航或浏览机制。文本聚类的主要应用点包括:(1)文本聚类可以作为多文档自动文摘等自然语言处理应用的预处理步骤。其中比较典型的例子是哥伦比亚大学开发的多文档自动文摘系统Newsblaster[1]。该系统将新闻进行聚类处理,并对同主题文档进行冗余消除、信息融合、文本生成等处理,从而生成一篇简明扼要的摘要文档。(2)对搜索引擎返回的结果进行聚类,使用户迅速定位到所需要的信息。比较典型的系统有Infonet

3、wareRealTermSearch。Infonetware具有强大的对搜索结果进行主题分类的功能。另外,由CarrotSearch开发的基于Java的开源Carrot2搜索结果聚合聚类引擎2.0版也是这方面的利用,Carrot2可以自动把自然的搜索结果归类(聚合聚类)到相应的语义类别中,提供基于层级的、同义的以及标签过滤的功能。(3)改善文本分类的结果,如俄亥俄州立大学的Y.C.Fang等人的工作[2]。(4)文档集合的自动整理。如Scatter/Gather[3],它是一个基于聚类的文档浏览系统。2文本聚类过程文本聚类主要依据聚类假设:同

4、类的文档相似度较大,非同类的文档相似度较小。作为一种无监督的机器学习方法,聚类由于不需要训练过程、以及不需要预先对文档手工标注类别,因此具有较高的灵活性和自动化处理能力,成为对文本信息进行有效组织、摘要和导航的重要手段。文本聚类的具体过程如图1所示。图1文本聚类过程2.1文本信息的预处理文本聚类的首要问题是如何将文本内容表示成为数学上可分析处理的形式,即建立文本特征,以一定的特征项(如词条或描述)来代表目标文本信息。要建立文本信息的文本特征,常用的方法是:对文本信息进行预处理(词性标注、语义标注),构建统计词典,对文本进行词条切分,完成文本信

5、息的分词过程。2.2文本信息特征的建立文本信息的特征表示模型有多种,常用的有布尔逻辑型、向量空间型、概率型以及混合型等。其中,向量空间模型(VectorSpaceModel,VSM)是近几年来应用较多且效果较好的方法之一[4]。1969年,GerardSalton提出了向量空间模型VSM,它是文档表示的一个统计模型。该模型的主要思想是:将每一文档都映射为由一组规范化正交词条矢量张成的向量空间中的一个点。对于所有的文档类和未知文档,都可以用此空间中的词条向量(T1,W1,T2,W2,…,Tn,Wn)来表示(其中,Ti为特征向量词条;Wi为Ti的

6、权重)[5]。一般需要构造一个评价函数来表示词条权重,其计算的唯一准则就是要最大限度地区别不同文档。这种向量空间模型的表示方法最大的优点在于将非结构化和半结构化的文本表示为向量形式,使得各种数学处理成为可能。2.3文本信息特征集的缩减VSM将文本内容表示成数学上可分析处理的形式,但是存在的一个问题是文档特征向量具有惊人的维数。因此,在对文本进行聚类处理之前,应对文本信息特征集进行缩减。通常的方法是针对每个特征词条的权重排序,选取预定数目的最佳特征作为结果的特征子集。选取的数目以及采用的评价函数都要针对具体问题来分析决定。降低文本特征向量维数的

7、另一个方法是采用向量的稀疏表示方法。虽然文本信息特征集的向量维数非常大,但是对于单个文档,绝大多数向量元素都为零,这一特征也决定了单个文档的向量表示将是一个稀疏向量。为了节省内存占用空间,同时加快聚类处理速度,可以采用向量的稀疏表示方法。假设确定的特征向量词条的个数为n,传统的表示方法为而(T1,W1,T2,W2,…,Tn,Wn)稀疏表示方法为(D1,W1,D2,W2,Dp,…,Wp,n)(Wi≠0)。其中,Di为权重不为零的特征向量词条;Wi为其相应权重;n为向量维度。这种表示方式大大减小了内存占用,提升了聚类效率,但是由于每个文本特征向量

8、维数不一致,一定程度上增加了数学处理的难度。2.4文本聚类在将文本内容表示成数学上可分析处理的形式后,接下来的工作就是在此数学形式的基础上,对文本进行聚类处理。文本

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。