聚类分析在文本挖掘中的应用与研究

聚类分析在文本挖掘中的应用与研究

ID:35095757

大小:5.67 MB

页数:63页

时间:2019-03-17

聚类分析在文本挖掘中的应用与研究_第1页
聚类分析在文本挖掘中的应用与研究_第2页
聚类分析在文本挖掘中的应用与研究_第3页
聚类分析在文本挖掘中的应用与研究_第4页
聚类分析在文本挖掘中的应用与研究_第5页
资源描述:

《聚类分析在文本挖掘中的应用与研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、分类号密级硕士学位论文题目:聚类分析在文本挖掘中的应用与研究英文并列题目:Cluster Analysis Application andResearch of Text Mining研究生:盛华专业:计算机科学与技术研究方向:计算机软件与理论导师:张桂珠指导小组成员:学位授予日期:2016年6月答辩委员会主席:张曦煌江南大学地址:无锡市蠡湖大道1800号二○一六年六月摘要摘要Web2.0时代的到来,使得网络上的文本信息呈现出爆炸性的增长,人们在对互联网上所需信息查阅整理所花费的精力时间也越来越多,导致如何从这些海量有噪音的文本中及时准确地搜索

2、到对用户有用的信息已是一种迫不及待需要解决的问题。在这种背景下,运用文本聚类技术对海量文本信息进行信息过滤和自动归档,并且从这些信息中提取出主要的文本特征,可以大大地减少人工查阅整理文档的工作量,提高文档检索的效率,是具有非常深远的应用前景与现实意义。论文研究快速密度峰值搜索算法(CFSFDP)并对其进行改进,提出了基于势能熵的快速密度峰值搜索算法(PE-CFSFDP);并在此基础上研究提出一种融合K-means和改进的快速密度峰值搜索的算法,在UCI数据集以及搜狗文本语料库上验证了改进的文本聚类算法具有很好的稳定性以及准确率,详细内容如下:第

3、一,快速密度峰值搜索算法(CFSFDP)是基于密度的聚类算法,针对该算法对于截断距离的人工设置引发的局部密度计算问题、对于小数据集算法聚类效果很差以及样本归类出现某一个样本分配错误引发的一连串的样本分配错误以及类簇中有样本重叠等缺点。论文提出了一种数据域的势能熵概念来自动定义样本局部密度度量函数的优化算法(PE-CFSFDP),根据势能与熵的综合指标来客观地确定截断距离,更加合理地计算了局部密度,使得聚类效果更加科学。第二,针对K-means算法随机选取k个点作为初始聚类中心进行迭代操作导致聚类结果的不稳定,论文提出了一种融合了PE-CFSFD

4、P与K-means的K-CFSFDP聚类算法。利用PE-CFSFDP来进行初始化操作刻画聚类中心和自动选取k值,弥补了k-means算法需提前给定聚类个数、初始聚类中心选取敏感和易陷入局部极小值等问题。在UCI数据集和人工模拟数据集上实验表明,融合算法不仅能得到较好的聚类结果,而且聚类很稳定。第三,论文采用了搜狗文本语料库,通过中文分词器分词、去除停用词和特征抽取(潜在语义索引)进行文本预处理,然后按照TFIDF来甄别特征词的影响程度,从而建立VSM模型,并利用融合的K-CFSFDP算法进行文本聚类,通过查准率、召回率和F值对算法的聚类结果进

5、行了比较与分析。实验表明改进的聚类算法在文本挖掘应用中的聚类效果、准确性以及稳定性方面都有很大的提升。关键词:文本聚类;k-means算法;快速密度峰值搜索算法;文本挖掘IAbstractAbstractThe arrival of Web2.0 era, making the text information on the network showing explosive growth, people in the information required on the Internet to organize Now it takes m

6、ore and more energy and time, lead to information on how these massive noise from text timely and accurately search for information useful to the user is required to wait one kind of problem. In this context, the use of text clustering technology for large text information f

7、iltering and automatic archiving, and extracts the main text feature from this information, can greatly reduce the manual workload Now finishing the document, improve document retrieval efficiency is a very far-reaching significance and application prospects. By studying the

8、 density of fast peak search algorithm (CFSFDP) and it is proposed to impro

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。