基于web文本挖掘的聚类算法研究

基于web文本挖掘的聚类算法研究

ID:23680429

大小:2.16 MB

页数:77页

时间:2018-11-09

基于web文本挖掘的聚类算法研究_第1页
基于web文本挖掘的聚类算法研究_第2页
基于web文本挖掘的聚类算法研究_第3页
基于web文本挖掘的聚类算法研究_第4页
基于web文本挖掘的聚类算法研究_第5页
资源描述:

《基于web文本挖掘的聚类算法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、TP399公开分类号:____________密级:______________10127UDC:____________单位代码:______________硕士学位论文论文题目:基于Web文本挖掘的聚类算法研究200902154学号:_________________________杨亚坤作者:_________________________计算机应用技术专业名称:_________________________2012年06月06日内蒙古科技大学硕士学位论文基于Web文本挖掘的聚类算法研究论文

2、题目:杨亚坤作者:_________________________柏建普副教授内蒙古科技大学指导教师:单位:协助指导教师:单位:单位:论文提交日期:2012年06月06日学位授予单位:内蒙古科技大学基于Web文本挖掘的聚类算法研究ResearchofClusteringAlgorithmBasedOnWebTextMining研究生姓名:杨亚坤指导教师姓名:柏建普内蒙古科技大学信息工程学院包头014010,中国Candidate:YangYa-kunSupervisor:BaiJian-puSchoo

3、lofInformationEngineeringInnerMongoliaUniversityofScienceandTechnologyBaoTou014010,P.R.CHINA独创性说明本人郑重声明:所呈交的论文是我个人在导师指导下进行的研究工作及取得研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写的研究成果,也不包含为获得内蒙古科技大学或其他教育机构的学位或证书所使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中做了明确的说明并表示了谢意

4、。签名:___________日期:____________关于论文使用授权的说明本人完全了解内蒙古科技大学有关保留、使用学位论文的规定,即:学校有权保留送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部或部分内容,可以采用影印、缩印或其他复制手段保存论文。(保密的论文在解密后应遵循此规定)签名:___________导师签名:___________日期:____________内蒙古科技大学硕士学位论文摘要随着计算机与互联网技术的发展,数据资源日益丰富,但是隐藏在大量数据资源中的知识却没有

5、得到充分的利用。Web挖掘可以快速有效地获取Web上有用的信息。因为Web上的信息主要以文本的形式表示,而文本聚类作为文本挖掘的一个重要分支,可以更好地发现文本数据中隐藏的类别特性。所以对Web文本进行聚类分析具有重要的实际价值。目前对于文本聚类算法的研究有许多,研究主要集中于对单一聚类算法的改进及探讨相关参数这两方面。但是单个聚类算法存在结果不稳定、随机性大的问题,现有研究趋向于集成多个聚类的结果。利用集成学习技术来改善聚类性能成为了一个新兴的研究热点。本文研究的重点是集成聚类方法。本文介绍了课题的研

6、究背景和国内外研究现状,并阐述了文本聚类及集成聚类的相关理论和关键技术。详细介绍了文本表示方法、特征选择方法、相似性测度等文本预处理技术,并对共识函数的设计方法进行了深入探讨。当前文本聚类集成方法中大多不考虑进行集成的聚类成员的质量,而当部分成员的质量较差或者有噪声干扰时会影响最终集成结果。本文在对已有单个算法和聚类集成算法进行了研究和分析之后,针对现有集成聚类算法的不足,提出了一种加权聚类集成算法。算法的主要思想是通过评价聚类成员的综合聚类质量以及分析成员之间的差异度来设计各个成员的权重,进而得到更好

7、的融合结果。最后,本文设计了一个文本聚类原型,并将提出的加权集成算法在文本中进行应用。在本文实验中,把加权的集成算法WCSCE与没有加权的集成算法CSCE以及单一K-means算法进行对比分析,验证了加权算法的可行性及有效性。关键词:数据挖掘;文本聚类;集成聚类;权重设计I内蒙古科技大学硕士学位论文AbstractWiththedevelopmentofcomputerandInternettechnology,dataresourcesarebecomingrich,buttheknowledgehi

8、ddeninlargeamountsofdataresourcesdidnotbegetthefulladvantage.WebminingcanobtainusefulinformationontheWebquicklyandefficiently.BecausetheinformationontheWebismainlyexpressedintheformoftext,textclusteringasanimportantbrancho

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。