基于web页面特征的聚类算法研究及实现

基于web页面特征的聚类算法研究及实现

ID:34040273

大小:2.72 MB

页数:67页

时间:2019-03-03

基于web页面特征的聚类算法研究及实现_第1页
基于web页面特征的聚类算法研究及实现_第2页
基于web页面特征的聚类算法研究及实现_第3页
基于web页面特征的聚类算法研究及实现_第4页
基于web页面特征的聚类算法研究及实现_第5页
资源描述:

《基于web页面特征的聚类算法研究及实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、太原理工大学硕士学位论文基于Web页面特征的聚类算法研究及实现姓名:李元俊申请学位级别:硕士专业:计算机应用技术指导教师:陈俊杰20090501太原理工大学硕士研究生学位论文基于WEB页面特征的聚类算法研究及实现摘要随着Internet/Web技术的快速普及和迅猛发展,Web数据已成为当今世界第一大“数据仓库”,怎样从海量的Web数据中发现知识,造福于人类,是Web数据挖掘这项技术被时代赋予的使命。然而,Web数据是异构的、非结构化的、动态变化的,这就要求我们首先将Web页面分类(聚类),然后对不同的分类设计分装器(Wrapper),进行信息抽取,最后对得到的结

2、构化数据进行分析和知识发现;由此可见Web聚类这项技术在数据挖掘中的重要地位。目前,基于Web页面聚类的研究领域,已经取得了很多成果;但是,真正将Web聚类应用到Web内容挖掘领域,使得聚类结果服务于信息抽取和知识发现的研究成果并不是很多,主要有基于文本内容的Web页面主题聚类和基于Web页面结构的聚类;前者仅考虑Web页面的内容信息,聚类时间效率低,而后者巧妙的利用了Web页面的组织结构,但是没有利用Web页面提供的内容信息,聚类结果的实用性和准确性被降低;如果能够将两者结合,则一定能够提高聚类质量,这也是本文讨论的重点。本文的主要工作和意义在于,分析了基于W

3、eb页面的聚类算法,并在此基础上阐述了一种基于Web页面链接结构和标签信息的聚类方法CWPBLT(ClusteringWebPagesBasedontheirLinksandTags),它是在总结前人有关Web聚类工作的基础上拓展出来的一种Web页面聚类方法,它在聚类的过程中同时兼顾了Web页面结构和Web标签提供的内容信息,采用了最小描述长度法(MDL)和相似度区间计算法(SRC)对Web页面的初步分组进行二次聚类,提高了聚类的效率和准确性;得到的聚类结果是WebI太原理工大学硕士研究生学位论文站点的分类模型,从而为设计分装器提供训练样本,保证整个数据挖掘过程

4、顺利进行;同时,该方法采用了Agent思想进行程序设计,使得聚类过程更加智能、更加高效。关键字:Web聚类,Web挖掘,链接结构,分装器,最小描述长度II太原理工大学硕士研究生学位论文RESEARCHANDREALIZATIONOFWEBCLUSTERINGALGORITHMBASEDONTHEIRPAGE’SFEATURESABSTRACTAsInternet/Webtechnologygainingfastpopularization,WebDatahasrisenasthelargest“datawarehouse”intheworld.Consequen

5、tly,itistheobligatorydutyforustodevelopWebminingtechnologytoexplorethemethodsofsearchinginformationfromtheabundantdata.However,sinceWebDataareheterogeneous,unstructuredanddynamic,severalproceduresshouldbeheldtoobtainthestructureddata.Wehavetoclassify(cluster)Webpagesandthendesigndiff

6、erentWrappersforeachclassificationtoscreenstructureddatawhichwillbeanalyzedinordertoobtainthespecificinformation.ThusitcanbeseenthatWebClusteringplaysacriticalroleinDataMiningTechnology.TillnowtherearemanyresearchachievementsofWebPagesBasedMining.Whereasit’sstillnewtoapplyWebClusteri

7、ngtoWebContentMiningtogettheclustering,whichisinturnusedtoscreenthedataandobtaintheinformation.Theexistingresearchesrevolvedaroundtwostudies:WebpagetextbasedTopicClusteringandWebPageStructurebasedclustering.Theformerisinefficientsinceitconsidersonlythecontentinformationofawebpage.And

8、thelatterstu

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。