基于web页面特征的聚类算法研究及实现

ID：34040273

大小：2.72 MB

页数：67页

时间：2019-03-03

资源描述：

《基于web页面特征的聚类算法研究及实现》由会员上传分享，免费在线阅读，更多相关内容在学术论文-天天文库。

1、太原理工大学硕士学位论文基于Web页面特征的聚类算法研究及实现姓名：李元俊申请学位级别：硕士专业：计算机应用技术指导教师：陈俊杰20090501太原理工大学硕士研究生学位论文基于WEB页面特征的聚类算法研究及实现摘要随着Internet/Web技术的快速普及和迅猛发展，Web数据已成为当今世界第一大“数据仓库”，怎样从海量的Web数据中发现知识，造福于人类，是Web数据挖掘这项技术被时代赋予的使命。然而，Web数据是异构的、非结构化的、动态变化的，这就要求我们首先将Web页面分类（聚类），然后对不同的分类设计分装器（Wrapper），进行信息抽取，最后对得到的结

2、构化数据进行分析和知识发现；由此可见Web聚类这项技术在数据挖掘中的重要地位。目前，基于Web页面聚类的研究领域，已经取得了很多成果；但是，真正将Web聚类应用到Web内容挖掘领域，使得聚类结果服务于信息抽取和知识发现的研究成果并不是很多，主要有基于文本内容的Web页面主题聚类和基于Web页面结构的聚类；前者仅考虑Web页面的内容信息，聚类时间效率低，而后者巧妙的利用了Web页面的组织结构，但是没有利用Web页面提供的内容信息，聚类结果的实用性和准确性被降低；如果能够将两者结合，则一定能够提高聚类质量，这也是本文讨论的重点。本文的主要工作和意义在于，分析了基于W

3、eb页面的聚类算法，并在此基础上阐述了一种基于Web页面链接结构和标签信息的聚类方法CWPBLT（ClusteringWebPagesBasedontheirLinksandTags），它是在总结前人有关Web聚类工作的基础上拓展出来的一种Web页面聚类方法，它在聚类的过程中同时兼顾了Web页面结构和Web标签提供的内容信息,采用了最小描述长度法（MDL）和相似度区间计算法（SRC）对Web页面的初步分组进行二次聚类，提高了聚类的效率和准确性；得到的聚类结果是WebI太原理工大学硕士研究生学位论文站点的分类模型，从而为设计分装器提供训练样本，保证整个数据挖掘过程

4、顺利进行；同时，该方法采用了Agent思想进行程序设计，使得聚类过程更加智能、更加高效。关键字：Web聚类，Web挖掘，链接结构，分装器，最小描述长度II太原理工大学硕士研究生学位论文RESEARCHANDREALIZATIONOFWEBCLUSTERINGALGORITHMBASEDONTHEIRPAGE’SFEATURESABSTRACTAsInternet/Webtechnologygainingfastpopularization,WebDatahasrisenasthelargest“datawarehouse”intheworld.Consequen

5、tly,itistheobligatorydutyforustodevelopWebminingtechnologytoexplorethemethodsofsearchinginformationfromtheabundantdata.However,sinceWebDataareheterogeneous,unstructuredanddynamic,severalproceduresshouldbeheldtoobtainthestructureddata.Wehavetoclassify(cluster)Webpagesandthendesigndiff

6、erentWrappersforeachclassificationtoscreenstructureddatawhichwillbeanalyzedinordertoobtainthespecificinformation.ThusitcanbeseenthatWebClusteringplaysacriticalroleinDataMiningTechnology.TillnowtherearemanyresearchachievementsofWebPagesBasedMining.Whereasit’sstillnewtoapplyWebClusteri

7、ngtoWebContentMiningtogettheclustering,whichisinturnusedtoscreenthedataandobtaintheinformation.Theexistingresearchesrevolvedaroundtwostudies:WebpagetextbasedTopicClusteringandWebPageStructurebasedclustering.Theformerisinefficientsinceitconsidersonlythecontentinformationofawebpage.And

8、thelatterstu

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 67



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

基于web页面特征的聚类算法研究及实现

基于web页面特征的聚类算法研究及实现

相关文章

相关标签