PageCluster:一种Web 页面层次聚类方法

PageCluster:一种Web 页面层次聚类方法

ID:38145334

大小:175.52 KB

页数:3页

时间:2019-05-25

PageCluster:一种Web 页面层次聚类方法_第1页
PageCluster:一种Web 页面层次聚类方法_第2页
PageCluster:一种Web 页面层次聚类方法_第3页
资源描述:

《PageCluster:一种Web 页面层次聚类方法》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、"!!!!!!!!!!!!!!!!!!!!!!"!·!"开!放!式!集!群!计!算!、网!格!计!算!、!’(!)!服!务与!中!间!件!技!术!·!"!"#$%&’()$*:一种+$,页面层次聚类方法吴萍&,!宋瀚涛&姜峰!(&北京理工大学计算机科学工程系,北京&"""O&)(!兰州理工大学电气工程与信息工程学院,兰州LV""-")S/01>9:*@I>2AW)><$(;@$:2摘要提出了’()页面聚类算法T1A(79@3<(=及相应的改进算法50T1A(79@3<(=。该方法在兼顾’()站点结构和页面链接的同时,基

2、于各个页面的重要程度对各个超链接进行赋权。与传统聚类算法相比,该算法不需要事先给定相似度阈值。实验结果证实了该算法的可行性和高效性。关键词聚类’()页面超链接相似矩阵T1A(79@3<(=50T1A(79@3<(=文章编号&""!/OVV&/(!""#)!%/""O#/"V文献标识码F中图分类号MT&O!!"#$%&’()$*:-.$)/0102+$,!"#$34$*"*5/45"&%&’()$*46#+’!46#7,8906#3"6)"07:4"6#;$6#8(&E:BJJ9JK52KJ=01<>J2E:>(2:(1

3、2;M(:B2J9JAH,4(>X>2A523<><@<(JKM(:B2J9JAH,4(>X>2A&"""O&)(!7J99(A(JKS9(:<=>:1912;52KJ=01<>J2S2A>2((=>2A,P12YBJ@R2>?(=3>2A19AJ=>0I=J?(;19AJ=>3I=JIJ3(;$MB(3(0(

4、2U3,)@<193J0IJ=<12:(JK(1:BI1A(*B>:B>3;(3:=>)(;13>2/*(>AB<12;J@AB<>2<>J219:9@3<(=>2A0(?(20>91=>0(2<19=(3@9<33BJ*

5、1<)9(12;B>AB/(KK>:>(2<$<$=>0*1(::9@3<(=>2A,’()I1A(,BHI(=9>2U,3>0>91=>[,T1A(79@3<(=,50T1A(79@3<(=&引言定阈值,而阈值给定的合适与否直接影响到最终的聚类结果。互联网已经成为一个巨大的、分布式、全球信息服务中心。该文提出了一种’()页面聚类方法,该方法在兼顾’()如何为用户快速、高效、准确地提供他们所需要的,并具有高度站点结构和页面之间链路的同时,考虑页面的重要程度对各

6、条相关性的一簇’()页面,已经成为业界研究的主要内容。解决链接进行赋权(包括页面的入权和出权)。实验证明,与传统聚这个问题的一个有效途径就是对页面进行合理的聚类分析,从类算法相比,该算法具有较高的准确性。而更高效地进行’()信息的分类,存储,检索和集成。然而,若要真正实现高效的*()页面聚类,就必须要找出’()组织结!数据准备构以及’()页面之间的内部链接关系,特别是页面之间的相!$&页面收集似性更是尤为重要。同时,每个页面的重要程度、页面内容以及首先要对’()中的超链接进行“剪枝”处理。主要是除去页面的访问情况也是非

7、常重要的信息。图像、音频、视频、7N5程序、电子邮件等链接以及除去导航目前,很多研究中引入链接关系进行’()页面的聚类,但链接。其中大多数仅仅考虑了页面之间的直接链接,例如文献+#,和利用T1A(612U方法从结果中取出前!个数据,产生出算+-,。现在用于数据挖掘中的聚类分析,主要有以下几种方法,如法所需要的’()页面原始数据集"。./0(123,45678(41912:(;5<(=1<>?(6(;@:>2A12;79@3<(=>2A!$!前向页面集、后向页面集和页源@3>2A8>(=1=:B>(3)+C,,D4E7F

8、G(D(23>1979@3<(=>2A任意页面#!",#和#$的域名不相同。若存在#指向#$的JKFII9>:1<>J2*>3()+L,,EM5GN(EM1<>3<>:195GKJ=01<>J2链接,则所有满足#$条件的页面构成"的前向页面集%&’。若N=>;)+O,,以及7P5QRS(7P@3<

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。