基于Web日志挖掘的Web文档聚类

基于Web日志挖掘的Web文档聚类

ID:36805101

大小:332.72 KB

页数:5页

时间:2019-05-15

基于Web日志挖掘的Web文档聚类_第1页
基于Web日志挖掘的Web文档聚类_第2页
基于Web日志挖掘的Web文档聚类_第3页
基于Web日志挖掘的Web文档聚类_第4页
基于Web日志挖掘的Web文档聚类_第5页
资源描述:

《基于Web日志挖掘的Web文档聚类》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、第29卷第18期计算机工程与设计2008年9月V01.29No.18ComputerEngineeringandDesignSept.2008基于Web日志挖掘的Web文档聚类高哲,魏海平+,王福威,赵晓碧(辽宁石油化工大学计算机与通信工程学院,辽宁抚顺113001)摘要:Web日志挖掘是Web挖掘的一种,介绍了Web日志挖掘的一般过程,研究了k-means聚类算法,并分析了k-means聚类算法的不足。k-means聚类算法迭代过程中每次都需要计算每个数据对象到簇质心的距离,使得聚类效率不高,针对这个问题,提出了k.means聚类算法的改进算法,该算法避免了重复计算数据对象到簇

2、质心的距离,并用这两种算法实现了Web文档的聚类。试验结果表明,该改进算法提高了聚类效率.关键词:日志挖掘;Web日志;k-means;文档聚类;日志预处理中图法分类号:TP301.6文献标识码:A文章编号:1000.7024(2008)18-4708—03Webdocumentclusteringbasedonweb-logminingGAoZhe,WEIHai-ping+,WANGFu—wei,ZHAOXiao.bi(SchoolofComputerandCommunicationEngineering,LiaoningShihuaUniversity,Funshun1300

3、1,China)Abstract:Weblogminingisoneofthewebmining.Theprocessoftheweblogminingandthek-meansalgorithmsareintroduced.Andtheshortageofthek-meansalgorithmisanalyzed.Thek-meansalgorithmneedstocomputethedistancebetweeneverydataobjectandthecenteroftheclusters,whichlowerstheefficiency.Tothisproblem,all

4、enhancedalgorithmofthek-meansisputforward,whichavoidscomputingthedistancebetweeneverydataobjectandthecenteroftheclusters.Webdocumentclusteringisimplementedwithtwoalgorithmsanditisshownthattheenhancedalgorithmimprovestheclusteringefficiency.Keywords:weblogmining;weblog;k-means;webdocumentclust

5、ering;datapreprocessing0引言Web挖掘是从Web资源上发现、抽取和过滤信息,Web挖掘包括Web内容挖掘、结构挖掘和口志挖掘。Web日志挖掘是对用户访问Web时留下的访问记录进行挖掘。其一般步骤包括:数据预处理、模式发现、模式发现和应用。其中数据预处理的步骤包括数据清洗、用户识别、会话识别、路径补全和转换格式Ⅲ;模式发现是使用各种数据挖掘算法发掘隐藏在数据背后的规律和模式,常用技术有统计分析,关联规则挖掘,生成序列模式,聚类、分类以及依赖关系的建模等技术;模式分析是利用各个学科领域方面的知识以及其它一些可用的标准来分析这些模式,并过滤掉那些没有利用价值以及

6、有偏差的模式,把有用的规则和模式转换为知识,应用到具体的领域中。lWeb日志预处理下面是一段日志:①2007—04-0100:00:00W3SVCI202.118.120.4②GET③/index.asp一80一④222.26.34.25(重)Mozilla/4.o+(compatible;+MSIE+6.0;+Windows+NT+5.1;+SVl)⑥20000·主要包括:①访问时间;②请求方法("GET”、“POST”等);③访问的URL;④用户的ip地址;(萎.)agent,即用户使用的操作系统类型和浏览器软件;⑥返回码Ⅲ。数据清洗就是删除Web日志中与挖掘算法无关的数据,

7、包括:后缀是gif.jpeg、CSS、JPg等的数据项。用户识别需要根据不同的日志格式采用不同的识别方法,如果服务器日志含有用户标识cookie,那么利用cookie就可以准确的识别用户,但是绝大多用户出于安全的考虑,使得服务器不能得到cookie。对于一般日志格式不包含任何明确的用户标识,最常用的方法就是采用启发式规则01,根据我们的闩志格式采用两条启发式规则:①不同的ip地址代表不同的用户;②如果ip地址相同,但是操作系统类型或者浏览器软件不同我们认为是不同的用户。用户会话被

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。