基于粗糙集和模糊聚类的网站日志数据挖掘实例分析.pdf

基于粗糙集和模糊聚类的网站日志数据挖掘实例分析.pdf

ID:52458577

大小:165.65 KB

页数:4页

时间:2020-03-27

基于粗糙集和模糊聚类的网站日志数据挖掘实例分析.pdf_第1页
基于粗糙集和模糊聚类的网站日志数据挖掘实例分析.pdf_第2页
基于粗糙集和模糊聚类的网站日志数据挖掘实例分析.pdf_第3页
基于粗糙集和模糊聚类的网站日志数据挖掘实例分析.pdf_第4页
资源描述:

《基于粗糙集和模糊聚类的网站日志数据挖掘实例分析.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、2009年5月绵阳师范学院学报May.,2009第28卷第5期JournalofMianyangNormalUniversityVo.l28No.5基于粗糙集和模糊聚类的网站日志数据挖掘实例分析12高晓琴,王亨桂(1.四川工商职业技术学院,四川都江堰611830;2.四川省广安市电业局调度中心,四川广安638000)摘要:粗糙集理论是有效处理不精确、不确定和含糊信息的软计算工具,模糊聚类分析是依据客观事务间的特征、亲疏程度和相似性,通过建立模糊相似关系对客观事务进行分类的方法。网站日志数据通常是大量的,冗余的,日志中的页面之间的关系也是模糊的,不确定的。

2、该文利用粗糙集理论和模糊聚类的方法对某学校网站的日志数据进行实例分析,抽取用户感兴趣的模式,理解用户的浏览兴趣行为,以便进一步改善网站结构,为用户提供个性化服务。关键词:粗糙集;模糊聚类;日志数据挖掘中图分类号:TP393文献标识码:A文章编号:1672612x(2009)05009304某学校教务网(http://jiaowu.swjtu.edu.cn)的用户是各年级学生,教务网服务器上每天都能收集到大量的用户访问记录。通过基于粗糙集和模糊聚类的方法,将这些记录的处理,即Web使用挖掘,聚类教务网页面,由此得到页面的内在关系和用户的访问模式,为教务网的

3、网站设计提供理论依据,进一步帮助教务处了解学生的网络利用情况,对于学生关心和感兴趣的问题有清晰的把握。该方法还可以进一步应用于电子商务网站,以发现用户的访问模式,提高电子商务网站的客户访问量。1数据预处理数据预处理是数据挖掘过程中关键的一步,因为现实世界的数据一般是不完整和不一致的。数据预处理可以改进数据的质量,从而提高其后续的数据挖掘过程的精度和性能。在Web原始日志数据中,有很多的垃圾页面,如框架页面,也有很多垃圾记录,如记录中包含的.jpg,.gi,f.css的记录。正因为Web日志的这些鲜明的特性,应该采用适当的方法将原始的脏数据组织成适用于挖掘的形式

4、。故参考Web使用挖掘日志分析软件WUMPREP功能,使用Java编程算法对日志数据进行预处理,最后导入到ACCESS数据库中,利用SQL查询语句得出预处理以后的数据。经数据收集,数据清洗以后将数据导入ACCESS数据库中,表1所示部分(weblogs数据表的转置部分视图)共有738149条记录:表1日志数据部分视图表Table1LogDataViewdate04-9-1204-9-1204-9-1304-9-13time16:0023:3200:0311:53s_ip202.115.66.198202.115.66.198202.115.66.198202.11

5、5.66.198cs_methodGETGETPOSTPOSTcs_uri_stem/Default.asp/Course/MyCet.asp/Course/CourseList.asp/MyJiaowu/main.aspcs-uri-query----------------s-port80808080cs-username----------------c-ip218.194.14.53222.18.43.151202.115.66.198202.115.66.198cs(User-Agent)Mozilla/4.0+!Mozilla/4.0+!Mozilla/4

6、.0+!Mozilla/4.0+!sc-status200200200200sc-substatus0000sc-win32-status0000收稿日期:20090313作者简介:高晓琴(1981-),女,硕士,主要研究方向:数据挖掘、粗糙集、WEB数据挖掘等。∃94∃绵阳师范学院学报(自然科学版)第28卷上述表中每一列表示一个用户的一条记录,初步认为用户以其IP标识。此二维表可以看成是一个信息系统S=(U,R,V,f),其中论域U为用户集,R=C={a1,a2,!,an},ai(i=1,!,n)为条件属性,属性为C={a1,a2,!,a13}={date

7、,time,s_ip,cs_method,cs_uri_stem,cs_uri_query,s_por,tcs_username,c_ip,cs(User-Agent),sc_status,sc_substatus,sc_win32_status)。[1]对于信息决策表而言,所有的条件属性形成条件属性集合C对论域U的划分U/C,形成了条件属性集合在对论域样本分类上的知识。从条件属性集合中发现部分必要的条件属性,根据这部分条件属性形成的分类和所有条件属性所形成的分类一致。在上述weblogs整个表中,由于用户访问的是教务网,IP地址为某固定IP,请求方

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。