欢迎来到天天文库
浏览记录
ID:36819559
大小:344.20 KB
页数:7页
时间:2019-05-16
《基于会话分类的Web用户访问模式挖掘研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、基于会话分类的Web用户访问模式挖掘研究吴海燕,朱靖君,高国柱,程志锐(清华大学计算机与信息管理中心,北京100084)(wuhy@cic.tsinghua.edu.cn)摘要:随着Internet的迅速发展,Web站点的访问用户越来越多样化,不同种类用户的访问模式有所不同。本文提出一种基于会话分类的Web用户访问模式挖掘方法。这套方法把用户会话划分为人类用户会话、网络爬虫会话和资源下载类用户会话三大类,在此基础上分别对3类用户的访问模式进行挖掘。通过会话分类可以提高挖掘的效率与准确性。其中重点研究了人类用户的访问模式挖掘,提出了一种基于用户访问路径树的事务识别方法,并对PrefixSpan算
2、法进行了改进。这套方法在实验中取得了很好的挖掘效果。关键词:Web挖掘;会话分类;访问模式;序列模式;PrefixSpan中图分类号:TP311文献标识码:AResearchofWebUserAccessPatternMiningBasedonSessionClassificationWUHai-yan,ZHUJing-jun,GAOGuo-zhu,CHENGZhi-rui(ComputerandInformationManagementCenterofTsinghuaUniversity,TsinghuaUniversity,Beijing100084,China)Abstract:With
3、therapiddevelopmentofInternet,webusersareincreasinglydiversified.Theaccesspatternsofdifferentkindsofusersaredifferent.Thispaperpresentsamethodofminingwebuseraccesspatternbasedonsessionclassification.Thismethoddividesalltheusersessionsintothreecategories,whicharehumanusersessions,crawlersessionsandre
4、source-downloadusersessions.Thenminetheaccesspatternsofeachkindofusersrespectively.Sessionclassificationcanimprovetheefficiencyandaccuracyofmining.Thispaperfocusesonminingtheaccesspatternofhumanusers.Itpresentsamethodoftransactionidentificationbasedonusers’access-path-tree,andmakessomeimprovementson
5、PrefixSpanalgorithm.Thisminingmethodachievesgoodresultsintheexperiments.Keywords:webmining;sessionclassification;accesspattern;sequentialpattern;PrefixSpan人们也已经提出了几种经典的挖掘算法,这包括R.Agrawal1引言等人提出的AprioriAll算法[3]和GSP算法[4]以及J.Han等Web日志挖掘是当前数据挖掘领域的一个重要研究课人提出的FreeSpan算法[5]和PrefixSpan算法[6]。这些挖掘题。Web日志记录了用户访
6、问网站的许多重要信息,通过对方法在传统的网络环境中还是比较适用的。Web日志进行挖掘,可以得到用户的访问模式,这些访问模然而近年来,Internet出现了不少新的变化,其中一个式有助于改善网站结构,为用户提供更好的个性化服务。而重要的变化就是网站的访问用户更为多样化。除了一般的通在网站的安全维护方面,从Web日志中可以检测出恶意用过浏览器进行访问的用户(简称为“人类用户”)以外,还户的访问行为,以便于及时加以防范。出现了一些“新的用户”。2000年以后,搜索引擎逐渐兴起,国内外在Web日志挖掘方面的研究已经比较成熟,形它们通过一种叫作网络爬虫的网页抓取程序来收集各个网成了一套比较完整的挖掘流程
7、,包括数据清理、用户识别、站上的网页信息,因此每天都会有不少网络爬虫对网站进行会话识别、路径补充、模式挖掘和模式分析等[1][12]。其中访问,它们的访问行为跟人类用户有所不同[8]。除此之外,模式挖掘有多种方法,包括统计分析、关联规则挖掘、序列从日常的Web日志分析中,我们还发现有不少用户并没有模式挖掘、分类与聚类等[7][11]。而在序列模式挖掘方面,访问网站的任何网页,而是单纯地对网站的资源
此文档下载收益归作者所有