基于关联规则的web日志挖掘应用研究

基于关联规则的web日志挖掘应用研究

ID:33300465

大小:781.44 KB

页数:65页

时间:2019-02-23

基于关联规则的web日志挖掘应用研究_第1页
基于关联规则的web日志挖掘应用研究_第2页
基于关联规则的web日志挖掘应用研究_第3页
基于关联规则的web日志挖掘应用研究_第4页
基于关联规则的web日志挖掘应用研究_第5页
资源描述:

《基于关联规则的web日志挖掘应用研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、安徽大学硕士学位论文基于关联规则的web日志挖掘应用研究姓名:孙赵平申请学位级别:硕士专业:计算机软件与理论指导教师:李龙澍2010-04摘要随着社会信息化的发展,Internet越来越受到全世界各类用户的喜爱。他们不断地登陆互联网,在网上搜索、寻找自己所感兴趣的话题和信息,从事一系列的网络交互活动。由于互联网的用户数量众多、构成复杂,互联网的海量数据,以及互联网处理的数据形式比较广泛,迫切需要一种强大的处理技术的诞生。为了提供更高质量的web服务,对web数据进行挖掘成为一种重要的互联网信息处理技术手段,web挖掘应运而生。互联网一般采用的是客户端/服务器结

2、构模式,后台服务器上存储了大量潜在有价值的web日志文件。为了分析网络用户浏览网站的习惯和行为,改善网页间的链接结构和网络拓扑结构,提高网站的系统性能以及为用户提供个性化的服务,可以应用web日志挖掘技术对这些日志数据进行模式发现。本文以面向研究生群体的小型论坛——安研星空论坛(http://www.ahusky.cn)的日志文件中的数据作为挖掘处理的数据源,主要从以下几个方面进行了相关的阐述、分析和研究。首先,详细介绍了课题的研究背景及意义和国内外的研究现状;概述了数据挖掘产生、定义、过程、方法和应用领域,以及未来的发展。其次阐述了web挖掘的分类、特点、过

3、程、技术和面临的难题,接着分析了数据预处理的过程,指出了预处理过程中遇到的问题。然后介绍了关联规则挖掘的相关概念和关联规则挖掘的经典算法——Apriori算法,详细介绍了Apriori算法的思想、处理步骤和算法过程,指出了Apriori算法用于web日志挖掘的不足之处,提出了基于网站访问结构和数据库压缩的改进策略,对算法进行改进并对新算法进行了详细的分析,验证了新算法的优越性。最后利用论坛日志数据对经典算法和改进后的的算法进行不同条件下的对比实验,对算法的时间性能进行比较,实验表明改进算法时间性能得到较大提高。通过本文的web日志挖掘的研究工作,可以对网络论坛

4、的系统性能进行改进,为用户提供更有效的服务。关键词:关联规则、Apriori算法、BBS、Web日志挖掘I安徽大学2010届硕士学位论文基于关联规则的web日志挖掘应用研究AbstractWiththedevelopmentofinformationsociety,alltypesofusersaroundtheworldmoreandmorelikeusingInternet.TheycontinuetovisittheInternet,onlinesearch,tofindtheirowntopicsofinterestandinformation,eng

5、ageinaseriesofnetworkinteractions.BecauseofthelargenumberofInternetusers,acomplexandmassiveInternetdata,anddifferentkindsofdataformsonInternet,itisurgenttoneedapowerfuldataprocessingtechnology.Inordertoprovidehigherqualityofwebservices,webminingasanimportantmeansofInternetinformatio

6、nprocessing,cameintobeing.Internetgenerallyusesaclient/serverarchitecturemodel,andwebserversstorealotofpotentialvaluableweblogfiles.InordertoanalyzethehabitsandbehaviorofInternetusersvisitingthewebsite,toimprovethelinkstructurebetweenwebpages,networktopologystructureandsystemperform

7、ance,andtoprovidepersonalizedservices,Weblogminingcanbeappliedtofindinterestingmodelinthelogdata.Inthispaper,theweblogdatafordataminingcomefromasmallforum-AHUSKY(http://www.ahusky.cn)forgraduatestudents.Thispapermainlydescribes,analyzesandstudiesthefollowingaspects.Firstofall,thepap

8、erintroducestheback

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。