基于mapreduce用户聚类算法在web日志挖掘中应用

基于mapreduce用户聚类算法在web日志挖掘中应用

ID:34131076

大小:2.18 MB

页数:60页

时间:2019-03-03

基于mapreduce用户聚类算法在web日志挖掘中应用_第1页
基于mapreduce用户聚类算法在web日志挖掘中应用_第2页
基于mapreduce用户聚类算法在web日志挖掘中应用_第3页
基于mapreduce用户聚类算法在web日志挖掘中应用_第4页
基于mapreduce用户聚类算法在web日志挖掘中应用_第5页
资源描述:

《基于mapreduce用户聚类算法在web日志挖掘中应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、分类号:TP311密级:UDC:004编号:201222102015河北工业大学硕士学位论文基于MapReduce用户聚类算法在Web日志挖掘中应用论文作者:周松松学生类别:全日制学科门类:工学硕士学科专业:计算机科学与技术指导教师:马建红职称:教授DissertationSubmittedtoHebeiUniversityofTechnologyforTheMasterDegreeofTechnologyofComputerScienceUserClusteringBasedOnMapReduceInWebLogMiningbyZhouSongsongSupervisor:Prof.M

2、aJianhongNovember2014河北工业大学硕士学位论文摘要现如今,Web上的数据以无法想象的规模在迅速的增大,对这些数据进行挖掘可以得到很多重要信息。本文对创新知识云平台所生成的Web日志进行挖掘可以有效的了解客户的需求,掌握客户的浏览习惯来丰富网站的内容并且对网站的优化以及展示方式都有积极的推动作用。本文通过Web日志的挖掘对用户进行聚类,将具有相同浏览习惯的用户聚集在同一个类中。在用户聚类的过程中会存在一定误差。一方面本文所采用的算法大多数是基于统计学的用户聚类算法,而统计学的准确率是建立在大量实验基础之上。为了减少统计误差,在实验的过程中,选择多个实验样本进行实验;另一

3、方面在用户聚类的过程中一个重要的过程就是用户识别。在用户识别过程中,首先,根据用户的IP地址和用户代理来识别用户;然后,使用会话识别算法来进一步的提升用户识别的效果。用户的相似度计算是用户聚类中非常重要的过程。为了提高用户聚类的准确率,从用户访问路径频繁程度、用户访问路径序列以及用户访问页面语义内容多维度的去构建相关矩阵,通过计算每个矩阵的协调系数来分配各个矩阵的权重在整个相似度计算过程中所起到的作用,保证相似度计算的稳定性。当面临海量数据时,基于单一节点的Web日志挖掘在时间和空间上存在瓶颈。针对该问题,将用户聚类的整个流程构建在Hadoop分布式平台上,使用MapReduce并行计算

4、模型处理日志文件完成相似度计算进行用户聚类。关键词:云计算数据挖掘用户聚类并行计算相似度计算I基于MapReduce用户聚类算法在Web日志挖掘中应用ABSTRACTNowadays,thedataontheWebisrapidlyincreasing,miningthesedatacangetalotofimportantinformation.Inthispaper,theplatformforInnovationKnowledgeCloudgeneratedbyminingWeblogscaneffectivelyunderstandcustomerneeds,graspthecu

5、stomerbrowsinghabitsandtoenrichthecontentofthesiteandshowthewaytooptimizethesitehasapositiveroleinpromoting.Weblogminingbytheuserclustering,istohavethesameuserbrowsinghabitsgatheredinthesameclass.Usersclusteringprocesstherewillbesomeerrors.Ontheonehandmostofthealgorithmusedinthispaperisbasedonthe

6、userstatisticalclusteringalgorithm,andtheaccuracyofstatisticsisbuiltonthebasisofalargenumberofexperiments.Inordertoreducethestatisticalerror,weselectmultipletestsamplesfortheexperimentinthecourseofexperiment.Ontheotherhandintheprocessofuserclusteringisanimportantprocessintheuseridentification.Int

7、heuseridentificationprocess,accordingtotheuser'sIPaddressandtheuseragenttoidentifytheuser;thenusethesessionidentificationalgorithmstofurtherenhancetheuserrecognition.Usersimilaritycalculationisveryimportantforuserclust

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。