基于web日志挖掘的聚类算法研究及应用

基于web日志挖掘的聚类算法研究及应用

ID:35059068

大小:2.98 MB

页数:77页

时间:2019-03-17

基于web日志挖掘的聚类算法研究及应用_第1页
基于web日志挖掘的聚类算法研究及应用_第2页
基于web日志挖掘的聚类算法研究及应用_第3页
基于web日志挖掘的聚类算法研究及应用_第4页
基于web日志挖掘的聚类算法研究及应用_第5页
资源描述:

《基于web日志挖掘的聚类算法研究及应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、中文图书分类号:TP391密级:公开UDC:004学校代码:10005工程硕士学位论文M.E.DISSERTATION论文题目基于Web日志挖掘的聚类算法研究:及应用论文作者:马家骏领域:软件工程指导教师:石宇良教授论文提交日期:2016年6月UDC:004学校代码:10005中文图书分类号:TP391学号:S201325053密级:公开北京工业大学硕士专业学位论文(全日制)题目:基于Web日志挖掘的聚类算法研究及应用英文题目:RESEARCHANDAPPLICATIONOFCLUSTERINGALGORITHMBASEDONWEBLOGMINING论文作者:马家骏领域:软

2、件工程研究方向:信息与服务工程申请学位:工程硕士专业学位指导教师:石宇良教授所在单位:软件学院答辩日期:2016年6月授予学位单位:北京工业大学独创性声明本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得北京工业大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。签名:马家骏日期:2016年6月6日关于论文使用授权的说明本人完全了解北京工业大学有关保留、使用学位论文的规定,即

3、:学校有权保留送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部或部分内容,可以采用影印、缩印或其他复制手段保存论文。(保密的论文在解密后应遵守此规定)签名:马家骏日期:2016年6月6日导师签名:石宇良日期:2016年6月6日摘要摘要当前网络技术的发展中,信息供给与信息获取的矛盾越发突出,一方面用户希望略过大量网络冗余信息而直接获取到所需内容,另一方面,网站运营方则致力于发掘用户群体的访问模式,用以调整站点结构、提供个性化服务并开展适当的商务推广活动,从而增加网站对用户的吸引力。而基于Web日志的用户聚类可以根据用户行为对用户进行聚类,进而分析用户访问模式,为

4、问题的解决提供了良好的解决方案。通过阅读、研究大量相关文献资料,本文提出了改进的数据预处理方法获取用户事务来描述用户访问行为,提出了一种基于模糊聚类的改进K-Means聚类算法,并设计实现用户聚类分析系统对改进算法的有效性进行了验证。由于日志数据质量较低,无法直接进行挖掘聚类,所以需要完成数据预处理并获得适合进行聚类的数据形式。在依次完成数据清洗、基于多重约束条件的用户识别和基于相邻URL访问时间阈值的会话识别后,针对用户会话对于聚类来说粒度太粗,以及原有用户事务识别对于页面类型判断不准确等问题,提出一种改进的事务识别算法,进而识别导航页面及内容页面,同时建立用户访问树并获

5、取有效用户事务为用户聚类提供了高质量的输入数据。接下来,对经典聚类算法K-Means进行深入研究,针对算法初始中心点选择的问题,提出一种基于密度的模糊划分算法,首先根据距离完成模糊划分获得高密度区域,接下来基于密度的方法对这些区域进行合并调整,最后取各个高密度区域中适当的点作为初始聚类中心进行划分聚类,避免聚类仅得到局部最优解,有效降低算法迭代时间,并提高聚类质量。最后基于经典聚类数据集Iris对改进K-Means算法的准确性进行实验考证,同时设计实现了基于Web日志的用户聚类分析系统,选取真实Web日志完成数据预处理及用户聚类,验证了改进事务识别算法及改进K-Means算

6、法的可用性,将理论应用于实践中。关键词:聚类分析;事务识别;K-Means;基于密度的模糊划分-I-AbstractAbstractTheamountofinformationinthenetworkisgrowingatarapidratewiththecontinuousdevelopmentoftheInternet.Thecontradictionbetweeninformationsupplyandinformationacquisitionismoreandmoreprominent.Ontheonehand,alargenumberofuserswanttos

7、kipredundantinformationanddirectaccesstothedesiredcontent.Ontheotherhand,thesiteoperatoriscommittedtoexploretheaccesspatternsofusergroups,toadjustthestructureofthesite,toprovidepersonalizedserviceandcarryouttheappropriatebusinesspromotionactivities,soastoincre

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。