基于邻接网络的web日志数据挖掘方法研究

基于邻接网络的web日志数据挖掘方法研究

ID:33104058

大小:3.07 MB

页数:100页

时间:2019-02-20

基于邻接网络的web日志数据挖掘方法研究_第1页
基于邻接网络的web日志数据挖掘方法研究_第2页
基于邻接网络的web日志数据挖掘方法研究_第3页
基于邻接网络的web日志数据挖掘方法研究_第4页
基于邻接网络的web日志数据挖掘方法研究_第5页
资源描述:

《基于邻接网络的web日志数据挖掘方法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、天津大学硕士学位论文基于邻接网络的Web日志数据挖掘方法研究姓名:赵震申请学位级别:硕士专业:管理科学与工程指导教师:李敏强2001.6.1摘要fwww(worldwideweb)技术日渐成熟,基于这一技术的应用以惊人的速度向社会生活的方方面面渗透,人类交互信息不可避免地电子化和海量化。以Web服务器日志为例,某些Web热门站点的日志数据正以每天数十兆的速度增长,于是,从这些海量的日志数据中发现有用的、重要的知识(包括模式、规则、可视化结构等),成为数据挖掘与知识发现的又一重要研究和应用领域。)本文针对WEB日志数据挖蕉问题

2、进行了深入的研究和分析,并实地的对微软官方网站日志文件进行了数据挖掘试验,所做的工作主要包括以下几个方面:1.本文分析了数据挖掘技术的产生原因和发展背景。陆述了其在技术和商业角度的定义以及研究的主要内容,阐明了当前国内外数据挖掘技术研究的现状以及数据仓库对数据挖掘的影响,提出了本文的研究方向和重点—Ⅵ『eb数据的数据挖掘。P2.对Web数据挖掘的体系结构进行了深入的分析和研究,(对Web数据挖掘进行了综述,给出了Web数据挖掘的定义和分类,探讨了国际上比较公认的数据挖掘方法论,在其指导下根据Web数据的特性比较了各种挖掘工具

3、,并就Web日志和半结构化数据的挖掘技术进行了深入的探讨和研究,并给出了Web日志数据挖掘的一般过程。77。’3.(Web日志数据很大一部分来自于点击流,其数据格式和传统的交易数据库的数据格式有所区别,针对这一特性,)本文分析了Web日志的格式和内容,阐明了Web日志挖掘的数据预处理的必要性和困难。f并试图对Web日志挖掘数据预处理提出一种相对完善的解决办法一事先处理与事后处理相结合的数据预处理方法。ro’4.对于Web日志数据进行数据挖掘在某种意义上来说是一种关联规则的发现,而发现频繁项目集是关联规则发现的关键。因此庠文阐

4、述了关联规则发现的基本概念,阐述和分析了频繁项目集发现经典算法及各种频集优化算法,,并针对W—eb~旦查熬堡的特点,提出了一种适合于Web日志数据挖掘的频集优化算法一基于项目邻接网络的繁项目集发现算法,并对其运行的时间效率与经典的频集发现算法进行了比较和分析。P—v5关联规则生成是Web日志数据挖掘过程中非常重要的一个环节,.因删本文在发现的频繁项目集基础上,对关联规则的生成进行了详细的研究和分析,特别针对发现的规则的冗余性问题,给出切实可行的解决方法和核心算法。大大增强了规则的可理解性,并就Web日志数据挖掘发现的关联规则

5、在实际中的解析和应用进行了深入的论述。,二一、6.Web日志数据挖掘实验。《针x}!!!P;』』!ii:i!!:!!i:!i!』i垒!垒!垒!!!』坦i!!!』堡i曼!!:!!磐!上的微软官方网站日志文件(1998年2月的一个星期),进行了Web用户访问模式(即网页间相关规则)的数据挖掘试验,并记录了数据挖掘过程中的各种数据参数以及最终的分析结果,其中包括:a)日志数据的纵向数据预处理与横向数据预处理运行时问的效率EE较;b)日志数据的项目邻接网络频繁项目集发现算法与经典的频集发现算法运行时间的效率比较;c)日志数据挖掘的必

6、要关联规则的生成:d)日志数据挖掘的关联规则解释和应用。卜c关键字:数据库中的知识发现,Web数据挖掘;关联规则:邻接网络tABSTRACTWiththematurationofWWW(worldwideweb),applicationsbasedonthistechnologyareenteringintoeveryaspectsofoursocietyatasurprisingspeed,andinevitablythetransactioninformationofhumankindisbeingelectrified

7、.Discoveryforusefulandconcemfulknowledge(includingmodes,rulesandvisiblestructures)isbecominganotherimportantresearchandapplicationareaAimedatDateMiningofWEBlogs,theauthormadein—depthresearchandanalysisinthisdissertation,andcarriedoutarealworlddataminingexperimentwi

8、thalogfileofMicrosoft’SOfficialWebsiteThecontentsofthisdissertationareasfollows:1Wereviewtheoriginandbackgroundofdataminingtechnology,introduceit

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。