欢迎来到天天文库
浏览记录
ID:35149309
大小:1.61 MB
页数:61页
时间:2019-03-20
《试析基于web日志挖掘系统的设计与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、哈尔滨工程大学硕士学位论文基于Web日志挖掘系统的设计与实现姓名:刘鑫申请学位级别:硕士专业:计算机应用技术指导教师:杨永田20060101哈尔滨工程大学硕士学位论文摘要随着互联网的迅速普及和广泛应用,Web上产:生的信息也随之飞速增长,如何从浩瀚的资料中挖掘出有价值的信息,受到各方面的关注。www网无论是在访问量、规模上还是在网站设计的复杂度上都以惊人的速度增长着。像Web站点设计、Web服务设计和一些通过Web网站进行简单的导航模式设计也都增大了设计的难度。为了更好地设计Web服务器,一个更好的
2、方式就是分析原来的网站是如何被利用的。日志数据的分析可以通过统计数据的形式,像统计经常被访问的页面集、统计经常需要分析的重要的表格数据、通过网站分析找出一般的访问路径模式等。Web日志挖掘就是运用数据挖掘的思想来对服务器日志进行分析处理,从而解决上酝提出的各种问题。本研究在简述了Web日志挖掘的概念、研究内容、关键技术和目前的国内外研究状况的基础上,针对某区政府门户网站的访问日志,采用数据挖掘技术进行数据分析,从而找出用户访问规律和内容喜好,为改进网站结构和内容提供了决策支持。论文所做的主要工作是:
3、(11对Web日志的预处理进行了研究,给出了预处理的流程并分析了其中的难点;包括数据净化、会话识别、用户识别、路径补充,并描述了预处理模型及其算法流程f21对其经典Apriori算法进行了剖析,提出了改进算法M.Apriori算法,并通过缩减数据项集的办法来提高Apriori算法的执行效率;(31对路径遍历模式挖掘进行了研究,例如最大向前路径生成算法,频繁遍历路径挖掘算法,最大频繁遍历挖掘算法,并尝试将其用到某区政府网站的挖掘之中;(4)根据Apriori改进算法,通过修改源代码的方式应用到Weka
4、挖掘工具中;用改进后的Weka挖掘工具对该政府网站同志进行挖掘,依据挖掘结果给出针对该区政府门户网站的改进建议。关键词:Web只志挖掘,关联规则,路径遍历模式,Apriori算法,Weka哈尔滨1程人学硕十学位论文ABSTRACTAsthefastdevelopingandspreadingofInternet,Webusageinformationgrowsquickly.Peoplebegintopaycloseattentiontominingva]uableinformationfromla
5、rgeamountofdata.TheWorldWideWeb(WWW)centihuestogrowatanastoundingrateinboththesheervolumeoftrafficandtheSizeandcomplexityofWebsites.ThecomplexityoftaskssuckasWebsitedesign,Webserverdesign,andofsimplynavigatingthroughaWebsitehaveincreasedalongwiththiSgr
6、owth.AnimportantinputtothesedesigntasksiStheanalysiSofhowaWebsiteiSbeingused.LoganalysiSincludesstraightforwardstatistics,suchaspageaccessfrequency,aswellasmoresophisticatedformsofanalysiS,suchasfindingthecommontraversalpathsthroughaWebsite.WebLogginin
7、giStheapplicationofdataminingtechniquestoserverlogsoflargeWebdatarepositoriesinordertoproduceresultsthatcanbeusedinthedesigntasksmentionedabove.Inourresearch,weexplaintheconcept,researchworks,keytechnologiesofWeblogminingandrelatedresearchathomeandabro
8、ad,andthenusedataminingtechnologytoanalyzetheWebusageinformationofonedistrictgovernmentSOastofindouttheusagepatternandpreferenceofenterprisesandindividualsasthebetterdecision—makingaidforwebsiteexecutives.ThethemSachievesthefollowingtas
此文档下载收益归作者所有