web日志挖掘中的数据预处理技术

web日志挖掘中的数据预处理技术

ID:34407211

大小:271.74 KB

页数:5页

时间:2019-03-05

web日志挖掘中的数据预处理技术_第1页
web日志挖掘中的数据预处理技术_第2页
web日志挖掘中的数据预处理技术_第3页
web日志挖掘中的数据预处理技术_第4页
web日志挖掘中的数据预处理技术_第5页
资源描述:

《web日志挖掘中的数据预处理技术》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第25卷第2期何地大学学报(台然科学且)VoL25No.22005年3月JournalofHebeiUniversity(NaturalScienceEdition)岛1ar.2005Web日志挖掘中的数据预处理技术侯亚丽,袁方(河北大学数学与计算机学院,河北保定071002)摘要:用户访问网站,Web日志中会记录下大量的用户访问信息,通过挖掘这些日志数据可以获得相关页面、相似用户群体和用户访问模式等信息,Web日志挖掘对于优化网站结构、提供个性化服务和构建智能化网站具有重要作用-数据预处理是保证Web日志挖掘质量的重要基础,预处理主要包括数据清洗、用户识别、会话识

2、别、路径补充和结果评价等工作概述了数据预处理技术,重点介绍了目前常用的会话划分算法和评价标准,并实现了一个数据预处理系统-关键词:Web日志控掘;数据预处理;会话划分;会话评价中固分类号:TP393立献标识码:A立章编号:1000-1565(2005)02一0202-05自从WWW(WorldWideWeb)1991年问世以来,已经发展成为拥有数亿用户、数十亿页面的巨大分布式信息空间,而且其信息容量仍在飞速增长-但Internet是一个具有开放性、动态性和异构性的全球分布式网络,信息资源分布很分散,且没有统一的管理机构,这就导致了信息获取的困难-绝大部分用户并不了解

3、信息网络结构,不清楚搜索的高昂代价,极容易在"黑暗"的网络中迷失方向,也极容易在"跳跃式"访问中烦乱不已和在等待信息中失去耐心[1]解决这些问题的一个有效途径就是将数据挖掘技术和Web结合起来,进行Web挖掘山.Web挖掘可以定义为从与WWW相关的资源和行为中抽取感兴趣的有用的模式和隐含信息.Web挖掘可以分为3类:Web内容挖掘(Webcontentmining)、Web结构挖掘(Webstructuremining)和Web访问模式挖掘(Webusagemining)[lJ.其中,Web访问模式挖掘就是通过挖掘Web日志记录来发现用户访问Web页面的模式[3-剖

4、,通过挖掘Web日志中记录的用户访问行为,可以实现用户聚类、页面聚类和发现频繁访问路径,进而可以改善站点设计和为用户提供个性化服务-目前,Web日志挖掘技术发展迅速[6-8J,Web日志挖掘的一项重要的基础性工作就是数据预处理.数据预处理的主要目的就是将Web服务器中的日志数据转换成事务数据库,供挖掘阶段使用,主要包括数据清洗、用户识别、会话识别、路径补充和结果评价[9-IOJ1数据预处理过程Web日志记录是以文本文件的形式存储的,而且其中存放了很多元用的信息,所以日志文件中的数据很难直接使用-由于服务器或参数设置不同,得到的Web日志文件中记录的信息也会有所不同,

5、但都包含访问用户的基本信息.每条访问记录包括日期(date)、时间(time)、客户IP地址(c-ip)、客户名(cs-username)、方法(cs-method)、URL资源(cs-uri-stem)、发送字节数(sc-bytes)、接收宇节数(cs-bytes)、花费时间(time-tak•en)、用户代理(User-Agent)、cookie(C∞kie)、参考页面(Referer)等许多信息.收稿日期:2004-10-28作者简介:侯亚丽(1979-),女,河北石家庄人,河北大学在读硕士研究生-第2期侯亚丽等:Web日志挖掘中的数据预处理技术203.1.1

6、数据清洗数据清洗包括删除一些对于分析没有意义的数据,去掉sc-status中的出错记录,及用户请求方法中不是GET的记录,网页上的图片在日志中也记录为单独的请求,这对于挖掘用户兴趣没有意义,通常去掉它们,除非该网站是关于图片的-还有Web机器人或系统产生的非人类请求记录,然后将数据导入关系数据库中,再进行进一步的知识发现.1.2用户识别日志中可以用来分辨用户的项有用户IP和c∞kie标识.cookie是站点根据用户浏览器写入其本地的一个唯一标识,用户在再次向服务器请求页面时,该标识被附加在请求中返回给服务器,如此可以识别用户身份-但是存在若干用户使用同一台计算机的情

7、况,并且如果用户删除c∞kie,下一次登陆时服务器会把他当作第一次登陆,由于隐私问题用户还可能拒绝被写人c∞kie.仅使用IP或c∞kie,并不能检测用户何时离开,用户在一个站点中的所有访问请求将被当作-次访问,对于许多KDD应用,这样的忽略是不允许的,需要在用户识别的基础上进行会话识别.1.3会话识别一个会话(session)就是用户从进入到离开站点的一系列浏览请求.在跨越时间段较大的Web服务器日志中,用户可能多次访问了该站点,会话识别的任务就是把属于同一用户的同一次访问请求识别出来-会话的划分有许多算法,有的依据时间,有的依据站点拓扑结构.人们常用如下3个

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。