基于用户访问行为分析的网站分类研究

基于用户访问行为分析的网站分类研究

ID:33186214

大小:2.87 MB

页数:66页

时间:2019-02-21

基于用户访问行为分析的网站分类研究_第1页
基于用户访问行为分析的网站分类研究_第2页
基于用户访问行为分析的网站分类研究_第3页
基于用户访问行为分析的网站分类研究_第4页
基于用户访问行为分析的网站分类研究_第5页
资源描述:

《基于用户访问行为分析的网站分类研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、郑州大学硕士学位论文基于用户访问行为分析的网站分类研究姓名:贾梦青申请学位级别:硕士专业:计算机应用技术指导教师:王宗敏20090501摘要摘要随着Internet和WwW的迅猛发展,网站的数量也越来越多,而且网站包含了海量的、异构的、动态的信息资源,利用数据挖掘中的分类技术对这些网站进行组织归纳,从而有效地管理资源、改善网站服务满足用户需求,已日益成为一个重要的研究课题。目前的网站分类研究是以文本分类为基础的,需要分析网页内容,且以单个网页为处理对象,计算量大,不适合处理大规模流数据。另一方面,网站正

2、从“以站点为中心”朝着“以用户为中心’’的方向发展,而这种基于文本的分类方法从网页的静态内容出发,分类结果不能体现用户的行为特点。针对传统的基于内容的网站分类方法存在的问题,本文提出了一种基于用户访问行为分析的网站分类方法,该方法把具有相同URL前缀的网页的集合(即URL主机名相同的网站)作为一个处理对象,降低了数据规模;其次采集河南省教育科研计算机网真实的HTrP协议业务流数据作为分析对象,从用户对网站的访问行为中提取用于网站分类的特征,不需要逐个分析网页内容;最后针对省级区域性网络数据规模大的特点,

3、采用可伸缩性决策树归纳算法,从河南省教育科研计算机网用户访问的网站中提取出新闻类网站、资源共享类网站和通讯类网站。与传统的网站分类方法相比,本文提出的方法更适合处理大规模数据,且得到的分类结果包含了用户的潜在行为模式,更能反映用户的兴趣趋向和行为规律,从而使网管人员有针对性的优化网络,满足用户对主流应用的需求。关键词:用户行为分析,HrrP数据流,网站分类,决策树AbstractWiththerapiddevelopmentofIntemetand彤州thenumberofthewebsitesbeco

4、mesextremelylarge.Thewehsitecontainsabundant,isomericanddynamicinformationresources.Usingdataminingtechnologyforclassification,whichCaneffectivelymanagetheseinformationresourcestoimprovethewebsiteserviceto。;meetcustomerdemand,hasbecomeanimportantresearch

5、topic.Thecurrentresearchonclassificationisbasedontextclassification.ItneedstoanalyzetheWebcontentanddealswithasinglepageeachtime,resultinginalargecomplexityofcalculation.Thus,thesemethodsarenotsuitableforprocessinglarge-scalestreamingdata.Ontheotherhand.

6、websiteisdevelopingfromthe”website—centric”towardsthe”user-centric”,buttheresultsofclassificationobtainedbythesemethodswhicharebasedontheW曲contentcallnotreflectthecharacteristicsofuserbehavior.Forthesakeofsolvingthoseproblems,thispaperproposesawebsitecla

7、ssificationmethodwhichisbasedontheUSeraccessbehavioranalysis.Firstly,wetakeasetofWebpageswhichhavethesameURLprefixasasingletargetforclassification,reducingthescaleofdata.Secondly,theUSerHTTPtrafficiscollectedandthewebsiteclassificationfeaturesareextracte

8、dfromtheuseraccessbehavior.Itneedn’tanalyzetheWebcontent.Finally,ascalabledecisiontreealgorithmisusedtodealwiththelarge-scaledataoftheprovincialnetwork.FromthewebsiterecordsvisitedbytheusersinHERNET,thedecisiontreemodeltag

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。