基于数据挖掘的校园网用户行为分析系统的设计与实现

基于数据挖掘的校园网用户行为分析系统的设计与实现

ID:22959812

大小:7.67 MB

页数:75页

时间:2018-11-02

上传者:文档小小白
基于数据挖掘的校园网用户行为分析系统的设计与实现_第1页
基于数据挖掘的校园网用户行为分析系统的设计与实现_第2页
基于数据挖掘的校园网用户行为分析系统的设计与实现_第3页
基于数据挖掘的校园网用户行为分析系统的设计与实现_第4页
基于数据挖掘的校园网用户行为分析系统的设计与实现_第5页
资源描述:

《基于数据挖掘的校园网用户行为分析系统的设计与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

硕士学位论文论文题目:基干数据挖掘的拉园网用户行为分析系统的设计与实现都恩月作者姓名指导教师程宏兵学科专业计算机技术培养类别非全日制专业学位领士所在学院计算机科学与技米学院、软件学院提交日期2017年10月28日 浙江工业大学硕士学位论文基于数据挖掘的校园网用户行为分析系统的设计与实现作者姓名:郁恩月指导教师、:程宏兵教授章春根导师浙江工业大学计算机科学与技术学院2017年10月 DissertationSubmittedtoZheianUniversitofTechnolojgygyfortheDereeofMastergDesignandimplementationofcampusnetworkuserbehavioranalsissstembasedonDataMininyygCandidate:EnueYuyAdvisor:HonbinChengggColleeofComuterScienceandTechnologpgyZheianUniversitofTechnolojgygyNov2017.10 浙江工业大学硕士学位论文浙江工业大学学位论文原创性声明本人郑重声明:所提交的学位论文是本人在导师的指导下,独立进行研宄工作所取得的研宄成果。除文中已经加以标注引用的内容外,本论文不包含其他个人或集体已经发表或撰写过的研宄成果,也不含为获得浙江工业大学或其它教育机构的学位证书而使用过的材料。对本文的研宄作出重要贡献的个人和集体,均己在文中以明确方式标明。本人承担本声明的法律责任。日期1作者签名:只:w俾月3日学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权浙江工业大学可以将本学位论文的全部或部分内容编入有关数据库进行检。索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文本学位论文属于一1、保密□,在年解密后适用本授权书。2。、保密□,在二年解密后适用本授权书3、保密□,在三年解密后适用本授权书。4、不保密口。“”(请在以上相应方框内打V)作者签名:日期:W祥丨月)日、导师签名:日期年月6日^iv 浙江丁.业大学硕十学位论文基于数据挖掘的校园网用户行为分析系统的设计与实现摘要随着我国经济水平的提升及网络信息技术的发展,网络已经变成人们生活中无法缺少一,与大众的生活息息相关。经过二十余年的发展的部分,校园网络在我国各高校都获得了较好的应用,工作还是在生活上都给老师和学生带无论是在学习来巨大的改变,、教学人们的生活也变得越来越便利。与此同时,随着校园网用户数量的不断增加,校园网管理工作而临越来越多的问题。因此,通过引入数据挖掘算法对校园网用户行为进行分析和特征描述对校园网建设的优化及服务水平的提高有着十分重要的意义和价值。本文以A大学校园网为例,获取和解读校园网流量控制服务器上的用户访问日志文件,采用数据挖掘方法对校园网用户行为进行分析,旨在探究校园网用户的访问目标划分和访,问习惯进而为校园网络优化提供建议。以此挖掘流程为核心工作,构建了校园网用户行为分析系统。具体工作包括:实现了对校园M用户公M访问tl志的采集和理解。针对用户访问H志文件分散、格式+统一的实际情况,本文结合数据库对H志进行汇总管理,实施了数据清理、整理归挡、标准化等功能,同时在进行数据处理的同时还可以实现对数据的理解解释,整理出了原始数据中的主要字段,使得访问日志的管理更加便捷,结构更加规范。实现基于校园网数据的访问目标分析。以用户的出口地址和流量信息等数据为基础,本文引入了聚类方法,实现了对校园网用户访问地址的有效划分,解释了不同访问目标的具体差异情况,进而为网络中心优化出口带宽工作提供可行的决策数据支撑。其中,为了-K-观察离散点对聚类效果的影响,,本文分别实现了均值算法、K中心点算法引入了结合-凝聚方法的改进K,提高了算法的分析效率和聚类结果的稳定性均值算法。实现基于校园网的用户访问习惯分析。以用户访问站点的域名信息等数据为基础,本文引入并实现了Apriori关联规则挖掘算法,通过挖掘获得的关联规则解释校园网用户群体在访问惯上的偏好情况,有助于加深对校园网用户群体上网情况了解。本文从校园网使用实际出发,对用户群体的聚类分析有助于对校园网公网出口建设进行优化,对访问习惯的关联分析有助于更深入了解用户群体,有助于高校学生思想引导工i 浙江丁业大学硕+学位论文…作的开展,具有定的现实意义。?关键词.校园网,数据挖掘,聚类分析,用户行为分析,关联规则ii 浙江T业大学硕十学位论文DesignandimplementationofcampusnetworkuserbehavioranalysissystembasedonDataMiningABSTRACT'WiththedevelomentofChinaseconomandenhancethelevelofnetworkinformationpy'technology,theInternethasgraduallypenetratedintoeveryonesdailylife.After20yearsofdevelopment,thecampusnetworkinourcollegesanduniversitiesetooduseandbrinreatggggconveniencetoteachersandstudents.Meanwhile,asthenumberofcampusnetworkuserisincreasing,campusnetworkmanagementworkisfacingmoreandmoreproblems.Therefore,thecampusnetworkuserbehavioranalysishasaveryimportantmeaningandvaluetothecampusnetworkconstruction.Inthisaer,weuseAcampusnetworkasexample,obtainuseraccesslofilesusingdatappg,'mininmethodstoexlorethecamusnetworkusersdivisionhabitthenrovidegpp,precommendationsforthecampusnetworkoptimizationandbuildacampusnetworkuserbehavioranalysissystem.Themainworkincludes:Obtainuserlogfilesofaccessinthepublicnetwork.Foruseraccesslogfilesarescatteredg,notunifiedformat,thispapersummarizedthefilesandimplementeddatacleansing,mergingand-standardization.Afterthererocessin,thefielddatawereunderstand.ppgingAna.ilyzethetargetaddressesofcampusnetworkusersByusngtheURLandtrafficinformatlimethodveionthisaerintroducesthecusterntoachietheeffectiveisionoft,ppgdvihe*campusnetworkuserstargetaddresses,explainingthespecificdifferencesindifferentclusters,andthenrovilimih.pidepractcadatatooptzetheexportubforthenetworkInordertoobserve--ilihimedotheeffectsofdiscreteontsonthecusterneffecttsaerusedKmeansanKidspg,ppd-a.lorithm,asoanimrovedKmeansalorithmcombinedwiththealomeratvemethodglpgggiA'nalyzethecampusnetworkuserhabitstoaccessaddresses.Basedonthedataofthesites,domainnamethisaerimlementsAriorialorithmexlaintcamusnetworkusers,ppppg,phephabithitsandreferenceofaccessinstesbettineassociationrulesthisasohelstogygglp,punderstandthesurfingsituationofthecamusnetworkusersdeel.ppyThttsitofthliisaersarfromtherealecamusnetworkusincusternanalsisofusersppypg,gyonthecamusnetworkheildlikoiihellstobuubcnetwortimizatonassociatonanalsisstopppp,ypiii 浙江T业大学硕十学位论文understandthecamusnetworkuserswelhichcanheltitsiiii.pl*wpogudestudennunverstesThereforethispaperhascertainpracticalsignificance.KeWordsusNetworkUserBehaviorAnalsis?ClusterAnalsis,:Camyp,;yyAssociationRule,vi 浙江T.业大学硕十学位论文目录要i第一章绪论11.1课题背景11.2课题研究意义2.331国内外研究成果1.4课题主耍研究内袢4.551论文组织结构第二章相关概念介绍6.户621用行为分析概述12.1.1网络用厂的概念62..户行为分析的概念612用2.2数据挖掘概述62.2.71数据挖掘的概念2.2.2数据挖掘的常用方法72一.2.3数据挖掘的般过程82.3木章小结10第三章系统需求分析11.31需求分析概述113.2功能需求分析12;3.3功能:求分析15||3.4本章小结15第四章系统设计164.1系统框架设讣164..1611分析部分4.1.2賴部分1774.2系统模块设计14.2.】数据1?理模块17..1422访问R标分析模块84.2.3访问习惯分析模块184.3数据库设计184.4挖掘流程设计204.5辟顿21第五章算法设计与改进225.1数据获取22I 浙江T业大学硕十学位论文2352数据预处珂.5.2.】数据淸理235.2.223数据归并5.2.3数据标准化245.2.4处理效果评价275.327访问目标分析的实现5.3.1聚类算法分析27-5.3.2K均值算法实现27-5.3K29.3中心点算法实现53.430,结合凝聚方法的聚类算法实现5.4访问J惯分析的实现335.4.1关联规则挖掘算法分析335.4.2Apriori1?法丈现345.5本章小结36第六章系统运行测试与结果分析37376.1系统运行环境61.137.硬件环境..37612软件环境6.2系统运行情况376.2.入371数据导6.2.2数据接口386.2.3数据预处理386.2.4聚类分析39396.2.5关联分析640.3系统挖掘结果分析6.3.1N络数据统计分析406.3.2用户行为聚类分析426.3.3川户行力关联分析526.4用户行为分析结论应用556.4.1校园网公网访问现状55566.4.2公M出口优化方案6.5本草小结58第七章总结与展望597.1雜597.2■59参考文献61麟64攻读学位期间参加的科研项目和成果65II 浙江T业大学硕+学位论文第一章绪论11.课题背景,随着我W经济+断发展科学技术水平不断提升,互联N已经融入人们的生活,成为一人们生活中不可缺少息息的部分,在学习、工作、生活、娱乐的各个方面丰富着整个社一会的生活,而整个社会也成为个巨人的网络社会201623,。年月号中国互联网络信息中心(CNNIC)在首都北京发布的第37次《中国互联网络发展状况统计报告》上的数据M示了中国互联网的快速发展,至2015年12月份,中国互联网用户已经高达6.49亿人次,相比2014年统计的数据,多出了3117万人,而此时互联网的使用率以及高达47.9%,相比2014年统计的高处了2.1%。可以看到,伴随着互联网的蓬勃发展,各个政府机关、企业,通过,、高校、社会机构等都积极开展信息化建设采用互联网技术来实现办公自动化替代许多传统的手工作业,从而降低人力成本,提高工作效率。尽管互联网的普及为生活水平的提高做出了重要的贡献,但我们同时也不得不正视它一,主要表现在以下方面所带来的系列问题:首先,安全问题。据数据统计,到2015年底,全世界使用互联网的人数达到了28.9,40%,而且这个增长势不可挡亿人次使用率高达,根据这个增长趋势判断到2016年底,全世界将会有30亿用户使用互联网络,占全世界人口的42.4%。如今人们的生产生活等,而网络木身环境的多变性各行各业都对网络有着强烈的依赖性、复杂性、幵发性和脆弱,性都决定了它木身易受攻击使得网络安全威胁成为不得不正视的客观存在,如计算机病毒、木马等,己经成为人们日常生活中常见的安全隐患。一第二,道德问题样,网络社会中同样出现道德曰益缺失的。正如现实中的人类社会问题。如M络色情、暴力等不良信息的传播,对青少年的健康成长有着巨大的危害如利;用计算机复制和网络传播的便利,、难以溯源的特性侵害知识产权对脑力劳动者的署名权直至经济利益造成明显损害;如利用网络覆盖的广泛性进行人肉搜索等行为,有目的地对特定人物造成名誉损害,这样不仅仅破坏了其个人形象,扰乱了社会秩序,还有可能会成为引起社会不安的导火线。第三,心理问题。正是由于互联网对人们日常生活的巨大影响,使得人与人之间的交1 浙江T.业大学硕十学位论文往模式发生的巨大的变化,即使不出门不通书信,也可以通过网络来了解社会的动态,通过网络实现人与人的交往,。增加人们之间的沟通交流,参加各类社会活动等原木现实生活中面对面的实际交往成为了坐在屏幕前敲击键盘和鼠标,这种长期与机器交流的生活方式使得人与人之间的社会关系被削弱、情感逐步淡化其至产生隔阂,这种对网络的依赖很容易导致心理问题的出现。,、网民数量逐日增多的背景下,如何对互联网进行规范可见在互联网日益普及、尽一,个互联网人必须要正视和解决的的问题。自量避免其造成不以影响这是毎1994年4W月20日起中国□全功能接规国际互联网,与此N时我国大部分高校便开始了校园网的建设,随着多年来国家政策的积极引导和社会信息化浪潮的不断推动,到2016年12月底,中国全部的全日制本科普通高等院校都实现了高校校园网络的全方位覆盖包括了实验室、图书馆、办公楼、教学楼及宿舍楼等全部校园建筑。高校校园网络的全方位建设推动一,也催牛了系列高校校园学生网站了其硬件设施和软件系统的不断升级进步。随着高校校园网络规模不断扩大,高校校园信息化与网络化趋势也愈发明显,尤其对于高校学生而言,对校园网的使用对其价值取向,、生活方式、身心健康都有重要的影响因此对于如何,是众多高校的目前面临的重要问题提高高校校园网络的服务水平和管理水平。“”“”一对于这问题,涉及到信息互联领域的网络用户行为分析网络用户行为分析,是指针对某个特定网络或整个互联网的用户,统计该用户在使用互联网时所浏览的信息,判断出其喜好,,找到其浏览的规律特征从而为客户优先推送其感兴趣的信息。通过分析其规律和影响因素,进而为制定和调整网络建设与发展策略提供决策支持,促进网络行为lli规范与互联网管理。如今,CNZZ、GooeAnatcs、量了统计等网站访问分析工月,gy;以一领域的代表及以友盟、机锋为代表的移动互联M应用分析丄具史是这。他们通过收集互联M用户的浏览数据,对这些数据整理,获得用户行为的规律,预测潜在业务和用、分析户,从而为网站等网络服务的发展指明方向。1.2课题研究意义如今,对于老师和学生来说,不管是工作,、生活、学习还是娱乐上都和校园网络密一切相连,息息相关。校园网络环境的好坏直接关系到校园生活的质量。作为互联网的个特殊的组成部分,校园网面对的主要用户是老师和学生,群体人数比较庞大,文化层次相对较高,所以网络使用也比较频繁,网络应用范围较广等特点,而其在建设过程中面临的问题则同样明显。校园网最主要的用户群体是在校大学生,这个时候的大学生正处于由学校向社会过渡的关键时刻,因此,因此需要引导他们建立正确的人生观、价值观、世界观2 浙江T.业大学硕十学位论文.校园网用户对网络的使用频率较高,使用时有较强的目的性和表达欲望作为思想最为活一跃也最具激情和活力的批人,很容易受到网络问题的影响。如众多高校长期以来的面临的学生“”一“”沉溺网络的问题,这其实是种心理疾病网络成瘾症,主要就是那些使用电一,,而这种脑时间过长,自我休息调节时间过少甚至己经影响到自身健康状况的种症状对于那些不善言辞,、性格内向、或者现实生活中遇到困难挫折的人很容易陷入网络的世界中无法自拔,,影。这种心理疾病不仅使学生产生心理障碍损害身体健康响其社会生活质量,更容易使学生出现长期的情绪低落、精神压抑及思维迟钝等现象,甚至导致学生产生人格障碍,对校,对未来生活失去希望。正是由于网络生活对现实生活有着巨大的影响园网用户行为进行研究与分析,更具有现实指导意义。冃前,各高校在网络用户行为分析方面普遍缺乏专门的研究,更多只是对网络运行状况进行监测和分析,采用数据挖掘技术有效地发。而通过获取用户在校园网中的访问记录?掘原始数据屮的信息,了解互联网用户浏览特征,找到他们使用特点。而从个广泛的角,,度来看,通过分析校园网络的使用情况收集校园网络的使用信息可以帮助网络管理人,,员了解网络使用信息,冇效管理网络资原提高网络资源的使用率完善网络性能和服务质量,网络用户分析出的数。同时还能为网络异常、网络问题提供解决的依据。于此同时,对于制定正确的校园管理策略据还可以帮助管理人员展开学生管理工作、方案有积极的指导作用。1.3国内外研究成果早在20世纪80年代开始,国外为了实现对网络的监控,就己经开始对用户的行为特一征和规律进行研究。当前对网络用户行为的研究热点主要有两大方面,其中个是对Web—站点用户访问行为的分析,目的是了解站点的用户人群、访问热点、使用习惯等;W个则是对于局域网络的情况进行分析,了解常规状态下的用户行为特征,用于进行入侵检测、行为审计等安全工作,其最终目的都是为了优化网络建设、调整网络方。无论是哪个方而案。目前为止,用户行为分析方面的主要参考模型有%1.ISO的FDT小组完成的同际标准的形式化描述语言LOTOS(LanguageofTemporalOrderingSpecification),是依据对各进程外观行为的时态次序进行描述,以达到对整个系统功能描述之目的2.交互系统中在用于分析用户复杂性的建模技术GOMS(Goals&Operations&A大学工程硕士学位论文Methods&Selectionrules),通过目标、操作符、方法和选择等规则3 浙江T业大学硕十学位论文6[〗来对用户行为进行描述;3UAN(UsAtiNtti),.用简单的符号语言对交互实体进行描述的erconoaon它采用表格结构进行用户与界面交互任务表示。这些参考模型都经过了国外大量研究工作的检验,在大型的用户行为分析项目中广为运用。网络用户行为分析在国内已经有了若干年的发展,主要的研究重点还是在于对数据库和服务器日志进行的数据挖掘,发现用户搜索、浏览等网络行为的特征和规律,并运用于网站优化,、网络安全、网络行为预测等方面。H前国内在进行用户行为分析时采用的方法主要有三种:1.从应用层次对用户行为进行的分析;2.基于用户来源与基于网站受访的用户行为分析;3从网络数据层面对正常和异常的网络行为进行识别。.,主要目的是优化网站服务其中,前两种方法主要运用在网站用户行为分析上、提高?网站性能,其重点放在了对单个网站的了解和分析上:后种方法则是通过从网络服务器屮提取日志数据进行分析,了解整个网络的资源使用情况,特别是把握局域网中用户的行为特征。14课.题主要研究内容本课题以校险网为中心,围绕校园网冃前的特点和现状,结合案例学校的实际,使用数据挖掘技术对校园网流量控制服务器上的访问日志数据进行分析,并结合校园网络建设工作对结果进行解读。以此工作为基础,设计并建立了校园网用户行为分析系统。本课题的主要工作包括了如下几个方面:1.对校园网络建设的特点和现状进行了解和调研,研究数据挖掘和用户行为分析技术在校园网建设中的应用;2.采集、管理校园网流量控制服务器上的公网访问数据,并进行了数据的清理、归并和标准化等预处理工作,对处理后的数据字段内容进行理解与分析:31A,.根据中的研究结论,结合大学校园网使用实际完成校园网用户行为分析系统的设计,主要包含访问目标分析和访问习惯分析两部分内容;-_4,K.实现对访问目标的分析通过引入K均值算法、中心点算法实现对校园网用户访问地址的划分(elbowmethod)和ilhouettecoefficient);通过肘方法轮廓系数(s方法,确定聚类最佳簇的个数;通过簇之间点击量和流量的差异解释了不同访问目标类型间的差异情况,为优化校园网出口带宽提供决策支持;4 浙江丁.业大学硕十学位论文5.实现对访问习惯的分析,引入关联规则分析方法,通过Apriori算法获取校园网用,户群体在访问网站时的习惯偏好,挖掘用户与访问网站间的潜在关系有助于加深对校园网用户的了解;6,.对数据分析的结果进行解读并应用到校园W公网出口建设和高校学生思想工作的实际中。本文结合课题研究工作的内容,并以数据挖掘技术的应用为重点,叙述了用户行为分析技术在校园网建设中的应用,根据校园网的特点和实际分析盖求提出了数据挖掘算法的,实施方案,并探讨了校园网用户行为分析与具体的网络建设工作的结合最后对研究工作进行了总结与展望。15.论文组织结构论文共分为6章,内容安排如下:,第1章,绪论。整体上阐述了该论文的课题背景及研究意义介绍了数据挖掘和网络行为分析技术的发展和应用现状,展示了本课题的主要研究内容并说明了论文的组织结构。,还第2章,相关概念介绍介绍了数据。介绍了用户网络用户和用户行为分析的概念一般过程挖掘及其常用方法和。第3章,系统需求分析。介绍了校园网用户行为分析系统的设计冃标,结合实际情况。梳理系统需求,提出具体的功能需求和非功能需求第4章,系统设计。介绍了校园网出户的行为分析系统设计方案,明确了系统框架的设计,、系统模块设计及数据库设计针对具体问题提出了挖掘分析流程设计。5,,第章,算法设计与改进。介绍了系统的数据来源完成数据的采集然后开展了数据的清理。根据系统需求,完成访问目标、属性的归并以及数据内容标准化等预处理工作。分析和访问习惯分析的设计与实现,在此过程中引入了聚类分析和关联规则分析的方法。,第6章,系统运行测试和结果分析介绍了系统运行的环境展示了系统实际运行的情况、用户行为聚类分析和用户行为关联分析的结果,并通,描述了网络数据的统计分析过校园网公网出U优化方案讲述了用户行为分析技术在校园网络建设工作中的应用。一,步研究进行了展望最后,对总结了本课题的主要研究工作并对下。5 浙江丁业大学硕十学位论文第二章相关概念介绍,2.1本章将介绍本文中涉及的用户行为分析和数据挖掘相关概念具体安排如下:节介绍用户行为分析概述;2.2节介绍数据挖掘概述;2.3节对本章进行总结。21.用户行为分析概述21.1.网络用户的概念(UB用户行为分析serehaviorAnalysis)迅针对网络用户而言,根据中国互联网络信“iliC总中心(CNN1C,ChnalntemetMetworknformatonenter)的定义,网络用户是指在”66一,最近个月使用过互联网的岁以上的公民,由此可见网络用户是对般网络使用者一的统称。般说来,网络用户需要具备以下三个基本条件:1.I具有使用计算机的条件,并能够接入nternet,然后进行上网活动;2.具有基本的计算机网络知识和操作技能;3.能支付上网费用的基本条件或者使用网络的基本条件。通过收集网络用户的使用数据,了解他们的使用情况,主要通过以下两种方法对网络一用户来进行分类,:第种美国的学者通过网民使用网络的时间、频率来将网民分为四种,2,3类型:1、将网络作为辅助工具的网民用户、将网络用到工作、、生活的网民用户一较少使用网络的网民用,4、将网络作为获取信息渠道的网民用户,德;第种国的学者通过自己所在的专业领域及自己使用网络的经验作为基准,1、将网民分为四种类型:熟.悉相应领域知识且只有熟悉web检索经验的网络用户,2、熟悉相应领域知识却不熟悉b4web检索经验的网络用户,3、熟悉we检索经验却不熟悉相应领域知识的网络用户.、即+熟悉领域知识也不熟悉web检索经验的M络用户。结合校园N实际使用环境,我们可以将所有在学习、工作和生活中利用校园网资源进行信息沟通的教师、职工、学生等群体统称为校园网络用户。校园网用户具有用户相对集M中。、用户行为复杂、网络安全性相对较差等特点212..用户行为分析的概念对使用互联网络的用户进行行为分析主要是通过现在强大的科学技术来获取大量的网络使用的数据,并运用数据处理的方法对数据进行收集,、处理、归纳、总结从而得出6 浙江T.业大学硕十学位论文该互联网用户的使用特点、上网习惯,从、爱好、以及经常上网的所在地等数据并对此进行分析。对互联网用户的行为分析实际上就是对网络数据库的分析,通过大数据的分析,可以更加直观的看到互联网用户的上网足迹,同时对网络数据库的分析,还可以更容易的发现网络后台存在的弊端和隐患,为防范互联网隐患提供数据依据。尽管客观上对于大数据的分析能够更直观的体现N络用户行为,但是互联网用户在使一用网络时并非是成不变的,人们认识的新事物越多,那么他们愿意接受的讯息希望了解一的事物就越多,对于网络信息的选择则越来越多样化,所以单从网络数据并不能对于网一一络用户行为进行个划分,也没有个固定的标准,以下主。因此要是通过网络环境以及研究的条件对网络用户行为进行分类。1.从网络用户来分,分为个人行为和群体行为两种类型;2.从网络行为的利弊来划分,分为正2网络行为和具有隐患的网络行为;3:.从网络行为是否符合惯正常行为和异常行为。2.2数据挖掘概述22..1数据挖掘的概念ii)指的就是通过对大量的数据进行分类、整理、分析数据挖掘(DataMnng,从而Ml得到隐藏的信息。。数据挖掘能够和用户或知识库进行交互,因此也有人将数据挖掘一(K-DscovernDatabasesnow,KDD乍为数据库中发现知识ledgeiyi)过程的个必不可少的基本步骤、知。数据挖掘的过程主要是由数据清理、数据选择、数据变换、模式评估|211识表示等步骤迭代组成。一数据挖掘并不是唯的信息发现任务,常见的信息发现任务还包括信息检索和统计分一定的算法和数据结构析等,使用数据的明显特征创建索引,从而。信息检索是通过采用能够有效地组织和检索信息,;统计分析是通过现有既定的统计标准和条件对数据进行特向性划分,其结果的划分特征和意义是预设且明显的;而数据挖掘则通过某些关联规则,从数据集中发掘信息,其结果的特征和意义是未知的。数据挖掘技术可以用于增强信息检。索功能,也可以结合统计分析技术更好地实现对数据的处理和利用由于各大行业经过长时间的发展,积累了大量的历史数据,而现在迫切需要对这些海景的数据进行分析,从中发掘隐藏在背后的业务特点和规律,转化为有价值的信息与知识,,最近几年来数据挖掘的技术得到了整个信息产业界各领域的密切关注所以。2.2.2数据挖掘的常用方法数据挖掘采用的方法有很多种,并且依然在不断地改进和发展当中。其中常用的主要7 浙江T.业大学硕+学位论文方法有聚类分析、分类分析、关联分析、特征分析、回归分析、偏差分析、变化及Web挖掘等,它们通过各种角度对数据进行挖掘一1。.分类分析分类分析是指在大量的网络数据中找到其中组具有相同特征的数据,依据分类模型来划分为不同的类别。而对此进行分类的目的则是将具有相同特征的数据归类到衣蛾特定的组别里面。2一一.聚类分析。聚类分析则是依据个固有的标准或者准则,将个数据整体划分为不,而如此划分的目的就是为了得到更加相似的个体出来同的个体,同时也将行为特征相差较大的个体筛选出来。3.关联分析。关联分析是指通过挖掘数据集中不N属性值之间存在的联系,形成关联规则,通过关联规则分析,我们能够得知数据集中的各。关联规则在通常状态下是隐藏得一属性之间的关系,也就可以在某些事务数据存在的提前下,推测出另些数据在这个事务中出现的概率。4.回!LI分析。回归分析所反映的是数据集成员属性值在时间上的特征,它假定条件属一??性和决策属性之间存在线性关系,通过训练数据集产生个将数据项映射到个实际预测变量的函数,也就是回归方程,从而发现不同的变量或属性间的依赖关系。5.特征分析。特征分析指的是从大量的数据中收集这些数据的共同性,而这个共同性则是这些数据的具体表现。6.变化和偏差分析。变化和偏差分析就比较简单,通过对比参照模型与观察对象之间一的差异,来获取额外的信息。般来说,对于不特定的因素,更多的要去分析不特定因素产生的原因,这样才能获取更多隐藏的信息,才能在数据发生变化的时候给出合理的解决方法。7?.WebWeb挖掘挖掘,是基非结构化数据的挖掘。在Internet。与文本挖掘十分相似丁迅猛发展的今天,Web上的信息量呈现爆炸式增长。通过对Web进行挖掘,可以从Web的海量数据中,收集有用的相关信息,并集中分析和处理对于企业经营管理和市场产品存在重人或潜在影响的环境信息和行业信息,发现Web用户群体中的共同行为、共同兴趣、使用偏好和习惯模式等,从而对企业及Web站点制定发展策略提供相应的依据。2一.2.3数据挖掘的般过程简单来说,对于数据的收集、整理、分析其实就是数据挖掘的过程,而这个过程并不“一”个一模逝一结果间定的形式一仅仅是数据,对于数据的挖掘是个不断更新、不断进??,而这个过程是人们积累知识的过程。步的过程般说来,数据挖掘过程由商务理解、数¥ 浙江T业大学硕十学位论文14]、1据理解数据预处理、建模、评估、部署等儿个步骤组成=1?(BiUi)商务理解usnessnderstandng商务理解是指在数据挖掘流程的最初阶段,工作主要集中在理解项目目标,并从业务功能的角度对需求进行分析和理解,最终把业务需求的描述性语言转化为可以适用数据挖掘模板的问题。2.数据理解(DataUnderstanding)数据理解从最初的数据收集开始,结合业务盖求和数据来源,熟悉数据的内容,理解数据中各个项的属性,分析数据中的质量问题。3?数据准备(DataPreparation)一个步骤数据准备工作是整数据挖掘过程中最繁琐的。数据准备的主要内容是处理原始数据,。这,以提高数据的质量为数据挖掘的模型提供合理有效的输入值部分丁作需要根据实际需要多次执行,包括对数据进行整理、清现、除噪、转换、合并等丁作。4(Moden).建模lig建模是指通过对需求的理解,选择不同的模型加以应出,在数据挖掘过程中模型可以,以获得最佳的模型参数,进行不断的调整。在调整模型的过程中往往需要回数据准备阶段进行相应的处理。5Ei.评估(valuaton)在进行最后的部署之前,需要对模型进行的评估,检验模型是否可行,确保模型能够达到项目之初设立的目标。6(Dlt).部署epoymen一,根据需求,可以实现个比较复杂的在模型创建和评估完成后、可重复的数据挖掘过程,将数据挖掘模梨应用到实际的业务环境当中。在实际情况中,往往是由客户完成模。型的部署,而不是数据分析人员CRISP-DM-(i那么在数据分析的过程所创建的模型中,使用普遍的就是crossndustry“”-standardprocessfordatamining),即跨行业数据挖掘过程标准。CRISPDM模型的2_。大致过程如图1所示9 浙江T.业大学硕+学位论文fI商业理解I蹄业理解I,X.商业理網商业理解|^2--图1CRISPDM模甩2.3本章小结木章介绍了校园网用户行为分析系统涉及的相关概念,包括用户行为分析和数据挖掘两部分。10 浙江丁.业大学硕十学位论文第三章系统需求分析,3.1本章介绍校园网用户行为分析系统的需求分析详细安排如下:节为需求分析概2..34节对本章进行总结。述;3.节为系统功能需求;3节为系统非功能需求;33.1需求分析概述本文的主耍应用场景是在以A大学N络中心校园网用户访问H志为基础数据源,期望通过应用数据挖掘方法,对校园网用户的群体和行为习惯进行分析。校园网用户行为分析的目的是要掌握网络中用户的使用情况、特点以及网络活动过程中所表现山来的规律。由于校园网用户对网络有着较强的依附性,且其网络行为是复杂多,这些数据具有较高的复杂度,,变的,长期以来校园网积累了大量的原始数据因此通过对校园网公网访问原始数据的采集,从、处理和分析中发现新的、有价值的知识对于校园网建设规划的意义十分重大。A大学校园网由中关村校区和良乡校区两部分组成,其中良乡校区通过直达光纤与中关村校区相连,在良乡校区发出的公网访问请求也是通过光纤传送到中关村校区的公网出□。通过系统具体实现和运行实验,在目前现有数据中挖掘出有价值的知识数据,并提供冇应用价值的决策建议:。尝试从如下几个分析模型出发一Web访问的分析:1通过分析记时间内,各个网站访问数量、流量占用等情.基于况,获得校园网Web访问分布情况,该分析结果可作为公网出口线路优化方案的输入;一2.基于端U访问的分析:通过分析定时间内,各端U对于流量的使用情况,并结合实际软件使用的端U情况,来获得某些特定软件或服务的使用分布,分析结果可作为制定某些访问W络策略的参考(如限制下载等);一3,.基于流景峰值分布的分析:分析段时间内,网络流量的集中情况和变化趋势可根据分析适时调整网络访问策略;一4:.基于IP段访问分布的分析分析段时间内,不同IP段的网络使用情况,结合IP段分布,对不用类型的校园网用户上网特点进行分、学生与老师位置分布等实际情况析。11 浙江丁.业大学硕十学位论文3.2功能需求分析结合A大学校园网访问原始数据维度及实际工作需求,本文主要关注校园网出户的访问目标分析和其网络访问习惯的分析,系统针对R志记录数据,基于所获取的数据源实际情况,从web访问模型出发,以其他模型为辅助,实现如下主要核心功能需求:.1基于校园网下网络请求数据构建校园网用户行为分析系统,实现基于原始口志数据下的数据管理功能,提供数据采集,根据实际需求选择合适的数据、预处理等必要步骤、设计合理的算法对数据进行分析,实现校园网的访问目标分析和访问习惯分析挖掘方法。其中访问目标分析通过对校园网用户对不同网络地址的访问次数和流量等数据的分,析根据校园M用户对M络流量使用需求的个同划分为+同类别的群体:访问习惯分析通?定时间,过对校园网用户在丨々访问的全部M络地址的分析发现用户在使用校园N时访问的H络地址之间的相关性。—―蘇.)*-?VI数据导入!数据预处理<遙择功能Y:J)(士i^弔1用户访问目标分析:访问习惯分行TI结果解释|;/结束'3-图1系统功能流程图12 T浙江.业大学硕十学位论文2.将分析结果进行较为直观的展示,如采用聚类分析则以样本数据散点图表现各个类簇,、采用关联规则分析则展示最终生成的关联规则表等。针对数据挖掘算法的计算结果实现对数据挖掘知识进行合理的解释和评价,并根据得到的用户访问目标及用户访问习惯等结果信息进行分析并提出对校园N络建设工作有意义的决策支持意见。-根据以上需求分析,可以得出系统功能流程图如图31所示。一鉴于校园网用户行为分析系统涉及校园网用户行为信息,使用者身份较为单,主要()供管理员教师根据网络中心的数据进行相应数据挖掘分析工作,因此本系统用例图如图3-2所示。校H网丨mi九分桁系统』一//一-?数据查询}〔」访问目标聚类分析、\'?、,管理员\Z图3-2系统用例图一3--用例详细说明如表丨表34所示。3-表1泞入数据用例说明表用例名称汙入数据主执行荇管理记j腓》条件采集获得流量控制服务器h的校园网用户访问日志数据!1后置条件将校四网川户访问n志数据丫/储到数据咋屮,然后对数据再进行数椐清理、归并及标准化等预处理!;段列表全部字段113 浙江T.业大学硕士学位论文表3-2数椐查询⑴例说明表用例名称数据查询'?主执行者rr理员;I前置条件校园M用户访问H忐数据己导入数据库,执行荇输入SQL语句设定奄询条件]后置条件根据执行者的查询条件输出相应结果1字段列表全部字段表3-3用户W问H标分析用例说明表用例名称用户访问H标分析主执行齐管理W前置条件对校园网用P访问日志数据进行预处理,生成新的数据集后置条件以用户访问点击量与流量为维度输出聚类结果图||卞段列表用户在M络中的标识卞段,沁问请求的目标地/问产生的上行流帒址,U,产生的下行流S:表-43川户访问习惯分析川例说明表f]例名利;用户访问习惯分祈f+:执行者符理员前S条件对校园M用户W问td;数据进行预处埋,生成新的数据集后S条件输出校园网用1在短吋间内对于不N网络地址M时访问的关联关系1字段列表fl户在网络屮的标识字段,访问请求的时间,访问清求的口标地址,访问请求的a体资源的相对路径】4 浙江T.业大学硕+学位论文3.3非功能需求分析,课题根据校园网实际情况结合传统网络用户行为分析的工作经验和方法,课题系统一需要符合校园网用户分析的实际应用场景,保证定的算法效率和可延续性,因此提出了如下非功能需求:1的可延续性。由于校园网中的网络状态更新迅速,随着时间的推移数据.离线处理,将不断增加,这会使系统面临重复处理历史数据造成的冗余计算而系统本身主要目的在,并不要求实现实时在线分析于探究校园网用户群体的类型及其使用习惯。因此系统需要,获取新知识,为决策调整提供支持能够对逐步采集到的数据进行处理。?一2一天都在变化,.算法的运行效率,而H新。由丁校园N是个持续运行的环境每一一一,月姑,因此如果单只是收集天或者几天的数据对其进行分析那么是无法得到个有代表性的数据的,并需持续不断的进行数据收集整理,而这个过程有可能是几个月,也有可能足几年。这样巨人的数据量要求校园网用户行为分析系统盖综合运用分析和处理手段,,在性能上达到具有实际使用意义的要求采用a效的算法。3.4本章小结本章从校园N使用的实际情况出发,根据校园N用户行为分析系统的设计目标进行了需求分析,并根据已有数据集的客观情况选取基于Web访问的分析作为课题实验的重点实例,。然后总结用户对系统功能的诉求并介绍系统的非功能需求。15 浙江T.业大学硕十学位论文第四章系统设计.本章介绍校园网用户行为分析系统的设计,具体安排如下:41节为系统整体框架设.计4.2节为43.445;.节为数据库设计;4节为系统挖掘流程设计;;系统详细模块设计节对本章进行总结。41.系统框架设计?4-校园网用户了1所示t本系统主要包含了分析和应用两彳为分析系统的整体结构如图、,、数据预处理统讣分析、聚类分析大部分其中分析部分包括了数据采集、关联分析等儿个模块,应用部分则是将分析部分的结果作为输入来进行拓展性应用,从而实现用户行为的分析指导和促进实际工作。 ̄r^兔IJ流摄控制服务器I公N出口路由''I一i■〈统‘析TII江?|数批m处砰/]\|""'"^丨-漏 ̄ ̄ ̄r.I,I]'—聚炎分枳!,(、i條誠職i ̄分析蛣果「4{i总y[关肽规则分枳IJzzzztttL\.分析应用?、j';图4-1系统整体框架结构4.1.1分析部分数据采集模块主要是从公网访问流fi控服务器上采集校内用户访问公网资源的记录、、、J!」并等操作,信息:数据预处理模块是对采集到的原始数据通过理解清理、除噪转换,对将数据转化为能够用于进行数据挖掘的数据集;统计分析模块是采用统计学的方法原一始数据或者经过定处理的数据进行统计分析;系统中聚类分析模块的具体方法是采用数据挖掘中的聚类方法,从而将经过预处理的数据集划分为不同类簇,并寻找隐含其中的有,从经过预处理的数据集中生成关联规价值的信息;关联分析是采用挖掘频繁项集的方法则,寻找同性质信息间的相关性。16 浙江T业大学硕十学位论文4.1.2应用部分目盼本系统中的应用部分主要设计有两个功能块。分析结果展现模块是通过图形、表一格等方式将分析部分的结果进行直观地展现,以方便对分析结果进行齊看和进行进步的分析,对校内用户最常访问的W络资;公N出口路由优化模块是根据分析模块提供的信息.源进行再次分析并通过优化策略选择从校内访问该资源的最佳出口途径,从而实现校园网公网出口访问的优化,。除了上述两个功能模块还可以利用用户行为分析结果开发其他实用功能,此部分作为后续工作开展。4.2系统模块设计根据校园N内部环境下的功能需求以及所有的数据资源集合,校园M的用户行为分析-,系统基本上可以分为三个模块。如图42所示系统主耍实现数据管理、聚类分析、关联规则挖掘分析三部分内容。校园网用户行为分析系统|数据管理模块;C ̄!I:^;::nn数据K-均值结果结果wSfSS预处算法SS展示算法展示导入接口理模块模块模块模块1I!I;I;图4-2系统功能结构图4.2.1数据管理模块本模块主要对采集到的用户上网记录数据进行结构化存储,通过关系型数据库进行数,具体包括据管理:(1)数据导入模块:模块实现对本地日志文件的检索、读入以及文本分析,对文本数据进行关系构违。模块根据日志的级别和配置项进行适配处理,将其转为.CSV格式表格中,进而使用数据库的ODBC接口进行导入。(2数据接口模块:)模块实现通过可视化界面对数据进行增删改查操作,并提供简单的索引和搜索服务。(3)数据预处理模块:模块实现对脏数据的清理,分析和!LI并访问地址,规整字段17 浙江T.业大学硕十学位论文并对其进行标准化,遵,并不对原始数据直接进行删。在预处理模块中循动态分析的规则除。4..22访问目标分析模块本模块主要基于用户访问站点频次以及产生流量大小的数据进行分析,通过应用聚类算法实现具体分析功能。-(:1)K均值算法子模块实现针对预处理后数据的聚类过程,针对访问频次和流量1-N两个字段应用K均值算法,并提供聚类结果的图形化展示界面。--(2)KK中心点算法子模块:实现与均值计算模块相N的聚类功能,该模块需要提供同样算法输出和展示界面。(3)聚类结果展示评估子模块:可对聚类的结果进行简单评估,根据类簇间的可.信,息熵讨聚类结果进行评测,辅助以图形化的聚类结果显示界面以试图得到最佳的聚类效3丨丨)果。4.2.3访问习惯分析模块i模块主要实现对数据集中访问站点信息情况进行关联规则挖掘,通过Aprior算法实现用户访问习惯的分析,可以根据图形化界而显示的项集情况对支持度进行动。在模块中,态调整,提供规则的人工去噪进而将结果服务于用户行为的分析和解释。4.3数据库设计对于从流控服务器获得的原始数据,由于没有对每个字段具体含义的说明,因此首先-,理解每个字段的含义43。需要对原始数据进行初步的分析。原始数据的格式与内容如图2^7'>M3522936167226.10..0.106〇aoYou,2SBS2:8if73<2922.0!4:Cuar0:010:::PM!12SIII"<-<!424I.:.-14\,:?ii2030?050f4.0.0000112ej〇3CC3:90.013D??24CC22A27|lC4e2400I0I2Ma1rr200-1^?:.-checkout../.3.3521:iSCPM:10.-Ci.GSOucYcu.C123D53411090121:G;aandanciccm.scrir*ci〇aC5I2I2i£iigp_77'1156.C6201128368340C.31473.61:.22£1503164(01:S1,0;661650J3021I9&j0lnMarl2010'"/722£〇<'10.22.-.y^SuoYcui:<ib:1.lib345-96fov.U20Tti2006.36Dou.com/arcnase/roiKacarservice.asx?c:j:3:.22:f!^!itiypt?'>a:40?Pf;-f<.16921S5?..C!i1?83f83<1IIf09l?.7.(1272*.cS0J97IE4ICfO2*"-P7?>Mfj〇l〇:35:23:5fi66772f,〇ii.i4G.6J.72eSuYon2f26iOS5l?f157441771.^4503:?ri?〇Mn/〇〇{.?6-14..:23〇;I6963144.J1150000!126S83653121C200iII1298010.0i15iL£12172013312i〇!2"*Mar:20010:35:23:D10?M;16777225Ci10.i.175.S3SuoYou:2!24i24:18!3715307009.0I9jEG*?-..i.:.?ii-C73G2£*C!1.〕U2321C:ICGS63eC24241£iO0!!421112C|17172eiiC056S4&i0C:2"'00-23523D3677226CC.26.9.54SuoYCU2i39127i2:97562216:.0£651:Mari011:::2PM;1i1?;i1 ̄^-■r-.:..iLi984y<.:;0IZ£8S3e83525S5300i25i:46<15Ci3D!30;2GiItS427520!0!2i120-:?i<Ma:3b:23:DSsfeVr/226it.2.7.213lSuoYou23S12?Ii72t>399b2S.j:ri0:01fcPMIL!5?|ii:£79:754;...=:.3115000:0I1S6393&S34273500!146520!£2255C!3G{30227iI6S427S2!0!0!:"ar'-uoi'M21:::;5/^.c..iCUiI:62t2CBSB94i.ei00305b2Ji£3^1672260!1024iiJSY2!S!bbi'"!?:*l=z?:;:-1;!UQ4715!.1115000:ClS6SS38^4iSI30.Ci1?.4?.0iA.0:1?ISi21!1IP231400!? ̄Mdl12010"*'<i...i../it10:35:23:C76PM:67722CO10..40.4i.378SuoYguS2116i21i1034223641.0!SC!rfcmusicraeraservcesinicrosoftcomcdr.fc/SeMj-*--*i-7uw--'--->DRCDPOSTUFX.cx?locaie&s.u&vi.sicn2.0.600.65&uaeiio^aleQ04&resvDCC:Cf:l4COS5〇〇6:5BCap304gt〇jd2?1:42qX?J?F3EBCFBC£O图4-3原始数据的格式与内容18 浙江1:业大学硕十学位论文从字段名称和对应值的情况,结合相关说明可以得到该字段代表的含义。将主要T段4-及其解释归纳如表1所示=4-表1原始数据+:要乎段说明字段名称念义说明T?IMESTAMPi青求时N发起请求的开始时N_SUBSCRIBERD客户端N络标识客户端在W络J中的独立标识,_般格式为PSYoI@uouPROTOCOLJD网络丨办议标识该诘求所使用的网络协议的标识ra:K丨p客广端地址校卩il网客户端节点的IP地址PEERPORT《户端端U校问网名户端节点的端U_ESSS??ACCi:trng迮接宁符中迮接请求的宁符中,主耍/十_H?ttp汸问的记录中存/十:值,般为域名INFOStrin连接信总字符串连接请求的信息字符串,表示_g坫求的具体资源的相对路径SOURCEIPB标地址访问请求的0标丨P地址_SOURCEPORTH标端UW问请求的H标端丨」_INITIATINGSIDE初始化方表4请求的初始化方米fl校园_网内成者足公网M1LISECDURAT10NW求时间W求响应完成所使川的时间_)(毫秒数I11UPSTREAMVOLUME上行流最从校园网发向公网的数据流景_大小《DOWNSTREAMVOLUME下行流S从公丨」接收到校同W的数据流_量大小I|??由丁流控服务器对丁校园N的正常运行具有十分重耍的作用,并且流控服务器上的访19 浙江T.业大学硕十学位论文问口忐是不断更新变化的,因此在进行数据挖掘时不可能直接在流控服务器上进行数据处,而是需要将原始数据需要先从流控服务器上批量采集出来理操作。这个时候就需要考虑一原始数据的存储问题。保守估计,如果要对过去年的访问日志进行数据挖掘,所需的原一始数据大概为400GB,那么首先面临的个问题就是数据的存储。常用的存储数据的方一一,,另种是采用数据库,Limix+MSL的式主要有两种种是采用文件。理论上在yQ环境下,数据库支持的数据容量可达4TB,这种情况下完全可以采用数据库存储所有的一原始数据,4TB,因此可。但实际情况下很少有服务器能够次性提供高达的存储空间能需要考虑采用数据库集群的方案来解决,,。此外数据库也有单表大小的限制对于这种情况的处理办法就是采用多表存储和联合查询。如果采用文件的方式进行存储,N样也要,也需要采用服务器集群,面临超大数据的问题。并且无论是采用数据库还是文件存储都一一存在着个比较大的挑战,就是数据检索和更新的效率问题。目前已经有些比较成熟的超大规模数裾存储解决方案,也有不少这方面的新研究,由于这个问题目前并不在本课题的研究范围之内,故论文屮不再进行赘述。为了方便地对数据进行管理和使用,将采集的原始数据导入到MySQL数据库屮。由于原始数据格式不利于直接使用数据库管理工具进行导入,因此采用PHP脚本语言编写转换和导入的程序。通过程序将文本格式的原始数据逐条提取、转换并导入到MySQL数,脚本还对每条记录可能存在的问题进行了初步处理据库中,如对格。在导入数据过程中式不正确的记录进行清除,可,以及对空值记录进行相应的初始化。在完成数据导入后以使用MySQL在线管理工具phpMyAdmin对数据进行在线斉看和管理。44.挖掘流程设计本系统的主要目的在于使用数据挖掘算法对校园网用户访问円志数据进行离线分析。一校园网作为个以学生和老师为主要活动者的大型局域网,其特点有:高速的内部连接,。,复杂的信息结构,用户数量巨大,公网带宽资源有限等由于校园网的内部情况十分复杂一因此本系统首先将从公网访问入手,围绕这问题进行系统的整体设计。在进行系统整体设计的时候需要综合考虑校园网络的物理拓扑结构、当前校园网公网访问的具体现状和特点,,、校园网络建设面临的主要问题等情况结合数据挖掘技术的适用情景进行合理的结构设计和方案制定。-,本文制定了系统的具体流程方案44,基于数据挖掘的主要分析流程。如图所示系统定期通过文件导入方式获取校园网日志系统中的数据源信息,存入自身系统的数据库中,,,;依据具体挖掘目标和模型对数据源中数据进行采集构造挖掘算法所需的数据源20 浙江丁业大学硕十学位论文一通过系列的预处理方法构成最终用于挖掘步骤的数据记义;对挖掘算法进行应用获得对应的挖掘结果并将其中的知识信息和决策支撑数据保存入库。.校SR弔户疔为分析系统挖掲賴+源—贼:.U籾訪,j1f1原始数据源一 ̄ ̄ ̄ ̄-K掏知识信《:陶——押振向与:|挖掘适果图4-4系统工作流程结合木文访问目标分析和访问习惯分析两个核心需求,需要针对具体挖掘目的进行分,析,进而找寻最适合的挖掘算法加以实现以满足挖掘知识信息和决策支撑数据的获取。针对访问目标分析流程,课题期望通过出口地址和流景数据对校园M用户的访问目标?。划定相应的类别,进而为校园N的出口带宽优化提出有效意见由丁课题本身并不能提前设定或预见到类別的划分情况,因此这部分挖掘流程最适合采用聚类算法进行挖掘和分析,能够根据设定获取到相应个数的类族,将用户群体的内部。基于聚类算法进彳丁计算后特征和相对差异以类簇的分布情况进行解释,能够有效分析用户群体情况,达到挖掘目标。针对访问习惯分析流程,课题期望通过访问地址以及访问频度数据对校园网用户访问站点的>J惯进行规则发现,由此加深对用户使用偏好的了解。由于课题数据中能够获得单一时间段内访问多个站点的情况个用户在同,因此这部分挖掘流程适合采用关联规则挖掘-算法,能够获得不同级域名之间同吋出现在访。基于关联规则挖掘算法进行分析计算后问记录屮的概率情况,进rfo发现其屮隐含的关联规则信息,能够满足访问习惯分析的整体目标。4.5本章小结本章介绍了校园网用户行为分析系统的设计,展示了系统的框架设计,给出了系统的模块设计和系统的数据库设计,讲述了系统具体的挖掘流程。21 浙江T业大学硕十学位论文第五章算法设计与改进在第四章中,、具体模块以及各模块的具体功能,介绍了系统的总体设计。在本章本51文将介绍系统对校园网用户行为分析的具体过程和算法:.。本章内容安排如下节数据获取;5.2节数据预处理;5.3节访问目标分析设计与实现;5.4节访问习惯设计与实现;5.5节对本章内容进行总结。5.1数据获取校园网用户行为分析系统的数据源是公网访问流量控制服务器(以下简称流控服务-器)1。从图上可以看到,流控服务器连接着分別通,流控服务器在网络中的位置如图5向教育网络、电信网络和联通网络三条不N山口。校内的公网访问请求首先将通过流控服口路由后,会,务器,到达公网出根据所请求的资源的地址自动选择相应的公网出口。在流控服务器上记录着每一GB条公网访问信息,每天都会有数十的访问日志数据增加。5-图1校园网公网访问示意图流控服务器上的网络访问日志有RPTLUR、RPTPUR、RPTTR、RPTMALUR、____RPTMED1A等文件,其中RPTTR是主日志文件,记录了所有的公网访问信息,因此将__该日志文件作为系统的原始数据源。由于访问日志文件记录的数据量十分巨大,为了便于进行分析与实验,也为了避免对流控服务器的H常运行造成影响,特从2016年3月1H至2016年3月31U的原始数据22 浙江了:业大学硕十学位论文一中抽取百万条记录作为实验数据。实验操作在WindowsPC机上进行,该PC机支持PHP和MS据库。yQL数5.2数据预处理,避免由于数据冗余数据预处理目的是为数据挖掘工作准备数据集、噪音等因素影响,数据挖掘的顺利进行,从而提高数据挖掘的质量使分析结果的意义更加明确、更加符合实际需求。数据预处理在实际的数据挖掘项目中往往是耗费时间最多、最为繁琐的步骤。数据预处理包括了数据理解、数据整理与合并、数据抽样、数据描述、数据清理、变量变151)换与合成。、变量选择等确定了业务目标以后,就耍对相关的数据进行,同时还耍描述数据来熟悉数据,检查—,、、致数据以确认数据质S例如如数据是否存在缺失值噪声冗余、+、数据过多及过少等问题、合成,以及数据内容的选择等;数据清理要对。数据选择包括字段M性的选择噪声数据和“脏”数据进行去除,并对存在缺失值的数据进行处理;数据合成是根据业务盖要或问题实质,将原始数据中的单个或多个属性记录进行相应的转换,生成新的属一17I】数据格式化性合并是将,又;数据些共性的数据记录根据某种规则进行合并处理;一称标准化,是对数据中存在的单位或数量级不致的情况进行处理。521..数据清理“”在原始数据中不可避免地存在许多噪声数据和脏数据,同时还有不少与用户行为分析无关的冗余数据。数据清理要试图去除噪声数据,纠正问题数据,填充不完整数据,实现数据?致性。对基于Web访问的分析模型,本文关注的軍点是用户在进行正常Web访问时的活动“记录,并且只关注与Web访问相关的字段属性。根据分析模型的需求,我们主要关注请”“”“”“”“”“丨求访问时间、客户端P、客户端端口、目标IP、目标端口、网站”“”“”域名、请求路径等字段。使用SQL语句将MySQL数据库中请求路径字段为空和1P地址为空的元组删除,并将数据保存在新的数据表webdata中,获得的数据记录共142043。条5.2.2数据归并“”通过观察发现,ACCESSSt,在当前的数据集中ring中的网址既有顶级域名,也_有二级、三级甚至多级域名,无法区分各个N址真实的访问情况,因此需要对数据进行处理,将各个访问网址归并到各自的顶级域名。一在基于Web访问的分析模型中,作为主要特征的属性有两个,第是访问次数,在23 浙江T.业大学硕十学位论文不分别考虑上行流量与下行流量的情况下一,因此将上下行流量合并为个新的属性,并命名为流量。一webdata数据表中的每条记录都是单独的请求操作,要获得每个网站的访问次数就,以获得每个M站的总访问次数。使用SQL语句进行归并操作需要对这些记录进行归并。经过对N站访问量和流量归并后的数据表如图5-2所示,共3446条。websitevisitnetstream001union.〇〇?2504OOcounter-coin115687OlOso.com160901hr.com371761022net.com1100001.9021.on187902rt.com11392036.com.cn286500371sports,com280670051com134130lqy.OSSScar.cn1S49950563dy.com2147805809.com121780707S.com114790750vyt.com.243480898.net636785lOOOOcc.com422788100im.cn12869lOOte,com2309210】0job,co蚝11131105.com.cn16623lOgao.com28038lOjqka.com-cn423974IOplx.ru23134图5-2网址访问量及流量统计5.2.3数据标准化在使用聚类算法对人量数据进行处理时,对聚类分析方法的结果影响最人的就S其度一量单位,。假如将原本样人小的值的度量单位同时换算为不同的度量单位那么极有可能…会使生成不样的聚类结果,如,,。正常来说果度量单位越小那么变量的可变范围就越人那么聚类结果则就越不好控制一。尤其是将不N属性、不同变量放在起进行分析的时候,就会产生不N的取值范围,那么最后的结算结果可信度就不会很高,通常会比较偏相于取,值大的变量,。为了避免或减少这种情况的影响需要对数据进行标准化。通过标准化处理将所有的变划归到相同或相近的取值范围,并根据需要对每个字段给予相对应的权重。在基于Web访问的分析模型屮,访问次数与网络流量两个属性字段是计算网站相似度的主要参数,但是两个字段值的数量级相差很大,如果不进行相应的标准化处理,将很一化的方法解决这个问题吋能无法获得准确的分析结果。本文采用极差归。24 浙江丁.业大学硕十学位论文一,:极差归化是把变量的极差,即所谓的取值范围线性地变换到0,1区间[],=!)r5.1V11^>1111 ̄/^其屮,是变换后的值,是待变换的值,和分别是变量的最大值和最小一一一一值。极差归化也称最大最小归化。极差归化是采用的线性变换,不会改变原有变一量的分布情况,所以在实际应用中得到比较广泛的使用化后数值就会集中。变量通过归01,。,到,区间中数据标准化处理程白动识别每个字段的取值范围[]便于处理并根据极一差归化的方法进行标准化处理-。经过标准化处理后的数据如图54所示。但在本分析模型中,相同字段内的取值范围也是很大的,如果宵.接采用普通的极差归一一化方法会产生个问题:与变量最大值数量级相差较大的变量将被转化为接近零的值,?这些值在釆用欧氏距离进行相似度计算的时,会放大其效罘,使得其相似度史加接近丁零。一-特別是数据集中变量存在极人值的时候,这个问题尤为明显,这点可以从图53看出。websitevisitnetstream-i-001ounn.coil2.72E053.30E06OOcounter.0010275.com000-010s.o.com0399E065-01hr.con.44E050.00047003022net.com00.000655-025.71.cn06E0602r-0Gt.com0S.12Ec--036.0.com.n272E055.67E5-0371.sports,coni272E050.00052838051lqy.com00.000223550533car.1.cn000002292-—0563d72E.y.com2.05968E061-05809,4.cos.03E0507073-06.coa09.69E0750v-05-yt.com2.72E2.85E05089805904.net.00013.0002409l ̄OOOOcc..0.com815E0500014326-100im.cn0105.88E'O- ̄lOte.com2.72E052*03E05-1010job.com07.4:IE0604-105.com.cn.34E05-lOo-ga.com2.72E053.95E05k15E-lOjqa.com.cn8.050.0001570310ix2-05205E-05p.ru.72E.图5-3标准化处理后的数据25 浙江T.业大学硕十学位论文一另,方而,在数据的存储上过多的小数点位数并不利于精确保存,同时在计算时也容易产生浮点精度的问题。综合考虑上述情况G,本文采用变量数量级差级变换的方法,通过调整标准化数据的数量级来避免变量数值过小的问题:。其具体过程是(丨)设数据集中需要计算的字段数景为m首先获取每个字段的最大值,分别记为11max'(2)比较,N时把数量级最小的值分别标记为每个值的数量级;?)(3对各个字段使坩极差!化的方法对数据集进行标准化,但是在计算每个值和hi的差时L?、、〇最小值,都乘以所对应的数*级S,即rnnu(^=^(5v.2);maxA-mniA一经过数M级差级放大后,,数据集中各字段的数值能处在同个数fi级上在计算上带“”,也提高了计算的准确性,visit来了方便。在经过标准化的数据表屮字段有多个元组0-,54的值为,为保证挖掘结果的准确性将这些元组删除。重新标准化后的数据如图所websitevisitnetstreamOOlurdon.coi02717690.03301.2Olhr.coin0.5435374.700284036.com.cn0.2717690.5665680371sports.coni0.2717695.283816Olhr.com0.5435374.700284036.coi.cn0.2717690.5665680371sports.co?0.2717695.2838160563dy.corn0.2717690.096808'OlbOit71769y,com0.20,284790898.net1.3538432.40938610000cc.com0.8153061.492594lOOte.coii0.2717690.202523lOgao.coi0.2717690.395484lOka.coi.cn0.8153061.570276jq10pix.ru0.2717690.205274m5-4改进方法标准化处理后的数据26 浙江丁.业大学硕十学位论文5.2.4处理效果评价一,特别是数据的预处理数据挖掘中相当大的部分工作就是数据准备。根据_外的统计数据,在数据挖掘中数据准备工作需要占用大概60%的工作量。在本文中,数据准备_工作并没有达到那么高的复杂性,但仍然是很重耍的工作,在实际操作中也山用了相当的工作量。,根据用户行为分析的需要1百万条记录的原始数据经过提取、清理、归并、标准化,最后获得的符合分析需求的数据为2091条等处理。数据预处理明显地减小了数据挖掘算法所要处理的数据规模,为数据挖掘工作提供了满足要求和约束条件的数据集,达到了数据预处理的目的。5.3访问目标分析的实现根据第4章的系统模块设计,在本节将采用聚类算法对访问H标进行划分。5.3.1聚类算法分析2根据第章的介绍可知,聚类分析包括划分法、层次法等多种类型,但基本其目都是,让簇与簇之间的数据尽量不要把大量的数据对象分成多个不同的簇或群组丨nl而簇内的数据尽量相似,nD和要生成的簇k,通。而在形式上则可以将给定个数据对象的数据集数过不同算法把数据对象组织成k(k<n)个分区,它归根结底还是求最优解的问题,实现X'n维样本空间全体向景距其聚类中心的距离最小,对T该样本空间中的向景,…A,^={XX,…,,I量<,义之间的距离为:;,,}r2贝J向,JjjU ̄<=X5)d.3ijjkf聚类算法其实主要集中于基于距离的聚类分析。而在机器学习领域中,则把分类称之为监督学习一,因为在分类分析中通常会确定每个训练数据和具体划分的类间的隶属关系,;但是聚类是属于无监督学习聚类算法的实现过程是在没有类标号信息的情况下通过一18[]观察学习得到的,而不是像分类样通过样例进行学习。一用户行为分析需要对多种行为属性的数据进行分析,并且般原始数据量巨大。但预K-处理后的数据集可能比原始数据集小很多,本文采用均值和,根据数据预处理的结果一K-。中心点算法进行聚类,并通过定的改进提高聚类算法可靠性532K-均值算法实现..1.算法原理27 浙江T.业大学硕十学位论文--meanK均值(Ks)算法以要生成簇的数目k为输入参数,将n个对象划分为k组(k一彡n,。,,)每个组代表个簇首先随机选择k个对象代表簇的平均值称为簇的中心;一其次将剩余的对象划分到最近似的簇中,最后重新计算每个簇的平均值,。将过程直重复,或达到指定的迭代次数上限为止,直到准则函数收敛。通常采用平方误差准则函数即-=-W<5^6C.4)hIt=ZiUiiP+%G的其中,是数据集合中所有数据对象的平方误差的总和;x是数据对象,是簇平均值。两个数据对象之间的相似度可以通过他们间的相异性来定义和描述。在计算两个对象之间的相异性时,会采用两个对象之间的距离来计算,。而在计算个体对象与簇中心距离时通常采用欧式距离,其计算公式为-2'22—_…—=(5d,)+wU)+5.)u)Yi)22乃十y,s)即2dx=-<k<n(,y)I^=1^k(xkyk)(1)(5.6)^…pCyWvW其中,和是两个n维的数据对象,而W=…则是代表每个属性在计算相异度时所代表的权重,不同的权重设置会产生不同的相异度,从而影响到簇的划分。2.算法过程与实现一前期从校园网流控服务器上采集的原始数据经过了系列的预处理之后,存储在MySQL数据库之中,使用MySQL数据库webdata表中网站的点击景和流量作为算法?K-的输入,还需耍指定进行聚类的簇的数目k。。对丁均值算法-K5.6:均值算法见图,其具体过程如下输入:簇的数目k,网站点击量visit,网站流量netstream输出iittstreamk类网站:以vs和ne为特征的k个簇,即28 浙江T.业大学硕十学位论文(开始)(结束)输的//|#士^贝k__^/输入^"'白T数n/ ̄ ̄ ̄i是随机选择k个对1象,代表簇的初始中心^1|新的屮^_"^_^|\是否收敛^^否一11计算每个簇屮||将剩余-kn个对所有对象的均象分配到距离值向量作为簇它最近的簇中新的中心Ii图5-6K-均值算法流程图得到的k个簇即为以访问量和流量加以冈分的k种不同类型的网站。5-.3.3K中心点算法实现1.算法原理-?K-(K-中心点medoids)算法般不采用对象的f均值作为簇中心,而是选用簇中离?T均值最近的对象作为簇中心,这样就可以尽量减少孤立点对中心选择的影响。其余的每一个对象被分配到与其最为相似的代表性对象所在的蔟中。使用了个绝对误差标准进行划分,即’f=it<5ds.7)Z,〇i^iZpec(pi)i—-其中,E数据集中所有对象与Cp,的代表对象〇,的绝对误差之和。这是K中心点-方法的根基所在。K中心点聚类是通过最小化该绝对误差,把n个对象划分到K个簇中。2Q一P[】-围绕中心点划分(artitioningAroundMedoids)是K中心点聚类的种十分流行实现。PAM算法H的足对n个数据对象给出k个划分,PAM算法的基本思路:首先为每29 浙江T.业大学硕+学位论文一个族随意选择个代表对象作为中心点,其次剩余的对象根据其和代表对象的相异度或距一个簇,从(离分配给最近的;然G反复地用非代表对象替换代表对象而提高聚类的质量聚一一类质量由代价函数来评估,该函数用来判断个非代表对象是否是当前个代表对象的好)的代替,如果就是进行替换,否则+替换:最后给出正确的划分。2.算法过程与实现-PAM57所不:算法的过程如图,其具体过程如下:k?网站点击量visi输入结果簇的个数t,网站流量netstream输山:以visit和netstream为特征的k个簇,即k类网站 ̄-JT¥f结束(i)(输入舍n个对//!象的数据集//输入簇的数Rk/ii输出k个类簇的屮I随机选抒k个对:心及成员象’作为初始的代T表对象否用Orandom代符Oi,?形成新的k个代表对I§将剩余对<S<0?>象分配到距离它最近的代表对象代表‘‘的簇iI,,随机选择个廿:代^计算Orandom代矜代衣对象|J表对象〇i的总代价sOrandom|--图57K屮心点t?:法流程图得到的k个簇即为以访问量和流量加以区分的k种不同类型的网站。5.3.4结合凝聚方法的聚类算法实现一K-在均值算法中,第步就是随机选择k个对象,分别作为k个簇的中心点。最理k想的情况就是初始状态下选择的个中心属于不N簇,即任意两个初始的中心点都不属于同一k个最终划分的族;同时,个初始对象应该尽可能地靠近每个簇的中心。仍通过实验-可以发现,K均值算法的初始划分很难通过随机选择方式来达到理想状态的约束条件。30 浙江丁业大学硕十学位论文为了对这种情况进行改进,优化初始簇划分,在这里引入了基于层次的凝聚聚类算法t一一凝聚聚类算法其实就是Qh而+的方法,简单来说,就是把每个单独的数据作为个独立的簇,然后比较每两个簇之间的相异度,依次合并最相似的原子簇并形成新的簇,当簇越少的时候,那么它多代表的数据则更有针对性,更有特征。当最后所有的簇都合并一一到个簇的时候,说明这个簇是所以特征的结合点。凝聚聚类算法的执行结果是生成颗聚类树,它的优点是方法简单,聚类的层次结构清晰,基本可以发现任何形状的簇,没有K-均值算法的初始值选择问题,可以根据不同的需求对簇的粒度进行调整,从而满足不N的分析需求,生成较高质量的聚类。但是凝聚聚类算法也存在明显的缺点。首先,同其一一,,每次族的合并都是不可逆的,这使得□他层次聚类算法样在聚类过程中?经形成的一簇不能进步得到优化;其次,在进行簇合并操作时,需要进行大量的计箅以获得簇之间,且随着数据对象的增多,计算量将急剧增加,的相异度所以并不具有良好的伸缩性,不适合处理大数据集。K-在本课题小,我们结合均值聚类算法与凝聚聚类算法的特点,并尽量避免其缺点,?从而提出种较为有效的算法改进方案。该方案的基本思想是:采坩抽样方法从数据集中获得随机样本,采用凝聚聚类算法进行分析,获得初始的簇划分;然后以凝聚聚类算法获-K-均值算法初始簇中心点得的初始簇的中心点作为,再进行K均值聚类。这个方案结合-了抽样,,、凝聚聚类和K均值聚类方法的特点既利用凝聚聚类优化了初始簇的划分乂一K-利用均值聚类在处理大数据集上的性能优势,并且在定程度上较少了数据输入的顺--序对于K均值算法聚类结果的影响,经。同时过优化的初始簇划分也能够减少K均值聚一类的过程的迭代次数,进步提高分析效率。,数据组成比较负责但是如果数据库的数据过多,需耍史多的时间和空间来处理的时候,那么则可以通过数据抽样来进行有效分析。常见的抽样方法有随机抽样和分层抽样。,随机抽样又称简单抽样就是从总的样本里面按照特定的比例随机的抽取数据,而在抽取的时候可以选择抽取了放回去再抽取,也可以选择抽取了不放回去继续抽取;分层抽样是首先利用某个条件将数据集分割成许多子集,在对每个子集进行随机抽样的过程。在基于Web访问的分析模型中,数据集的分布呈现较为不均匀的形态,因此我们选“”择采用分层抽样,以提高数据分布较少的类的样本比例,避免其被分析算法忽略。考虑到在进行数据抽样时可能存在的随机性和不确定性,将方案中的抽样和凝聚步骤改为进行多次抽样,分别通过凝聚聚类获得初始簇的划分,并将各次凝聚的结果进行综合5-8处理,最终确定初始簇的划分。改进后的方案流程如图。31 T浙江.业大学硕十学位论文其算法的具体过程如下:输入:经过预处理的数据集D和预期划分簇的数目k输出:经过优化方案生成的k个簇过程:==(/h2w');(1)按照分层抽样方法从数据集D屮抽取m个样本&(2)对每个样本采用凝聚聚类算法进行聚类分析,k为聚类终止条件并以簇数,==/…(U4’,生成m组初始簇划分,将每组簇的中心集记为;-(3)K将m组初始簇的划分进行综合处理,以获取用于均值聚类的初始簇的划分,处理方式为:H先将每组初始族的划分按照中心点位置进行排序,然后将每组初始簇中对应族的中心点求均值,将均值作为相应位置上的簇的初始中心,表达为:=z15).8-(4)将初始的簇划分的中心集作为输入,采用K均值算法对完整数据集进行聚类分析,其过程与前文所述相同;(5)返N各个聚类的中心和成员。—一?^柚W凝**艺▼丌始?Mlfe?酣?凝找文**结电▲K抽样>凝聚聚类图5-8混合聚类算法流稈图32 浙江T.业大学硕十学位论文5.4访问习惯分析的实现5..41关联规则挖掘算法分析ociatRlionue)挖掘算法是数据挖掘领域中十分重要的算法关联规则(Ass,该方法主要基于概率论与数理统计方法进行聚类分析。从1993年RAgrawal提出关联规则开始,20一到现在已经有了余年的发展,关联规则算法般来说计算简便且易于实践,具有极强的适用性。关联规则是主要针对不同项在不同事务中的出现频率进行统计,算法主要通过在众多一事务中发现出现频繁的项的集合并根据这些频繁项集推导最终结论,。般来说关联规则应该是项八=>项B这类的形式,项A与项B无交集,相互独立,并R项A与项B都属于一一待挖掘项。其中事务的概念是指次事件发生过程,而项则是指在某次事务中包含的所A一一一行关注的数据,例如学生在某时间段访问了某个站点产生了次访问记录,则这一次事务为动作便可以被抽象成,而时间、站点地址、流量等则是算法所关心的项。对于关联规则,便是要得出类似项A发生可以得出项B发生这样的结论。3以下简单介绍与关联规则相关的重要定义及性质P1P]。1.相关定义=/…,U是项的集合一假设,对于每个事务数据库D来说,都有且只有唯的=?W)标志T,ID对其进行标志。所以每个事务都对应I上的个子集。(1)数据项集的支持度。是指包含X的事务在D中所占的比例,即为SupportU=f6DXcf/D<5.9)i)||{\}||||||??(2)频繁项集与非频繁项集。对支持度大丁等丁最小支持度的非空数据项集称作频繁项集,反之称为非频繁项集。?C(3),I关联规则。称XY的蕴含式是数据集D中的个关联规则其中X,Y.并=Y为且XHY。在这个关联规则中称X为条件,称结果。(4)关联规则的支持度和置信度。规则XY的支持度指在数据集D中既包含X又包含Y的事务占总事务数比率,,即同时出现数据项集X和Y的概率表达式为:—)Support(XY)^Support(JAJV)P(JAJV(5.10)33 浙江T.业大学硕+学位论文规则XY的置信度指在数据集D中,包含X的事务中同时包含X和Y的事务的占比,即数据项集X出现的前提下,数据项集Y出现的条件概率,表达式为:—>=>Y(M ̄Confidence(X)SupportJY)Support(^X:PYX(5.11)/(\)(5)关联规则的强弱。支持度所体现的是项目集在交易中出现的频度,而置信度所体现的则是项目集间的关联程度。正常情况下,用户可以定义两个阈值,分别称为最小支持度阈值及最小置信度阈值,要求数据挖掘系统生成的关联规则的支持度及置信度都不小于这两个给定的阈值,,反之就是弱关联规则我们则把这个规则成为强关联规则。5_4.2Arrpioi算法实现Apriori算法是最经典的关联规则挖掘算法,其核心是基于使用候选项集来寻找频繁一项集方法。作为种挖掘布尔关联规则频繁项集的算法,Apriori算法的核主要于两阶段频集思想的递推算法。通过大量的实验验证及实际应用场景的检测,该算法在主要适用于单维。、单层、布尔类型的关联规则Ariorpi算法作为最为经典的频繁项集获取算法,主要依赖于两个推论,即对于项集==…,…A,K|乂2乂Au.V,,mnDD所其屮与分别为项集i与jU==,包含的项的数目,如果Di是D的子集的话也即,n,那么在事务j集T中,父集出现Dj出现的数量必然小于或者等于子集Di出现的数量,双方同时除以<=(D)(Di)事务集T的事务总数,便可以得到,s叩portsuort,也即suortjpppp?(D)>Pminsupport,根据之前所得到的support(D)support(Di〉,p」以得出supportjj(Di>P,i必)minsUpport,能推出结论,如果父集Dj是频繁项集的话那么子集D然是频ii繁项集。同时根据这个结论的逆否命题,便可以继续得到Apror算法所需耍的第二个推论,即如果子集Di不然是频繁项集,那么父集D必然不是频繁项集。jA一priori算法的第步便是获得单个项di在事务集T中的支持度,此时满足了支持度一support(di)人于最小支持度Pminsupport定义的项的集合便被称作为第层候选频繁项集H1,而此时所有的单个项的集合便被称作是候选项集C1。在这之后Apriori算法所作一Hn--1H的便是根据上个候选频繁项集,通过n1中元素的规则性组合,推导出包含n个项的第n层候选项集Cn,再根据Cn进行条件筛选,得到包含n个项的第n层候选频繁项集Hn。Apriori算法可描述如下:Stlri-ei59:Aor使it,流ppi逐层迭代根据候选找出频繁项集程如图所示。34 浙江T.业大学硕十学位论文输入:事务数据库D和最小支持度阈值minsu_p输出:D中的频繁项集L=?.titen3et3rrv目集)LlfreguerlD;所有支持度不小子insuor:的{()pp___k=-)for:Lk;k++(<<)){_=-eR-C)carioriLc:k:是kC个元秦的候迭集()pg(〇))___)foreachtrar.seictlonstCD{{=sui.{Ct.setCkft:;C:是所t){)有包含的堠迭集元鬻__一()foreachcandidaT.escECi_{)C.count++;()}==ccc=lkccunrrnsu0Cj.^>-.{p}()__|_()}return=Uxl}:;{)_5-9-图Apriori兑法过程1--(其中ariorienLk1):连接14(57)。pg做两个动作(步骤到)和剪枝步骤到一一部分通过Lk-部分使用先验性质将具有非频繁在前1自链接产牛可能的候选集,在后子集的候选集删除。--S-tep2:实现apriorigen(Lk1)过程,如图510所不。foreachicemsetl<-:()pE()_-.foreachiceinsetqELk()()_=eK=enf=i.l.iteir.2.:>t:ein2门...门f.iri.i()(pqp_q___---.-tenJc.?二i:eniK<.iremicq{)np()q())___=??c连接步:F生傾送;()qpsuse^c-ifhasb?:t{mfrequen;hen)^(,())^:)deletec;E枝步刪除非频繁S518迭(elseaddctoCk()一{)}returnC]c;{)一-0-5riori2图1Ap算法过程35 浙江T.业大学硕十学位论文S2,S3teP对于每个事务找出其是候选的所有子集并将数量累计teP描述了对所有非频繁了集测试并删除的过程。_-S3h(teib丄kl),,511:实现asnfreuentsusetc过程判断候选集的元素如图所p_q_示。foreach-safcseJcscfc{)<)t ̄-ifsr.ot£lkher.()(}_returnrue(}-;returnfalse;{)--图5ii1〗Apror兑法过程32项集产生关联规则.由频繁当我们从数据库D中的事务找出频繁项集后,可以直接产生强关联规则。置信度计算如公式4.15所示。—九咖此C==onfidenceiA^B)P(FM)(5.12)suortcountApp_()^u(HUB的其中suortcount,是包含项集A事务数,suortcount(A)是包含pp_pp_项集A的事务数:。关联规则可以产生如下(1)对于每个频繁项集I,产生I的所有非空子集。supportcount(l._)cz—>mmeon士—“suPP〇rt-count⑷(2)于I的每个非令,:子集&如果则输出规则(”-),其中minconf是最小置信度。_55.本章小结本章作为课题最重要的部分,首先对课题实验采用的原始数据的采集、理解工作进行了介绍,然后详细介绍了数据清理、数据归并、数据标准化等预处理流程,并成功缩小了原数据规模,获得了满足要求和约束条件的实验数据集。在预处理G的数据集h结合系统的需求分析,从访问目标分析和访问习惯分析两个角度进行了设计与实现,在此过程中引入了聚类分析和关联规则分析两中数据挖掘方法--。其中聚类分析采用了K均值、K中心?-Ho和结合凝聚方法的改进Kri点算法均值算法;关联规则分析则采用Ap算法挖掘频繁项集,并生成关联规则。36 浙江T.业大学硕十学位论文第六章系统运行测试与结果分析:6.1节介绍系统运行环境6.2本章介绍系统运行测试和结果分析,具体安排如下;节介绍系统运行情况;6.3节介绍系统挖掘结果分析:6.4节介绍用户行为分析结论应用;6.5节对本章进行总结。6.1系统运行环境6.1.1硬件环境?处理器:l?C2DuoCPUE75002.93GHz2.94GInteoreHz硬盘:500GB5400转/分内4GBDDR1333MHz6.21.软件环境i幵发环境:MicrosoftVsualStudio2012基于.NET4.5框架数据库环境iftSQLS2008R2:Mcrosoerver6.2系统运行情况6.2.1数据导入用户通过数据导入模块将原始数据导入校园网用户行为分析系统,模块将对文本数据进行关系构建,将本地文本文件转为.csv格式表格中,进而使用数据库的ODBC接口进6-行导入1。如图所示。?-DKX.校b网用户行为分析系統?冰入押tBU?!明异Yiitiiit目标表:ssory目标柱ii:ttS:丁IKE一STAMFvarcharS00.G0SUBSCKIBEKI?50£vrK__j_^car0QD:导入染妳ICvcPROTOCOL?rW50000.而,1!W认〇c-2:?11CFEERPi>RTv5000_wcWDACCKSStri?rrmxcht50000_IiJF0Strir?v*rch?50000_KW5SOURCEv?rc0000SOURCEPORTrwchwS0000.INITIATIMC-SIDEvarcW5000037 浙江T.业大学硕+学位论文6-图1数椐导入界面6.2.2数据接口用户通过数据接U模块可借由可视化界面输入SQL语句对数据进行增删改杳操作,?同时对丁查询结果可以导出为本地文本文件6-2。如图所示丨B^gSPij?:3游tR它理.漱进格:]?pSiL:丨穿细 ̄' ̄';'TT^-?rWI5TWIF?PTTT?irP7FILW!fcnr7iW?.br:*iTTc.:.wF^:r;TiT^ar*PliT1VT^cY__y命屮夺約:23K'TIBSSTAflr?EEI!I?V??RTXV"W乂乂此⑴.-:.ht?:,mnw,:如rr鄕丨:w,:'.::::===fI:图6-2数据接口界Ml6.2.3数据预处理用户通过数据预处理模块实现对原始数据的预处理流程,包括对脏数据的清理,分析和归并访问目标属性数据(访问地址),规整字段并对其进行标准化。在数据预处理模块中-,将通过筛选生成新的数据集,并不对原始数据直接进行删除。如图63所示。亡校园构甬户行为计折系统-nKB7*^*5-每孩龙理S在哲琿^80:分TfW间习亦分职?!tS?S3¥^Tle^f有理曰汔:?^..afc...L:〇]b40)?ieOt^lUOLi^/'201504/07ISGt.mZ2..lOD3^..20/J504/07180^m2?lOCwS.&=S?ni5rt!4/nr16r.m?2l005.njr-fo;Z{(t1bUf;第巧UK於条.枯S去叶iST.两理括fe:。的!■广?ckzr:L::;,:::::38 浙江丁业大学硕十学位论文图6-3数裾预处H界面6.2.4聚类分析--用户通过访问目标分析模块实现对样本数据集的聚类分析,包括了K均值算法和Kk中心点算法两个子模块,用户选取不同的聚类算法后,输入目标类簇的数量,聚类算法?结束后可通过显示类簇选项查看对丁样本数据在用户规定的类簇数k的条件下的聚类结6-4所示果图。如图。>-n^mr^r-?濠译竹q:aw呀*"?-*.ik-2<>?r?I?*ul^-iwt?Aj.sS?*‘:i-T?I<T/C?-I爵、ji:I%,°〇?*-〇??pi〇(z。ja.025001O0C15000025003000V?MS-?64聚类分析模块界fi图[|6.2.5关联分析11基于Webit!户通过访问习惯分析模块实现对样本数据集访问的信息的管理规则挖1掘,/士:It户选定最小置信度minconfinsu的情况下,该模块通过Aiil和最小支持度mror__pp算法实现符合约束条件的关联规则生成结果6-5。如图所示。39 浙江T.业大学硕十学位论文y校园网用户行为分?析系统-—-条跃苗运容连用辟体73:七,访问习t£對〉访:豹话笸埋丨5^攉?析桕出结甬)1……一gak-^*bi?iuc〇0:n.com0S9Z1、fi:mz?4?Cfim—COSkcMoewt<〇!?0280niin3>J4-qit,>crt,02C0ccosoaucU1C05bt-0ir?ic>mH*i<hi.com01E9?.co00X1b*ic?c.^*hwo.00021.1图6-5关联分析模块界面6.3系统挖掘结果分析6.3.1网络数据统计分析一在用户行为分析系统中,统计分析也是不可或缺的个部分,在进行数据挖掘之前,一一些统计特征往往需要先通过对数据的些统计分析,了解数据的,并以此作为数据挖掘模型、数据预处理和算法改进的参考。?数据统计分析主耍是运用些统计学的方法.通过使用数据集中的某个或多个属性项,根据某种条件,进行数据的提取和爿:总,获得数据在某个约朿条件下的分布情况。数,常见的有折线图据统计分析常常会结合图表对统计结果进行直观的展现、柱状图、饼图、散点图等等。,在本课题的前期工作中,我们对数据进行了不同的统计处理用于帮助进行数据挖掘'力案的设计。这里仅选取两个网络数据的统计结果并进行简单的分析。“”-W图66是基于eb访问的分析模型中,经过预处理后的数据集分布,其中visit表”“+,netstream表;;网络流量不访问次数j。从图屮可以看到,2千多个的数据点屮,绝大,部分都集I在坐标平面左下角部分,而在访问量与网络流量较大的区域数据点分布则非常稀疏,。这表明校园网用户对于处在稀疏区域的数据点所代表的网站的需求明显高于其他网站,绝大部分的访问集中在少数几个网站上。40 十学位论文浙江T_业大学硕0C-CT ̄hiT ̄B\"k厂Ii0c;1—jni'■:*&i―-o101CI0D02U00D30U00VI5I!图6-6Web访问情况散点图一6-7S对口记录个月内的近1百万条校园网公网出的上图、下行流量按时段进彳丁的统计。从图中我们可以看到从全体24小时各时段的流量变化情况。可以看到,从早晨10一22,点幵始到晚上点这段时间里,网络总流量呈现个较低较平稳的态势根据上下行流量的变化,能够看出网络流量虽然有些起伏,但总体还是比较平稳的3点到。而从晚上2早上9点,,可以发现无论是上行流量还是下行流量都出现了明显的高峰期特别是下行流fi的变化最为明显。形成这种情况的原因可能勹学校网络中心的限速策略有关,在10点?>至22点之间属于学习,et访问,、办公用网高峰主要保障的是呰通的W因此对与些下载工具特别是P2P工具进行了限制;而在23点至9点,这个限制则明显放宽。从上行流b?量的变化也丨以看出这点,在10点至22点之间,由于大部分是普通的Web访问,每条请求所需要发送的信息量很小,因此上行流量比较低;而在23点至9点,由于目前绝大部分下载工具采用了P2P的模式,在进行下载的同时还需要进行数据共享,因此上行流量明显增多。41 浙江T业大学硕十学位论文二{免夺JL6DODOOOOOlluttaitiitiiit-■--v-?.,.?■■’n!r<iw?v?*?5,<?ffJi.?!■Vd:;Jt<?:v-?Vr"''".-■r.''?■ii.,c..〇??,iV.l./fCtfC\*?,Jk\々55? ̄?i.<it*Kn?:阁6-7单月网络流量统计6..32用户行为聚类分析-.1K均值算法K-均值算法能够得到较紧凑的簇,对大多数数据集该算法具有较好的可伸缩性和较)k是高的效率,其复杂度为〇(nkt,其中n是数据集中数据对象的个数,簇的个数,t是一-迭代的次数,通常都有k《n,且t《n。但是作为种贪心搜索方法,K均值算法也具有贪心算法的普遍缺点,最终往往以局部最优结束,即算法收敛到评分函数的局部最小值,?则可能错过史好的解K-。由丁均值算法需耍手工设定最终耍划分的簇的个数K,对于不同的K值可能产生效果差异交人的簇的划分,导致算法在数据集可变情K-,初始簇的中心足随机生成的况下不稳定的情况发生,初始簇的。并且在均值算法中一6--划分以及数据的输入顺序对于分析结果都有着定的影响。实验结果如表1及图68所示。6--表1K均值算法对样本数据的分析结果42 浙江T.业大学硕十学位论文承^kSb释^.jg12CSC35.213S?^UA<042Zt2262D1:>P06:.!"1.61^55.:.2239.243DD7EJ220£,4>3:>.5!225^?:-it319K3.Cj.g7:6?0.£5g ̄^-11139.61435>s^0.0?S29121360455PS50-辦*^32G3SJJTSTS-*:?433:333>:665I26£.SPi6gP16¥^4T3E567BB.306SSC'22'6^420iK;:3P9.D5B71,.^:3613:U65722242615&?-42C5C3.6?S30EP.?::i4^:229!4-2613332361.S?1iE■'-^1t90543856SS;.SChSBS:^=.2561?222^34161335.B35E"31329352.2BP2226*4t^1.1^:6572.2242.7Sl¥0f,51fT;4S5JKS366.131,762^2.6H37S.:HD:17-11&45:..£;:I;3856220^42t^.75655^S£.506BSD73i:3069i53gl-55S.B3J5P4672£53:Hfi5:>2.?6250?43 T浙江.业大学硕十学位论文kj£鱗琢大小5IOC39.,.1^277501m62C267.4^^72^542^1133.2561.E7735E_1IOC29.m^2,77.501^2229M2mS5,2561.B7735E34<^6.P3075612S3.0S72214^755517¥5^237.35B665tJ.321052M241275.79959:t5401^3778:75H1.91F76?1:J24!54S194,5:m23^5.6220^"51,553.755S43-2377.35B66--212721.T737B0562^.40712135649.^imi401J!S?7E:41nm^me,14^.3^755^5IOC77.50]7!^e2i273.7995&275j45:B9776711J24S54S19451.712258.U22m54^6^50756,1283.DB?2:1k=k=32-!Ii:1jI ̄!njt.ccMiil!IR!I8.j、<ig)][£1c:c^.j;?J1〇jt'—''''Ii1J1^!*M'0C?1U??000X30020C025005000tX!WU2UtUMNW炤visit44 浙江T.业大学硕+学位论文k=4k=5--1I升+ ̄-IngP-fNg|?I"〇C.?0-S-8.^??>一来;』」\___:——;:?050G10001B00?000250030000500,000i1500POOO?50f300CviilSWSK=7k-6k-一§震—十 ̄-—iT:.%|J,?'fegJ..S'.?^&gV|TS=?1if;o:..丨〇〇i-11§■:l?c?:?米ie-icaS?;1'^iiI1ri110500100C50C?00D25003000050010005002000?5D03000v.iitirTvsik=B=K9〇--?:I*、<-t-4jiCS^sS;I1?丨c:c養-H:fc:味*Yoo:0--8!gj—++.i?。」暴o-#j.r!11!10S00000150C200D250030000500100015002002500300010vvisitisr45 浙江T业大学硕十学位论文-8-=图6K(k2,3,…)均值聚炎结米图,9木文使用肘方法(elbowmethod)估计K值。'19|1肘方法基于以卜观察:增加簇数有助于降低每个簇的簇内方差之和。这是因为有史多的簇可以捕获史细的数据对象簇,簇中对象之间更为相似。然而,如果形成太多的簇,?一由丁把个凝聚的蔟分裂成两个,引起簇内方差和降低,则簇内方差和的边缘效应可能下一降,,。因此种选择正确簇数的启发式方法是使用簇内方差和关于簇数的曲线拐点。严k>0一(k),k(格的说,给定,计算簇内方差和var绘制var关于的曲线。曲线的第个或最M著的)拐点暗示正确的簇数=6-929=图为K值由到簇内方差和的变化情况,由此可知,k5为图中折线的拐点,-因此使用K,5簇较为合适均值算法通过肘方法的估计将数据集聚成。*CT.\I£\1:\!〇^\‘、_J■I?468Numbe-dusters图6-9簇内方差和变化图-2.K中心点方法--当存在噪声和离群点时,K中心点比K均值算法健壮性更强,这是因为中心点不像K-均值那样容易受离群点或其他极端值影响,中心点算法每次迭代的复杂度是(。然而2一-=)l,0(n2)k(),当k时我们可以在的时间内找出准确的中位数;但当是般的正46 浙江T.业大学硕十学位论文----P困难的整数时,K中心点问题是N。实验结果如表62及阁610所示。表6-2K-屮心点算法对样本数据的处理结果t:值放叛T小叛屮心点扣置120800.815306.:.309369.>442n55033155818S.63226120450,40.8153062.266:3235173.116645,31S.fi77049..44n55Q33155S1S8.63226l187208i?3O6.1749351!217613.860202,47.7729384332,173.11664331S.877049411330.331558.1884.632264113870.5435373.0.7^88932512517.1214262,6378(482535371.358S434..9715812243173.1166431.318.S7704915U550.3315578,1884.6322647113870.5435373.0.988932,78048:12517.121426263.35371...35884341297158!6"7431173.1166431,31S.S04959550.3315578.18S4.632264622718.7737800,3624.4072113380.5435373..110693^634213916..577888952.209102635651.3588434.12.108S02C742867.67039^0,240.3564127513459.560S21S.52.22865190.46S550.331557S1S8.6322640722718.7737SOO,3624.4071210113380.5435373.0.693S>634S213916.5778889.52.2m〇2647 浙江丁业大学硕十学位论文35631.35SS434.12.10S302042S<57.6703990.240.3664127515459.5608218.521.228690568550.3315578.8S4.63226401"713189.48S860.1499.34759^0827-18.773780C,3624.4071210^J90.543537B.0.396341131669212510.5989782,45.963939S35631.35SS434.11.352049041717.675S345.322.2407S01155459,521.56082181.22S690564741..30S8379119.34935647550.3315578.44S288.632260"8589759-11.4SS860.1499.346091:718.7737800,3^4.4071210k-?k-5?'g1}B?IM1r,riO?fc8iH:V,也—_—t?vov*(〇if*,油);xxvkif?nrix-ASHk-4k二5fSisr>r.,.iH!|H4Ap丨Ircr|I^,IIIp^?*:et.^-.秦‘”丨|&m>Mr,鄭tm辦&嫩傭_獅纖獅&1WSlVSV48 浙江丁.业大学硕十学位论文k=6k=7IJIJj-I|HIllti-JM.lj^ir-I?i/I>:.!,^\\ijt〇-w〇-w',,T"'I'7-!*-niin!sro5〇tocmiozooo?f〇〇〇(ormo1500?〇〇〇??fcmows丨wsilKs8k=9f|i|j|s!Iajf,■丨丨isSJHS-?aI1?j玄iscI二!-h|II^¥.i"…t—■'?M,'"""- ̄?iT:r^;pj;e>0OT10H10:100500?000?50C300005CO1C5002000?W0300v*5rtW51I=-?3图610K屮心点算法聚类结果图(k2,9)-本义使用肘方法结合轮廓系数(silhouettecoefficient)的方法估计k中心点算法中k的值。轮廊系数通过考察簇的分离情况和簇的紧凑情况来评佔聚类结果。对于n个对象的数据集D,假设D被划分成k个族...。1,2,,对于毎个对象oSD,我们计算〇与〇所属的簇的其他对象之间的平均距离a(〇)。类似地,b(〇)是〇到不属于〇的所有簇的最小平均距离。假设e(l<<)则,''d^'ist'0'0>oec.o^o.i,、,…fl=(〇J^(61)49 浙江T.业大学硕十学位论文’山stt0.0)Vec.「)=mm./no)<(62)Cl<kzf}:)tl^|j对象o的轮廓系数定义为扒n(0=5〇(6)).3(广\轮廓系数和其他内在度量方法可以用在肘方法中,通过启发式地导出数据集的簇数取2|1]代簇内方差之和。=--6,112至9轮廓系数变化611可知,k5为图为K值。由图图中折线的拐点因此使用PAM算法结合肘方法的估计,将数据集聚成5簇较为合适。1\Is-\:\^ ̄ ̄I!!IIIII?34£.678ftcluserts图6-11轮廓系数变化折线图3.结合凝聚方法的聚类算法-=-采用结合凝聚方法的改进聚类算法,并借鉴K均值和K中心点的经验以k5作为输入参数进行聚类-3。结果如表6所示,可以看到经过改进的算法虽然不能使得每次聚类的,,验证了改进方案的有效性划分都相同但是其结果的稳定性得到了提高。表6-3改进算法后的聚类结宋50 浙江丁业大学硕十学位论文1<值靜、成於对象数鼷中心点位置172142,95524772,31333258.50141784-0.S658135.182176147.9424369.307533759.502417736,5957737,178175144-?9725077.298532954.512418S41,6257132.1914.聚类结果分析通过对公MWeb访问的数据以访问量和M络流量两个M性作为指标进行聚类,获得的聚类结果人致如表-k=64所示。经过多次实验发现,当簇的数目5时聚类结采比较理想。从表中可以看到,前4个簇虽然彼此之间差异明显,但是第5个簇无论从簇中心位置还S成员个数上都与前4个簇不是N—个数量级一。这也与之前聚类结果图中散点的分布情况致。6-4eb表某十WL方问的聚类结果馘級中心、标准化谧1蔽大小土耍成员对象:访HM:29M.261333]_2sandai.net:qqcom11U:2561.87735lMsoconcontiinicrosofcomreiirencom?访㈣镊?909473S562t._8aobaocdncom.sma.com.cn:bmdu.com.sohu.com;78Sm:306880iMxiumg.cii访NM:53.2657211,4^xt*iuilekbi.com:vouii.com.oncn:cnr.cnt流M:2242.76151访问摄...:203.S06372巧ifeng.comkaixm001com:real.com:360cn:sports.cn:^流399.05S741smaimgcn:126.com.360iafe.com;adobe.comarkma.ortrac.;i.:twsors;_mil:kerbccoDicoaocombb.…gp一访㈣量:3.69S30S〕^2050pcdiscuss.com:quanwenxoiiLcn:tgzlix.com:co.ck:流ft:947.6111'.JJ,o,/ineco:vcwcnarsoecomyonl.mp.;dwodggl.51 浙江T业大学硕十学位论文从簾1中可以知道,用户访问量最大的网站分别是sandai.net和qq.com,其中sandai.net是网站一xunlei.com的另个域名,qq.com则是中国最大的互联网公司、门户网站的域名。这两个网站无论在访问量和网络流量使用上都较大。2aidu.簇中包括b.com、sogou这样的搜索引擎,包括sina.com.cn、sohucom这样的一传统门户W站三强,包括renren.com这样的社交网站,这与高校学生上网特点比较致,符合校园网用户获取信息、分享信息和社会交往的需求。特别注意到xning.cn是属于一,而taobaocdnomrenren.com的个数据资源站域名.c则是为taobao.com服务的网络相册网站,is,icrosoftcom也出现在这个。此外由于Wndow操作系统的普及微软官方网站m.簇中,这是由于大量的系统相关信息都通过这个网站进行获取,如在线更新、解决方案检索等。p簇3勹族2比较,最大的特征就是平均访fj量大不如簇2,仍.平均网络流量则是簇2一的数倍。看到ximleixom就能够很容易地明白这点,作为个高清视频网站,同时又提供,那么访问这类网站的特征就是高流量大量资源下载、低并发。-dob簇4屮的网站大多是些常用软件所属公司的网站,如360.cn的安全产品,Ae.com的AdobeReader、PhotoShop,126.com的邮箱等:同时,也有几个新闻类门户,如著名fen.的凤凰网.com、体育新闻网站sportscnig等。9989一5,这部分网站基本都属于些比较偏簇中的网站数量占据了整个数据集的.%,,僻的站点,其特点就是用户需求不大偶尔会有人访问。这类站点许多都是国外的站点一些网站属于个人其中不少都是校园网用户在使用搜索引擎检索信息时链接过去的,也有性质的小网站,如个人主页、博客等。一些用户行为进行聚类,综上所述,校园M用户行为分析系统确实能够对并从中发掘出具有意义的信息。本例中所提到的聚类结果,可以应用到校园N公M出口优化方案中,实现数据挖掘对实际工作的指导和改进作用。6.3.3用户行为关联分析本文将运用Apriori算法对校园网用户的上网行为进行关联规则的挖掘,分析用户访问网址数据存在的规律,找冋用户访问网址之间的潜在联系。1.算法采用数据维度选取预处理后的数据中的访问时间一、客户端地址和访问网址级域名作为关联规则的数据维度6-5所示。。如表52 浙江T.业大学硕+学位论文表6-5关联规则基于的数椐维度数据维度含义说明iTIMESTAMP清求时间发起请求的开始时间_PEERJP各户端地址校闶网鞞户端节点的1P地址S一户访问的N址巾提取的一WEBITE访问M址级域名从用_级域名2.关联规则挖掘事务数据的转化处理一一id关联规则挖掘足基于事务数据的,毎条事务记录由唯的交易号T标识,每个交…易包含个或多个事物这些事物属于某个共同的事物集L表6_6给出了关联规则挖掘基于的事务数据实例,该实例具有10个交易C录。表6-6事务数据实例Tid项ID的列表TlE.B.CT2DC,T3B,A,CT4B.DT5DFC.B..T6EACG...,11T7DGC..T8AEB..i1T9BCD,,T10E.C.B.D为了实现与关联规则的数据进行对应,下面对校园网用户的访问数据进行交易记录的-一-,Ti,定义:N客户端地址在特定时间段访问的系列网址形成次交易记录并记为访问的系列网址的二级域名则为该次交易记录Ti包含的事物,记为(1,2,...,)。,>,对于特定时间段,本文根据对访问数据的统计并结合用户的上网」惯定义了三个---(9):0011:30)、14:0017:00)丨9:0022:00。时间段:上午下午(和晚上(同53 浙江T.业大学硕十学位论文一户一一客端地址在同个时间段访问的系列网址作为个记录,不在记义时间段内的访问数据在木文分析中将不使用。同时,为了消除噪声数据对数据分析的影响,对包含事物数大于20的记录将不使用。3.访问数据频繁项集的挖掘°--i。在本文的分析中,设定最小支持度mnsu为10/。表67显示了2频繁项集的实验_p,此处展示了支持度前5的结果分析挖掘结果。表6-72-频繁项集挖掘结果-频繁项集i持度2suortpp1i.com、baidu.com2qq1.4%sina.com.cn>bid..aucom148%i.%qq.com、sna.comcn13.1.com..、sohucom124%qq.com、soou.com.qqg107%I;--由表67的实验结果可知,支持度最大的2频繁项集是qq.com、baidu.corru这反映出在设定的时间段内这两个站点同时被访问的可能性很人。4.生成访问数据的关联规则表6-8U/N数据关联规则生成结果关联规则置信度confidenceqq.combaidu.com74.1%:|1baidu.comsina.com49.2%baidu.comqq.com28.9%II?在寻找出频繁项集后,利Hi上节提出的算法生成访问数据的关联规则,在本文屮,54 T十学位论文浙江.业大学硕-设定最小置信度minc〇nf为20%。表68显示对于网站访问数据关联规则生成的结果,_此处取置信度前3的结果进行了展示。6-8的在表关联规则生成实验结果中,.combaidu,这关联规则qq.com置信度最高说明了用户访问了腾讯后,我们有74.1%的把握认为用户会访问百度,由于baidu.com和com-qq.本身作为1频繁项集在数据集中的支持度不同,所以我们会发现关联规则baiduom.comqq.c的置信度和前者有较大的差別。5.关联规则结果分析通过对校园网用户行为的关联分析可以很好地了解当代大学生的兴趣爱好、上网模式、思想动态,有助于校园建设者和管理者及时了解在校学生的思想动态和行为模式。经过反复试验,校园网用户关联分析的应用主要有以下几点:(1)通过上网时段与IP地址的关联,可以得出某个丨P地址的上网时间规律。目前“”一些长时间高校中经常有宅在宿舍玩游戏的同学,对于那些长时间访问游戏服务器的IP地址,可以通过减少该IP地址带宽等措施,限制其网络使用情况,降低沉迷游戏的可能:(2)通过对校园网用户访问网站关联性的挖掘,可以得到用户的上网模式。高校学生正值其人生的黄金时段,思想丰富而活跃。但是由于当代大学生涉世未深,社会经验+,,通过挖掘人学生的上网模式足容易受到来自互联网的不良信息蛊惑。因此,能够快捷而简便地了解人学生的思想动态,辅助高校的学生工作;(3)通过对上网时段和校园网服务器端口的关联性挖掘,可以得到网络流量与时间的关系。在校园网环境中,通常端口带宽有限,而有上网需求的用户众多,因此如何合理分配带宽?、保证广大用户的上网需要至关重要。根据挖掘出得网络流M与上网时段的关系,可以在上网高峰时段适3增加带宽,而在低峰时段减少带宽,最大限度地节省资源。6.4用户行为分析结论应用6.4.1校园网公网访问现状随着校园网用户的逐年增加,以及网络数据传输、共享软件的日益普及,对校园网公网访问的带宽需求越来越大。但是校园网的公网带宽资源有限,并且不同出口线路的带宽一资源分布不均,远远不能满足所有的访问需求,除去即。在校园网用户的般网络访问中.具外,使用最频繁eb时通讯T、最广泛的就是W访问。根据网络中心的数据统计可以看W到,每天的eb访问请求达到了数千万条。对于广大老师和学生来说,与学习和工作最55 浙江T.业大学硕十学位论文紧密的网络活动也正是Web访问,无论是上网查资料、收发邮件、看新闻,都是通过Web访问完成。因此在众多类型的公网访问请求中,Web访问就成了必须首先保证的请求。b一保证We访问需要从两方面进行着手:方面,耍限制非Web访问的请求对带宽资一,P2P下W源的占用特别是载软件及其他工具;另方面,需耍让校内的eb访问请求能一够以最快的速度得到响应,,。其中前点H前己经采用流量控制服务器进行限制也取得一一了定的效果,Web访问出口的;面对于后点则需要对公网方案进行优化。要对公网Web访问出口方案进行优化,昏先从校园网用户进行公网Web访问的过程入手进行分析-。从图62W1中可以看到,校园网用户在进行eb访问请求时,先通过校内DNS,的对访问的域名进行解析,获得对应的IP然后句公网访问路由发送访问请求。公网访N路由会首先判断所访问的域名在路由表中的设置情况,如果有则根据路由表中的记录进行出口选择,则会根据目标1P口选:如果域名不存在于路由表中所在的网段进行出口择,选择的原则是教育网的网段走教育网出,联通的网段走联通的出口,其余的网段走电信的出口。??:rv气钻!{柳ru.—’.i?irvy-??!.暑,1?_r獅一?y??**?;>?n:i融《li^LJUN>RH务》图6-2b1校园网川户公网We访问过程6.4.2公网出口优化方案一从校园网公网访问的现状可以看出,目前面临的问题主要有两个,是域名通过DNS解析后可能会获得多个IP1P,如果这些处于不N的网段,那么就需要选择最快的山口所一1P,,对应的;另个则是公网出口路由上的路由表是手工配置好的但上面的出口选择并非就是最优的,IP。因此公网出口优化就需要检测每个网站和在三个不同出口的响应,DN速度,通过比较来获得最优的解然后再对S和路由表进行更新。56 T浙江.业大学硕十学位论文显然,并不是所有的Web访问都需要进行特别的优化处理,因为绝大部分用户的访问都会集中在某些网站上。要了解哪些网站需要进,如门户网站、资讯类网站和搜索引擎U优化处理一行出,不能仅仅依靠简单的统计分析,因为不能明确个评价标准与临界值。因此,采用了用户行为分析系统中的基于Web访问的分析模型,通过数据挖掘来发现N站访问的分布规律,得到用户访问需求最多的M站,并作为出口优化方案的输入。6-13说明了公网出口优化方案的结构,图方案的步骤描述如下:一(1)在流控服务器上采集个较长时间段内的数据,采用数据挖掘的方法进行分析,获得常用网站域名列表。(2)根据域名获得每个网站在使用的丨P地址。由于直接使用pin命令或者nslooKugp命令都会先经由校内的DNS服务器,直接通过校内DNS解析得到当前使用的IP地址,IPS服务器去进行获取而无法获得最新的地址列表,因此需要绕过校内DN。(3)IP放,分别测,并进行记录将获取的在公网的三个出口上试访问速度。(4)口选择列制定优先访问策略,并将测速结果应汁j到该策略屮,生成网站访问出表。(5)将新的出口选择方案应用到公网出口路由的路由表配置上,并更新校内DNS服务器的相关记录。0歡拓挖抿分軋^试fr公料出I!路::,]、rtji之外进t/洲出n路“ft吹雄y丨ivs汝务捃史新!m顏务器-图613公网出口优化方案结构图57 T浙江.业大学硕十学位论文6.5本章小结,本章介绍了系统的运行情况及数据挖掘结果分析包括运行环境和运行结果展示,并根据第5章进行的访问目标分析和访问习惯分析的数据挖掘,对挖掘结果从统计分析、聚类分析,、关联分析等角度进行解读并在最后结合实际对校园网公网出口优化提供了参考,体现了用户行为分析技术在实际网络建设工作中的应用方案。58 浙江T.业大学硕+学位论文第七章总结与展望7.1总结伴随着社会的发展和科技的进步,互联网愈发强烈地影响着人们的生活,校园网作为网络建设中重耍的组成部分,其用户量也在不断增加,为了加强对校园M的管理、优化校,园网服务,有必要对校园网用户进行更为深入的了解通过网络用户行为分析可以为高校校园网建设工作提供指导意义。A基于上述背景,本文对校园网建设的现状和特点进行了调研,结合大学校园网这一样例,以对公网访问流量控制服务器上的访问日志数据为基础,采用数据挖掘方法进行了校园网用户行为分析,并完成了校园网用户行为分析系统。总结本文T作,达到了以下成果:对校园网公网访问流量控制服务器的访问日志文件进行了有效的采集和理解,完成了-对于存储分散的日志文件的汇总管理,、存储格式不统并通过数据清理、归并和标准化。等预处理工作,获得了有效的样本数据集对获取的数据进行了统计分析,对后续数据挖掘方案的设计提供了参考,同时对描述了校园网用户总体流量使用变化情况,为校园网建设优化提供了帮助;对校园网用户访问--目标进行了聚类分析,通过使用K均值、K中心点等聚类算法相互验证,将访问目标分5ii为类,并分别进行了解读;对校园网用户访问习惯进行了关联规则分析,采用Apror算法挖掘用户访问网址数据中的频繁项集并由此生成关联规则,发现了校园网用户在网址访问上的习惯偏好。通过对数据挖掘结果的分析,结合A大学校园网建设情况,帮助公网出口路由制定,,提高校园网服务水平优先访问策略优化公网访问路由过程。7.2展望但在本文的工作中,仍然存在许多不足:受原始数据维度所限,未能在更多角度对校园网用户行为进行分析解读,如果能够获取与校园网用户身份相关的信息(如学号、工号等)则可以对不同用户群体的网络行为进行史有针对性的解读;59 浙江丁业大学硕+学位论文-在关联规则分析中,由于某些事务数据作为1频繁项集支持度远高于其他事务数据,,不易探究更隐蔽的关联规则,使生成的关联规则参考价值受到影响所以应探索将Apriori一算法进步优化,尽量消除某些事务数据对整体的影响;综上所述,本文结合实际进行了校园M用户行为的分析与解读,完成了校园N用户行为分析系统一,对于存在的不足,有待于后续的进步研究与改进。60 浙江T.业大学硕十学位论文参考文献(CNN1C).351中国互联网络信息中心第次中国互联M络发展状况统计报告[]--2.全球网K数最明年突破30亿大关EB/OL].htt://tech..com/20.腾讯科技15l丨21[pqq[]3张艳玲.中国接入互联网20年民行融合J.计算机与网络,2015,(8).[][][4]成孝予.高校校闶N管理与N上引导丁作研究[M].成都:电子科技大学山版社,2016,01.--5度百科.网络成瘾症[EB/OL].ht//baike.baidu.com.20160415.:[]百p6黎慧娟.校园M用户行为的分析与研究D].南屮.:广两大学,2007[[]7朱明著.数据挖掘[M].合肥:中闽科技人学出版社,2002.][[8]KarimA,AhmadI,JamiSI,etal.ClusterAnalysisofTrafficFlowsonaCampusNetwork.fJ],ProceedinsofthelastedInternationalConferenceonArtificialIntelligence&ApplicationsAia2006.g,?9、干.J.丨I2015,(11).[].家鑫甚丁数据挖掘的校闶网HJ户网络行为分析[]数卞技术与VIJ,[10]张红云,刘向东,段晓东,等.数据挖掘中聚类算法比较研究m.鞍山钢铁学院学报,2001,24--./.i....3.(5):56.D01:doi:103969ssnl674104820010501j?--11白度百科.ht://baik.baidu.c.20160415.].数椐挖掘[EB/OLeom]p[iiHaMichelineKamberJianPei3M.:112Jawen.,?数据挖掘:概念与技版北京:机械:业出版社[]术第[]-.,201207:67'.?200813胡RI云,m凤占,黄厚宽数据挖掘理论与应用[M北京:洁华大卞出版社,][]工、M.14章兢.数据挖掘算法及其工稈应用北京:机械Ik山版社,2006[][]15梁循.数据挖掘算法弓应用M.北京:北京大学出版社,2006[][]ifbai16MHJCYuP.DataMinin:AnOvervewromaDatasePersectiveJ,IEEETransactonson,[][]gp-Knowlede&DaEii9968C6)866883.tanneern1,:ggg,17毛国君..:,2007.12,段立娟,工实数据挖掘原理弓算法[M北京治肀大学出版社[]].18JiaweiHan,MichelineKamberJianPei.数据松掘:概念与技术第3版M.北京:机械工业出[][]版社,2012.07:28919JiaHanMichelineKamberJiPei.3版[M..wei,,an数据挖掘:概念与技术第北京:机械丁业出[]]版社2012.07:317,20.陈忐强,.PAM算法的J,2003,9:,刘钊张建辉聚类分析中分析与实现计算机与现代化[][]-13.ieianichelineKamberJiPei.3.北京、丨k21JawH,M,an数掘挖掘:概念与技术第版[M]:机械工出[]版社,2012.07:319.Mini22ArawalRImieliAskiTSwamiAinassocationrulesbetweensetsofitemsinlare,,[]gggdatabasesC//ACMSIGMODRecord.ACM1993,22(2):207-216.[],-23姚俊.浅谈关联规则挖掘.J.信息技术.2005,(6)8587.:[][]61 浙江T业大学硕士学位论文24吕诚.手机h网川户行为分析的关键技术研究与应用D.北京:北京交通人学,2014[][]?25施洪贞.基丁校园N的H络行为用户分析研究[D.E£明:云南大学,2012[]][26]张圻,李昆仑.基于关联规则挖掘的网络行为分析系统设计[J].电脑知识与技术,2011(7),10:2333-233427-严楠..,2007(17):239244,刘涛基于校园M的用户行为数据分析系统的设计[J计算机技术与发展[]]28梁伟.校园网用户行为分析系统研究与实现[D].北京:北京交通大学,2009[]29李游.204.基于校园网的用户行为分析研究D]:云南大学,1[昆明[]30葛苗苗.基于校园网的网络)丨]户行为分析研究[D].南京:南京财经大学:2009[]-.长:2014(02831.校园网用广行为的分析与研究{丨大学学报,1),:4750潘峰楠[J][]2.扬州陈益均.校闶网屮用户行为聚类分析的研究与实现:扬州大学,2009P][D]33-李常先.大学校园用户网络行为分析系统研究J.统计与管理,2014(4):144145[][]?王正伟、,34.基丁校闶网用户行为分析的研究与V:D]青岛:中fl海洋大学,2014)用[][35(邓甜甜.20]528)2:,熊荫乔,刘建娥基于汁费系统的校园网H]户行为分析长沙人学学报,,[][几-116119[36]JessieHuiWangChaninAn,JiahaiYan.Astudoftraffic,userbehaviorandricinoliciesina,gqggypgp-larecamusnetworkJ.ComuterCommunications2011(34):19221931gp[]p,[37]Garcia,David,Halegoua,Germaine,Mejova,Yelena,Perra,Nicola,Pfeffer.Jiirgen,Ruths,Derek,Weber,InmarWetRobertZiaLeilaReortsofhe2015WorkshosHeldattheInternationalAAAIg,s,.t,,ppConferenceonWebandSocialMediaJ.A1Maazine,2015364:.[]g,[38]Anonymous.OpticalCableCorporation;OpticalCableCorporationAcquiresAppliedOpticalSystems,nc..BiotechBusinessWeek2009:.I[J,,][39]Anonymous.OpticalCableCorporation;OpticalCableCorporationMergesSMPDataCommunicationsSubsi.idiaryJ.BiotechBusnessWeek,2009,:[]40S'ewelRobinR.Whoisfollowinus?DataininalibrarsTwiterfollowerJ,LirarHilmsb[],ggy[]yTech20.13311:,,41WonChrle.ANlOerationalPartitionbetweenNeuralNetworkClassifiersonVulnerabilitto,asove[]gpyDataMiningBias[J].JournalofSoftwareEngineeringandApplications,2014,74:.D-M-42aiheeParkJaehakYuJunSanParkunSuKim.NetCube:acomreheniventworktraffic,,,se[]gygppanalsismodelbasedonmultidimensionalOLAPdatacubeJ.Int.J.NetworkMmt2012232:.y[,,]g43YinieZhouGuanminHuDaenWu.Adataininsstemrdistributedabnormaleventdetection,,mfo[]gjgpggyinbackbonenetworksJ.SecuritComm.Networks,2014,75:.[]y44SimonFon.DataMininforResourcePlanninandoSSuortsinGSMNetworksJ.Journalof[]gggQppf]EmergingTechnologiesinWebIntelligence,2011,32:.“”45JasonC.Hun.ForewordofSecialIssueonNomadicServicesandAlicationsJ.Journalof[]gppp[]Networks201165:.,,46W-CFrenhihChaneyaH.Lin.EditorialJ.JournalofSoftware2009,42:.[]g,[],---mmandn47ShineChihHonSunChHCh.Tmoraldatnnusineneticall[]WeiLininaneneaiiritheura,g,pggggo-—Acasestudof.ilformainetworkairollutantforecastsJGeosataIntonScience200471:.yp[]p,,48Aah--ikoNiimiHiroshiShimadaRkaGooMasaakiWadaKiIoOsamuKons.Peertoeersensorit,etihi[]y^?,,pnetworksystemforaschooltemperaturemeasurementsystemJ.ArtificialLifeandRobotics2008121:.,,[]62 浙江T业大学硕十学位论文49EduardGlidihadiil.iliibilatzSteiosMavromats,BemrAer,XenofontasDmtroouosVsuaznnetwork,[]gpggtrafficdatausinfreuentaternmininandherrahsJ.Comutin2014961gq,pgypgp[]pg,-50YiannisKokkinosKonstantinosG.Mararitis.Adistributedrivacreservinreularizationnetwork[],gpypggcommiteemachineofisolatedPeerclassifiersforP2PdataminingJ.ArtificialIntellience[]gR.eview14423:,20,5-1AmitKumarBhardwaMannderSinh.Datamininbasedinteratednetworktrafficvisulization,ia[]jgggframeworkforthreatdetectionJ.NeuralComutinandAlications2015261,,[]pgpp[52S.MA.KALAIARASI,G.SAINARAYANAN,ALICHEKIMA,JASONTEO.INVESTIGATIONOF]DATAMININGUSINGPRUNEDARTIFICIALNEURALNETWORKTREEJ.Journalof[]EngineeringScienceandTechnology,2008,33:.-CCaH53h.Ln.EdtrialJ.Journaloftware200942:.Wenihhang,FreiiofSo,,[]y[]54B.B.MisraS.hui.FuncionalLitifcialNeuralNetworkfoClasifcationTakinData,DertnkArirsis[]Mining[J.JournalofComputerScience,2007,312:.]a--55WenhaoYu.StialcolocationaternmininforlocationbasedservicesinroadnetworksJ.Exert[ppg[]p]SstemsWithAlications2016,46:.ypp,63 浙江T业大学硕十学位论文致谢本论文是在导师的谆谆教诲和指导下完成的,从选题、构思到定稿无不渗透着导师的心血和汗水;导师渊博的知识和严谨的学风使我受益终身,在此表示深深的敬意和感谢。一这次写论文的经历也会使我终身受益,我感受到,做论文是要真真正正用心去做的,。没有认真学习和钻研件事情是真正的自己学习的过程和研究的过程,自己就不可能有研究的能力,就不可能有自己的研究,就不会有所收获和突破。希望这个经历,在今后的学习和生活中能够继续激励我前进。,还要特别感谢我的家人,他们时刻关心我,另外给我提供了学习的机会,时时刻刻,进而促使我不断成长和进步,为我鼓劲、为我加油。在完成毕业论文的过程中很多朋友和同事都给了我无私的帮助和支持,在此表示由衷的谢意!最后,,因本人水f有限,论文还有足之处恳请各位老师批评指正,我希望可以有机会继续去完善,我将不断努力继续充实自己。64 浙江T.业大学硕+学位论文攻读学位期间参加的科研项目和成果参加的科研项目(1国家自然科学基金:名称项冃编号),[]录用和发表的论文,1按论文发表的时间顺序列齐本人在攻读学位期间犮表或已录用的学术论文清单(格[]式参照参考文献的写法,,须删)作者单位必须是浙江工业大学。对论文的盲审版本去作者名。2投稿的论文不在此列。[]专利1[]65

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
关闭