基于数据挖掘的校园网用户行为分析系统的设计与实现

ID：22959812

大小：7.67 MB

页数：75页

时间：2018-11-02

上传者：文档小小白

资源描述：

《基于数据挖掘的校园网用户行为分析系统的设计与实现》由会员上传分享，免费在线阅读，更多相关内容在学术论文-天天文库。

硕士学位论文论文题目：基干数据挖掘的拉园网用户行为分析系统的设计与实现都恩月作者姓名指导教师程宏兵学科专业计算机技术培养类别非全日制专业学位领士所在学院计算机科学与技米学院、软件学院提交日期２０１７年１０月２８日 浙江工业大学硕士学位论文基于数据挖掘的校园网用户行为分析系统的设计与实现作者姓名：郁恩月指导教师、：程宏兵教授章春根导师浙江工业大学计算机科学与技术学院２０１７年１０月 ＤｉｓｓｅｒｔａｔｉｏｎＳｕｂｍｉｔｔｅｄｔｏＺｈｅｉａｎＵｎｉｖｅｒｓｉｔｏｆＴｅｃｈｎｏｌｏｊｇｙｇｙｆｏｒｔｈｅＤｅｒｅｅｏｆＭａｓｔｅｒｇＤｅｓｉｇｎａｎｄｉｍｐｌｅｍｅｎｔａｔｉｏｎｏｆｃａｍｐｕｓｎｅｔｗｏｒｋｕｓｅｒｂｅｈａｖｉｏｒａｎａｌｓｉｓｓｓｔｅｍｂａｓｅｄｏｎＤａｔａＭｉｎｉｎｙｙｇＣａｎｄｉｄａｔｅ：ＥｎｕｅＹｕｙＡｄｖｉｓｏｒ：ＨｏｎｂｉｎＣｈｅｎｇｇｇＣｏｌｌｅｅｏｆＣｏｍｕｔｅｒＳｃｉｅｎｃｅａｎｄＴｅｃｈｎｏｌｏｇｐｇｙＺｈｅｉａｎＵｎｉｖｅｒｓｉｔｏｆＴｅｃｈｎｏｌｏｊｇｙｇｙＮｏｖ２０１７．１０ 浙江工业大学硕士学位论文浙江工业大学学位论文原创性声明本人郑重声明：所提交的学位论文是本人在导师的指导下，独立进行研宄工作所取得的研宄成果。除文中已经加以标注引用的内容外，本论文不包含其他个人或集体已经发表或撰写过的研宄成果，也不含为获得浙江工业大学或其它教育机构的学位证书而使用过的材料。对本文的研宄作出重要贡献的个人和集体，均己在文中以明确方式标明。本人承担本声明的法律责任。日期１作者签名：只：ｗ俾月３日学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定，同意学校保留并向国家有关部门或机构送交论文的复印件和电子版，允许论文被查阅和借阅。本人授权浙江工业大学可以将本学位论文的全部或部分内容编入有关数据库进行检。索，可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文本学位论文属于一１、保密□，在年解密后适用本授权书。２。、保密□，在二年解密后适用本授权书３、保密□，在三年解密后适用本授权书。４、不保密口。“”（请在以上相应方框内打Ｖ）作者签名：日期：Ｗ祥丨月）日、导师签名：日期年月６日＾ｉｖ 浙江丁．业大学硕十学位论文基于数据挖掘的校园网用户行为分析系统的设计与实现摘要随着我国经济水平的提升及网络信息技术的发展，网络已经变成人们生活中无法缺少一，与大众的生活息息相关。经过二十余年的发展的部分，校园网络在我国各高校都获得了较好的应用，工作还是在生活上都给老师和学生带无论是在学习来巨大的改变，、教学人们的生活也变得越来越便利。与此同时，随着校园网用户数量的不断增加，校园网管理工作而临越来越多的问题。因此，通过引入数据挖掘算法对校园网用户行为进行分析和特征描述对校园网建设的优化及服务水平的提高有着十分重要的意义和价值。本文以Ａ大学校园网为例，获取和解读校园网流量控制服务器上的用户访问日志文件，采用数据挖掘方法对校园网用户行为进行分析，旨在探究校园网用户的访问目标划分和访，问习惯进而为校园网络优化提供建议。以此挖掘流程为核心工作，构建了校园网用户行为分析系统。具体工作包括：实现了对校园Ｍ用户公Ｍ访问ｔｌ志的采集和理解。针对用户访问Ｈ志文件分散、格式＋统一的实际情况，本文结合数据库对Ｈ志进行汇总管理，实施了数据清理、整理归挡、标准化等功能，同时在进行数据处理的同时还可以实现对数据的理解解释，整理出了原始数据中的主要字段，使得访问日志的管理更加便捷，结构更加规范。实现基于校园网数据的访问目标分析。以用户的出口地址和流量信息等数据为基础，本文引入了聚类方法，实现了对校园网用户访问地址的有效划分，解释了不同访问目标的具体差异情况，进而为网络中心优化出口带宽工作提供可行的决策数据支撑。其中，为了－Ｋ－观察离散点对聚类效果的影响，，本文分别实现了均值算法、Ｋ中心点算法引入了结合－凝聚方法的改进Ｋ，提高了算法的分析效率和聚类结果的稳定性均值算法。实现基于校园网的用户访问习惯分析。以用户访问站点的域名信息等数据为基础，本文引入并实现了Ａｐｒｉｏｒｉ关联规则挖掘算法，通过挖掘获得的关联规则解释校园网用户群体在访问惯上的偏好情况，有助于加深对校园网用户群体上网情况了解。本文从校园网使用实际出发，对用户群体的聚类分析有助于对校园网公网出口建设进行优化，对访问习惯的关联分析有助于更深入了解用户群体，有助于高校学生思想引导工ｉ 浙江丁业大学硕＋学位论文…作的开展，具有定的现实意义。？关键词．校园网，数据挖掘，聚类分析，用户行为分析，关联规则ｉｉ 浙江Ｔ业大学硕十学位论文ＤｅｓｉｇｎａｎｄｉｍｐｌｅｍｅｎｔａｔｉｏｎｏｆｃａｍｐｕｓｎｅｔｗｏｒｋｕｓｅｒｂｅｈａｖｉｏｒａｎａｌｙｓｉｓｓｙｓｔｅｍｂａｓｅｄｏｎＤａｔａＭｉｎｉｎｇＡＢＳＴＲＡＣＴ＇ＷｉｔｈｔｈｅｄｅｖｅｌｏｍｅｎｔｏｆＣｈｉｎａｓｅｃｏｎｏｍａｎｄｅｎｈａｎｃｅｔｈｅｌｅｖｅｌｏｆｎｅｔｗｏｒｋｉｎｆｏｒｍａｔｉｏｎｐｙ＇ｔｅｃｈｎｏｌｏｇｙ，ｔｈｅＩｎｔｅｒｎｅｔｈａｓｇｒａｄｕａｌｌｙｐｅｎｅｔｒａｔｅｄｉｎｔｏｅｖｅｒｙｏｎｅｓｄａｉｌｙｌｉｆｅ．Ａｆｔｅｒ２０ｙｅａｒｓｏｆｄｅｖｅｌｏｐｍｅｎｔ，ｔｈｅｃａｍｐｕｓｎｅｔｗｏｒｋｉｎｏｕｒｃｏｌｌｅｇｅｓａｎｄｕｎｉｖｅｒｓｉｔｉｅｓｅｔｏｏｄｕｓｅａｎｄｂｒｉｎｒｅａｔｇｇｇｇｃｏｎｖｅｎｉｅｎｃｅｔｏｔｅａｃｈｅｒｓａｎｄｓｔｕｄｅｎｔｓ．Ｍｅａｎｗｈｉｌｅ，ａｓｔｈｅｎｕｍｂｅｒｏｆｃａｍｐｕｓｎｅｔｗｏｒｋｕｓｅｒｉｓｉｎｃｒｅａｓｉｎｇ，ｃａｍｐｕｓｎｅｔｗｏｒｋｍａｎａｇｅｍｅｎｔｗｏｒｋｉｓｆａｃｉｎｇｍｏｒｅａｎｄｍｏｒｅｐｒｏｂｌｅｍｓ．Ｔｈｅｒｅｆｏｒｅ，ｔｈｅｃａｍｐｕｓｎｅｔｗｏｒｋｕｓｅｒｂｅｈａｖｉｏｒａｎａｌｙｓｉｓｈａｓａｖｅｒｙｉｍｐｏｒｔａｎｔｍｅａｎｉｎｇａｎｄｖａｌｕｅｔｏｔｈｅｃａｍｐｕｓｎｅｔｗｏｒｋｃｏｎｓｔｒｕｃｔｉｏｎ．Ｉｎｔｈｉｓａｅｒ，ｗｅｕｓｅＡｃａｍｐｕｓｎｅｔｗｏｒｋａｓｅｘａｍｐｌｅ，ｏｂｔａｉｎｕｓｅｒａｃｃｅｓｓｌｏｆｉｌｅｓｕｓｉｎｇｄａｔａｐｐｇ，＇ｍｉｎｉｎｍｅｔｈｏｄｓｔｏｅｘｌｏｒｅｔｈｅｃａｍｕｓｎｅｔｗｏｒｋｕｓｅｒｓｄｉｖｉｓｉｏｎｈａｂｉｔｔｈｅｎｒｏｖｉｄｅｇｐｐ，ｐｒｅｃｏｍｍｅｎｄａｔｉｏｎｓｆｏｒｔｈｅｃａｍｐｕｓｎｅｔｗｏｒｋｏｐｔｉｍｉｚａｔｉｏｎａｎｄｂｕｉｌｄａｃａｍｐｕｓｎｅｔｗｏｒｋｕｓｅｒｂｅｈａｖｉｏｒａｎａｌｙｓｉｓｓｙｓｔｅｍ．Ｔｈｅｍａｉｎｗｏｒｋｉｎｃｌｕｄｅｓ：Ｏｂｔａｉｎｕｓｅｒｌｏｇｆｉｌｅｓｏｆａｃｃｅｓｓｉｎｔｈｅｐｕｂｌｉｃｎｅｔｗｏｒｋ．Ｆｏｒｕｓｅｒａｃｃｅｓｓｌｏｇｆｉｌｅｓａｒｅｓｃａｔｔｅｒｅｄｇ，ｎｏｔｕｎｉｆｉｅｄｆｏｒｍａｔ，ｔｈｉｓｐａｐｅｒｓｕｍｍａｒｉｚｅｄｔｈｅｆｉｌｅｓａｎｄｉｍｐｌｅｍｅｎｔｅｄｄａｔａｃｌｅａｎｓｉｎｇ，ｍｅｒｇｉｎｇａｎｄ－ｓｔａｎｄａｒｄｉｚａｔｉｏｎ．Ａｆｔｅｒｔｈｅｒｅｒｏｃｅｓｓｉｎ，ｔｈｅｆｉｅｌｄｄａｔａｗｅｒｅｕｎｄｅｒｓｔａｎｄ．ｐｐｇｉｎｇＡｎａ．ｉｌｙｚｅｔｈｅｔａｒｇｅｔａｄｄｒｅｓｓｅｓｏｆｃａｍｐｕｓｎｅｔｗｏｒｋｕｓｅｒｓＢｙｕｓｎｇｔｈｅＵＲＬａｎｄｔｒａｆｆｉｃｉｎｆｏｒｍａｔｌｉｍｅｔｈｏｄｖｅｉｏｎｔｈｉｓａｅｒｉｎｔｒｏｄｕｃｅｓｔｈｅｃｕｓｔｅｒｎｔｏａｃｈｉｅｔｈｅｅｆｆｅｃｔｉｖｅｉｓｉｏｎｏｆｔ，ｐｐｇｄｖｉｈｅ＊ｃａｍｐｕｓｎｅｔｗｏｒｋｕｓｅｒｓｔａｒｇｅｔａｄｄｒｅｓｓｅｓ，ｅｘｐｌａｉｎｉｎｇｔｈｅｓｐｅｃｉｆｉｃｄｉｆｆｅｒｅｎｃｅｓｉｎｄｉｆｆｅｒｅｎｔｃｌｕｓｔｅｒｓ，ａｎｄｔｈｅｎｒｏｖｉｌｉｍｉｈ．ｐｉｄｅｐｒａｃｔｃａｄａｔａｔｏｏｐｔｚｅｔｈｅｅｘｐｏｒｔｕｂｆｏｒｔｈｅｎｅｔｗｏｒｋＩｎｏｒｄｅｒｔｏｏｂｓｅｒｖｅ－－ｉｌｉｈｉｍｅｄｏｔｈｅｅｆｆｅｃｔｓｏｆｄｉｓｃｒｅｔｅｏｎｔｓｏｎｔｈｅｃｕｓｔｅｒｎｅｆｆｅｃｔｔｓａｅｒｕｓｅｄＫｍｅａｎｓａｎＫｉｄｓｐｇ，ｐｐｄ－ａ．ｌｏｒｉｔｈｍ，ａｓｏａｎｉｍｒｏｖｅｄＫｍｅａｎｓａｌｏｒｉｔｈｍｃｏｍｂｉｎｅｄｗｉｔｈｔｈｅａｌｏｍｅｒａｔｖｅｍｅｔｈｏｄｇｌｐｇｇｇｉＡ＇ｎａｌｙｚｅｔｈｅｃａｍｐｕｓｎｅｔｗｏｒｋｕｓｅｒｈａｂｉｔｓｔｏａｃｃｅｓｓａｄｄｒｅｓｓｅｓ．Ｂａｓｅｄｏｎｔｈｅｄａｔａｏｆｔｈｅｓｉｔｅｓ，ｄｏｍａｉｎｎａｍｅｔｈｉｓａｅｒｉｍｌｅｍｅｎｔｓＡｒｉｏｒｉａｌｏｒｉｔｈｍｅｘｌａｉｎｔｃａｍｕｓｎｅｔｗｏｒｋｕｓｅｒｓ，ｐｐｐｐｇ，ｐｈｅｐｈａｂｉｔｈｉｔｓａｎｄｒｅｆｅｒｅｎｃｅｏｆａｃｃｅｓｓｉｎｓｔｅｓｂｅｔｔｉｎｅａｓｓｏｃｉａｔｉｏｎｒｕｌｅｓｔｈｉｓａｓｏｈｅｌｓｔｏｇｙｇｇｌｐ，ｐｕｎｄｅｒｓｔａｎｄｔｈｅｓｕｒｆｉｎｇｓｉｔｕａｔｉｏｎｏｆｔｈｅｃａｍｕｓｎｅｔｗｏｒｋｕｓｅｒｓｄｅｅｌ．ｐｐｙＴｈｔｔｓｉｔｏｆｔｈｌｉｉｓａｅｒｓａｒｆｒｏｍｔｈｅｒｅａｌｅｃａｍｕｓｎｅｔｗｏｒｋｕｓｉｎｃｕｓｔｅｒｎａｎａｌｓｉｓｏｆｕｓｅｒｓｐｐｙｐｇ，ｇｙｏｎｔｈｅｃａｍｕｓｎｅｔｗｏｒｋｈｅｉｌｄｌｉｋｏｉｉｈｅｌｌｓｔｏｂｕｕｂｃｎｅｔｗｏｒｔｉｍｉｚａｔｏｎａｓｓｏｃｉａｔｏｎａｎａｌｓｉｓｓｔｏｐｐｐｐ，ｙｐｉｉｉ 浙江Ｔ业大学硕十学位论文ｕｎｄｅｒｓｔａｎｄｔｈｅｃａｍｕｓｎｅｔｗｏｒｋｕｓｅｒｓｗｅｌｈｉｃｈｃａｎｈｅｌｔｉｔｓｉｉｉｉ．ｐｌ＊ｗｐｏｇｕｄｅｓｔｕｄｅｎｎｕｎｖｅｒｓｔｅｓＴｈｅｒｅｆｏｒｅｔｈｉｓｐａｐｅｒｈａｓｃｅｒｔａｉｎｐｒａｃｔｉｃａｌｓｉｇｎｉｆｉｃａｎｃｅ．ＫｅＷｏｒｄｓｕｓＮｅｔｗｏｒｋＵｓｅｒＢｅｈａｖｉｏｒＡｎａｌｓｉｓ？ＣｌｕｓｔｅｒＡｎａｌｓｉｓ，：Ｃａｍｙｐ，；ｙｙＡｓｓｏｃｉａｔｉｏｎＲｕｌｅ，ｖｉ浙江Ｔ．业大学硕十学位论文目录要ｉ第一章绪论１１．１课题背景１１．２课题研究意义２．３３１国内外研究成果１．４课题主耍研究内袢４．５５１论文组织结构第二章相关概念介绍６．户６２１用行为分析概述１２．１．１网络用厂的概念６２．．户行为分析的概念６１２用２．２数据挖掘概述６２．２．７１数据挖掘的概念２．２．２数据挖掘的常用方法７２一．２．３数据挖掘的般过程８２．３木章小结１０第三章系统需求分析１１．３１需求分析概述１１３．２功能需求分析１２；３．３功能：求分析１５｜｜３．４本章小结１５第四章系统设计１６４．１系统框架设讣１６４．．１６１１分析部分４．１．２賴部分１７７４．２系统模块设计１４．２．】数据１？理模块１７．．１４２２访问Ｒ标分析模块８４．２．３访问习惯分析模块１８４．３数据库设计１８４．４挖掘流程设计２０４．５辟顿２１第五章算法设计与改进２２５．１数据获取２２Ｉ 浙江Ｔ业大学硕十学位论文２３５２数据预处珂．５．２．】数据淸理２３５．２．２２３数据归并５．２．３数据标准化２４５．２．４处理效果评价２７５．３２７访问目标分析的实现５．３．１聚类算法分析２７－５．３．２Ｋ均值算法实现２７－５．３Ｋ２９．３中心点算法实现５３．４３０，结合凝聚方法的聚类算法实现５．４访问Ｊ惯分析的实现３３５．４．１关联规则挖掘算法分析３３５．４．２Ａｐｒｉｏｒｉ１？法丈现３４５．５本章小结３６第六章系统运行测试与结果分析３７３７６．１系统运行环境６１．１３７．硬件环境．．３７６１２软件环境６．２系统运行情况３７６．２．入３７１数据导６．２．２数据接口３８６．２．３数据预处理３８６．２．４聚类分析３９３９６．２．５关联分析６４０．３系统挖掘结果分析６．３．１Ｎ络数据统计分析４０６．３．２用户行为聚类分析４２６．３．３川户行力关联分析５２６．４用户行为分析结论应用５５６．４．１校园网公网访问现状５５５６６．４．２公Ｍ出口优化方案６．５本草小结５８第七章总结与展望５９７．１雜５９７．２■５９参考文献６１麟６４攻读学位期间参加的科研项目和成果６５ＩＩ 浙江Ｔ业大学硕＋学位论文第一章绪论１１．课题背景，随着我Ｗ经济＋断发展科学技术水平不断提升，互联Ｎ已经融入人们的生活，成为一人们生活中不可缺少息息的部分，在学习、工作、生活、娱乐的各个方面丰富着整个社一会的生活，而整个社会也成为个巨人的网络社会２０１６２３，。年月号中国互联网络信息中心（ＣＮＮＩＣ）在首都北京发布的第３７次《中国互联网络发展状况统计报告》上的数据Ｍ示了中国互联网的快速发展，至２０１５年１２月份，中国互联网用户已经高达６．４９亿人次，相比２０１４年统计的数据，多出了３１１７万人，而此时互联网的使用率以及高达４７．９％，相比２０１４年统计的高处了２．１％。可以看到，伴随着互联网的蓬勃发展，各个政府机关、企业，通过，、高校、社会机构等都积极开展信息化建设采用互联网技术来实现办公自动化替代许多传统的手工作业，从而降低人力成本，提高工作效率。尽管互联网的普及为生活水平的提高做出了重要的贡献，但我们同时也不得不正视它一，主要表现在以下方面所带来的系列问题：首先，安全问题。据数据统计，到２０１５年底，全世界使用互联网的人数达到了２８．９，４０％，而且这个增长势不可挡亿人次使用率高达，根据这个增长趋势判断到２０１６年底，全世界将会有３０亿用户使用互联网络，占全世界人口的４２．４％。如今人们的生产生活等，而网络木身环境的多变性各行各业都对网络有着强烈的依赖性、复杂性、幵发性和脆弱，性都决定了它木身易受攻击使得网络安全威胁成为不得不正视的客观存在，如计算机病毒、木马等，己经成为人们日常生活中常见的安全隐患。一第二，道德问题样，网络社会中同样出现道德曰益缺失的。正如现实中的人类社会问题。如Ｍ络色情、暴力等不良信息的传播，对青少年的健康成长有着巨大的危害如利；用计算机复制和网络传播的便利，、难以溯源的特性侵害知识产权对脑力劳动者的署名权直至经济利益造成明显损害；如利用网络覆盖的广泛性进行人肉搜索等行为，有目的地对特定人物造成名誉损害，这样不仅仅破坏了其个人形象，扰乱了社会秩序，还有可能会成为引起社会不安的导火线。第三，心理问题。正是由于互联网对人们日常生活的巨大影响，使得人与人之间的交１ 浙江Ｔ．业大学硕十学位论文往模式发生的巨大的变化，即使不出门不通书信，也可以通过网络来了解社会的动态，通过网络实现人与人的交往，。增加人们之间的沟通交流，参加各类社会活动等原木现实生活中面对面的实际交往成为了坐在屏幕前敲击键盘和鼠标，这种长期与机器交流的生活方式使得人与人之间的社会关系被削弱、情感逐步淡化其至产生隔阂，这种对网络的依赖很容易导致心理问题的出现。，、网民数量逐日增多的背景下，如何对互联网进行规范可见在互联网日益普及、尽一，个互联网人必须要正视和解决的的问题。自量避免其造成不以影响这是毎１９９４年４Ｗ月２０日起中国□全功能接规国际互联网，与此Ｎ时我国大部分高校便开始了校园网的建设，随着多年来国家政策的积极引导和社会信息化浪潮的不断推动，到２０１６年１２月底，中国全部的全日制本科普通高等院校都实现了高校校园网络的全方位覆盖包括了实验室、图书馆、办公楼、教学楼及宿舍楼等全部校园建筑。高校校园网络的全方位建设推动一，也催牛了系列高校校园学生网站了其硬件设施和软件系统的不断升级进步。随着高校校园网络规模不断扩大，高校校园信息化与网络化趋势也愈发明显，尤其对于高校学生而言，对校园网的使用对其价值取向，、生活方式、身心健康都有重要的影响因此对于如何，是众多高校的目前面临的重要问题提高高校校园网络的服务水平和管理水平。“”“”一对于这问题，涉及到信息互联领域的网络用户行为分析网络用户行为分析，是指针对某个特定网络或整个互联网的用户，统计该用户在使用互联网时所浏览的信息，判断出其喜好，，找到其浏览的规律特征从而为客户优先推送其感兴趣的信息。通过分析其规律和影响因素，进而为制定和调整网络建设与发展策略提供决策支持，促进网络行为ｌｌｉ规范与互联网管理。如今，ＣＮＺＺ、ＧｏｏｅＡｎａｔｃｓ、量了统计等网站访问分析工月，ｇｙ；以一领域的代表及以友盟、机锋为代表的移动互联Ｍ应用分析丄具史是这。他们通过收集互联Ｍ用户的浏览数据，对这些数据整理，获得用户行为的规律，预测潜在业务和用、分析户，从而为网站等网络服务的发展指明方向。１．２课题研究意义如今，对于老师和学生来说，不管是工作，、生活、学习还是娱乐上都和校园网络密一切相连，息息相关。校园网络环境的好坏直接关系到校园生活的质量。作为互联网的个特殊的组成部分，校园网面对的主要用户是老师和学生，群体人数比较庞大，文化层次相对较高，所以网络使用也比较频繁，网络应用范围较广等特点，而其在建设过程中面临的问题则同样明显。校园网最主要的用户群体是在校大学生，这个时候的大学生正处于由学校向社会过渡的关键时刻，因此，因此需要引导他们建立正确的人生观、价值观、世界观２ 浙江Ｔ．业大学硕十学位论文．校园网用户对网络的使用频率较高，使用时有较强的目的性和表达欲望作为思想最为活一跃也最具激情和活力的批人，很容易受到网络问题的影响。如众多高校长期以来的面临的学生“”一“”沉溺网络的问题，这其实是种心理疾病网络成瘾症，主要就是那些使用电一，，而这种脑时间过长，自我休息调节时间过少甚至己经影响到自身健康状况的种症状对于那些不善言辞，、性格内向、或者现实生活中遇到困难挫折的人很容易陷入网络的世界中无法自拔，，影。这种心理疾病不仅使学生产生心理障碍损害身体健康响其社会生活质量，更容易使学生出现长期的情绪低落、精神压抑及思维迟钝等现象，甚至导致学生产生人格障碍，对校，对未来生活失去希望。正是由于网络生活对现实生活有着巨大的影响园网用户行为进行研究与分析，更具有现实指导意义。冃前，各高校在网络用户行为分析方面普遍缺乏专门的研究，更多只是对网络运行状况进行监测和分析，采用数据挖掘技术有效地发。而通过获取用户在校园网中的访问记录？掘原始数据屮的信息，了解互联网用户浏览特征，找到他们使用特点。而从个广泛的角，，度来看，通过分析校园网络的使用情况收集校园网络的使用信息可以帮助网络管理人，，员了解网络使用信息，冇效管理网络资原提高网络资源的使用率完善网络性能和服务质量，网络用户分析出的数。同时还能为网络异常、网络问题提供解决的依据。于此同时，对于制定正确的校园管理策略据还可以帮助管理人员展开学生管理工作、方案有积极的指导作用。１．３国内外研究成果早在２０世纪８０年代开始，国外为了实现对网络的监控，就己经开始对用户的行为特一征和规律进行研究。当前对网络用户行为的研究热点主要有两大方面，其中个是对Ｗｅｂ—站点用户访问行为的分析，目的是了解站点的用户人群、访问热点、使用习惯等；Ｗ个则是对于局域网络的情况进行分析，了解常规状态下的用户行为特征，用于进行入侵检测、行为审计等安全工作，其最终目的都是为了优化网络建设、调整网络方。无论是哪个方而案。目前为止，用户行为分析方面的主要参考模型有％１．ＩＳＯ的ＦＤＴ小组完成的同际标准的形式化描述语言ＬＯＴＯＳ（ＬａｎｇｕａｇｅｏｆＴｅｍｐｏｒａｌＯｒｄｅｒｉｎｇＳｐｅｃｉｆｉｃａｔｉｏｎ），是依据对各进程外观行为的时态次序进行描述，以达到对整个系统功能描述之目的２．交互系统中在用于分析用户复杂性的建模技术ＧＯＭＳ（Ｇｏａｌｓ＆Ｏｐｅｒａｔｉｏｎｓ＆Ａ大学工程硕士学位论文Ｍｅｔｈｏｄｓ＆Ｓｅｌｅｃｔｉｏｎｒｕｌｅｓ），通过目标、操作符、方法和选择等规则３ 浙江Ｔ业大学硕十学位论文６［〗来对用户行为进行描述；３ＵＡＮ（ＵｓＡｔｉＮｔｔｉ），．用简单的符号语言对交互实体进行描述的ｅｒｃｏｎｏａｏｎ它采用表格结构进行用户与界面交互任务表示。这些参考模型都经过了国外大量研究工作的检验，在大型的用户行为分析项目中广为运用。网络用户行为分析在国内已经有了若干年的发展，主要的研究重点还是在于对数据库和服务器日志进行的数据挖掘，发现用户搜索、浏览等网络行为的特征和规律，并运用于网站优化，、网络安全、网络行为预测等方面。Ｈ前国内在进行用户行为分析时采用的方法主要有三种：１．从应用层次对用户行为进行的分析；２．基于用户来源与基于网站受访的用户行为分析；３从网络数据层面对正常和异常的网络行为进行识别。．，主要目的是优化网站服务其中，前两种方法主要运用在网站用户行为分析上、提高？网站性能，其重点放在了对单个网站的了解和分析上：后种方法则是通过从网络服务器屮提取日志数据进行分析，了解整个网络的资源使用情况，特别是把握局域网中用户的行为特征。１４课．题主要研究内容本课题以校险网为中心，围绕校园网冃前的特点和现状，结合案例学校的实际，使用数据挖掘技术对校园网流量控制服务器上的访问日志数据进行分析，并结合校园网络建设工作对结果进行解读。以此工作为基础，设计并建立了校园网用户行为分析系统。本课题的主要工作包括了如下几个方面：１．对校园网络建设的特点和现状进行了解和调研，研究数据挖掘和用户行为分析技术在校园网建设中的应用；２．采集、管理校园网流量控制服务器上的公网访问数据，并进行了数据的清理、归并和标准化等预处理工作，对处理后的数据字段内容进行理解与分析：３１Ａ，．根据中的研究结论，结合大学校园网使用实际完成校园网用户行为分析系统的设计，主要包含访问目标分析和访问习惯分析两部分内容；－＿４，Ｋ．实现对访问目标的分析通过引入Ｋ均值算法、中心点算法实现对校园网用户访问地址的划分（ｅｌｂｏｗｍｅｔｈｏｄ）和ｉｌｈｏｕｅｔｔｅｃｏｅｆｆｉｃｉｅｎｔ）；通过肘方法轮廓系数（ｓ方法，确定聚类最佳簇的个数；通过簇之间点击量和流量的差异解释了不同访问目标类型间的差异情况，为优化校园网出口带宽提供决策支持；４ 浙江丁．业大学硕十学位论文５．实现对访问习惯的分析，引入关联规则分析方法，通过Ａｐｒｉｏｒｉ算法获取校园网用，户群体在访问网站时的习惯偏好，挖掘用户与访问网站间的潜在关系有助于加深对校园网用户的了解；６，．对数据分析的结果进行解读并应用到校园Ｗ公网出口建设和高校学生思想工作的实际中。本文结合课题研究工作的内容，并以数据挖掘技术的应用为重点，叙述了用户行为分析技术在校园网建设中的应用，根据校园网的特点和实际分析盖求提出了数据挖掘算法的，实施方案，并探讨了校园网用户行为分析与具体的网络建设工作的结合最后对研究工作进行了总结与展望。１５．论文组织结构论文共分为６章，内容安排如下：，第１章，绪论。整体上阐述了该论文的课题背景及研究意义介绍了数据挖掘和网络行为分析技术的发展和应用现状，展示了本课题的主要研究内容并说明了论文的组织结构。，还第２章，相关概念介绍介绍了数据。介绍了用户网络用户和用户行为分析的概念一般过程挖掘及其常用方法和。第３章，系统需求分析。介绍了校园网用户行为分析系统的设计冃标，结合实际情况。梳理系统需求，提出具体的功能需求和非功能需求第４章，系统设计。介绍了校园网出户的行为分析系统设计方案，明确了系统框架的设计，、系统模块设计及数据库设计针对具体问题提出了挖掘分析流程设计。５，，第章，算法设计与改进。介绍了系统的数据来源完成数据的采集然后开展了数据的清理。根据系统需求，完成访问目标、属性的归并以及数据内容标准化等预处理工作。分析和访问习惯分析的设计与实现，在此过程中引入了聚类分析和关联规则分析的方法。，第６章，系统运行测试和结果分析介绍了系统运行的环境展示了系统实际运行的情况、用户行为聚类分析和用户行为关联分析的结果，并通，描述了网络数据的统计分析过校园网公网出Ｕ优化方案讲述了用户行为分析技术在校园网络建设工作中的应用。一，步研究进行了展望最后，对总结了本课题的主要研究工作并对下。５ 浙江丁业大学硕十学位论文第二章相关概念介绍，２．１本章将介绍本文中涉及的用户行为分析和数据挖掘相关概念具体安排如下：节介绍用户行为分析概述；２．２节介绍数据挖掘概述；２．３节对本章进行总结。２１．用户行为分析概述２１．１．网络用户的概念（ＵＢ用户行为分析ｓｅｒｅｈａｖｉｏｒＡｎａｌｙｓｉｓ）迅针对网络用户而言，根据中国互联网络信“ｉｌｉＣ总中心（ＣＮＮ１Ｃ，ＣｈｎａｌｎｔｅｍｅｔＭｅｔｗｏｒｋｎｆｏｒｍａｔｏｎｅｎｔｅｒ）的定义，网络用户是指在”６６一，最近个月使用过互联网的岁以上的公民，由此可见网络用户是对般网络使用者一的统称。般说来，网络用户需要具备以下三个基本条件：１．Ｉ具有使用计算机的条件，并能够接入ｎｔｅｒｎｅｔ，然后进行上网活动；２．具有基本的计算机网络知识和操作技能；３．能支付上网费用的基本条件或者使用网络的基本条件。通过收集网络用户的使用数据，了解他们的使用情况，主要通过以下两种方法对网络一用户来进行分类，：第种美国的学者通过网民使用网络的时间、频率来将网民分为四种，２，３类型：１、将网络作为辅助工具的网民用户、将网络用到工作、、生活的网民用户一较少使用网络的网民用，４、将网络作为获取信息渠道的网民用户，德；第种国的学者通过自己所在的专业领域及自己使用网络的经验作为基准，１、将网民分为四种类型：熟．悉相应领域知识且只有熟悉ｗｅｂ检索经验的网络用户，２、熟悉相应领域知识却不熟悉ｂ４ｗｅｂ检索经验的网络用户，３、熟悉ｗｅ检索经验却不熟悉相应领域知识的网络用户．、即＋熟悉领域知识也不熟悉ｗｅｂ检索经验的Ｍ络用户。结合校园Ｎ实际使用环境，我们可以将所有在学习、工作和生活中利用校园网资源进行信息沟通的教师、职工、学生等群体统称为校园网络用户。校园网用户具有用户相对集Ｍ中。、用户行为复杂、网络安全性相对较差等特点２１２．．用户行为分析的概念对使用互联网络的用户进行行为分析主要是通过现在强大的科学技术来获取大量的网络使用的数据，并运用数据处理的方法对数据进行收集，、处理、归纳、总结从而得出６ 浙江Ｔ．业大学硕十学位论文该互联网用户的使用特点、上网习惯，从、爱好、以及经常上网的所在地等数据并对此进行分析。对互联网用户的行为分析实际上就是对网络数据库的分析，通过大数据的分析，可以更加直观的看到互联网用户的上网足迹，同时对网络数据库的分析，还可以更容易的发现网络后台存在的弊端和隐患，为防范互联网隐患提供数据依据。尽管客观上对于大数据的分析能够更直观的体现Ｎ络用户行为，但是互联网用户在使一用网络时并非是成不变的，人们认识的新事物越多，那么他们愿意接受的讯息希望了解一的事物就越多，对于网络信息的选择则越来越多样化，所以单从网络数据并不能对于网一一络用户行为进行个划分，也没有个固定的标准，以下主。因此要是通过网络环境以及研究的条件对网络用户行为进行分类。１．从网络用户来分，分为个人行为和群体行为两种类型；２．从网络行为的利弊来划分，分为正２网络行为和具有隐患的网络行为；３：．从网络行为是否符合惯正常行为和异常行为。２．２数据挖掘概述２２．．１数据挖掘的概念ｉｉ）指的就是通过对大量的数据进行分类、整理、分析数据挖掘（ＤａｔａＭｎｎｇ，从而Ｍｌ得到隐藏的信息。。数据挖掘能够和用户或知识库进行交互，因此也有人将数据挖掘一（Ｋ－ＤｓｃｏｖｅｒｎＤａｔａｂａｓｅｓｎｏｗ，ＫＤＤ乍为数据库中发现知识ｌｅｄｇｅｉｙｉ）过程的个必不可少的基本步骤、知。数据挖掘的过程主要是由数据清理、数据选择、数据变换、模式评估｜２１１识表示等步骤迭代组成。一数据挖掘并不是唯的信息发现任务，常见的信息发现任务还包括信息检索和统计分一定的算法和数据结构析等，使用数据的明显特征创建索引，从而。信息检索是通过采用能够有效地组织和检索信息，；统计分析是通过现有既定的统计标准和条件对数据进行特向性划分，其结果的划分特征和意义是预设且明显的；而数据挖掘则通过某些关联规则，从数据集中发掘信息，其结果的特征和意义是未知的。数据挖掘技术可以用于增强信息检。索功能，也可以结合统计分析技术更好地实现对数据的处理和利用由于各大行业经过长时间的发展，积累了大量的历史数据，而现在迫切需要对这些海景的数据进行分析，从中发掘隐藏在背后的业务特点和规律，转化为有价值的信息与知识，，最近几年来数据挖掘的技术得到了整个信息产业界各领域的密切关注所以。２．２．２数据挖掘的常用方法数据挖掘采用的方法有很多种，并且依然在不断地改进和发展当中。其中常用的主要７ 浙江Ｔ．业大学硕＋学位论文方法有聚类分析、分类分析、关联分析、特征分析、回归分析、偏差分析、变化及Ｗｅｂ挖掘等，它们通过各种角度对数据进行挖掘一１。．分类分析分类分析是指在大量的网络数据中找到其中组具有相同特征的数据，依据分类模型来划分为不同的类别。而对此进行分类的目的则是将具有相同特征的数据归类到衣蛾特定的组别里面。２一一．聚类分析。聚类分析则是依据个固有的标准或者准则，将个数据整体划分为不，而如此划分的目的就是为了得到更加相似的个体出来同的个体，同时也将行为特征相差较大的个体筛选出来。３．关联分析。关联分析是指通过挖掘数据集中不Ｎ属性值之间存在的联系，形成关联规则，通过关联规则分析，我们能够得知数据集中的各。关联规则在通常状态下是隐藏得一属性之间的关系，也就可以在某些事务数据存在的提前下，推测出另些数据在这个事务中出现的概率。４．回！ＬＩ分析。回归分析所反映的是数据集成员属性值在时间上的特征，它假定条件属一？？性和决策属性之间存在线性关系，通过训练数据集产生个将数据项映射到个实际预测变量的函数，也就是回归方程，从而发现不同的变量或属性间的依赖关系。５．特征分析。特征分析指的是从大量的数据中收集这些数据的共同性，而这个共同性则是这些数据的具体表现。６．变化和偏差分析。变化和偏差分析就比较简单，通过对比参照模型与观察对象之间一的差异，来获取额外的信息。般来说，对于不特定的因素，更多的要去分析不特定因素产生的原因，这样才能获取更多隐藏的信息，才能在数据发生变化的时候给出合理的解决方法。７？．ＷｅｂＷｅｂ挖掘挖掘，是基非结构化数据的挖掘。在Ｉｎｔｅｒｎｅｔ。与文本挖掘十分相似丁迅猛发展的今天，Ｗｅｂ上的信息量呈现爆炸式增长。通过对Ｗｅｂ进行挖掘，可以从Ｗｅｂ的海量数据中，收集有用的相关信息，并集中分析和处理对于企业经营管理和市场产品存在重人或潜在影响的环境信息和行业信息，发现Ｗｅｂ用户群体中的共同行为、共同兴趣、使用偏好和习惯模式等，从而对企业及Ｗｅｂ站点制定发展策略提供相应的依据。２一．２．３数据挖掘的般过程简单来说，对于数据的收集、整理、分析其实就是数据挖掘的过程，而这个过程并不“一”个一模逝一结果间定的形式一仅仅是数据，对于数据的挖掘是个不断更新、不断进？？，而这个过程是人们积累知识的过程。步的过程般说来，数据挖掘过程由商务理解、数￥ 浙江Ｔ业大学硕十学位论文１４］、１据理解数据预处理、建模、评估、部署等儿个步骤组成＝１？（ＢｉＵｉ）商务理解ｕｓｎｅｓｓｎｄｅｒｓｔａｎｄｎｇ商务理解是指在数据挖掘流程的最初阶段，工作主要集中在理解项目目标，并从业务功能的角度对需求进行分析和理解，最终把业务需求的描述性语言转化为可以适用数据挖掘模板的问题。２．数据理解（ＤａｔａＵｎｄｅｒｓｔａｎｄｉｎｇ）数据理解从最初的数据收集开始，结合业务盖求和数据来源，熟悉数据的内容，理解数据中各个项的属性，分析数据中的质量问题。３？数据准备（ＤａｔａＰｒｅｐａｒａｔｉｏｎ）一个步骤数据准备工作是整数据挖掘过程中最繁琐的。数据准备的主要内容是处理原始数据，。这，以提高数据的质量为数据挖掘的模型提供合理有效的输入值部分丁作需要根据实际需要多次执行，包括对数据进行整理、清现、除噪、转换、合并等丁作。４（Ｍｏｄｅｎ）．建模ｌｉｇ建模是指通过对需求的理解，选择不同的模型加以应出，在数据挖掘过程中模型可以，以获得最佳的模型参数，进行不断的调整。在调整模型的过程中往往需要回数据准备阶段进行相应的处理。５Ｅｉ．评估（ｖａｌｕａｔｏｎ）在进行最后的部署之前，需要对模型进行的评估，检验模型是否可行，确保模型能够达到项目之初设立的目标。６（Ｄｌｔ）．部署ｅｐｏｙｍｅｎ一，根据需求，可以实现个比较复杂的在模型创建和评估完成后、可重复的数据挖掘过程，将数据挖掘模梨应用到实际的业务环境当中。在实际情况中，往往是由客户完成模。型的部署，而不是数据分析人员ＣＲＩＳＰ－ＤＭ－（ｉ那么在数据分析的过程所创建的模型中，使用普遍的就是ｃｒｏｓｓｎｄｕｓｔｒｙ“”－ｓｔａｎｄａｒｄｐｒｏｃｅｓｓｆｏｒｄａｔａｍｉｎｉｎｇ），即跨行业数据挖掘过程标准。ＣＲＩＳＰＤＭ模型的２＿。大致过程如图１所示９ 浙江Ｔ．业大学硕＋学位论文ｆＩ商业理解Ｉ蹄业理解Ｉ，Ｘ．商业理網商业理解｜＾２－－图１ＣＲＩＳＰＤＭ模甩２．３本章小结木章介绍了校园网用户行为分析系统涉及的相关概念，包括用户行为分析和数据挖掘两部分。１０ 浙江丁．业大学硕十学位论文第三章系统需求分析，３．１本章介绍校园网用户行为分析系统的需求分析详细安排如下：节为需求分析概２．．３４节对本章进行总结。述；３．节为系统功能需求；３节为系统非功能需求；３３．１需求分析概述本文的主耍应用场景是在以Ａ大学Ｎ络中心校园网用户访问Ｈ志为基础数据源，期望通过应用数据挖掘方法，对校园网用户的群体和行为习惯进行分析。校园网用户行为分析的目的是要掌握网络中用户的使用情况、特点以及网络活动过程中所表现山来的规律。由于校园网用户对网络有着较强的依附性，且其网络行为是复杂多，这些数据具有较高的复杂度，，变的，长期以来校园网积累了大量的原始数据因此通过对校园网公网访问原始数据的采集，从、处理和分析中发现新的、有价值的知识对于校园网建设规划的意义十分重大。Ａ大学校园网由中关村校区和良乡校区两部分组成，其中良乡校区通过直达光纤与中关村校区相连，在良乡校区发出的公网访问请求也是通过光纤传送到中关村校区的公网出□。通过系统具体实现和运行实验，在目前现有数据中挖掘出有价值的知识数据，并提供冇应用价值的决策建议：。尝试从如下几个分析模型出发一Ｗｅｂ访问的分析：１通过分析记时间内，各个网站访问数量、流量占用等情．基于况，获得校园网Ｗｅｂ访问分布情况，该分析结果可作为公网出口线路优化方案的输入；一２．基于端Ｕ访问的分析：通过分析定时间内，各端Ｕ对于流量的使用情况，并结合实际软件使用的端Ｕ情况，来获得某些特定软件或服务的使用分布，分析结果可作为制定某些访问Ｗ络策略的参考（如限制下载等）；一３，．基于流景峰值分布的分析：分析段时间内，网络流量的集中情况和变化趋势可根据分析适时调整网络访问策略；一４：．基于ＩＰ段访问分布的分析分析段时间内，不同ＩＰ段的网络使用情况，结合ＩＰ段分布，对不用类型的校园网用户上网特点进行分、学生与老师位置分布等实际情况析。１１ 浙江丁．业大学硕十学位论文３．２功能需求分析结合Ａ大学校园网访问原始数据维度及实际工作需求，本文主要关注校园网出户的访问目标分析和其网络访问习惯的分析，系统针对Ｒ志记录数据，基于所获取的数据源实际情况，从ｗｅｂ访问模型出发，以其他模型为辅助，实现如下主要核心功能需求：．１基于校园网下网络请求数据构建校园网用户行为分析系统，实现基于原始口志数据下的数据管理功能，提供数据采集，根据实际需求选择合适的数据、预处理等必要步骤、设计合理的算法对数据进行分析，实现校园网的访问目标分析和访问习惯分析挖掘方法。其中访问目标分析通过对校园网用户对不同网络地址的访问次数和流量等数据的分，析根据校园Ｍ用户对Ｍ络流量使用需求的个同划分为＋同类别的群体：访问习惯分析通？定时间，过对校园网用户在丨々访问的全部Ｍ络地址的分析发现用户在使用校园Ｎ时访问的Ｈ络地址之间的相关性。—―蘇．）＊－？ＶＩ数据导入！数据预处理＜遙择功能Ｙ：Ｊ）（士ｉ＾弔１用户访问目标分析：访问习惯分行ＴＩ结果解释｜；／结束＇３－图１系统功能流程图１２ Ｔ浙江．业大学硕十学位论文２．将分析结果进行较为直观的展示，如采用聚类分析则以样本数据散点图表现各个类簇，、采用关联规则分析则展示最终生成的关联规则表等。针对数据挖掘算法的计算结果实现对数据挖掘知识进行合理的解释和评价，并根据得到的用户访问目标及用户访问习惯等结果信息进行分析并提出对校园Ｎ络建设工作有意义的决策支持意见。－根据以上需求分析，可以得出系统功能流程图如图３１所示。一鉴于校园网用户行为分析系统涉及校园网用户行为信息，使用者身份较为单，主要（）供管理员教师根据网络中心的数据进行相应数据挖掘分析工作，因此本系统用例图如图３－２所示。校Ｈ网丨ｍｉ九分桁系统』一／／一－？数据查询｝〔」访问目标聚类分析、＼＇？、，管理员＼Ｚ图３－２系统用例图一３－－用例详细说明如表丨表３４所示。３－表１泞入数据用例说明表用例名称汙入数据主执行荇管理记ｊ腓》条件采集获得流量控制服务器ｈ的校园网用户访问日志数据！１后置条件将校四网川户访问ｎ志数据丫／储到数据咋屮，然后对数据再进行数椐清理、归并及标准化等预处理！；段列表全部字段１１３ 浙江Ｔ．业大学硕士学位论文表３－２数椐查询⑴例说明表用例名称数据查询＇？主执行者ｒｒ理员；Ｉ前置条件校园Ｍ用户访问Ｈ忐数据己导入数据库，执行荇输入ＳＱＬ语句设定奄询条件］后置条件根据执行者的查询条件输出相应结果１字段列表全部字段表３－３用户Ｗ问Ｈ标分析用例说明表用例名称用户访问Ｈ标分析主执行齐管理Ｗ前置条件对校园网用Ｐ访问日志数据进行预处理，生成新的数据集后置条件以用户访问点击量与流量为维度输出聚类结果图｜｜卞段列表用户在Ｍ络中的标识卞段，沁问请求的目标地／问产生的上行流帒址，Ｕ，产生的下行流Ｓ：表－４３川户访问习惯分析川例说明表ｆ］例名利；用户访问习惯分祈ｆ＋：执行者符理员前Ｓ条件对校园Ｍ用户Ｗ问ｔｄ；数据进行预处埋，生成新的数据集后Ｓ条件输出校园网用１在短吋间内对于不Ｎ网络地址Ｍ时访问的关联关系１字段列表ｆｌ户在网络屮的标识字段，访问请求的时间，访问清求的口标地址，访问请求的ａ体资源的相对路径】４ 浙江Ｔ．业大学硕＋学位论文３．３非功能需求分析，课题根据校园网实际情况结合传统网络用户行为分析的工作经验和方法，课题系统一需要符合校园网用户分析的实际应用场景，保证定的算法效率和可延续性，因此提出了如下非功能需求：１的可延续性。由于校园网中的网络状态更新迅速，随着时间的推移数据．离线处理，将不断增加，这会使系统面临重复处理历史数据造成的冗余计算而系统本身主要目的在，并不要求实现实时在线分析于探究校园网用户群体的类型及其使用习惯。因此系统需要，获取新知识，为决策调整提供支持能够对逐步采集到的数据进行处理。？一２一天都在变化，．算法的运行效率，而Ｈ新。由丁校园Ｎ是个持续运行的环境每一一一，月姑，因此如果单只是收集天或者几天的数据对其进行分析那么是无法得到个有代表性的数据的，并需持续不断的进行数据收集整理，而这个过程有可能是几个月，也有可能足几年。这样巨人的数据量要求校园网用户行为分析系统盖综合运用分析和处理手段，，在性能上达到具有实际使用意义的要求采用ａ效的算法。３．４本章小结本章从校园Ｎ使用的实际情况出发，根据校园Ｎ用户行为分析系统的设计目标进行了需求分析，并根据已有数据集的客观情况选取基于Ｗｅｂ访问的分析作为课题实验的重点实例，。然后总结用户对系统功能的诉求并介绍系统的非功能需求。１５ 浙江Ｔ．业大学硕十学位论文第四章系统设计．本章介绍校园网用户行为分析系统的设计，具体安排如下：４１节为系统整体框架设．计４．２节为４３．４４５；．节为数据库设计；４节为系统挖掘流程设计；；系统详细模块设计节对本章进行总结。４１．系统框架设计？４－校园网用户了１所示ｔ本系统主要包含了分析和应用两彳为分析系统的整体结构如图、，、数据预处理统讣分析、聚类分析大部分其中分析部分包括了数据采集、关联分析等儿个模块，应用部分则是将分析部分的结果作为输入来进行拓展性应用，从而实现用户行为的分析指导和促进实际工作。￣ｒ＾兔ＩＪ流摄控制服务器Ｉ公Ｎ出口路由＇＇Ｉ一ｉ■〈统‘析ＴＩＩ江？｜数批ｍ处砰／］＼｜＂＂＇＂＾丨－漏￣￣￣ｒ．Ｉ，Ｉ］＇—聚炎分枳！，（、ｉ條誠職ｉ￣分析蛣果「４｛ｉ总ｙ［关肽规则分枳ＩＪｚｚｚｚｔｔｔＬ＼．分析应用？、ｊ＇；图４－１系统整体框架结构４．１．１分析部分数据采集模块主要是从公网访问流ｆｉ控服务器上采集校内用户访问公网资源的记录、、、Ｊ！」并等操作，信息：数据预处理模块是对采集到的原始数据通过理解清理、除噪转换，对将数据转化为能够用于进行数据挖掘的数据集；统计分析模块是采用统计学的方法原一始数据或者经过定处理的数据进行统计分析；系统中聚类分析模块的具体方法是采用数据挖掘中的聚类方法，从而将经过预处理的数据集划分为不同类簇，并寻找隐含其中的有，从经过预处理的数据集中生成关联规价值的信息；关联分析是采用挖掘频繁项集的方法则，寻找同性质信息间的相关性。１６ 浙江Ｔ业大学硕十学位论文４．１．２应用部分目盼本系统中的应用部分主要设计有两个功能块。分析结果展现模块是通过图形、表一格等方式将分析部分的结果进行直观地展现，以方便对分析结果进行齊看和进行进步的分析，对校内用户最常访问的Ｗ络资；公Ｎ出口路由优化模块是根据分析模块提供的信息．源进行再次分析并通过优化策略选择从校内访问该资源的最佳出口途径，从而实现校园网公网出口访问的优化，。除了上述两个功能模块还可以利用用户行为分析结果开发其他实用功能，此部分作为后续工作开展。４．２系统模块设计根据校园Ｎ内部环境下的功能需求以及所有的数据资源集合，校园Ｍ的用户行为分析－，系统基本上可以分为三个模块。如图４２所示系统主耍实现数据管理、聚类分析、关联规则挖掘分析三部分内容。校园网用户行为分析系统｜数据管理模块；Ｃ￣！Ｉ：＾；：：ｎｎ数据Ｋ－均值结果结果ｗＳｆＳＳ预处算法ＳＳ展示算法展示导入接口理模块模块模块模块１Ｉ！Ｉ；Ｉ；图４－２系统功能结构图４．２．１数据管理模块本模块主要对采集到的用户上网记录数据进行结构化存储，通过关系型数据库进行数，具体包括据管理：（１）数据导入模块：模块实现对本地日志文件的检索、读入以及文本分析，对文本数据进行关系构违。模块根据日志的级别和配置项进行适配处理，将其转为．ＣＳＶ格式表格中，进而使用数据库的ＯＤＢＣ接口进行导入。（２数据接口模块：）模块实现通过可视化界面对数据进行增删改查操作，并提供简单的索引和搜索服务。（３）数据预处理模块：模块实现对脏数据的清理，分析和！ＬＩ并访问地址，规整字段１７ 浙江Ｔ．业大学硕十学位论文并对其进行标准化，遵，并不对原始数据直接进行删。在预处理模块中循动态分析的规则除。４．．２２访问目标分析模块本模块主要基于用户访问站点频次以及产生流量大小的数据进行分析，通过应用聚类算法实现具体分析功能。－（：１）Ｋ均值算法子模块实现针对预处理后数据的聚类过程，针对访问频次和流量１－Ｎ两个字段应用Ｋ均值算法，并提供聚类结果的图形化展示界面。－－（２）ＫＫ中心点算法子模块：实现与均值计算模块相Ｎ的聚类功能，该模块需要提供同样算法输出和展示界面。（３）聚类结果展示评估子模块：可对聚类的结果进行简单评估，根据类簇间的可．信，息熵讨聚类结果进行评测，辅助以图形化的聚类结果显示界面以试图得到最佳的聚类效３丨丨）果。４．２．３访问习惯分析模块ｉ模块主要实现对数据集中访问站点信息情况进行关联规则挖掘，通过Ａｐｒｉｏｒ算法实现用户访问习惯的分析，可以根据图形化界而显示的项集情况对支持度进行动。在模块中，态调整，提供规则的人工去噪进而将结果服务于用户行为的分析和解释。４．３数据库设计对于从流控服务器获得的原始数据，由于没有对每个字段具体含义的说明，因此首先－，理解每个字段的含义４３。需要对原始数据进行初步的分析。原始数据的格式与内容如图２＾７＇＞Ｍ３５２２９３６１６７２２６．１０．．０．１０６〇ａｏＹｏｕ，２ＳＢＳ２：８ｉｆ７３＜２９２２．０！４：Ｃｕａｒ０：０１０：：：ＰＭ！１２ＳＩＩＩ＂＜－＜！４２４Ｉ．：．－１４＼，：？ｉｉ２０３０？０５０ｆ４．０．００００１１２ｅｊ〇３ＣＣ３：９０．０１３Ｄ？？２４ＣＣ２２Ａ２７｜ｌＣ４ｅ２４００Ｉ０Ｉ２Ｍａ１ｒｒ２００－１＾？：．－ｃｈｅｃｋｏｕｔ．．／．３．３５２１：ｉＳＣＰＭ：１０．－Ｃｉ．ＧＳＯｕｃＹｃｕ．Ｃ１２３Ｄ５３４１１０９０１２１：Ｇ；ａａｎｄａｎｃｉｃｃｍ．ｓｃｒｉｒ＊ｃｉ〇ａＣ５Ｉ２Ｉ２ｉ￡ｉｉｇｐ＿７７＇１１５６．Ｃ６２０１１２８３６８３４０Ｃ．３１４７３．６１：．２２£１５０３１６４（０１：Ｓ１，０；６６１６５０Ｊ３０２１Ｉ９＆ｊ０ｌｎＭａｒｌ２０１０＇＂／７２２£〇＜＇１０．２２．－．ｙ＾ＳｕｏＹｃｕｉ：＜ｉｂ：１．ｌｉｂ３４５－９６ｆｏｖ．Ｕ２０Ｔｔｉ２００６．３６Ｄｏｕ．ｃｏｍ／ａｒｃｎａｓｅ／ｒｏｉＫａｃａｒｓｅｒｖｉｃｅ．ａｓｘ？ｃ：ｊ：３：．２２：ｆ！＾！ｉｔｉｙｐｔ？＇＞ａ：４０？Ｐｆ；－ｆ＜．１６９２１Ｓ５？．．Ｃ！ｉ１？８３ｆ８３＜１ＩＩｆ０９ｌ？．７．（１２７２＊．ｃＳ０Ｊ９７ＩＥ４ＩＣｆＯ２＊＂－Ｐ７？＞Ｍｆｊ〇ｌ〇：３５：２３：５ｆｉ６６７７２ｆ，〇ｉｉ．ｉ４Ｇ．６Ｊ．７２ｅＳｕＹｏｎ２ｆ２６ｉＯＳ５ｌ？ｆ１５７４４１７７１．＾４５０３：？ｒｉ？〇Ｍｎ／〇〇｛．？６－１４．．：２３〇；Ｉ６９６３１４４．Ｊ１１５００００！１２６Ｓ８３６５３１２１Ｃ２００ｉＩＩ１２９８０１０．０ｉ１５ｉＬ￡１２１７２０１３３１２ｉ〇！２＂＊Ｍａｒ：２００１０：３５：２３：Ｄ１０？Ｍ；１６７７７２２５Ｃｉ１０．ｉ．１７５．Ｓ３ＳｕｏＹｏｕ：２！２４ｉ２４：１８！３７１５３０７００９．０Ｉ９ｊＥＧ＊？－．．ｉ．：．？ｉｉ－Ｃ７３Ｇ２￡＊Ｃ！１．〕Ｕ２３２１Ｃ：ＩＣＧＳ６３ｅＣ２４２４１￡ｉＯ０！！４２１１１２Ｃ｜１７１７２ｅｉｉＣ０５６Ｓ４＆ｉ０Ｃ：２＂＇００－２３５２３Ｄ３６７７２２６ＣＣ．２６．９．５４ＳｕｏＹＣＵ２ｉ３９１２７ｉ２：９７５６２２１６：．０￡６５１：Ｍａｒｉ０１１：：：２ＰＭ；１ｉ１？；ｉ１￣＾－■ｒ－．：．．ｉＬｉ９８４ｙ＜．：；０ＩＺ£８Ｓ３ｅ８３５２５Ｓ５３００ｉ２５ｉ：４６＜１５Ｃｉ３Ｄ！３０；２ＧｉＩｔＳ４２７５２０！０！２ｉ１２０－：？ｉ＜Ｍａ：３ｂ：２３：ＤＳｓｆｅＶｒ／２２６ｉｔ．２．７．２１３ｌＳｕｏＹｏｕ２３Ｓ１２？Ｉｉ７２ｔ＞３９９ｂ２Ｓ．ｊ：ｒｉ０：０１ｆｃＰＭＩＬ！５？｜ｉｉ：£７９：７５４；．．．＝：．３１１５０００：０Ｉ１Ｓ６３９３＆Ｓ３４２７３５００！１４６５２０！£２２５５Ｃ！３Ｇ｛３０２２７ｉＩ６Ｓ４２７Ｓ２！０！０！：＂ａｒ＇－ｕｏｉ＇Ｍ２１：：：；５／＾．ｃ．．ｉＣＵｉＩ：６２ｔ２ＣＢＳＢ９４ｉ．ｅｉ００３０５ｂ２Ｊｉ￡３＾１６７２２６０！１０２４ｉｉＪＳＹ２！Ｓ！ｂｂｉ＇＂！？：＊ｌ＝ｚ？：；：－１；！ＵＱ４７１５！．１１１５０００：ＣｌＳ６ＳＳ３８＾４ｉＳＩ３０．Ｃｉ１？．４？．０ｉＡ．０：１？ＩＳｉ２１！１ＩＰ２３１４００！？￣Ｍｄｌ１２０１０＂＊＇＜ｉ．．．ｉ．．／ｉｔ１０：３５：２３：Ｃ７６ＰＭ：６７７２２ＣＯ１０．．４０．４ｉ．３７８ＳｕｏＹｇｕＳ２１１６ｉ２１ｉ１０３４２２３６４１．０！ＳＣ！ｒｆｃｍｕｓｉｃｒａｅｒａｓｅｒｖｃｅｓｉｎｉｃｒｏｓｏｆｔｃｏｍｃｄｒ．ｆｃ／ＳｅＭｊ－＊－－＊ｉ－７ｕｗ－－＇－－－＞ＤＲＣＤＰＯＳＴＵＦＸ．ｃｘ？ｌｏｃａｉｅ＆ｓ．ｕ＆ｖｉ．ｓｉｃｎ２．０．６００．６５＆ｕａｅｉｉｏ＾ａｌｅＱ０４＆ｒｅｓｖＤＣＣ：Ｃｆ：ｌ４ＣＯＳ５〇〇６：５ＢＣａｐ３０４ｇｔ〇ｊｄ２？１：４２ｑＸ？Ｊ？Ｆ３ＥＢＣＦＢＣ￡Ｏ图４－３原始数据的格式与内容１８ 浙江１：业大学硕十学位论文从字段名称和对应值的情况，结合相关说明可以得到该字段代表的含义。将主要Ｔ段４－及其解释归纳如表１所示＝４－表１原始数据＋：要乎段说明字段名称念义说明Ｔ？ＩＭＥＳＴＡＭＰｉ青求时Ｎ发起请求的开始时Ｎ＿ＳＵＢＳＣＲＩＢＥＲＤ客户端Ｎ络标识客户端在Ｗ络Ｊ中的独立标识，＿般格式为ＰＳＹｏＩ＠ｕｏｕＰＲＯＴＯＣＯＬＪＤ网络丨办议标识该诘求所使用的网络协议的标识ｒａ：Ｋ丨ｐ客广端地址校卩ｉｌ网客户端节点的ＩＰ地址ＰＥＥＲＰＯＲＴ《户端端Ｕ校问网名户端节点的端Ｕ＿ＥＳＳＳ？？ＡＣＣｉ：ｔｒｎｇ迮接宁符中迮接请求的宁符中，主耍／十＿Ｈ？ｔｔｐ汸问的记录中存／十：值，般为域名ＩＮＦＯＳｔｒｉｎ连接信总字符串连接请求的信息字符串，表示＿ｇ坫求的具体资源的相对路径ＳＯＵＲＣＥＩＰＢ标地址访问请求的０标丨Ｐ地址＿ＳＯＵＲＣＥＰＯＲＴＨ标端ＵＷ问请求的Ｈ标端丨」＿ＩＮＩＴＩＡＴＩＮＧＳＩＤＥ初始化方表４请求的初始化方米ｆｌ校园＿网内成者足公网Ｍ１ＬＩＳＥＣＤＵＲＡＴ１０ＮＷ求时间Ｗ求响应完成所使川的时间＿）（毫秒数Ｉ１１ＵＰＳＴＲＥＡＭＶＯＬＵＭＥ上行流最从校园网发向公网的数据流景＿大小《ＤＯＷＮＳＴＲＥＡＭＶＯＬＵＭＥ下行流Ｓ从公丨」接收到校同Ｗ的数据流＿量大小Ｉ｜？？由丁流控服务器对丁校园Ｎ的正常运行具有十分重耍的作用，并且流控服务器上的访１９ 浙江Ｔ．业大学硕十学位论文问口忐是不断更新变化的，因此在进行数据挖掘时不可能直接在流控服务器上进行数据处，而是需要将原始数据需要先从流控服务器上批量采集出来理操作。这个时候就需要考虑一原始数据的存储问题。保守估计，如果要对过去年的访问日志进行数据挖掘，所需的原一始数据大概为４００ＧＢ，那么首先面临的个问题就是数据的存储。常用的存储数据的方一一，，另种是采用数据库，Ｌｉｍｉｘ＋ＭＳＬ的式主要有两种种是采用文件。理论上在ｙＱ环境下，数据库支持的数据容量可达４ＴＢ，这种情况下完全可以采用数据库存储所有的一原始数据，４ＴＢ，因此可。但实际情况下很少有服务器能够次性提供高达的存储空间能需要考虑采用数据库集群的方案来解决，，。此外数据库也有单表大小的限制对于这种情况的处理办法就是采用多表存储和联合查询。如果采用文件的方式进行存储，Ｎ样也要，也需要采用服务器集群，面临超大数据的问题。并且无论是采用数据库还是文件存储都一一存在着个比较大的挑战，就是数据检索和更新的效率问题。目前已经有些比较成熟的超大规模数裾存储解决方案，也有不少这方面的新研究，由于这个问题目前并不在本课题的研究范围之内，故论文屮不再进行赘述。为了方便地对数据进行管理和使用，将采集的原始数据导入到ＭｙＳＱＬ数据库屮。由于原始数据格式不利于直接使用数据库管理工具进行导入，因此采用ＰＨＰ脚本语言编写转换和导入的程序。通过程序将文本格式的原始数据逐条提取、转换并导入到ＭｙＳＱＬ数，脚本还对每条记录可能存在的问题进行了初步处理据库中，如对格。在导入数据过程中式不正确的记录进行清除，可，以及对空值记录进行相应的初始化。在完成数据导入后以使用ＭｙＳＱＬ在线管理工具ｐｈｐＭｙＡｄｍｉｎ对数据进行在线斉看和管理。４４．挖掘流程设计本系统的主要目的在于使用数据挖掘算法对校园网用户访问円志数据进行离线分析。一校园网作为个以学生和老师为主要活动者的大型局域网，其特点有：高速的内部连接，。，复杂的信息结构，用户数量巨大，公网带宽资源有限等由于校园网的内部情况十分复杂一因此本系统首先将从公网访问入手，围绕这问题进行系统的整体设计。在进行系统整体设计的时候需要综合考虑校园网络的物理拓扑结构、当前校园网公网访问的具体现状和特点，，、校园网络建设面临的主要问题等情况结合数据挖掘技术的适用情景进行合理的结构设计和方案制定。－，本文制定了系统的具体流程方案４４，基于数据挖掘的主要分析流程。如图所示系统定期通过文件导入方式获取校园网日志系统中的数据源信息，存入自身系统的数据库中，，，；依据具体挖掘目标和模型对数据源中数据进行采集构造挖掘算法所需的数据源２０ 浙江丁业大学硕十学位论文一通过系列的预处理方法构成最终用于挖掘步骤的数据记义；对挖掘算法进行应用获得对应的挖掘结果并将其中的知识信息和决策支撑数据保存入库。．校ＳＲ弔户疔为分析系统挖掲賴＋源—贼：．Ｕ籾訪，ｊ１ｆ１原始数据源一￣￣￣￣－Ｋ掏知识信《：陶——押振向与：｜挖掘适果图４－４系统工作流程结合木文访问目标分析和访问习惯分析两个核心需求，需要针对具体挖掘目的进行分，析，进而找寻最适合的挖掘算法加以实现以满足挖掘知识信息和决策支撑数据的获取。针对访问目标分析流程，课题期望通过出口地址和流景数据对校园Ｍ用户的访问目标？。划定相应的类别，进而为校园Ｎ的出口带宽优化提出有效意见由丁课题本身并不能提前设定或预见到类別的划分情况，因此这部分挖掘流程最适合采用聚类算法进行挖掘和分析，能够根据设定获取到相应个数的类族，将用户群体的内部。基于聚类算法进彳丁计算后特征和相对差异以类簇的分布情况进行解释，能够有效分析用户群体情况，达到挖掘目标。针对访问习惯分析流程，课题期望通过访问地址以及访问频度数据对校园网用户访问站点的＞Ｊ惯进行规则发现，由此加深对用户使用偏好的了解。由于课题数据中能够获得单一时间段内访问多个站点的情况个用户在同，因此这部分挖掘流程适合采用关联规则挖掘－算法，能够获得不同级域名之间同吋出现在访。基于关联规则挖掘算法进行分析计算后问记录屮的概率情况，进ｒｆｏ发现其屮隐含的关联规则信息，能够满足访问习惯分析的整体目标。４．５本章小结本章介绍了校园网用户行为分析系统的设计，展示了系统的框架设计，给出了系统的模块设计和系统的数据库设计，讲述了系统具体的挖掘流程。２１ 浙江Ｔ业大学硕十学位论文第五章算法设计与改进在第四章中，、具体模块以及各模块的具体功能，介绍了系统的总体设计。在本章本５１文将介绍系统对校园网用户行为分析的具体过程和算法：．。本章内容安排如下节数据获取；５．２节数据预处理；５．３节访问目标分析设计与实现；５．４节访问习惯设计与实现；５．５节对本章内容进行总结。５．１数据获取校园网用户行为分析系统的数据源是公网访问流量控制服务器（以下简称流控服务－器）１。从图上可以看到，流控服务器连接着分別通，流控服务器在网络中的位置如图５向教育网络、电信网络和联通网络三条不Ｎ山口。校内的公网访问请求首先将通过流控服口路由后，会，务器，到达公网出根据所请求的资源的地址自动选择相应的公网出口。在流控服务器上记录着每一ＧＢ条公网访问信息，每天都会有数十的访问日志数据增加。５－图１校园网公网访问示意图流控服务器上的网络访问日志有ＲＰＴＬＵＲ、ＲＰＴＰＵＲ、ＲＰＴＴＲ、ＲＰＴＭＡＬＵＲ、＿＿＿＿ＲＰＴＭＥＤ１Ａ等文件，其中ＲＰＴＴＲ是主日志文件，记录了所有的公网访问信息，因此将＿＿该日志文件作为系统的原始数据源。由于访问日志文件记录的数据量十分巨大，为了便于进行分析与实验，也为了避免对流控服务器的Ｈ常运行造成影响，特从２０１６年３月１Ｈ至２０１６年３月３１Ｕ的原始数据２２ 浙江了：业大学硕十学位论文一中抽取百万条记录作为实验数据。实验操作在ＷｉｎｄｏｗｓＰＣ机上进行，该ＰＣ机支持ＰＨＰ和ＭＳ据库。ｙＱＬ数５．２数据预处理，避免由于数据冗余数据预处理目的是为数据挖掘工作准备数据集、噪音等因素影响，数据挖掘的顺利进行，从而提高数据挖掘的质量使分析结果的意义更加明确、更加符合实际需求。数据预处理在实际的数据挖掘项目中往往是耗费时间最多、最为繁琐的步骤。数据预处理包括了数据理解、数据整理与合并、数据抽样、数据描述、数据清理、变量变１５１）换与合成。、变量选择等确定了业务目标以后，就耍对相关的数据进行，同时还耍描述数据来熟悉数据，检查—，、、致数据以确认数据质Ｓ例如如数据是否存在缺失值噪声冗余、＋、数据过多及过少等问题、合成，以及数据内容的选择等；数据清理要对。数据选择包括字段Ｍ性的选择噪声数据和“脏”数据进行去除，并对存在缺失值的数据进行处理；数据合成是根据业务盖要或问题实质，将原始数据中的单个或多个属性记录进行相应的转换，生成新的属一１７Ｉ】数据格式化性合并是将，又；数据些共性的数据记录根据某种规则进行合并处理；一称标准化，是对数据中存在的单位或数量级不致的情况进行处理。５２１．．数据清理“”在原始数据中不可避免地存在许多噪声数据和脏数据，同时还有不少与用户行为分析无关的冗余数据。数据清理要试图去除噪声数据，纠正问题数据，填充不完整数据，实现数据？致性。对基于Ｗｅｂ访问的分析模型，本文关注的軍点是用户在进行正常Ｗｅｂ访问时的活动“记录，并且只关注与Ｗｅｂ访问相关的字段属性。根据分析模型的需求，我们主要关注请”“”“”“”“”“丨求访问时间、客户端Ｐ、客户端端口、目标ＩＰ、目标端口、网站”“”“”域名、请求路径等字段。使用ＳＱＬ语句将ＭｙＳＱＬ数据库中请求路径字段为空和１Ｐ地址为空的元组删除，并将数据保存在新的数据表ｗｅｂｄａｔａ中，获得的数据记录共１４２０４３。条５．２．２数据归并“”通过观察发现，ＡＣＣＥＳＳＳｔ，在当前的数据集中ｒｉｎｇ中的网址既有顶级域名，也＿有二级、三级甚至多级域名，无法区分各个Ｎ址真实的访问情况，因此需要对数据进行处理，将各个访问网址归并到各自的顶级域名。一在基于Ｗｅｂ访问的分析模型中，作为主要特征的属性有两个，第是访问次数，在２３ 浙江Ｔ．业大学硕十学位论文不分别考虑上行流量与下行流量的情况下一，因此将上下行流量合并为个新的属性，并命名为流量。一ｗｅｂｄａｔａ数据表中的每条记录都是单独的请求操作，要获得每个网站的访问次数就，以获得每个Ｍ站的总访问次数。使用ＳＱＬ语句进行归并操作需要对这些记录进行归并。经过对Ｎ站访问量和流量归并后的数据表如图５－２所示，共３４４６条。ｗｅｂｓｉｔｅｖｉｓｉｔｎｅｔｓｔｒｅａｍ００１ｕｎｉｏｎ．〇〇？２５０４ＯＯｃｏｕｎｔｅｒ－ｃｏｉｎ１１５６８７ＯｌＯｓｏ．ｃｏｍ１６０９０１ｈｒ．ｃｏｍ３７１７６１０２２ｎｅｔ．ｃｏｍ１１００００１．９０２１．ｏｎ１８７９０２ｒｔ．ｃｏｍ１１３９２０３６．ｃｏｍ．ｃｎ２８６５００３７１ｓｐｏｒｔｓ，ｃｏｍ２８０６７００５１ｃｏｍ１３４１３０ｌｑｙ．ＯＳＳＳｃａｒ．ｃｎ１Ｓ４９９５０５６３ｄｙ．ｃｏｍ２１４７８０５８０９．ｃｏｍ１２１７８０７０７Ｓ．ｃｏｍ１１４７９０７５０ｖｙｔ．ｃｏｍ．２４３４８０８９８．ｎｅｔ６３６７８５ｌＯＯＯＯｃｃ．ｃｏｍ４２２７８８１００ｉｍ．ｃｎ１２８６９ｌＯＯｔｅ，ｃｏｍ２３０９２１０】０ｊｏｂ，ｃｏ蚝１１１３１１０５．ｃｏｍ．ｃｎ１６６２３ｌＯｇａｏ．ｃｏｍ２８０３８ｌＯｊｑｋａ．ｃｏｍ－ｃｎ４２３９７４ＩＯｐｌｘ．ｒｕ２３１３４图５－２网址访问量及流量统计５．２．３数据标准化在使用聚类算法对人量数据进行处理时，对聚类分析方法的结果影响最人的就Ｓ其度一量单位，。假如将原本样人小的值的度量单位同时换算为不同的度量单位那么极有可能…会使生成不样的聚类结果，如，，。正常来说果度量单位越小那么变量的可变范围就越人那么聚类结果则就越不好控制一。尤其是将不Ｎ属性、不同变量放在起进行分析的时候，就会产生不Ｎ的取值范围，那么最后的结算结果可信度就不会很高，通常会比较偏相于取，值大的变量，。为了避免或减少这种情况的影响需要对数据进行标准化。通过标准化处理将所有的变划归到相同或相近的取值范围，并根据需要对每个字段给予相对应的权重。在基于Ｗｅｂ访问的分析模型屮，访问次数与网络流量两个属性字段是计算网站相似度的主要参数，但是两个字段值的数量级相差很大，如果不进行相应的标准化处理，将很一化的方法解决这个问题吋能无法获得准确的分析结果。本文采用极差归。２４ 浙江丁．业大学硕十学位论文一，：极差归化是把变量的极差，即所谓的取值范围线性地变换到０，１区间［］，＝！）ｒ５．１Ｖ１１＾＞１１１１￣／＾其屮，是变换后的值，是待变换的值，和分别是变量的最大值和最小一一一一值。极差归化也称最大最小归化。极差归化是采用的线性变换，不会改变原有变一量的分布情况，所以在实际应用中得到比较广泛的使用化后数值就会集中。变量通过归０１，。，到，区间中数据标准化处理程白动识别每个字段的取值范围［］便于处理并根据极一差归化的方法进行标准化处理－。经过标准化处理后的数据如图５４所示。但在本分析模型中，相同字段内的取值范围也是很大的，如果宵．接采用普通的极差归一一化方法会产生个问题：与变量最大值数量级相差较大的变量将被转化为接近零的值，？这些值在釆用欧氏距离进行相似度计算的时，会放大其效罘，使得其相似度史加接近丁零。一－特別是数据集中变量存在极人值的时候，这个问题尤为明显，这点可以从图５３看出。ｗｅｂｓｉｔｅｖｉｓｉｔｎｅｔｓｔｒｅａｍ－ｉ－００１ｏｕｎｎ．ｃｏｉｌ２．７２Ｅ０５３．３０Ｅ０６ＯＯｃｏｕｎｔｅｒ．００１０２７５．ｃｏｍ０００－０１０ｓ．ｏ．ｃｏｍ０３９９Ｅ０６５－０１ｈｒ．ｃｏｎ．４４Ｅ０５０．０００４７００３０２２ｎｅｔ．ｃｏｍ００．０００６５５－０２５．７１．ｃｎ０６Ｅ０６０２ｒ－０Ｇｔ．ｃｏｍ０Ｓ．１２Ｅｃ－－０３６．０．ｃｏｍ．ｎ２７２Ｅ０５５．６７Ｅ５－０３７１．ｓｐｏｒｔｓ，ｃｏｎｉ２７２Ｅ０５０．０００５２８３８０５１ｌｑｙ．ｃｏｍ００．０００２２３５５０５３３ｃａｒ．１．ｃｎ０００００２２９２－—０５６３ｄ７２Ｅ．ｙ．ｃｏｍ２．０５９６８Ｅ０６１－０５８０９，４．ｃｏｓ．０３Ｅ０５０７０７３－０６．ｃｏａ０９．６９Ｅ０７５０ｖ－０５－ｙｔ．ｃｏｍ２．７２Ｅ２．８５Ｅ０５０８９８０５９０４．ｎｅｔ．０００１３．０００２４０９ｌ￣ＯＯＯＯｃｃ．．０．ｃｏｍ８１５Ｅ０５０００１４３２６－１００ｉｍ．ｃｎ０１０５．８８Ｅ＇Ｏ－￣ｌＯｔｅ．ｃｏｍ２．７２Ｅ０５２＊０３Ｅ０５－１０１０ｊｏｂ．ｃｏｍ０７．４：ＩＥ０６０４－１０５．ｃｏｍ．ｃｎ．３４Ｅ０５－ｌＯｏ－ｇａ．ｃｏｍ２．７２Ｅ０５３．９５Ｅ０５ｋ１５Ｅ－ｌＯｊｑａ．ｃｏｍ．ｃｎ８．０５０．０００１５７０３１０ｉｘ２－０５２０５Ｅ－０５ｐ．ｒｕ．７２Ｅ．图５－３标准化处理后的数据２５ 浙江Ｔ．业大学硕十学位论文一另，方而，在数据的存储上过多的小数点位数并不利于精确保存，同时在计算时也容易产生浮点精度的问题。综合考虑上述情况Ｇ，本文采用变量数量级差级变换的方法，通过调整标准化数据的数量级来避免变量数值过小的问题：。其具体过程是（丨）设数据集中需要计算的字段数景为ｍ首先获取每个字段的最大值，分别记为１１ｍａｘ＇（２）比较，Ｎ时把数量级最小的值分别标记为每个值的数量级；？）（３对各个字段使坩极差！化的方法对数据集进行标准化，但是在计算每个值和ｈｉ的差时Ｌ？、、〇最小值，都乘以所对应的数＊级Ｓ，即ｒｎｎｕ（＾＝＾（５ｖ．２）；ｍａｘＡ－ｍｎｉＡ一经过数Ｍ级差级放大后，，数据集中各字段的数值能处在同个数ｆｉ级上在计算上带“”，也提高了计算的准确性，ｖｉｓｉｔ来了方便。在经过标准化的数据表屮字段有多个元组０－，５４的值为，为保证挖掘结果的准确性将这些元组删除。重新标准化后的数据如图所ｗｅｂｓｉｔｅｖｉｓｉｔｎｅｔｓｔｒｅａｍＯＯｌｕｒｄｏｎ．ｃｏｉ０２７１７６９０．０３３０１．２Ｏｌｈｒ．ｃｏｉｎ０．５４３５３７４．７００２８４０３６．ｃｏｍ．ｃｎ０．２７１７６９０．５６６５６８０３７１ｓｐｏｒｔｓ．ｃｏｎｉ０．２７１７６９５．２８３８１６Ｏｌｈｒ．ｃｏｍ０．５４３５３７４．７００２８４０３６．ｃｏｉ．ｃｎ０．２７１７６９０．５６６５６８０３７１ｓｐｏｒｔｓ．ｃｏ？０．２７１７６９５．２８３８１６０５６３ｄｙ．ｃｏｒｎ０．２７１７６９０．０９６８０８＇ＯｌｂＯｉｔ７１７６９ｙ，ｃｏｍ０．２０，２８４７９０８９８．ｎｅｔ１．３５３８４３２．４０９３８６１００００ｃｃ．ｃｏｍ０．８１５３０６１．４９２５９４ｌＯＯｔｅ．ｃｏｉｉ０．２７１７６９０．２０２５２３ｌＯｇａｏ．ｃｏｉ０．２７１７６９０．３９５４８４ｌＯｋａ．ｃｏｉ．ｃｎ０．８１５３０６１．５７０２７６ｊｑ１０ｐｉｘ．ｒｕ０．２７１７６９０．２０５２７４ｍ５－４改进方法标准化处理后的数据２６ 浙江丁．业大学硕十学位论文５．２．４处理效果评价一，特别是数据的预处理数据挖掘中相当大的部分工作就是数据准备。根据＿外的统计数据，在数据挖掘中数据准备工作需要占用大概６０％的工作量。在本文中，数据准备＿工作并没有达到那么高的复杂性，但仍然是很重耍的工作，在实际操作中也山用了相当的工作量。，根据用户行为分析的需要１百万条记录的原始数据经过提取、清理、归并、标准化，最后获得的符合分析需求的数据为２０９１条等处理。数据预处理明显地减小了数据挖掘算法所要处理的数据规模，为数据挖掘工作提供了满足要求和约束条件的数据集，达到了数据预处理的目的。５．３访问目标分析的实现根据第４章的系统模块设计，在本节将采用聚类算法对访问Ｈ标进行划分。５．３．１聚类算法分析２根据第章的介绍可知，聚类分析包括划分法、层次法等多种类型，但基本其目都是，让簇与簇之间的数据尽量不要把大量的数据对象分成多个不同的簇或群组丨ｎｌ而簇内的数据尽量相似，ｎＤ和要生成的簇ｋ，通。而在形式上则可以将给定个数据对象的数据集数过不同算法把数据对象组织成ｋ（ｋ＜ｎ）个分区，它归根结底还是求最优解的问题，实现Ｘ＇ｎ维样本空间全体向景距其聚类中心的距离最小，对Ｔ该样本空间中的向景，…Ａ，＾＝｛ＸＸ，…，，Ｉ量＜，义之间的距离为：；，，｝ｒ２贝Ｊ向，ＪｊｊＵ￣＜＝Ｘ５）ｄ．３ｉｊｊｋｆ聚类算法其实主要集中于基于距离的聚类分析。而在机器学习领域中，则把分类称之为监督学习一，因为在分类分析中通常会确定每个训练数据和具体划分的类间的隶属关系，；但是聚类是属于无监督学习聚类算法的实现过程是在没有类标号信息的情况下通过一１８［］观察学习得到的，而不是像分类样通过样例进行学习。一用户行为分析需要对多种行为属性的数据进行分析，并且般原始数据量巨大。但预Ｋ－处理后的数据集可能比原始数据集小很多，本文采用均值和，根据数据预处理的结果一Ｋ－。中心点算法进行聚类，并通过定的改进提高聚类算法可靠性５３２Ｋ－均值算法实现．．１．算法原理２７ 浙江Ｔ．业大学硕十学位论文－－ｍｅａｎＫ均值（Ｋｓ）算法以要生成簇的数目ｋ为输入参数，将ｎ个对象划分为ｋ组（ｋ一彡ｎ，。，，）每个组代表个簇首先随机选择ｋ个对象代表簇的平均值称为簇的中心；一其次将剩余的对象划分到最近似的簇中，最后重新计算每个簇的平均值，。将过程直重复，或达到指定的迭代次数上限为止，直到准则函数收敛。通常采用平方误差准则函数即－＝－Ｗ＜５＾６Ｃ．４）ｈＩｔ＝ＺｉＵｉｉＰ＋％Ｇ的其中，是数据集合中所有数据对象的平方误差的总和；ｘ是数据对象，是簇平均值。两个数据对象之间的相似度可以通过他们间的相异性来定义和描述。在计算两个对象之间的相异性时，会采用两个对象之间的距离来计算，。而在计算个体对象与簇中心距离时通常采用欧式距离，其计算公式为－２＇２２—＿…—＝（５ｄ，）＋ｗＵ）＋５．）ｕ）Ｙｉ）２２乃十ｙ，ｓ）即２ｄｘ＝－＜ｋ＜ｎ（，ｙ）Ｉ＾＝１＾ｋ（ｘｋｙｋ）（１）（５．６）＾…ｐＣｙＷｖＷ其中，和是两个ｎ维的数据对象，而Ｗ＝…则是代表每个属性在计算相异度时所代表的权重，不同的权重设置会产生不同的相异度，从而影响到簇的划分。２．算法过程与实现一前期从校园网流控服务器上采集的原始数据经过了系列的预处理之后，存储在ＭｙＳＱＬ数据库之中，使用ＭｙＳＱＬ数据库ｗｅｂｄａｔａ表中网站的点击景和流量作为算法？Ｋ－的输入，还需耍指定进行聚类的簇的数目ｋ。。对丁均值算法－Ｋ５．６：均值算法见图，其具体过程如下输入：簇的数目ｋ，网站点击量ｖｉｓｉｔ，网站流量ｎｅｔｓｔｒｅａｍ输出ｉｉｔｔｓｔｒｅａｍｋ类网站：以ｖｓ和ｎｅ为特征的ｋ个簇，即２８ 浙江Ｔ．业大学硕十学位论文（开始）（结束）输的／／｜＃士＾贝ｋ＿＿＾／输入＾＂＇白Ｔ数ｎ／￣￣￣ｉ是随机选择ｋ个对１象，代表簇的初始中心＾１｜新的屮＾＿＂＾＿＾｜＼是否收敛＾＾否一１１计算每个簇屮｜｜将剩余－ｋｎ个对所有对象的均象分配到距离值向量作为簇它最近的簇中新的中心Ｉｉ图５－６Ｋ－均值算法流程图得到的ｋ个簇即为以访问量和流量加以冈分的ｋ种不同类型的网站。５－．３．３Ｋ中心点算法实现１．算法原理－？Ｋ－（Ｋ－中心点ｍｅｄｏｉｄｓ）算法般不采用对象的ｆ均值作为簇中心，而是选用簇中离？Ｔ均值最近的对象作为簇中心，这样就可以尽量减少孤立点对中心选择的影响。其余的每一个对象被分配到与其最为相似的代表性对象所在的蔟中。使用了个绝对误差标准进行划分，即’ｆ＝ｉｔ＜５ｄｓ．７）Ｚ，〇ｉ＾ｉＺｐｅｃ（ｐｉ）ｉ—－其中，Ｅ数据集中所有对象与Ｃｐ，的代表对象〇，的绝对误差之和。这是Ｋ中心点－方法的根基所在。Ｋ中心点聚类是通过最小化该绝对误差，把ｎ个对象划分到Ｋ个簇中。２Ｑ一Ｐ［】－围绕中心点划分（ａｒｔｉｔｉｏｎｉｎｇＡｒｏｕｎｄＭｅｄｏｉｄｓ）是Ｋ中心点聚类的种十分流行实现。ＰＡＭ算法Ｈ的足对ｎ个数据对象给出ｋ个划分，ＰＡＭ算法的基本思路：首先为每２９ 浙江Ｔ．业大学硕＋学位论文一个族随意选择个代表对象作为中心点，其次剩余的对象根据其和代表对象的相异度或距一个簇，从（离分配给最近的；然Ｇ反复地用非代表对象替换代表对象而提高聚类的质量聚一一类质量由代价函数来评估，该函数用来判断个非代表对象是否是当前个代表对象的好）的代替，如果就是进行替换，否则＋替换：最后给出正确的划分。２．算法过程与实现－ＰＡＭ５７所不：算法的过程如图，其具体过程如下：ｋ？网站点击量ｖｉｓｉ输入结果簇的个数ｔ，网站流量ｎｅｔｓｔｒｅａｍ输山：以ｖｉｓｉｔ和ｎｅｔｓｔｒｅａｍ为特征的ｋ个簇，即ｋ类网站￣－ＪＴ￥ｆ结束（ｉ）（输入舍ｎ个对／／！象的数据集／／输入簇的数Ｒｋ／ｉｉ输出ｋ个类簇的屮Ｉ随机选抒ｋ个对：心及成员象’作为初始的代Ｔ表对象否用Ｏｒａｎｄｏｍ代符Ｏｉ，？形成新的ｋ个代表对Ｉ§将剩余对＜Ｓ＜０？＞象分配到距离它最近的代表对象代表‘‘的簇ｉＩ，，随机选择个廿：代＾计算Ｏｒａｎｄｏｍ代矜代衣对象｜Ｊ表对象〇ｉ的总代价ｓＯｒａｎｄｏｍ｜－－图５７Ｋ屮心点ｔ？：法流程图得到的ｋ个簇即为以访问量和流量加以区分的ｋ种不同类型的网站。５．３．４结合凝聚方法的聚类算法实现一Ｋ－在均值算法中，第步就是随机选择ｋ个对象，分别作为ｋ个簇的中心点。最理ｋ想的情况就是初始状态下选择的个中心属于不Ｎ簇，即任意两个初始的中心点都不属于同一ｋ个最终划分的族；同时，个初始对象应该尽可能地靠近每个簇的中心。仍通过实验－可以发现，Ｋ均值算法的初始划分很难通过随机选择方式来达到理想状态的约束条件。３０ 浙江丁业大学硕十学位论文为了对这种情况进行改进，优化初始簇划分，在这里引入了基于层次的凝聚聚类算法ｔ一一凝聚聚类算法其实就是Ｑｈ而＋的方法，简单来说，就是把每个单独的数据作为个独立的簇，然后比较每两个簇之间的相异度，依次合并最相似的原子簇并形成新的簇，当簇越少的时候，那么它多代表的数据则更有针对性，更有特征。当最后所有的簇都合并一一到个簇的时候，说明这个簇是所以特征的结合点。凝聚聚类算法的执行结果是生成颗聚类树，它的优点是方法简单，聚类的层次结构清晰，基本可以发现任何形状的簇，没有Ｋ－均值算法的初始值选择问题，可以根据不同的需求对簇的粒度进行调整，从而满足不Ｎ的分析需求，生成较高质量的聚类。但是凝聚聚类算法也存在明显的缺点。首先，同其一一，，每次族的合并都是不可逆的，这使得□他层次聚类算法样在聚类过程中？经形成的一簇不能进步得到优化；其次，在进行簇合并操作时，需要进行大量的计箅以获得簇之间，且随着数据对象的增多，计算量将急剧增加，的相异度所以并不具有良好的伸缩性，不适合处理大数据集。Ｋ－在本课题小，我们结合均值聚类算法与凝聚聚类算法的特点，并尽量避免其缺点，？从而提出种较为有效的算法改进方案。该方案的基本思想是：采坩抽样方法从数据集中获得随机样本，采用凝聚聚类算法进行分析，获得初始的簇划分；然后以凝聚聚类算法获－Ｋ－均值算法初始簇中心点得的初始簇的中心点作为，再进行Ｋ均值聚类。这个方案结合－了抽样，，、凝聚聚类和Ｋ均值聚类方法的特点既利用凝聚聚类优化了初始簇的划分乂一Ｋ－利用均值聚类在处理大数据集上的性能优势，并且在定程度上较少了数据输入的顺－－序对于Ｋ均值算法聚类结果的影响，经。同时过优化的初始簇划分也能够减少Ｋ均值聚一类的过程的迭代次数，进步提高分析效率。，数据组成比较负责但是如果数据库的数据过多，需耍史多的时间和空间来处理的时候，那么则可以通过数据抽样来进行有效分析。常见的抽样方法有随机抽样和分层抽样。，随机抽样又称简单抽样就是从总的样本里面按照特定的比例随机的抽取数据，而在抽取的时候可以选择抽取了放回去再抽取，也可以选择抽取了不放回去继续抽取；分层抽样是首先利用某个条件将数据集分割成许多子集，在对每个子集进行随机抽样的过程。在基于Ｗｅｂ访问的分析模型中，数据集的分布呈现较为不均匀的形态，因此我们选“”择采用分层抽样，以提高数据分布较少的类的样本比例，避免其被分析算法忽略。考虑到在进行数据抽样时可能存在的随机性和不确定性，将方案中的抽样和凝聚步骤改为进行多次抽样，分别通过凝聚聚类获得初始簇的划分，并将各次凝聚的结果进行综合５－８处理，最终确定初始簇的划分。改进后的方案流程如图。３１ Ｔ浙江．业大学硕十学位论文其算法的具体过程如下：输入：经过预处理的数据集Ｄ和预期划分簇的数目ｋ输出：经过优化方案生成的ｋ个簇过程：＝＝（／ｈ２ｗ＇）；（１）按照分层抽样方法从数据集Ｄ屮抽取ｍ个样本＆（２）对每个样本采用凝聚聚类算法进行聚类分析，ｋ为聚类终止条件并以簇数，＝＝／…（Ｕ４’，生成ｍ组初始簇划分，将每组簇的中心集记为；－（３）Ｋ将ｍ组初始簇的划分进行综合处理，以获取用于均值聚类的初始簇的划分，处理方式为：Ｈ先将每组初始族的划分按照中心点位置进行排序，然后将每组初始簇中对应族的中心点求均值，将均值作为相应位置上的簇的初始中心，表达为：＝ｚ１５）．８－（４）将初始的簇划分的中心集作为输入，采用Ｋ均值算法对完整数据集进行聚类分析，其过程与前文所述相同；（５）返Ｎ各个聚类的中心和成员。—一？＾柚Ｗ凝＊＊艺▼丌始？Ｍｌｆｅ？酣？凝找文＊＊结电▲Ｋ抽样＞凝聚聚类图５－８混合聚类算法流稈图３２ 浙江Ｔ．业大学硕十学位论文５．４访问习惯分析的实现５．．４１关联规则挖掘算法分析ｏｃｉａｔＲｌｉｏｎｕｅ）挖掘算法是数据挖掘领域中十分重要的算法关联规则（Ａｓｓ，该方法主要基于概率论与数理统计方法进行聚类分析。从１９９３年ＲＡｇｒａｗａｌ提出关联规则开始，２０一到现在已经有了余年的发展，关联规则算法般来说计算简便且易于实践，具有极强的适用性。关联规则是主要针对不同项在不同事务中的出现频率进行统计，算法主要通过在众多一事务中发现出现频繁的项的集合并根据这些频繁项集推导最终结论，。般来说关联规则应该是项八＝＞项Ｂ这类的形式，项Ａ与项Ｂ无交集，相互独立，并Ｒ项Ａ与项Ｂ都属于一一待挖掘项。其中事务的概念是指次事件发生过程，而项则是指在某次事务中包含的所Ａ一一一行关注的数据，例如学生在某时间段访问了某个站点产生了次访问记录，则这一次事务为动作便可以被抽象成，而时间、站点地址、流量等则是算法所关心的项。对于关联规则，便是要得出类似项Ａ发生可以得出项Ｂ发生这样的结论。３以下简单介绍与关联规则相关的重要定义及性质Ｐ１Ｐ］。１．相关定义＝／…，Ｕ是项的集合一假设，对于每个事务数据库Ｄ来说，都有且只有唯的＝？Ｗ）标志Ｔ，ＩＤ对其进行标志。所以每个事务都对应Ｉ上的个子集。（１）数据项集的支持度。是指包含Ｘ的事务在Ｄ中所占的比例，即为ＳｕｐｐｏｒｔＵ＝ｆ６ＤＸｃｆ／Ｄ＜５．９）ｉ）｜｜｛＼｝｜｜｜｜｜｜？？（２）频繁项集与非频繁项集。对支持度大丁等丁最小支持度的非空数据项集称作频繁项集，反之称为非频繁项集。？Ｃ（３），Ｉ关联规则。称ＸＹ的蕴含式是数据集Ｄ中的个关联规则其中Ｘ，Ｙ．并＝Ｙ为且ＸＨＹ。在这个关联规则中称Ｘ为条件，称结果。（４）关联规则的支持度和置信度。规则ＸＹ的支持度指在数据集Ｄ中既包含Ｘ又包含Ｙ的事务占总事务数比率，，即同时出现数据项集Ｘ和Ｙ的概率表达式为：—）Ｓｕｐｐｏｒｔ（ＸＹ）＾Ｓｕｐｐｏｒｔ（ＪＡＪＶ）Ｐ（ＪＡＪＶ（５．１０）３３ 浙江Ｔ．业大学硕＋学位论文规则ＸＹ的置信度指在数据集Ｄ中，包含Ｘ的事务中同时包含Ｘ和Ｙ的事务的占比，即数据项集Ｘ出现的前提下，数据项集Ｙ出现的条件概率，表达式为：—＞＝＞Ｙ（Ｍ￣Ｃｏｎｆｉｄｅｎｃｅ（Ｘ）ＳｕｐｐｏｒｔＪＹ）Ｓｕｐｐｏｒｔ（＾Ｘ：ＰＹＸ（５．１１）／（＼）（５）关联规则的强弱。支持度所体现的是项目集在交易中出现的频度，而置信度所体现的则是项目集间的关联程度。正常情况下，用户可以定义两个阈值，分别称为最小支持度阈值及最小置信度阈值，要求数据挖掘系统生成的关联规则的支持度及置信度都不小于这两个给定的阈值，，反之就是弱关联规则我们则把这个规则成为强关联规则。５＿４．２Ａｒｒｐｉｏｉ算法实现Ａｐｒｉｏｒｉ算法是最经典的关联规则挖掘算法，其核心是基于使用候选项集来寻找频繁一项集方法。作为种挖掘布尔关联规则频繁项集的算法，Ａｐｒｉｏｒｉ算法的核主要于两阶段频集思想的递推算法。通过大量的实验验证及实际应用场景的检测，该算法在主要适用于单维。、单层、布尔类型的关联规则Ａｒｉｏｒｐｉ算法作为最为经典的频繁项集获取算法，主要依赖于两个推论，即对于项集＝＝…，…Ａ，Ｋ｜乂２乂Ａｕ．Ｖ，，ｍｎＤＤ所其屮与分别为项集ｉ与ｊＵ＝＝，包含的项的数目，如果Ｄｉ是Ｄ的子集的话也即，ｎ，那么在事务ｊ集Ｔ中，父集出现Ｄｊ出现的数量必然小于或者等于子集Ｄｉ出现的数量，双方同时除以＜＝（Ｄ）（Ｄｉ）事务集Ｔ的事务总数，便可以得到，ｓ叩ｐｏｒｔｓｕｏｒｔ，也即ｓｕｏｒｔｊｐｐｐｐ？（Ｄ）＞Ｐｍｉｎｓｕｐｐｏｒｔ，根据之前所得到的ｓｕｐｐｏｒｔ（Ｄ）ｓｕｐｐｏｒｔ（Ｄｉ〉，ｐ」以得出ｓｕｐｐｏｒｔｊｊ（Ｄｉ＞Ｐ，ｉ必）ｍｉｎｓＵｐｐｏｒｔ，能推出结论，如果父集Ｄｊ是频繁项集的话那么子集Ｄ然是频ｉｉ繁项集。同时根据这个结论的逆否命题，便可以继续得到Ａｐｒｏｒ算法所需耍的第二个推论，即如果子集Ｄｉ不然是频繁项集，那么父集Ｄ必然不是频繁项集。ｊＡ一ｐｒｉｏｒｉ算法的第步便是获得单个项ｄｉ在事务集Ｔ中的支持度，此时满足了支持度一ｓｕｐｐｏｒｔ（ｄｉ）人于最小支持度Ｐｍｉｎｓｕｐｐｏｒｔ定义的项的集合便被称作为第层候选频繁项集Ｈ１，而此时所有的单个项的集合便被称作是候选项集Ｃ１。在这之后Ａｐｒｉｏｒｉ算法所作一Ｈｎ－－１Ｈ的便是根据上个候选频繁项集，通过ｎ１中元素的规则性组合，推导出包含ｎ个项的第ｎ层候选项集Ｃｎ，再根据Ｃｎ进行条件筛选，得到包含ｎ个项的第ｎ层候选频繁项集Ｈｎ。Ａｐｒｉｏｒｉ算法可描述如下：Ｓｔｌｒｉ－ｅｉ５９：Ａｏｒ使ｉｔ，流ｐｐｉ逐层迭代根据候选找出频繁项集程如图所示。３４ 浙江Ｔ．业大学硕十学位论文输入：事务数据库Ｄ和最小支持度阈值ｍｉｎｓｕ＿ｐ输出：Ｄ中的频繁项集Ｌ＝？．ｔｉｔｅｎ３ｅｔ３ｒｒｖ目集）ＬｌｆｒｅｇｕｅｒｌＤ；所有支持度不小子ｉｎｓｕｏｒ：的｛（）ｐｐ＿＿＿ｋ＝－）ｆｏｒ：Ｌｋ；ｋ＋＋（＜＜））｛＿＝－ｅＲ－Ｃ）ｃａｒｉｏｒｉＬｃ：ｋ：是ｋＣ个元秦的候迭集（）ｐｇ（〇））＿＿＿）ｆｏｒｅａｃｈｔｒａｒ．ｓｅｉｃｔｌｏｎｓｔＣＤ｛｛＝ｓｕｉ．｛Ｃｔ．ｓｅｔＣｋｆｔ：；Ｃ：是所ｔ）｛）有包含的堠迭集元鬻＿＿一（）ｆｏｒｅａｃｈｃａｎｄｉｄａＴ．ｅｓｃＥＣｉ＿｛）Ｃ．ｃｏｕｎｔ＋＋；（）｝＝＝ｃｃｃ＝ｌｋｃｃｕｎｒｒｎｓｕ０Ｃｊ．＾＞－．｛ｐ｝（）＿＿｜＿（）｝ｒｅｔｕｒｎ＝Ｕｘｌ｝：；｛）＿５－９－图Ａｐｒｉｏｒｉ兑法过程１－－（其中ａｒｉｏｒｉｅｎＬｋ１）：连接１４（５７）。ｐｇ做两个动作（步骤到）和剪枝步骤到一一部分通过Ｌｋ－部分使用先验性质将具有非频繁在前１自链接产牛可能的候选集，在后子集的候选集删除。－－Ｓ－ｔｅｐ２：实现ａｐｒｉｏｒｉｇｅｎ（Ｌｋ１）过程，如图５１０所不。ｆｏｒｅａｃｈｉｃｅｍｓｅｔｌ＜－：（）ｐＥ（）＿－．ｆｏｒｅａｃｈｉｃｅｉｎｓｅｔｑＥＬｋ（）（）＿＝ｅＫ＝ｅｎｆ＝ｉ．ｌ．ｉｔｅｉｒ．２．：＞ｔ：ｅｉｎ２门．．．门ｆ．ｉｒｉ．ｉ（）（ｐｑｐ＿ｑ＿＿＿－－－．－ｔｅｎＪｃ．？二ｉ：ｅｎｉＫ＜．ｉｒｅｍｉｃｑ｛）ｎｐ（）ｑ（））＿＿＿＝？？ｃ连接步：Ｆ生傾送；（）ｑｐｓｕｓｅ＾ｃ－ｉｆｈａｓｂ？：ｔ｛ｍｆｒｅｑｕｅｎ；ｈｅｎ）＾（，（））＾：）ｄｅｌｅｔｅｃ；Ｅ枝步刪除非频繁Ｓ５１８迭（ｅｌｓｅａｄｄｃｔｏＣｋ（）一｛）｝ｒｅｔｕｒｎＣ］ｃ；｛）一－０－５ｒｉｏｒｉ２图１Ａｐ算法过程３５ 浙江Ｔ．业大学硕十学位论文Ｓ２，Ｓ３ｔｅＰ对于每个事务找出其是候选的所有子集并将数量累计ｔｅＰ描述了对所有非频繁了集测试并删除的过程。＿－Ｓ３ｈ（ｔｅｉｂ丄ｋｌ），，５１１：实现ａｓｎｆｒｅｕｅｎｔｓｕｓｅｔｃ过程判断候选集的元素如图所ｐ＿ｑ＿示。ｆｏｒｅａｃｈ－ｓａｆｃｓｅＪｃｓｃｆｃ｛）＜）ｔ￣－ｉｆｓｒ．ｏｔ￡ｌｋｈｅｒ．（）（｝＿ｒｅｔｕｒｎｒｕｅ（｝－；ｒｅｔｕｒｎｆａｌｓｅ；｛）－－图５ｉｉ１〗Ａｐｒｏｒ兑法过程３２项集产生关联规则．由频繁当我们从数据库Ｄ中的事务找出频繁项集后，可以直接产生强关联规则。置信度计算如公式４．１５所示。—九咖此Ｃ＝＝ｏｎｆｉｄｅｎｃｅｉＡ＾Ｂ）Ｐ（ＦＭ）（５．１２）ｓｕｏｒｔｃｏｕｎｔＡｐｐ＿（）＾ｕ（ＨＵＢ的其中ｓｕｏｒｔｃｏｕｎｔ，是包含项集Ａ事务数，ｓｕｏｒｔｃｏｕｎｔ（Ａ）是包含ｐｐ＿ｐｐ＿项集Ａ的事务数：。关联规则可以产生如下（１）对于每个频繁项集Ｉ，产生Ｉ的所有非空子集。ｓｕｐｐｏｒｔｃｏｕｎｔ（ｌ．＿）ｃｚ—＞ｍｍｅｏｎ士—“ｓｕＰＰ〇ｒｔ－ｃｏｕｎｔ⑷（２）于Ｉ的每个非令，：子集＆如果则输出规则（”－），其中ｍｉｎｃｏｎｆ是最小置信度。＿５５．本章小结本章作为课题最重要的部分，首先对课题实验采用的原始数据的采集、理解工作进行了介绍，然后详细介绍了数据清理、数据归并、数据标准化等预处理流程，并成功缩小了原数据规模，获得了满足要求和约束条件的实验数据集。在预处理Ｇ的数据集ｈ结合系统的需求分析，从访问目标分析和访问习惯分析两个角度进行了设计与实现，在此过程中引入了聚类分析和关联规则分析两中数据挖掘方法－－。其中聚类分析采用了Ｋ均值、Ｋ中心？－Ｈｏ和结合凝聚方法的改进Ｋｒｉ点算法均值算法；关联规则分析则采用Ａｐ算法挖掘频繁项集，并生成关联规则。３６ 浙江Ｔ．业大学硕十学位论文第六章系统运行测试与结果分析：６．１节介绍系统运行环境６．２本章介绍系统运行测试和结果分析，具体安排如下；节介绍系统运行情况；６．３节介绍系统挖掘结果分析：６．４节介绍用户行为分析结论应用；６．５节对本章进行总结。６．１系统运行环境６．１．１硬件环境？处理器：ｌ？Ｃ２ＤｕｏＣＰＵＥ７５００２．９３ＧＨｚ２．９４ＧＩｎｔｅｏｒｅＨｚ硬盘：５００ＧＢ５４００转／分内４ＧＢＤＤＲ１３３３ＭＨｚ６．２１．软件环境ｉ幵发环境：ＭｉｃｒｏｓｏｆｔＶｓｕａｌＳｔｕｄｉｏ２０１２基于．ＮＥＴ４．５框架数据库环境ｉｆｔＳＱＬＳ２００８Ｒ２：Ｍｃｒｏｓｏｅｒｖｅｒ６．２系统运行情况６．２．１数据导入用户通过数据导入模块将原始数据导入校园网用户行为分析系统，模块将对文本数据进行关系构建，将本地文本文件转为．ｃｓｖ格式表格中，进而使用数据库的ＯＤＢＣ接口进６－行导入１。如图所示。？－ＤＫＸ．校ｂ网用户行为分析系統？冰入押ｔＢＵ？！明异Ｙｉｉｔｉｉｉｔ目标表：ｓｓｏｒｙ目标柱ｉｉ：ｔｔＳ：丁ＩＫＥ一ＳＴＡＭＦｖａｒｃｈａｒＳ００．Ｇ０ＳＵＢＳＣＫＩＢＥＫＩ？５０￡ｖｒＫ＿＿ｊ＿＾ｃａｒ０ＱＤ：导入染妳ＩＣｖｃＰＲＯＴＯＣＯＬ？ｒＷ５００００．而，１！Ｗ认〇ｃ－２：？１１ＣＦＥＥＲＰｉ＞ＲＴｖ５０００＿ｗｃＷＤＡＣＣＫＳＳｔｒｉ？ｒｒｍｘｃｈｔ５００００＿ＩｉＪＦ０Ｓｔｒｉｒ？ｖ＊ｒｃｈ？５００００＿ＫＷ５ＳＯＵＲＣＥｖ？ｒｃ００００ＳＯＵＲＣＥＰＯＲＴｒｗｃｈｗＳ００００．ＩＮＩＴＩＡＴＩＭＣ－ＳＩＤＥｖａｒｃＷ５００００３７ 浙江Ｔ．业大学硕＋学位论文６－图１数椐导入界面６．２．２数据接口用户通过数据接Ｕ模块可借由可视化界面输入ＳＱＬ语句对数据进行增删改杳操作，？同时对丁查询结果可以导出为本地文本文件６－２。如图所示丨Ｂ＾ｇＳＰｉｊ？：３游ｔＲ它理．漱进格：］？ｐＳｉＬ：丨穿细￣＇￣＇；＇ＴＴ＾－？ｒＷＩ５ＴＷＩＦ？ＰＴＴＴ？ｉｒＰ７ＦＩＬＷ！ｆｃｎｒ７ｉＷ？．ｂｒ：＊ｉＴＴｃ．：．ｗＦ＾：ｒ；ＴｉＴ＾ａｒ＊ＰｌｉＴ１ＶＴ＾ｃＹ＿＿ｙ命屮夺約：２３Ｋ＇ＴＩＢＳＳＴＡｆｌｒ？ＥＥＩ！Ｉ？Ｖ？？ＲＴＸＶ＂Ｗ乂乂此⑴．－：．ｈｔ？：，ｍｎｗ，：如ｒｒ鄕丨：ｗ，：＇．：：：：＝＝＝ｆＩ：图６－２数据接口界Ｍｌ６．２．３数据预处理用户通过数据预处理模块实现对原始数据的预处理流程，包括对脏数据的清理，分析和归并访问目标属性数据（访问地址），规整字段并对其进行标准化。在数据预处理模块中－，将通过筛选生成新的数据集，并不对原始数据直接进行删除。如图６３所示。亡校园构甬户行为计折系统－ｎＫＢ７＊＾＊５－每孩龙理Ｓ在哲琿＾８０：分ＴｆＷ间习亦分职？！ｔＳ？Ｓ３￥＾Ｔｌｅ＾ｆ有理曰汔：？＾．．ａｆｃ．．．Ｌ：〇］ｂ４０）？ｉｅＯｔ＾ｌＵＯＬｉ＾／＇２０１５０４／０７ＩＳＧｔ．ｍＺ２．．ｌＯＤ３＾．．２０／Ｊ５０４／０７１８０＾ｍ２？ｌＯＣｗＳ．＆＝Ｓ？ｎｉ５ｒｔ！４／ｎｒ１６ｒ．ｍ？２ｌ００５．ｎｊｒ－ｆｏ；Ｚ｛（ｔ１ｂＵｆ；第巧ＵＫ於条．枯Ｓ去叶ｉＳＴ．两理括ｆｅ：。的！■广？ｃｋｚｒ：Ｌ：：；，：：：：：３８ 浙江丁业大学硕十学位论文图６－３数裾预处Ｈ界面６．２．４聚类分析－－用户通过访问目标分析模块实现对样本数据集的聚类分析，包括了Ｋ均值算法和Ｋｋ中心点算法两个子模块，用户选取不同的聚类算法后，输入目标类簇的数量，聚类算法？结束后可通过显示类簇选项查看对丁样本数据在用户规定的类簇数ｋ的条件下的聚类结６－４所示果图。如图。＞－ｎ＾ｍｒ＾ｒ－？濠译竹ｑ：ａｗ呀＊＂？－＊．ｉｋ－２＜＞？ｒ？Ｉ？＊ｕｌ＾－ｉｗｔ？Ａｊ．ｓＳ？＊‘：ｉ－Ｔ？Ｉ＜Ｔ／Ｃ？－Ｉ爵、ｊｉ：Ｉ％，°〇？＊－〇？？ｐｉ〇（ｚ。ｊａ．０２５００１Ｏ０Ｃ１５００００２５００３０００Ｖ？ＭＳ－？６４聚类分析模块界ｆｉ图［｜６．２．５关联分析１１基于Ｗｅｂｉｔ！户通过访问习惯分析模块实现对样本数据集访问的信息的管理规则挖１掘，／士：Ｉｔ户选定最小置信度ｍｉｎｃｏｎｆｉｎｓｕ的情况下，该模块通过Ａｉｉｌ和最小支持度ｍｒｏｒ＿＿ｐｐ算法实现符合约束条件的关联规则生成结果６－５。如图所示。３９ 浙江Ｔ．业大学硕十学位论文ｙ校园网用户行为分？析系统－—－条跃苗运容连用辟体７３：七，访问习ｔ￡對〉访：豹话笸埋丨５＾攉？析桕出结甬）１……一ｇａｋ－＾＊ｂｉ？ｉｕｃ〇０：ｎ．ｃｏｍ０Ｓ９Ｚ１、ｆｉ：ｍｚ？４？Ｃｆｉｍ—ＣＯＳｋｃＭｏｅｗｔ＜〇！？０２８０ｎｉｉｎ３＞Ｊ４－ｑｉｔ，＞ｃｒｔ，０２Ｃ０ｃｃｏｓｏａｕｃＵ１Ｃ０５ｂｔ－０ｉｒ？ｉｃ＞ｍＨ＊ｉ＜ｈｉ．ｃｏｍ０１Ｅ９？．ｃｏ００Ｘ１ｂ＊ｉｃ？ｃ．＾＊ｈｗｏ．０００２１．１图６－５关联分析模块界面６．３系统挖掘结果分析６．３．１网络数据统计分析一在用户行为分析系统中，统计分析也是不可或缺的个部分，在进行数据挖掘之前，一一些统计特征往往需要先通过对数据的些统计分析，了解数据的，并以此作为数据挖掘模型、数据预处理和算法改进的参考。？数据统计分析主耍是运用些统计学的方法．通过使用数据集中的某个或多个属性项，根据某种条件，进行数据的提取和爿：总，获得数据在某个约朿条件下的分布情况。数，常见的有折线图据统计分析常常会结合图表对统计结果进行直观的展现、柱状图、饼图、散点图等等。，在本课题的前期工作中，我们对数据进行了不同的统计处理用于帮助进行数据挖掘＇力案的设计。这里仅选取两个网络数据的统计结果并进行简单的分析。“”－Ｗ图６６是基于ｅｂ访问的分析模型中，经过预处理后的数据集分布，其中ｖｉｓｉｔ表”“＋，ｎｅｔｓｔｒｅａｍ表；；网络流量不访问次数ｊ。从图屮可以看到，２千多个的数据点屮，绝大，部分都集Ｉ在坐标平面左下角部分，而在访问量与网络流量较大的区域数据点分布则非常稀疏，。这表明校园网用户对于处在稀疏区域的数据点所代表的网站的需求明显高于其他网站，绝大部分的访问集中在少数几个网站上。４０ 十学位论文浙江Ｔ＿业大学硕０Ｃ－ＣＴ￣ｈｉＴ￣Ｂ＼＂ｋ厂Ｉｉ０ｃ；１—ｊｎｉ＇■：＊＆ｉ―－ｏ１０１ＣＩ０Ｄ０２Ｕ００Ｄ３０Ｕ００ＶＩ５Ｉ！图６－６Ｗｅｂ访问情况散点图一６－７Ｓ对口记录个月内的近１百万条校园网公网出的上图、下行流量按时段进彳丁的统计。从图中我们可以看到从全体２４小时各时段的流量变化情况。可以看到，从早晨１０一２２，点幵始到晚上点这段时间里，网络总流量呈现个较低较平稳的态势根据上下行流量的变化，能够看出网络流量虽然有些起伏，但总体还是比较平稳的３点到。而从晚上２早上９点，，可以发现无论是上行流量还是下行流量都出现了明显的高峰期特别是下行流ｆｉ的变化最为明显。形成这种情况的原因可能勹学校网络中心的限速策略有关，在１０点？＞至２２点之间属于学习，ｅｔ访问，、办公用网高峰主要保障的是呰通的Ｗ因此对与些下载工具特别是Ｐ２Ｐ工具进行了限制；而在２３点至９点，这个限制则明显放宽。从上行流ｂ？量的变化也丨以看出这点，在１０点至２２点之间，由于大部分是普通的Ｗｅｂ访问，每条请求所需要发送的信息量很小，因此上行流量比较低；而在２３点至９点，由于目前绝大部分下载工具采用了Ｐ２Ｐ的模式，在进行下载的同时还需要进行数据共享，因此上行流量明显增多。４１ 浙江Ｔ业大学硕十学位论文二｛免夺ＪＬ６ＤＯＤＯＯＯＯＯｌｌｕｔｔａｉｔｉｉｔｉｉｉｔ－■－－ｖ－？．，．？■■’ｎ！ｒ＜ｉｗ？ｖ？＊？５，＜？ｆｆＪｉ．？！■Ｖｄ：；Ｊｔ＜？：ｖ－？Ｖｒ＂＇＇＂．－■ｒ．＇＇？■ｉｉ．，ｃ．．〇？？，ｉＶ．ｌ．／ｆＣｔｆＣ＼＊？，Ｊｋ＼々５５？￣？ｉ．＜ｉｔ＊Ｋｎ？：阁６－７单月网络流量统计６．．３２用户行为聚类分析－．１Ｋ均值算法Ｋ－均值算法能够得到较紧凑的簇，对大多数数据集该算法具有较好的可伸缩性和较）ｋ是高的效率，其复杂度为〇（ｎｋｔ，其中ｎ是数据集中数据对象的个数，簇的个数，ｔ是一－迭代的次数，通常都有ｋ《ｎ，且ｔ《ｎ。但是作为种贪心搜索方法，Ｋ均值算法也具有贪心算法的普遍缺点，最终往往以局部最优结束，即算法收敛到评分函数的局部最小值，？则可能错过史好的解Ｋ－。由丁均值算法需耍手工设定最终耍划分的簇的个数Ｋ，对于不同的Ｋ值可能产生效果差异交人的簇的划分，导致算法在数据集可变情Ｋ－，初始簇的中心足随机生成的况下不稳定的情况发生，初始簇的。并且在均值算法中一６－－划分以及数据的输入顺序对于分析结果都有着定的影响。实验结果如表１及图６８所示。６－－表１Ｋ均值算法对样本数据的分析结果４２ 浙江Ｔ．业大学硕十学位论文承＾ｋＳｂ释＾．ｊｇ１２ＣＳＣ３５．２１３Ｓ？＾ＵＡ＜０４２Ｚｔ２２６２Ｄ１：＞Ｐ０６：．！＂１．６１＾５５．：．２２３９．２４３ＤＤ７ＥＪ２２０£，４＞３：＞．５！２２５＾？：－ｉｔ３１９Ｋ３．Ｃｊ．ｇ７：６？０．£５ｇ￣＾－１１１３９．６１４３５＞ｓ＾０．０？Ｓ２９１２１３６０４５５ＰＳ５０－辦＊＾３２Ｇ３ＳＪＪＴＳＴＳ－＊：？４３３：３３３＞：６６５Ｉ２６￡．ＳＰｉ６ｇＰ１６￥＾４Ｔ３Ｅ５６７ＢＢ．３０６ＳＳＣ＇２２＇６＾４２０ｉＫ；：３Ｐ９．Ｄ５Ｂ７１，．＾：３６１３：Ｕ６５７２２２４２６１５＆？－４２Ｃ５Ｃ３．６？Ｓ３０ＥＰ．？：：ｉ４＾：２２９！４－２６１３３３２３６１．Ｓ？１ｉＥ■＇－＾１ｔ９０５４３８５６ＳＳ；．ＳＣｈＳＢＳ：＾＝．２５６１？２２２＾３４１６１３３５．Ｂ３５Ｅ＂３１３２９３５２．２ＢＰ２２２６＊４ｔ＾１．１＾：６５７２．２２４２．７Ｓｌ￥０ｆ，５１ｆＴ；４Ｓ５ＪＫＳ３６６．１３１，７６２＾２．６Ｈ３７Ｓ．：ＨＤ：１７－１１＆４５：．．￡；：Ｉ；３８５６２２０＾４２ｔ＾．７５６５５＾Ｓ￡．５０６ＢＳＤ７３ｉ：３０６９ｉ５３ｇｌ－５５Ｓ．Ｂ３Ｊ５Ｐ４６７２￡５３：Ｈｆｉ５：＞２．？６２５０？４３ Ｔ浙江．业大学硕十学位论文ｋｊ￡鱗琢大小５ＩＯＣ３９．，．１＾２７７５０１ｍ６２Ｃ２６７．４＾＾７２＾５４２＾１１３３．２５６１．Ｅ７７３５Ｅ＿１ＩＯＣ２９．ｍ＾２，７７．５０１＾２２２９Ｍ２ｍＳ５，２５６１．Ｂ７７３５Ｅ３４＜＾６．Ｐ３０７５６１２Ｓ３．０Ｓ７２２１４＾７５５５１７￥５＾２３７．３５Ｂ６６５ｔＪ．３２１０５２Ｍ２４１２７５．７９９５９：ｔ５４０１＾３７７８：７５Ｈ１．９１Ｆ７６？１：Ｊ２４！５４Ｓ１９４，５：ｍ２３＾５．６２２０＾＂５１，５５３．７５５Ｓ４３－２３７７．３５Ｂ６６－－２１２７２１．Ｔ７３７Ｂ０５６２＾．４０７１２１３５６４９．＾ｉｍｉ４０１Ｊ！Ｓ？７Ｅ：４１ｎｍ＾ｍｅ，１４＾．３＾７５５＾５ＩＯＣ７７．５０］７！＾ｅ２ｉ２７３．７９９５＆２７５ｊ４５：Ｂ９７７６７１１Ｊ２４Ｓ５４Ｓ１９４５１．７１２２５８．Ｕ２２ｍ５４＾６＾５０７５６，１２８３．ＤＢ？２：１ｋ＝ｋ＝３２－！Ｉｉ：１ｊＩ￣！ｎｊｔ．ｃｃＭｉｉｌ！ＩＲ！Ｉ８．ｊ、＜ｉｇ）］［￡１ｃ：ｃ＾．ｊ；？Ｊ１〇ｊｔ＇—＇＇＇＇Ｉｉ１Ｊ１＾！＊Ｍ＇０Ｃ？１Ｕ？？０００Ｘ３００２０Ｃ０２５００５０００ｔＸ！ＷＵ２ＵｔＵＭＮＷ炤ｖｉｓｉｔ４４ 浙江Ｔ．业大学硕＋学位论文ｋ＝４ｋ＝５－－１Ｉ升＋￣－ＩｎｇＰ－ｆＮｇ｜？Ｉ＂〇Ｃ．？０－Ｓ－８．＾？？＞一来；』」＼＿＿＿：——；：？０５０Ｇ１０００１Ｂ００？０００２５００３００００５００，０００ｉ１５００ＰＯＯＯ？５０ｆ３００ＣｖｉｉｌＳＷＳＫ＝７ｋ－６ｋ－一§震—十￣－—ｉＴ：．％｜Ｊ，？＇ｆｅｇＪ．．Ｓ＇．？＾＆ｇＶ｜ＴＳ＝？１ｉｆ；ｏ：．．丨〇〇ｉ－１１§■：ｌ？ｃ？：？米ｉｅ－ｉｃａＳ？；１＇＾ｉｉＩ１ｒｉ１１０５００１００Ｃ５０Ｃ？００Ｄ２５００３００００５００１０００５００２０００？５Ｄ０３０００ｖ．ｉｉｔｉｒＴｖｓｉｋ＝Ｂ＝Ｋ９〇－－？：Ｉ＊、＜－ｔ－４ｊｉＣＳ＾ｓＳ；Ｉ１？丨ｃ：ｃ養－Ｈ：ｆｃ：味＊Ｙｏｏ：０－－８！ｇｊ—＋＋．ｉ？。」暴ｏ－＃ｊ．ｒ！１１！１０Ｓ０００００１５０Ｃ２００Ｄ２５００３００００５００１０００１５００２００２５００３０００１０ｖｖｉｓｉｔｉｓｒ４５ 浙江Ｔ业大学硕十学位论文－８－＝图６Ｋ（ｋ２，３，…）均值聚炎结米图，９木文使用肘方法（ｅｌｂｏｗｍｅｔｈｏｄ）估计Ｋ值。＇１９｜１肘方法基于以卜观察：增加簇数有助于降低每个簇的簇内方差之和。这是因为有史多的簇可以捕获史细的数据对象簇，簇中对象之间更为相似。然而，如果形成太多的簇，？一由丁把个凝聚的蔟分裂成两个，引起簇内方差和降低，则簇内方差和的边缘效应可能下一降，，。因此种选择正确簇数的启发式方法是使用簇内方差和关于簇数的曲线拐点。严ｋ＞０一（ｋ），ｋ（格的说，给定，计算簇内方差和ｖａｒ绘制ｖａｒ关于的曲线。曲线的第个或最Ｍ著的）拐点暗示正确的簇数＝６－９２９＝图为Ｋ值由到簇内方差和的变化情况，由此可知，ｋ５为图中折线的拐点，－因此使用Ｋ，５簇较为合适均值算法通过肘方法的估计将数据集聚成。＊ＣＴ．＼Ｉ￡＼１：＼！〇＾＼‘、＿Ｊ■Ｉ？４６８Ｎｕｍｂｅ－ｄｕｓｔｅｒｓ图６－９簇内方差和变化图－２．Ｋ中心点方法－－当存在噪声和离群点时，Ｋ中心点比Ｋ均值算法健壮性更强，这是因为中心点不像Ｋ－均值那样容易受离群点或其他极端值影响，中心点算法每次迭代的复杂度是（。然而２一－＝）ｌ，０（ｎ２）ｋ（），当ｋ时我们可以在的时间内找出准确的中位数；但当是般的正４６ 浙江Ｔ．业大学硕十学位论文－－－－Ｐ困难的整数时，Ｋ中心点问题是Ｎ。实验结果如表６２及阁６１０所示。表６－２Ｋ－屮心点算法对样本数据的处理结果ｔ：值放叛Ｔ小叛屮心点扣置１２０８００．８１５３０６．：．３０９３６９．＞４４２ｎ５５０３３１５５８１８Ｓ．６３２２６１２０４５０，４０．８１５３０６２．２６６：３２３５１７３．１１６６４５，３１Ｓ．ｆｉ７７０４９．．４４ｎ５５Ｑ３３１５５Ｓ１Ｓ８．６３２２６ｌ１８７２０８ｉ？３Ｏ６．１７４９３５１！２１７６１３．８６０２０２，４７．７７２９３８４３３２，１７３．１１６６４３３１Ｓ．８７７０４９４１１３３０．３３１５５８．１８８４．６３２２６４１１３８７０．５４３５３７３．０．７＾８８９３２５１２５１７．１２１４２６２，６３７８（４８２５３５３７１．３５８Ｓ４３４．．９７１５８１２２４３１７３．１１６６４３１．３１８．Ｓ７７０４９１５Ｕ５５０．３３１５５７８，１８８４．６３２２６４７１１３８７０．５４３５３７３．０．９８８９３２，７８０４８：１２５１７．１２１４２６２６３．３５３７１．．．３５８８４３４１２９７１５８！６＂７４３１１７３．１１６６４３１，３１Ｓ．Ｓ０４９５９５５０．３３１５５７８．１８Ｓ４．６３２２６４６２２７１８．７７３７８００，３６２４．４０７２１１３３８０．５４３５３７３．．１１０６９３＾６３４２１３９１６．．５７７８８８９５２．２０９１０２６３５６５１．３５８８４３４．１２．１０８Ｓ０２Ｃ７４２８６７．６７０３９＾０，２４０．３５６４１２７５１３４５９．５６０Ｓ２１Ｓ．５２．２２８６５１９０．４６Ｓ５５０．３３１５５７Ｓ１Ｓ８．６３２２６４０７２２７１８．７７３７ＳＯＯ，３６２４．４０７１２１０１１３３８０．５４３５３７３．０．６９３Ｓ＞６３４Ｓ２１３９１６．５７７８８８９．５２．２ｍ〇２６４７ 浙江丁业大学硕十学位论文３５６３１．３５ＳＳ４３４．１２．１０Ｓ３０２０４２Ｓ＜５７．６７０３９９０．２４０．３６６４１２７５１５４５９．５６０８２１８．５２１．２２８６９０５６８５５０．３３１５５７８．８Ｓ４．６３２２６４０１＂７１３１８９．４８Ｓ８６０．１４９９．３４７５９＾０８２７－１８．７７３７８０Ｃ，３６２４．４０７１２１０＾Ｊ９０．５４３５３７Ｂ．０．３９６３４１１３１６６９２１２５１０．５９８９７８２，４５．９６３９３９Ｓ３５６３１．３５ＳＳ４３４．１１．３５２０４９０４１７１７．６７５Ｓ３４５．３２２．２４０７Ｓ０１１５５４５９，５２１．５６０８２１８１．２２Ｓ６９０５６４７４１．．３０Ｓ８３７９１１９．３４９３５６４７５５０．３３１５５７８．４４Ｓ２８８．６３２２６０＂８５８９７５９－１１．４ＳＳ８６０．１４９９．３４６０９１：７１８．７７３７８００，３＾４．４０７１２１０ｋ－？ｋ－５？＇ｇ１｝Ｂ？ＩＭ１ｒ，ｒｉＯ？ｆｃ８ｉＨ：Ｖ，也—＿—ｔ？ｖｏｖ＊（〇ｉｆ＊，油）；ｘｘｖｋｉｆ？ｎｒｉｘ－ＡＳＨｋ－４ｋ二５ｆＳｉｓｒ＞ｒ．，．ｉＨ！｜Ｈ４Ａｐ丨Ｉｒｃｒ｜Ｉ＾，ＩＩＩｐ＾？＊：ｅｔ．＾－．秦‘”丨｜＆ｍ＞Ｍｒ，鄭ｔｍ辦＆嫩傭＿獅纖獅＆１ＷＳｌＶＳＶ４８ 浙江丁．业大学硕十学位论文ｋ＝６ｋ＝７ＩＪＩＪｊ－Ｉ｜ＨＩｌｌｔｉ－ＪＭ．ｌｊ＾ｉｒ－Ｉ？ｉ／Ｉ＞：．！，＾＼＼ｉｊｔ〇－ｗ〇－ｗ＇，，Ｔ＂＇Ｉ＇７－！＊－ｎｉｉｎ！ｓｒｏ５〇ｔｏｃｍｉｏｚｏｏｏ？ｆ〇〇〇（ｏｒｍｏ１５００？〇〇〇？？ｆｃｍｏｗｓ丨ｗｓｉｌＫｓ８ｋ＝９ｆ｜ｉ｜ｊ｜ｓ！Ｉａｊｆ，■丨丨ｉｓＳＪＨＳ－？ａＩ１？ｊ玄ｉｓｃＩ二！－ｈ｜ＩＩ＾￥．ｉ＂…ｔ—■＇？Ｍ，＇＂＂＂－￣？ｉＴ：ｒ＾；ｐｊ；ｅ＞０ＯＴ１０Ｈ１０：１００５００？０００？５０Ｃ３００００５ＣＯ１Ｃ５００２０００？Ｗ０３００ｖ＊５ｒｔＷ５１Ｉ＝－？３图６１０Ｋ屮心点算法聚类结果图（ｋ２，９）－本义使用肘方法结合轮廓系数（ｓｉｌｈｏｕｅｔｔｅｃｏｅｆｆｉｃｉｅｎｔ）的方法估计ｋ中心点算法中ｋ的值。轮廊系数通过考察簇的分离情况和簇的紧凑情况来评佔聚类结果。对于ｎ个对象的数据集Ｄ，假设Ｄ被划分成ｋ个族．．．。１，２，，对于毎个对象ｏＳＤ，我们计算〇与〇所属的簇的其他对象之间的平均距离ａ（〇）。类似地，ｂ（〇）是〇到不属于〇的所有簇的最小平均距离。假设ｅ（ｌ＜＜）则，＇＇ｄ＾＇ｉｓｔ＇０＇０＞ｏｅｃ．ｏ＾ｏ．ｉ，、，…ｆｌ＝（〇Ｊ＾（６１）４９ 浙江Ｔ．业大学硕十学位论文’山ｓｔｔ０．０）Ｖｅｃ．「）＝ｍｍ．／ｎｏ）＜（６２）Ｃｌ＜ｋｚｆ｝：）ｔｌ＾｜ｊ对象ｏ的轮廓系数定义为扒ｎ（０＝５〇（６））．３（广＼轮廓系数和其他内在度量方法可以用在肘方法中，通过启发式地导出数据集的簇数取２｜１］代簇内方差之和。＝－－６，１１２至９轮廓系数变化６１１可知，ｋ５为图为Ｋ值。由图图中折线的拐点因此使用ＰＡＭ算法结合肘方法的估计，将数据集聚成５簇较为合适。１＼Ｉｓ－＼：＼＾￣￣Ｉ！！ＩＩＩＩＩ？３４￡．６７８ｆｔｃｌｕｓｅｒｔｓ图６－１１轮廓系数变化折线图３．结合凝聚方法的聚类算法－＝－采用结合凝聚方法的改进聚类算法，并借鉴Ｋ均值和Ｋ中心点的经验以ｋ５作为输入参数进行聚类－３。结果如表６所示，可以看到经过改进的算法虽然不能使得每次聚类的，，验证了改进方案的有效性划分都相同但是其结果的稳定性得到了提高。表６－３改进算法后的聚类结宋５０ 浙江丁业大学硕十学位论文１＜值靜、成於对象数鼷中心点位置１７２１４２，９５５２４７７２，３１３３３２５８．５０１４１７８４－０．Ｓ６５８１３５．１８２１７６１４７．９４２４３６９．３０７５３３７５９．５０２４１７７３６，５９５７７３７，１７８１７５１４４－？９７２５０７７．２９８５３２９５４．５１２４１８Ｓ４１，６２５７１３２．１９１４．聚类结果分析通过对公ＭＷｅｂ访问的数据以访问量和Ｍ络流量两个Ｍ性作为指标进行聚类，获得的聚类结果人致如表－ｋ＝６４所示。经过多次实验发现，当簇的数目５时聚类结采比较理想。从表中可以看到，前４个簇虽然彼此之间差异明显，但是第５个簇无论从簇中心位置还Ｓ成员个数上都与前４个簇不是Ｎ—个数量级一。这也与之前聚类结果图中散点的分布情况致。６－４ｅｂ表某十ＷＬ方问的聚类结果馘級中心、标准化谧１蔽大小土耍成员对象：访ＨＭ：２９Ｍ．２６１３３３］＿２ｓａｎｄａｉ．ｎｅｔ：ｑｑｃｏｍ１１Ｕ：２５６１．８７７３５ｌＭｓｏｃｏｎｃｏｎｔｉｉｎｉｃｒｏｓｏｆｃｏｍｒｅｉｉｒｅｎｃｏｍ？访㈣镊？９０９４７３Ｓ５６２ｔ．＿８ａｏｂａｏｃｄｎｃｏｍ．ｓｍａ．ｃｏｍ．ｃｎ：ｂｍｄｕ．ｃｏｍ．ｓｏｈｕ．ｃｏｍ；７８Ｓｍ：３０６８８０ｉＭｘｉｕｍｇ．ｃｉｉ访ＮＭ：５３．２６５７２１１，４＾ｘｔ＊ｉｕｉｌｅｋｂｉ．ｃｏｍ：ｖｏｕｉｉ．ｃｏｍ．ｏｎｃｎ：ｃｎｒ．ｃｎｔ流Ｍ：２２４２．７６１５１访问摄．．．：２０３．Ｓ０６３７２巧ｉｆｅｎｇ．ｃｏｍｋａｉｘｍ００１ｃｏｍ：ｒｅａｌ．ｃｏｍ：３６０ｃｎ：ｓｐｏｒｔｓ．ｃｎ：＾流３９９．０５Ｓ７４１ｓｍａｉｍｇｃｎ：１２６．ｃｏｍ．３６０ｉａｆｅ．ｃｏｍ；ａｄｏｂｅ．ｃｏｍａｒｋｍａ．ｏｒｔｒａｃ．；ｉ．：ｔｗｓｏｒｓ；＿ｍｉｌ：ｋｅｒｂｃｃｏＤｉｃｏａｏｃｏｍｂｂ．…ｇｐ一访㈣量：３．６９Ｓ３０Ｓ〕＾２０５０ｐｃｄｉｓｃｕｓｓ．ｃｏｍ：ｑｕａｎｗｅｎｘｏｉｉＬｃｎ：ｔｇｚｌｉｘ．ｃｏｍ：ｃｏ．ｃｋ：流ｆｔ：９４７．６１１１＇．ＪＪ，ｏ，／ｉｎｅｃｏ：ｖｃｗｃｎａｒｓｏｅｃｏｍｙｏｎｌ．ｍｐ．；ｄｗｏｄｇｇｌ．５１ 浙江Ｔ业大学硕十学位论文从簾１中可以知道，用户访问量最大的网站分别是ｓａｎｄａｉ．ｎｅｔ和ｑｑ．ｃｏｍ，其中ｓａｎｄａｉ．ｎｅｔ是网站一ｘｕｎｌｅｉ．ｃｏｍ的另个域名，ｑｑ．ｃｏｍ则是中国最大的互联网公司、门户网站的域名。这两个网站无论在访问量和网络流量使用上都较大。２ａｉｄｕ．簇中包括ｂ．ｃｏｍ、ｓｏｇｏｕ这样的搜索引擎，包括ｓｉｎａ．ｃｏｍ．ｃｎ、ｓｏｈｕｃｏｍ这样的一传统门户Ｗ站三强，包括ｒｅｎｒｅｎ．ｃｏｍ这样的社交网站，这与高校学生上网特点比较致，符合校园网用户获取信息、分享信息和社会交往的需求。特别注意到ｘｎｉｎｇ．ｃｎ是属于一，而ｔａｏｂａｏｃｄｎｏｍｒｅｎｒｅｎ．ｃｏｍ的个数据资源站域名．ｃ则是为ｔａｏｂａｏ．ｃｏｍ服务的网络相册网站，ｉｓ，ｉｃｒｏｓｏｆｔｃｏｍ也出现在这个。此外由于Ｗｎｄｏｗ操作系统的普及微软官方网站ｍ．簇中，这是由于大量的系统相关信息都通过这个网站进行获取，如在线更新、解决方案检索等。ｐ簇３勹族２比较，最大的特征就是平均访ｆｊ量大不如簇２，仍．平均网络流量则是簇２一的数倍。看到ｘｉｍｌｅｉｘｏｍ就能够很容易地明白这点，作为个高清视频网站，同时又提供，那么访问这类网站的特征就是高流量大量资源下载、低并发。－ｄｏｂ簇４屮的网站大多是些常用软件所属公司的网站，如３６０．ｃｎ的安全产品，Ａｅ．ｃｏｍ的ＡｄｏｂｅＲｅａｄｅｒ、ＰｈｏｔｏＳｈｏｐ，１２６．ｃｏｍ的邮箱等：同时，也有几个新闻类门户，如著名ｆｅｎ．的凤凰网．ｃｏｍ、体育新闻网站ｓｐｏｒｔｓｃｎｉｇ等。９９８９一５，这部分网站基本都属于些比较偏簇中的网站数量占据了整个数据集的．％，，僻的站点，其特点就是用户需求不大偶尔会有人访问。这类站点许多都是国外的站点一些网站属于个人其中不少都是校园网用户在使用搜索引擎检索信息时链接过去的，也有性质的小网站，如个人主页、博客等。一些用户行为进行聚类，综上所述，校园Ｍ用户行为分析系统确实能够对并从中发掘出具有意义的信息。本例中所提到的聚类结果，可以应用到校园Ｎ公Ｍ出口优化方案中，实现数据挖掘对实际工作的指导和改进作用。６．３．３用户行为关联分析本文将运用Ａｐｒｉｏｒｉ算法对校园网用户的上网行为进行关联规则的挖掘，分析用户访问网址数据存在的规律，找冋用户访问网址之间的潜在联系。１．算法采用数据维度选取预处理后的数据中的访问时间一、客户端地址和访问网址级域名作为关联规则的数据维度６－５所示。。如表５２ 浙江Ｔ．业大学硕＋学位论文表６－５关联规则基于的数椐维度数据维度含义说明ｉＴＩＭＥＳＴＡＭＰ清求时间发起请求的开始时间＿ＰＥＥＲＪＰ各户端地址校闶网鞞户端节点的１Ｐ地址Ｓ一户访问的Ｎ址巾提取的一ＷＥＢＩＴＥ访问Ｍ址级域名从用＿级域名２．关联规则挖掘事务数据的转化处理一一ｉｄ关联规则挖掘足基于事务数据的，毎条事务记录由唯的交易号Ｔ标识，每个交…易包含个或多个事物这些事物属于某个共同的事物集Ｌ表６＿６给出了关联规则挖掘基于的事务数据实例，该实例具有１０个交易Ｃ录。表６－６事务数据实例Ｔｉｄ项ＩＤ的列表ＴｌＥ．Ｂ．ＣＴ２ＤＣ，Ｔ３Ｂ，Ａ，ＣＴ４Ｂ．ＤＴ５ＤＦＣ．Ｂ．．Ｔ６ＥＡＣＧ．．．，１１Ｔ７ＤＧＣ．．Ｔ８ＡＥＢ．．ｉ１Ｔ９ＢＣＤ，，Ｔ１０Ｅ．Ｃ．Ｂ．Ｄ为了实现与关联规则的数据进行对应，下面对校园网用户的访问数据进行交易记录的－一－，Ｔｉ，定义：Ｎ客户端地址在特定时间段访问的系列网址形成次交易记录并记为访问的系列网址的二级域名则为该次交易记录Ｔｉ包含的事物，记为（１，２，．．．，）。，＞，对于特定时间段，本文根据对访问数据的统计并结合用户的上网」惯定义了三个－－－（９）：００１１：３０）、１４：００１７：００）丨９：００２２：００。时间段：上午下午（和晚上（同５３ 浙江Ｔ．业大学硕十学位论文一户一一客端地址在同个时间段访问的系列网址作为个记录，不在记义时间段内的访问数据在木文分析中将不使用。同时，为了消除噪声数据对数据分析的影响，对包含事物数大于２０的记录将不使用。３．访问数据频繁项集的挖掘°－－ｉ。在本文的分析中，设定最小支持度ｍｎｓｕ为１０／。表６７显示了２频繁项集的实验＿ｐ，此处展示了支持度前５的结果分析挖掘结果。表６－７２－频繁项集挖掘结果－频繁项集ｉ持度２ｓｕｏｒｔｐｐ１ｉ．ｃｏｍ、ｂａｉｄｕ．ｃｏｍ２ｑｑ１．４％ｓｉｎａ．ｃｏｍ．ｃｎ＞ｂｉｄ．．ａｕｃｏｍ１４８％ｉ．％ｑｑ．ｃｏｍ、ｓｎａ．ｃｏｍｃｎ１３．１．ｃｏｍ．．、ｓｏｈｕｃｏｍ１２４％ｑｑ．ｃｏｍ、ｓｏｏｕ．ｃｏｍ．ｑｑｇ１０７％Ｉ；－－由表６７的实验结果可知，支持度最大的２频繁项集是ｑｑ．ｃｏｍ、ｂａｉｄｕ．ｃｏｒｒｕ这反映出在设定的时间段内这两个站点同时被访问的可能性很人。４．生成访问数据的关联规则表６－８Ｕ／Ｎ数据关联规则生成结果关联规则置信度ｃｏｎｆｉｄｅｎｃｅｑｑ．ｃｏｍｂａｉｄｕ．ｃｏｍ７４．１％：｜１ｂａｉｄｕ．ｃｏｍｓｉｎａ．ｃｏｍ４９．２％ｂａｉｄｕ．ｃｏｍｑｑ．ｃｏｍ２８．９％ＩＩ？在寻找出频繁项集后，利Ｈｉ上节提出的算法生成访问数据的关联规则，在本文屮，５４ Ｔ十学位论文浙江．业大学硕－设定最小置信度ｍｉｎｃ〇ｎｆ为２０％。表６８显示对于网站访问数据关联规则生成的结果，＿此处取置信度前３的结果进行了展示。６－８的在表关联规则生成实验结果中，．ｃｏｍｂａｉｄｕ，这关联规则ｑｑ．ｃｏｍ置信度最高说明了用户访问了腾讯后，我们有７４．１％的把握认为用户会访问百度，由于ｂａｉｄｕ．ｃｏｍ和ｃｏｍ－ｑｑ．本身作为１频繁项集在数据集中的支持度不同，所以我们会发现关联规则ｂａｉｄｕｏｍ．ｃｏｍｑｑ．ｃ的置信度和前者有较大的差別。５．关联规则结果分析通过对校园网用户行为的关联分析可以很好地了解当代大学生的兴趣爱好、上网模式、思想动态，有助于校园建设者和管理者及时了解在校学生的思想动态和行为模式。经过反复试验，校园网用户关联分析的应用主要有以下几点：（１）通过上网时段与ＩＰ地址的关联，可以得出某个丨Ｐ地址的上网时间规律。目前“”一些长时间高校中经常有宅在宿舍玩游戏的同学，对于那些长时间访问游戏服务器的ＩＰ地址，可以通过减少该ＩＰ地址带宽等措施，限制其网络使用情况，降低沉迷游戏的可能：（２）通过对校园网用户访问网站关联性的挖掘，可以得到用户的上网模式。高校学生正值其人生的黄金时段，思想丰富而活跃。但是由于当代大学生涉世未深，社会经验＋，，通过挖掘人学生的上网模式足容易受到来自互联网的不良信息蛊惑。因此，能够快捷而简便地了解人学生的思想动态，辅助高校的学生工作；（３）通过对上网时段和校园网服务器端口的关联性挖掘，可以得到网络流量与时间的关系。在校园网环境中，通常端口带宽有限，而有上网需求的用户众多，因此如何合理分配带宽？、保证广大用户的上网需要至关重要。根据挖掘出得网络流Ｍ与上网时段的关系，可以在上网高峰时段适３增加带宽，而在低峰时段减少带宽，最大限度地节省资源。６．４用户行为分析结论应用６．４．１校园网公网访问现状随着校园网用户的逐年增加，以及网络数据传输、共享软件的日益普及，对校园网公网访问的带宽需求越来越大。但是校园网的公网带宽资源有限，并且不同出口线路的带宽一资源分布不均，远远不能满足所有的访问需求，除去即。在校园网用户的般网络访问中．具外，使用最频繁ｅｂ时通讯Ｔ、最广泛的就是Ｗ访问。根据网络中心的数据统计可以看Ｗ到，每天的ｅｂ访问请求达到了数千万条。对于广大老师和学生来说，与学习和工作最５５ 浙江Ｔ．业大学硕十学位论文紧密的网络活动也正是Ｗｅｂ访问，无论是上网查资料、收发邮件、看新闻，都是通过Ｗｅｂ访问完成。因此在众多类型的公网访问请求中，Ｗｅｂ访问就成了必须首先保证的请求。ｂ一保证Ｗｅ访问需要从两方面进行着手：方面，耍限制非Ｗｅｂ访问的请求对带宽资一，Ｐ２Ｐ下Ｗ源的占用特别是载软件及其他工具；另方面，需耍让校内的ｅｂ访问请求能一够以最快的速度得到响应，，。其中前点Ｈ前己经采用流量控制服务器进行限制也取得一一了定的效果，Ｗｅｂ访问出口的；面对于后点则需要对公网方案进行优化。要对公网Ｗｅｂ访问出口方案进行优化，昏先从校园网用户进行公网Ｗｅｂ访问的过程入手进行分析－。从图６２Ｗ１中可以看到，校园网用户在进行ｅｂ访问请求时，先通过校内ＤＮＳ，的对访问的域名进行解析，获得对应的ＩＰ然后句公网访问路由发送访问请求。公网访Ｎ路由会首先判断所访问的域名在路由表中的设置情况，如果有则根据路由表中的记录进行出口选择，则会根据目标１Ｐ口选：如果域名不存在于路由表中所在的网段进行出口择，选择的原则是教育网的网段走教育网出，联通的网段走联通的出口，其余的网段走电信的出口。？？：ｒｖ气钻！｛柳ｒｕ．—’．ｉ？ｉｒｖｙ－？？！．暑，１？＿ｒ獅一？ｙ？？＊＊？；＞？ｎ：ｉ融《ｌｉ＾ＬＪＵＮ＞ＲＨ务》图６－２ｂ１校园网川户公网Ｗｅ访问过程６．４．２公网出口优化方案一从校园网公网访问的现状可以看出，目前面临的问题主要有两个，是域名通过ＤＮＳ解析后可能会获得多个ＩＰ１Ｐ，如果这些处于不Ｎ的网段，那么就需要选择最快的山口所一１Ｐ，，对应的；另个则是公网出口路由上的路由表是手工配置好的但上面的出口选择并非就是最优的，ＩＰ。因此公网出口优化就需要检测每个网站和在三个不同出口的响应，ＤＮ速度，通过比较来获得最优的解然后再对Ｓ和路由表进行更新。５６ Ｔ浙江．业大学硕十学位论文显然，并不是所有的Ｗｅｂ访问都需要进行特别的优化处理，因为绝大部分用户的访问都会集中在某些网站上。要了解哪些网站需要进，如门户网站、资讯类网站和搜索引擎Ｕ优化处理一行出，不能仅仅依靠简单的统计分析，因为不能明确个评价标准与临界值。因此，采用了用户行为分析系统中的基于Ｗｅｂ访问的分析模型，通过数据挖掘来发现Ｎ站访问的分布规律，得到用户访问需求最多的Ｍ站，并作为出口优化方案的输入。６－１３说明了公网出口优化方案的结构，图方案的步骤描述如下：一（１）在流控服务器上采集个较长时间段内的数据，采用数据挖掘的方法进行分析，获得常用网站域名列表。（２）根据域名获得每个网站在使用的丨Ｐ地址。由于直接使用ｐｉｎ命令或者ｎｓｌｏｏＫｕｇｐ命令都会先经由校内的ＤＮＳ服务器，直接通过校内ＤＮＳ解析得到当前使用的ＩＰ地址，ＩＰＳ服务器去进行获取而无法获得最新的地址列表，因此需要绕过校内ＤＮ。（３）ＩＰ放，分别测，并进行记录将获取的在公网的三个出口上试访问速度。（４）口选择列制定优先访问策略，并将测速结果应汁ｊ到该策略屮，生成网站访问出表。（５）将新的出口选择方案应用到公网出口路由的路由表配置上，并更新校内ＤＮＳ服务器的相关记录。０歡拓挖抿分軋＾试ｆｒ公料出Ｉ！路：：，］、ｒｔｊｉ之外进ｔ／洲出ｎ路“ｆｔ吹雄ｙ丨ｉｖｓ汝务捃史新！ｍ顏务器－图６１３公网出口优化方案结构图５７ Ｔ浙江．业大学硕十学位论文６．５本章小结，本章介绍了系统的运行情况及数据挖掘结果分析包括运行环境和运行结果展示，并根据第５章进行的访问目标分析和访问习惯分析的数据挖掘，对挖掘结果从统计分析、聚类分析，、关联分析等角度进行解读并在最后结合实际对校园网公网出口优化提供了参考，体现了用户行为分析技术在实际网络建设工作中的应用方案。５８ 浙江Ｔ．业大学硕＋学位论文第七章总结与展望７．１总结伴随着社会的发展和科技的进步，互联网愈发强烈地影响着人们的生活，校园网作为网络建设中重耍的组成部分，其用户量也在不断增加，为了加强对校园Ｍ的管理、优化校，园网服务，有必要对校园网用户进行更为深入的了解通过网络用户行为分析可以为高校校园网建设工作提供指导意义。Ａ基于上述背景，本文对校园网建设的现状和特点进行了调研，结合大学校园网这一样例，以对公网访问流量控制服务器上的访问日志数据为基础，采用数据挖掘方法进行了校园网用户行为分析，并完成了校园网用户行为分析系统。总结本文Ｔ作，达到了以下成果：对校园网公网访问流量控制服务器的访问日志文件进行了有效的采集和理解，完成了－对于存储分散的日志文件的汇总管理，、存储格式不统并通过数据清理、归并和标准化。等预处理工作，获得了有效的样本数据集对获取的数据进行了统计分析，对后续数据挖掘方案的设计提供了参考，同时对描述了校园网用户总体流量使用变化情况，为校园网建设优化提供了帮助；对校园网用户访问－－目标进行了聚类分析，通过使用Ｋ均值、Ｋ中心点等聚类算法相互验证，将访问目标分５ｉｉ为类，并分别进行了解读；对校园网用户访问习惯进行了关联规则分析，采用Ａｐｒｏｒ算法挖掘用户访问网址数据中的频繁项集并由此生成关联规则，发现了校园网用户在网址访问上的习惯偏好。通过对数据挖掘结果的分析，结合Ａ大学校园网建设情况，帮助公网出口路由制定，，提高校园网服务水平优先访问策略优化公网访问路由过程。７．２展望但在本文的工作中，仍然存在许多不足：受原始数据维度所限，未能在更多角度对校园网用户行为进行分析解读，如果能够获取与校园网用户身份相关的信息（如学号、工号等）则可以对不同用户群体的网络行为进行史有针对性的解读；５９ 浙江丁业大学硕＋学位论文－在关联规则分析中，由于某些事务数据作为１频繁项集支持度远高于其他事务数据，，不易探究更隐蔽的关联规则，使生成的关联规则参考价值受到影响所以应探索将Ａｐｒｉｏｒｉ一算法进步优化，尽量消除某些事务数据对整体的影响；综上所述，本文结合实际进行了校园Ｍ用户行为的分析与解读，完成了校园Ｎ用户行为分析系统一，对于存在的不足，有待于后续的进步研究与改进。６０ 浙江Ｔ．业大学硕十学位论文参考文献（ＣＮＮ１Ｃ）．３５１中国互联网络信息中心第次中国互联Ｍ络发展状况统计报告［］－－２．全球网Ｋ数最明年突破３０亿大关ＥＢ／ＯＬ］．ｈｔｔ：／／ｔｅｃｈ．．ｃｏｍ／２０．腾讯科技１５ｌ丨２１［ｐｑｑ［］３张艳玲．中国接入互联网２０年民行融合Ｊ．计算机与网络，２０１５，（８）．［］［］［４］成孝予．高校校闶Ｎ管理与Ｎ上引导丁作研究［Ｍ］．成都：电子科技大学山版社，２０１６，０１．－－５度百科．网络成瘾症［ＥＢ／ＯＬ］．ｈｔ／／ｂａｉｋｅ．ｂａｉｄｕ．ｃｏｍ．２０１６０４１５．：［］百ｐ６黎慧娟．校园Ｍ用户行为的分析与研究Ｄ］．南屮．：广两大学，２００７［［］７朱明著．数据挖掘［Ｍ］．合肥：中闽科技人学出版社，２００２．］［［８］ＫａｒｉｍＡ，ＡｈｍａｄＩ，ＪａｍｉＳＩ，ｅｔａｌ．ＣｌｕｓｔｅｒＡｎａｌｙｓｉｓｏｆＴｒａｆｆｉｃＦｌｏｗｓｏｎａＣａｍｐｕｓＮｅｔｗｏｒｋ．ｆＪ］，ＰｒｏｃｅｅｄｉｎｓｏｆｔｈｅｌａｓｔｅｄＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ＆ＡｐｐｌｉｃａｔｉｏｎｓＡｉａ２００６．ｇ，？９、干．Ｊ．丨Ｉ２０１５，（１１）．［］．家鑫甚丁数据挖掘的校闶网ＨＪ户网络行为分析［］数卞技术与ＶＩＪ，［１０］张红云，刘向东，段晓东，等．数据挖掘中聚类算法比较研究ｍ．鞍山钢铁学院学报，２００１，２４－－．／．ｉ．．．．３．（５）：５６．Ｄ０１：ｄｏｉ：１０３９６９ｓｓｎｌ６７４１０４８２００１０５０１ｊ？－－１１白度百科．ｈｔ：／／ｂａｉｋ．ｂａｉｄｕ．ｃ．２０１６０４１５．］．数椐挖掘［ＥＢ／ＯＬｅｏｍ］ｐ［ｉｉＨａＭｉｃｈｅｌｉｎｅＫａｍｂｅｒＪｉａｎＰｅｉ３Ｍ．：１１２Ｊａｗｅｎ．，？数据挖掘：概念与技版北京：机械：业出版社［］术第［］－．，２０１２０７：６７＇．？２００８１３胡ＲＩ云，ｍ凤占，黄厚宽数据挖掘理论与应用［Ｍ北京：洁华大卞出版社，］［］工、Ｍ．１４章兢．数据挖掘算法及其工稈应用北京：机械Ｉｋ山版社，２００６［］［］１５梁循．数据挖掘算法弓应用Ｍ．北京：北京大学出版社，２００６［］［］ｉｆｂａｉ１６ＭＨＪＣＹｕＰ．ＤａｔａＭｉｎｉｎ：ＡｎＯｖｅｒｖｅｗｒｏｍａＤａｔａｓｅＰｅｒｓｅｃｔｉｖｅＪ，ＩＥＥＥＴｒａｎｓａｃｔｏｎｓｏｎ，［］［］ｇｐ－Ｋｎｏｗｌｅｄｅ＆ＤａＥｉｉ９９６８Ｃ６）８６６８８３．ｔａｎｎｅｅｒｎ１，：ｇｇｇ，１７毛国君．．：，２００７．１２，段立娟，工实数据挖掘原理弓算法［Ｍ北京治肀大学出版社［］］．１８ＪｉａｗｅｉＨａｎ，ＭｉｃｈｅｌｉｎｅＫａｍｂｅｒＪｉａｎＰｅｉ．数据松掘：概念与技术第３版Ｍ．北京：机械工业出［］［］版社，２０１２．０７：２８９１９ＪｉａＨａｎＭｉｃｈｅｌｉｎｅＫａｍｂｅｒＪｉＰｅｉ．３版［Ｍ．．ｗｅｉ，，ａｎ数据挖掘：概念与技术第北京：机械丁业出［］］版社２０１２．０７：３１７，２０．陈忐强，．ＰＡＭ算法的Ｊ，２００３，９：，刘钊张建辉聚类分析中分析与实现计算机与现代化［］［］－１３．ｉｅｉａｎｉｃｈｅｌｉｎｅＫａｍｂｅｒＪｉＰｅｉ．３．北京、丨ｋ２１ＪａｗＨ，Ｍ，ａｎ数掘挖掘：概念与技术第版［Ｍ］：机械工出［］版社，２０１２．０７：３１９．Ｍｉｎｉ２２ＡｒａｗａｌＲＩｍｉｅｌｉＡｓｋｉＴＳｗａｍｉＡｉｎａｓｓｏｃａｔｉｏｎｒｕｌｅｓｂｅｔｗｅｅｎｓｅｔｓｏｆｉｔｅｍｓｉｎｌａｒｅ，，［］ｇｇｇｄａｔａｂａｓｅｓＣ／／ＡＣＭＳＩＧＭＯＤＲｅｃｏｒｄ．ＡＣＭ１９９３，２２（２）：２０７－２１６．［］，－２３姚俊．浅谈关联规则挖掘．Ｊ．信息技术．２００５，（６）８５８７．：［］［］６１ 浙江Ｔ业大学硕士学位论文２４吕诚．手机ｈ网川户行为分析的关键技术研究与应用Ｄ．北京：北京交通人学，２０１４［］［］？２５施洪贞．基丁校园Ｎ的Ｈ络行为用户分析研究［Ｄ．Ｅ￡明：云南大学，２０１２［］］［２６］张圻，李昆仑．基于关联规则挖掘的网络行为分析系统设计［Ｊ］．电脑知识与技术，２０１１（７），１０：２３３３－２３３４２７－严楠．．，２００７（１７）：２３９２４４，刘涛基于校园Ｍ的用户行为数据分析系统的设计［Ｊ计算机技术与发展［］］２８梁伟．校园网用户行为分析系统研究与实现［Ｄ］．北京：北京交通大学，２００９［］２９李游．２０４．基于校园网的用户行为分析研究Ｄ］：云南大学，１［昆明［］３０葛苗苗．基于校园网的网络）丨］户行为分析研究［Ｄ］．南京：南京财经大学：２００９［］－．长：２０１４（０２８３１．校园网用广行为的分析与研究｛丨大学学报，１），：４７５０潘峰楠［Ｊ］［］２．扬州陈益均．校闶网屮用户行为聚类分析的研究与实现：扬州大学，２００９Ｐ］［Ｄ］３３－李常先．大学校园用户网络行为分析系统研究Ｊ．统计与管理，２０１４（４）：１４４１４５［］［］？王正伟、，３４．基丁校闶网用户行为分析的研究与Ｖ：Ｄ］青岛：中ｆｌ海洋大学，２０１４）用［］［３５（邓甜甜．２０］５２８）２：，熊荫乔，刘建娥基于汁费系统的校园网Ｈ］户行为分析长沙人学学报，，［］［几－１１６１１９［３６］ＪｅｓｓｉｅＨｕｉＷａｎｇＣｈａｎｉｎＡｎ，ＪｉａｈａｉＹａｎ．Ａｓｔｕｄｏｆｔｒａｆｆｉｃ，ｕｓｅｒｂｅｈａｖｉｏｒａｎｄｒｉｃｉｎｏｌｉｃｉｅｓｉｎａ，ｇｑｇｇｙｐｇｐ－ｌａｒｅｃａｍｕｓｎｅｔｗｏｒｋＪ．ＣｏｍｕｔｅｒＣｏｍｍｕｎｉｃａｔｉｏｎｓ２０１１（３４）：１９２２１９３１ｇｐ［］ｐ，［３７］Ｇａｒｃｉａ，Ｄａｖｉｄ，Ｈａｌｅｇｏｕａ，Ｇｅｒｍａｉｎｅ，Ｍｅｊｏｖａ，Ｙｅｌｅｎａ，Ｐｅｒｒａ，Ｎｉｃｏｌａ，Ｐｆｅｆｆｅｒ．Ｊｉｉｒｇｅｎ，Ｒｕｔｈｓ，Ｄｅｒｅｋ，Ｗｅｂｅｒ，ＩｎｍａｒＷｅｔＲｏｂｅｒｔＺｉａＬｅｉｌａＲｅｏｒｔｓｏｆｈｅ２０１５ＷｏｒｋｓｈｏｓＨｅｌｄａｔｔｈｅＩｎｔｅｒｎａｔｉｏｎａｌＡＡＡＩｇ，ｓ，．ｔ，，ｐｐＣｏｎｆｅｒｅｎｃｅｏｎＷｅｂａｎｄＳｏｃｉａｌＭｅｄｉａＪ．Ａ１Ｍａａｚｉｎｅ，２０１５３６４：．［］ｇ，［３８］Ａｎｏｎｙｍｏｕｓ．ＯｐｔｉｃａｌＣａｂｌｅＣｏｒｐｏｒａｔｉｏｎ；ＯｐｔｉｃａｌＣａｂｌｅＣｏｒｐｏｒａｔｉｏｎＡｃｑｕｉｒｅｓＡｐｐｌｉｅｄＯｐｔｉｃａｌＳｙｓｔｅｍｓ，ｎｃ．．ＢｉｏｔｅｃｈＢｕｓｉｎｅｓｓＷｅｅｋ２００９：．Ｉ［Ｊ，，］［３９］Ａｎｏｎｙｍｏｕｓ．ＯｐｔｉｃａｌＣａｂｌｅＣｏｒｐｏｒａｔｉｏｎ；ＯｐｔｉｃａｌＣａｂｌｅＣｏｒｐｏｒａｔｉｏｎＭｅｒｇｅｓＳＭＰＤａｔａＣｏｍｍｕｎｉｃａｔｉｏｎｓＳｕｂｓｉ．ｉｄｉａｒｙＪ．ＢｉｏｔｅｃｈＢｕｓｎｅｓｓＷｅｅｋ，２００９，：［］４０Ｓ＇ｅｗｅｌＲｏｂｉｎＲ．Ｗｈｏｉｓｆｏｌｌｏｗｉｎｕｓ？ＤａｔａｉｎｉｎａｌｉｂｒａｒｓＴｗｉｔｅｒｆｏｌｌｏｗｅｒＪ，ＬｉｒａｒＨｉｌｍｓｂ［］，ｇｇｙ［］ｙＴｅｃｈ２０．１３３１１：，，４１ＷｏｎＣｈｒｌｅ．ＡＮｌＯｅｒａｔｉｏｎａｌＰａｒｔｉｔｉｏｎｂｅｔｗｅｅｎＮｅｕｒａｌＮｅｔｗｏｒｋＣｌａｓｓｉｆｉｅｒｓｏｎＶｕｌｎｅｒａｂｉｌｉｔｔｏ，ａｓｏｖｅ［］ｇｐｙＤａｔａＭｉｎｉｎｇＢｉａｓ［Ｊ］．ＪｏｕｒｎａｌｏｆＳｏｆｔｗａｒｅＥｎｇｉｎｅｅｒｉｎｇａｎｄＡｐｐｌｉｃａｔｉｏｎｓ，２０１４，７４：．Ｄ－Ｍ－４２ａｉｈｅｅＰａｒｋＪａｅｈａｋＹｕＪｕｎＳａｎＰａｒｋｕｎＳｕＫｉｍ．ＮｅｔＣｕｂｅ：ａｃｏｍｒｅｈｅｎｉｖｅｎｔｗｏｒｋｔｒａｆｆｉｃ，，，ｓｅ［］ｇｙｇｐｐａｎａｌｓｉｓｍｏｄｅｌｂａｓｅｄｏｎｍｕｌｔｉｄｉｍｅｎｓｉｏｎａｌＯＬＡＰｄａｔａｃｕｂｅＪ．Ｉｎｔ．Ｊ．ＮｅｔｗｏｒｋＭｍｔ２０１２２３２：．ｙ［，，］ｇ４３ＹｉｎｉｅＺｈｏｕＧｕａｎｍｉｎＨｕＤａｅｎＷｕ．Ａｄａｔａｉｎｉｎｓｓｔｅｍｒｄｉｓｔｒｉｂｕｔｅｄａｂｎｏｒｍａｌｅｖｅｎｔｄｅｔｅｃｔｉｏｎ，，ｍｆｏ［］ｇｊｇｐｇｇｙｉｎｂａｃｋｂｏｎｅｎｅｔｗｏｒｋｓＪ．ＳｅｃｕｒｉｔＣｏｍｍ．Ｎｅｔｗｏｒｋｓ，２０１４，７５：．［］ｙ４４ＳｉｍｏｎＦｏｎ．ＤａｔａＭｉｎｉｎｆｏｒＲｅｓｏｕｒｃｅＰｌａｎｎｉｎａｎｄｏＳＳｕｏｒｔｓｉｎＧＳＭＮｅｔｗｏｒｋｓＪ．Ｊｏｕｒｎａｌｏｆ［］ｇｇｇＱｐｐｆ］ＥｍｅｒｇｉｎｇＴｅｃｈｎｏｌｏｇｉｅｓｉｎＷｅｂＩｎｔｅｌｌｉｇｅｎｃｅ，２０１１，３２：．“”４５ＪａｓｏｎＣ．Ｈｕｎ．ＦｏｒｅｗｏｒｄｏｆＳｅｃｉａｌＩｓｓｕｅｏｎＮｏｍａｄｉｃＳｅｒｖｉｃｅｓａｎｄＡｌｉｃａｔｉｏｎｓＪ．Ｊｏｕｒｎａｌｏｆ［］ｇｐｐｐ［］Ｎｅｔｗｏｒｋｓ２０１１６５：．，，４６Ｗ－ＣＦｒｅｎｈｉｈＣｈａｎｅｙａＨ．Ｌｉｎ．ＥｄｉｔｏｒｉａｌＪ．ＪｏｕｒｎａｌｏｆＳｏｆｔｗａｒｅ２００９，４２：．［］ｇ，［］，－－－ｍｍａｎｄｎ４７ＳｈｉｎｅＣｈｉｈＨｏｎＳｕｎＣｈＨＣｈ．Ｔｍｏｒａｌｄａｔｎｎｕｓｉｎｅｎｅｔｉｃａｌｌ［］ＷｅｉＬｉｎｉｎａｎｅｎｅａｉｉｒｉｔｈｅｕｒａ，ｇ，ｐｇｇｇｇｏ－—Ａｃａｓｅｓｔｕｄｏｆ．ｉｌｆｏｒｍａｉｎｅｔｗｏｒｋａｉｒｏｌｌｕｔａｎｔｆｏｒｅｃａｓｔｓＪＧｅｏｓａｔａＩｎｔｏｎＳｃｉｅｎｃｅ２００４７１：．ｙｐ［］ｐ，，４８Ａａｈ－－ｉｋｏＮｉｉｍｉＨｉｒｏｓｈｉＳｈｉｍａｄａＲｋａＧｏｏＭａｓａａｋｉＷａｄａＫｉＩｏＯｓａｍｕＫｏｎｓ．Ｐｅｅｒｔｏｅｅｒｓｅｎｓｏｒｉｔ，ｅｔｉｈｉ［］ｙ＾？，，ｐｎｅｔｗｏｒｋｓｙｓｔｅｍｆｏｒａｓｃｈｏｏｌｔｅｍｐｅｒａｔｕｒｅｍｅａｓｕｒｅｍｅｎｔｓｙｓｔｅｍＪ．ＡｒｔｉｆｉｃｉａｌＬｉｆｅａｎｄＲｏｂｏｔｉｃｓ２００８１２１：．，，［］６２ 浙江Ｔ业大学硕十学位论文４９ＥｄｕａｒｄＧｌｉｄｉｈａｄｉｉｌ．ｉｌｉｉｂｉｌａｔｚＳｔｅｉｏｓＭａｖｒｏｍａｔｓ，ＢｅｍｒＡｅｒ，ＸｅｎｏｆｏｎｔａｓＤｍｔｒｏｏｕｏｓＶｓｕａｚｎｎｅｔｗｏｒｋ，［］ｇｐｇｇｔｒａｆｆｉｃｄａｔａｕｓｉｎｆｒｅｕｅｎｔａｔｅｒｎｍｉｎｉｎａｎｄｈｅｒｒａｈｓＪ．Ｃｏｍｕｔｉｎ２０１４９６１ｇｑ，ｐｇｙｐｇｐ［］ｐｇ，－５０ＹｉａｎｎｉｓＫｏｋｋｉｎｏｓＫｏｎｓｔａｎｔｉｎｏｓＧ．Ｍａｒａｒｉｔｉｓ．Ａｄｉｓｔｒｉｂｕｔｅｄｒｉｖａｃｒｅｓｅｒｖｉｎｒｅｕｌａｒｉｚａｔｉｏｎｎｅｔｗｏｒｋ［］，ｇｐｙｐｇｇｃｏｍｍｉｔｅｅｍａｃｈｉｎｅｏｆｉｓｏｌａｔｅｄＰｅｅｒｃｌａｓｓｉｆｉｅｒｓｆｏｒＰ２ＰｄａｔａｍｉｎｉｎｇＪ．ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｅｎｃｅ［］ｇＲ．ｅｖｉｅｗ１４４２３：，２０，５－１ＡｍｉｔＫｕｍａｒＢｈａｒｄｗａＭａｎｎｄｅｒＳｉｎｈ．Ｄａｔａｍｉｎｉｎｂａｓｅｄｉｎｔｅｒａｔｅｄｎｅｔｗｏｒｋｔｒａｆｆｉｃｖｉｓｕｌｉｚａｔｉｏｎ，ｉａ［］ｊｇｇｇｆｒａｍｅｗｏｒｋｆｏｒｔｈｒｅａｔｄｅｔｅｃｔｉｏｎＪ．ＮｅｕｒａｌＣｏｍｕｔｉｎａｎｄＡｌｉｃａｔｉｏｎｓ２０１５２６１，，［］ｐｇｐｐ［５２Ｓ．ＭＡ．ＫＡＬＡＩＡＲＡＳＩ，Ｇ．ＳＡＩＮＡＲＡＹＡＮＡＮ，ＡＬＩＣＨＥＫＩＭＡ，ＪＡＳＯＮＴＥＯ．ＩＮＶＥＳＴＩＧＡＴＩＯＮＯＦ］ＤＡＴＡＭＩＮＩＮＧＵＳＩＮＧＰＲＵＮＥＤＡＲＴＩＦＩＣＩＡＬＮＥＵＲＡＬＮＥＴＷＯＲＫＴＲＥＥＪ．Ｊｏｕｒｎａｌｏｆ［］ＥｎｇｉｎｅｅｒｉｎｇＳｃｉｅｎｃｅａｎｄＴｅｃｈｎｏｌｏｇｙ，２００８，３３：．－ＣＣａＨ５３ｈ．Ｌｎ．ＥｄｔｒｉａｌＪ．Ｊｏｕｒｎａｌｏｆｔｗａｒｅ２００９４２：．Ｗｅｎｉｈｈａｎｇ，ＦｒｅｉｉｏｆＳｏ，，［］ｙ［］５４Ｂ．Ｂ．ＭｉｓｒａＳ．ｈｕｉ．ＦｕｎｃｉｏｎａｌＬｉｔｉｆｃｉａｌＮｅｕｒａｌＮｅｔｗｏｒｋｆｏＣｌａｓｉｆｃａｔｉｏｎＴａｋｉｎＤａｔａ，ＤｅｒｔｎｋＡｒｉｒｓｉｓ［］Ｍｉｎｉｎｇ［Ｊ．ＪｏｕｒｎａｌｏｆＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅ，２００７，３１２：．］ａ－－５５ＷｅｎｈａｏＹｕ．ＳｔｉａｌｃｏｌｏｃａｔｉｏｎａｔｅｒｎｍｉｎｉｎｆｏｒｌｏｃａｔｉｏｎｂａｓｅｄｓｅｒｖｉｃｅｓｉｎｒｏａｄｎｅｔｗｏｒｋｓＪ．Ｅｘｅｒｔ［ｐｐｇ［］ｐ］ＳｓｔｅｍｓＷｉｔｈＡｌｉｃａｔｉｏｎｓ２０１６，４６：．ｙｐｐ，６３ 浙江Ｔ业大学硕十学位论文致谢本论文是在导师的谆谆教诲和指导下完成的，从选题、构思到定稿无不渗透着导师的心血和汗水；导师渊博的知识和严谨的学风使我受益终身，在此表示深深的敬意和感谢。一这次写论文的经历也会使我终身受益，我感受到，做论文是要真真正正用心去做的，。没有认真学习和钻研件事情是真正的自己学习的过程和研究的过程，自己就不可能有研究的能力，就不可能有自己的研究，就不会有所收获和突破。希望这个经历，在今后的学习和生活中能够继续激励我前进。，还要特别感谢我的家人，他们时刻关心我，另外给我提供了学习的机会，时时刻刻，进而促使我不断成长和进步，为我鼓劲、为我加油。在完成毕业论文的过程中很多朋友和同事都给了我无私的帮助和支持，在此表示由衷的谢意！最后，，因本人水ｆ有限，论文还有足之处恳请各位老师批评指正，我希望可以有机会继续去完善，我将不断努力继续充实自己。６４ 浙江Ｔ．业大学硕＋学位论文攻读学位期间参加的科研项目和成果参加的科研项目（１国家自然科学基金：名称项冃编号），［］录用和发表的论文，１按论文发表的时间顺序列齐本人在攻读学位期间犮表或已录用的学术论文清单（格［］式参照参考文献的写法，，须删）作者单位必须是浙江工业大学。对论文的盲审版本去作者名。２投稿的论文不在此列。［］专利１［］６５

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 75



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

大家都在看

近期热门

基于数据挖掘的校园网用户行为分析系统的设计与实现

基于数据挖掘的校园网用户行为分析系统的设计与实现

最近更新

大家都在看

相关文章

相关标签