北京邮电大学本科毕业设计(论文)开题报告-xxx

北京邮电大学本科毕业设计(论文)开题报告-xxx

ID:12173437

大小:49.50 KB

页数:3页

时间:2018-07-16

北京邮电大学本科毕业设计(论文)开题报告-xxx_第1页
北京邮电大学本科毕业设计(论文)开题报告-xxx_第2页
北京邮电大学本科毕业设计(论文)开题报告-xxx_第3页
资源描述:

《北京邮电大学本科毕业设计(论文)开题报告-xxx》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、北京邮电大学本科毕业设计(论文)开题报告学院计算机学院专业计算机科学与技术班级-学生姓名Xxx学号-班内序号-指导教师姓名Xxx所在单位计算机学院职称讲师设计(论文)题目移动互联网环境下手机病毒挖掘引擎的开发与测试-关联规则算法选题背景意义:本次毕设主要处理的数据类型为数据流。数据流(datastream)最初是通信领域使用的概念,代表传输中所使用的信息的数字编码信号序列。然而,我们所提到的数据流概念与此不同。这个概念最初在1998年由Henzinger在文献87中提出,他将数据流定义为“只能以事先规定好的顺序被读取一次的数据的一个序列

2、”。如今的社会是信息化时代,随着信息的大量产生,需要处理的数据正以每天数以百万计甚至没有上限的速度增长,并且这些数据与传统的静态数据不同而是一种动态的数据流。近年来,由于计算机能力的飞速发展,对实时进行数据挖掘的需求变得越来越迫切,即在数据流到达的时候就对其进行挖掘,数据流挖掘因此逐渐成为数据挖掘领域中的一个新的热门方向,因而关于数据流相关应用的研究受到学界的关注。在这些应用中都会生成大量的流数据,例如金融行业、网络监控、安全领域、电信通讯领域数据、SNS网络应用领域、制造业、Sensor网络领域以及其它的相关领域。这些连续到达的多维、

3、高速、时变、不可预测、无边界的数据流成为学界新的研究课题。这些快速生成、连续到达的数据流信息对于计算系统的存储、计算提出了新的挑战。选择该课题,符合社会当下的热点技术研究,对较多的行业都具有实用价值。关联规则在数据流挖掘上主要应用在于频繁模式挖掘,数据流上的频繁模式能够为数据流应用提供重要的决策依据。但是,由于数据流的流动性与连续性,数据流上频繁模式信息随着流数据的连续产生而不断发生变化。在大多数数据流的应用中,用户往往更加关注数据流上最近事务数据所包含的模式信息。近年来,数据流上频繁模式挖掘工作受到广泛的关注,并取得了很多成果。然而大

4、部分的频繁模式挖掘算法都存在着明显的缺陷,例如空间复杂度大,灵活性差等。本次毕设需要提出一种能够高效挖掘数据流任意大小滑动时间窗口内频繁模式的方法。该方法使用结构紧凑的滑动窗口树SW-tree来压缩存储数据流滑动时间窗口内的频繁模式。当数据流流过时,仅需单遍访问流数据元素,滑动窗口树可以增量捕获数据流上最新的模式信息。同时,方法还应当周期性地对滑动窗口树进行剪枝,删除那些过期的和不频繁的模式所对应的分支,从而减小滑动窗口树的空间复杂度与维护代价。研究基本内容:1.关联规则算法的研究使用关联算法进行数据流挖掘。2.滑动窗口的研究由于数据流

5、是流动的,在使用关联算法进行数据挖掘时,需要建立时间窗,对滑动时间窗口的数据进行研究。3.对于GTk+框架的研究利用Gtk+工具包完成GUI的开发工作。需解决的主要问题:本次毕设主要问题在于数据流挖掘的算法实现。主要可以分为下列几个子问题。1)提出一种存储结构来适应挖掘数据流滑动时间窗口内的频繁模式;2)实时地维护滑动时间窗口内事务数据集最新的模式信息;3)保证在挖掘过程中不丢失数据流上的模式信息;4)及时响应用户请求,并在有效时间内反馈查询结果。研究方法及措施:为了解决问题,提出了下列几种措施。1)滑动窗口树SW-tree为了适应挖掘

6、数据流滑动时间窗口内的频繁模式,设计一种被称为滑动窗口树的前缀模式树来增量维护数据流上的模式信息。SW-tree是一种基于频繁模式树FP-tree的改进模式树。2)增量更新随着时间的推移,新的事务数据进入滑动时间窗口SW而历史的事务数据从SW中移出,因此,SW内事务数据的集合在不断地发生变化。为了实时地维护SW内事务数据集最新的模式信息,当新的事务数据到达时,必须及时对其进行处理,并将其模式信息增量更新至滑动窗口树SW-tree上。此外,在滑动窗口树上,由于各分支上节点排列的顺序与各数据项在数据流中出现的先后顺序及出现的频率无关。因此,

7、流数据的处理及滑动窗口树的增量更新不依赖数据流中未来达到的流数据。当新的事物数据到达时,将事物所包含的模式信息增量跟新至滑动窗口树SW-tree上。3)快速剪枝为了不丢失数据流上的模式信息,在滑动窗口树增量更新时,事务数据所包含的不频繁模式也同时保存到滑动窗口树上。随着时间的推移,不频繁模式的数量将迅速增加,而导致滑动窗口树的空间复杂度及维护代价大为增加。为了减少维护滑动窗白树的时间与空间代价,必须定期地对滑动窗口树进行剪枝,删除树上那些过期的和不频繁模式所对应的分枝。4)模式输出根据数据流应用的特点,当用户提交数据流滑动时间窗口内频繁

8、模式查询请求后,系统要求能够及时地响应用户请求并在有限的时间内反馈查询的结果。由于滑动窗口树上不仅维护着频繁的模式信息,还包含着临界频繁的模式信息因此,当模式输出时,需要首先判断滑动窗口树上节点数据项是否频

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。