数据挖掘2015最新精品课程完整课件(第7讲)---挖掘复杂类型频繁模式.ppt

数据挖掘2015最新精品课程完整课件(第7讲)---挖掘复杂类型频繁模式.ppt

ID:56477134

大小:1.05 MB

页数:44页

时间:2020-06-19

数据挖掘2015最新精品课程完整课件(第7讲)---挖掘复杂类型频繁模式.ppt_第1页
数据挖掘2015最新精品课程完整课件(第7讲)---挖掘复杂类型频繁模式.ppt_第2页
数据挖掘2015最新精品课程完整课件(第7讲)---挖掘复杂类型频繁模式.ppt_第3页
数据挖掘2015最新精品课程完整课件(第7讲)---挖掘复杂类型频繁模式.ppt_第4页
数据挖掘2015最新精品课程完整课件(第7讲)---挖掘复杂类型频繁模式.ppt_第5页
资源描述:

《数据挖掘2015最新精品课程完整课件(第7讲)---挖掘复杂类型频繁模式.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、挖掘复杂类型频繁模式主要内容序列模式挖掘频繁子图挖掘序列模式挖掘序列挖掘或称序列模式挖掘,是指从序列数据库中发现蕴涵的序列模式。时间序列分析和序列模式挖掘有许多相似之处,在应用范畴、技术方法等方面也有很大的重合度。但是,序列挖掘一般是指相对时间或者其他顺序出现的序列的高频率子序列的发现,典型的应用还是限于离散型的序列。序列模式挖掘最早是由Agrawal等人提出的,它的最初动机是针对带有交易时间属性的交易数据库中发现频繁项目序列以发现某一时间段内客户的购买活动规律。近年来序列模式挖掘已经成为数据挖掘的一个重要方面,其应用范围也不局限于交易数据库,在DNA分析等尖端科学研究

2、领域、Web访问等新型应用数据源等众多方面得到针对性研究。3概述频繁序列(frequentsequentialpattern)源自频繁项集序列模式挖掘的应用购物序列医疗处方股市通话序列Web点击序列程序执行序列DNA序列和基因结构序列模式挖掘给定一个序列的集合,挖掘全部的频繁子序列模式Asequencedatabase每个元素包含了项目的集合,元素内的项目没有顺序。的子序列给定最小支持度阈值min_sup=2,<(ab)c>是频繁序列模式如果t中每个有序元素都是s中一个有序元素的子集,则称序列t是另一个序列s的子序列

3、。SIDsequence1020<(ad)c(bc)(ae)>30<(ef)(ab)(df)cb>40Asequence:<(ef)(ab)(df)cb>子序列(包含)一个序列是另一序列的子集(m≥n)当且仅当存在整数i1<{2}{3,5}>

4、Yes<{1,2}{3,4}><{1}{2}>No<{2,4}{2,4}{2,5}><{2}{4}>Yes序列模式的Apriori性质如给定最小支持度阈值min_sup=2,是非频繁的,则和<(ah)b>也不是频繁的50<(be)(ce)d>40<(ah)(bf)abf>30<(bf)(ce)b(fg)>20<(bd)cb(ac)>10SequenceSeq.ID若序列S不频繁,则S的超序列(super-sequences)也不再频繁。序列挖掘—数据源的形式表6-1带交易时间的交易数据源示例客户号(Cust_id)交易时间

5、(Tran_time)物品(Item)11June25’99June30’993090222June10’99June15’99June20’9910,203040,60,703June25’9930,50,70444June25’99June30’99July25’993040,70905June12’9990表6-2顾客序列表示例客户号(Cust_id)顾客序列(CustomerSequence)1<(30)(90)>2<(10,20)(30)(40,60,70)>3<(30,50,70)>4<(30)(40,70)((90)>5<(90)>带交易时间的交易数据库的

6、典型形式是包含客户号(Customer-id)、交易时间(Transaction-Time)以及在交易中购买的项(Item)等的交易记录表。表6-1给出了一个这样数据表的示例。这样的数据源需要进行形式化的整理,其中一个理想的预处理方法就是转换成顾客序列,即将一个顾客的交易按交易时间排序成项目序列。例如表6-2给出了表6-1对应的所有顾客序列表。17八月20218序列挖掘—数据源的形式(续)表6-2顾客序列表示例操作系统及其系统进程调用是评价系统安全性的一个重要方面。通过对正常调用序列的学习可以预测随后发生的系统调用序列、发现异常的调用。因此序列挖掘是从系统调用等操作系统

7、审计数据中发现有用模式的一个理想的技术。表6-3给出了一个系统调用数据表示意,它是利用数据挖掘技术进行操作系统安全性审计的常用数据源。表6-3系统进程调用数据示例进程号(Pro_id)调用时间(Call_time)调用号(Call_id)74474410699106974410699-104:01:10:3004:01:10:3104:01:10:3204:01:10:3404:01:10:3504:01:10:3804:01:10:3904:01:10:4023144245816216表6-4系统调用序列数据表示例进程号(Pro_id)

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。