基于数据立方体的多维关联规则挖掘及应用

基于数据立方体的多维关联规则挖掘及应用

ID:37377717

大小:250.23 KB

页数:6页

时间:2019-05-22

基于数据立方体的多维关联规则挖掘及应用_第1页
基于数据立方体的多维关联规则挖掘及应用_第2页
基于数据立方体的多维关联规则挖掘及应用_第3页
基于数据立方体的多维关联规则挖掘及应用_第4页
基于数据立方体的多维关联规则挖掘及应用_第5页
资源描述:

《基于数据立方体的多维关联规则挖掘及应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基于数据立方体的多维关联规则挖掘及应用张会容俞金寿张会容女士,华东理工大学自动化研究所硕士研究生;俞金寿先生,教授、博士生导师。关键词:数据挖掘多维关联规则数据立方体OLAP丙烯腈数据库中知识发现(KnowledgeDiscoverinDatabases,KDD)是目前人工智能和数据库相交叉的一个热门研究领域。数据挖掘(DataMining,DM)是KDD的一个十分重要步骤,其内容涉及各种知识模式的提取算法。关联规则是数据库中存在的一种十分有用的知识模式,其挖掘算法已得到较为广泛的重视和研究,并取得了较大进展。另外,多维

2、数据分析、多维数据立方体(Muti_DimensionalDataCube)等也是近年来涌现的一些更有效地对数据进行组织、存储、分析和处理的新方法。多维数据立方体是数据仓库中组织和处理数据的一种重要手段,结合联机分析处理(OnlineAnalyticalProcessing,OLAP)技术,可对存储数据进行高效的多维、多视角查看和分析。由于现有OLAP技术已容许构建数据立方体,且数据立方体内已有各项目出现次数的统计,因此可通过读取其统计数据来确定频繁项目集,这可使得挖掘过程效率大大提高。对过程工业中数据的分析表明,过程工

3、业中也存在着大量的关联规则。本文将以丙烯腈生产为例,将影响丙烯腈收率的5个关键属性和丙烯腈收率生成一个六维数据立方体;运用OLAP切片技术,对六维数据立方体进行降维操作;扫描数据切片,输出所有两维频繁谓词集;根据两维频繁项集由最小置信度得出强关联规则。因为本课题要大量分析在其他维确定的条件下另外两维数据之间的关联规则,所以用到OLAP的切片技术,能使挖掘速度大大提高。本文将详细讨论如何把基于数据立方体的多维关联规则的挖掘方法应用在过程工业中的参数优化问题上。一多维关联规则挖掘关联规则概念首先由R.Agrawal等于199

4、3年提出,它是指客体间的相互关系。假设I={i1,i2,⋯,im}是m个不同项目的一个集合。给定一个交易数据库D,其中每一个交易T是I中一组项目的集合,即T包含于I。每一个交易都与一个唯一的标识符TID相关联。如果对于I中的一个子集X,有X⊆T,我们就说一个交易T包含X。一条关联规则就是一个形如X⇒Y的蕴涵式,其中,X⊆I,Y⊆I,且X∩Y=φ。如果D中C%的包含X的交易同时也包含Y,则关联规则X⇒Y在D中以可信度C%成立。如果D中s%的交易包含X∪Y,则关联规则X⇒Y在D中具有支持度s%。关联规则挖掘就是找出D中所有满

5、足用户给定支持度s(最小支持度)和可信度c(最小可信度)的所有X⇒Y。最小支持度是指项目集在总事务中出现次数占总事务数的最低比率。最小可信度是指两个项目集X和Y,在所有出现的X项目集中,X和Y同时出现的次数所占的最小比例。项目集是I的一个子集,频繁项目集是指满足用户给定最小支持度的项目集。传统关联规则挖掘是通过对事务数据库中项目集的重复统计求出频繁项目集,进而生成相应关联规则的挖掘方法,项目集是从一维属性中得到,因此生成的关联规则是单维关联规则。包含两个或更多谓词的关联规则就称为多维关联规则,无重复谓词的多维关联规则被称

6、为维内关联规则;含重复谓词的多维关联规则被称为混合维关联规则。二数据立方体(DataCube)数据立方体是指含有多维属性的统计实体,设为n维,每维共有

7、di

8、+1个值,其中

9、di

10、是指第I维中互不相同的属性值,每维中再加上一个“Any”值,共

11、di

12、+1个不同值。假设存在一个n维空间,则由每一维中各取一个具体的属性值,则可对应一个n维空间中的点,这个点称之为方格,每个方格内存储了与其对应的各属性的值同时出现的次数,用count表示。三联机分析处理(OLAP)OLAP是数据仓库分析的一个常用方法,主要提供多维数据分析,用于

13、各种粒度的多维数据分析,许多数据挖掘功能,如关联规则、分类、预测和聚类,都可与OLAP操作集成,以加强多个抽象层上的交互知识挖掘。OLAP操作能对多维形式组织起来的数据采取切片、切块等各种分析动作,以求剖析数据,是最终用户能从多角度、多侧面观察数据库中的数据,从而深入了解包含在数据中的信息、内涵。多维方式迎合了人的思维模式,因此减少了混淆,且降低了出现错误解释的可能性。在多维数据集中,切片及切块主要是根据用户观察数据角度的不同以及多少而采取的不同操作方式。选定多维数据集的一个二维子集的动作叫做切片(Slice),即选定多

14、维数据集(维1,维2,维n,事实度量)中的任意两个维:维i和维j,在这两个维上去取某些维成员或全部维成员,而将其余的维都取定一个维成员,即将其余的维固定,则得到的就是多维数据集在维i和维j上的一个二维子集,称这个二维子集为多维数据集在维i和维j上的一个切片,表示为(维i,维j,事实度量)。实际上,可形象地将切片看作是

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。