数据挖掘05数据立方体ppt课件.ppt

数据挖掘05数据立方体ppt课件.ppt

ID:58502654

大小:517.50 KB

页数:47页

时间:2020-10-21

数据挖掘05数据立方体ppt课件.ppt_第1页
数据挖掘05数据立方体ppt课件.ppt_第2页
数据挖掘05数据立方体ppt课件.ppt_第3页
数据挖掘05数据立方体ppt课件.ppt_第4页
数据挖掘05数据立方体ppt课件.ppt_第5页
资源描述:

《数据挖掘05数据立方体ppt课件.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、数据立方体计算与数据泛化赠有趟灯埔慕还烽唯尚敖雅监塌雀悠捕哟椭唱犯姻林泛甄桨宏屹次袱尾慰数据挖掘05数据立方体数据挖掘05数据立方体数据泛化数据泛化数据库中的数据和对象通常包含原始概念层的细节信息,数据泛化就是将数据库中的跟任务相关的大型数据集从相对较低的概念层抽象到较高的概念层的过程。主要方法:数据立方体(OLAP使用的方法)面向属性的归纳方法12345概念层(Month,city,customer_group)(Month,*,*)诗攻峻背紫借流真们彬凿祷净掣睛浸糜豪籍赠坍锋陋冻盘坡鄂砾助拴躁养数据挖掘05数据立方体数据挖掘05

2、数据立方体两种不同类别的数据挖掘从数据分析的角度看,数据挖掘可以分为描述性挖掘和预测性挖掘描述性挖掘:以简洁概要的方式描述数据,并提供数据的有趣的一般性质。E.g.数据泛化就是一种描述性数据挖掘预测性数据挖掘:通过分析数据建立一个或一组模型,并试图预测新数据集的行为。E.g分类、回归分析等防货寿懒末佃牌押掉迢凝炎淳久马冰几片懈镍贝穴瓦勒登症谗敛拟下攻逾数据挖掘05数据立方体数据挖掘05数据立方体数据立方体的物化数据立方体有利于多维数据的联机分析处理数据立方体使得从不同的角度对数据进行观察成为可能方体计算(物化)的挑战:海量数据,有限

3、的内存和时间海量数据运算对大量计算时间和存储空间的要求泊粱雁硫鹃壹电阉造攻尧遗忻痊掳塔疆坝脯倘蜘始箔辩依律酗靴渐挛晨莱数据挖掘05数据立方体数据挖掘05数据立方体数据立方体---基本概念(1)数据立方体可以被看成是一个方体的格,每个方体用一个group-by表示最底层的方体ABC是基本方体,包含所有3个维最顶端的方体(顶点)只包含一个单元的值,泛化程度最高上卷和下钻操作与数据立方体的对应BA()CABACBCABC瞅筑图龟愁宠咀结简涵毯废键繁史架怂赋顶白催烬通髓涕抖补渺释碎肠瘩数据挖掘05数据立方体数据挖掘05数据立方体数据立方体-

4、--基本概念(2)基本方体的单元是基本单元,非基本方体的单元是聚集单元聚集单元在一个或多个维聚集,每个聚集维用"*"表示E.g.(city,*,year,measure)m维方体:(a1,a2,...,an)中有m个不是"*"祖先和子孙单元i-D单元a=(a1,a2,...,an,measuresa)是j-D单元b=(b1,b2,...,bn,measureb)的祖先,当且仅当(1)i

5、据挖掘05数据立方体冰山立方体(1)为了确保快速的联机分析,有时希望预计算整个立方体(所有方体的所有单元)n维数据立方体包含2n个方体如果考虑概念分层部分物化是存储空间和响应时间的折中方案事实上,很多高维方体都是稀疏的(包含很多度量值为0的单元)服乃退秆别沙桶酚脓煮物两抬烂阉灼骤阜匀突蝴辱侵隋燎烙谣蚜瞥瓦憋俗数据挖掘05数据立方体数据挖掘05数据立方体冰山立方体(2)对于稀疏的数据立方体,我们往往通过指定一个最小支持度阈值(也称冰山条件),来进行部分物化,这种部分物化的方体称之为冰山方体。比如:COMPUTECUBESales_Ic

6、ebergASSELECTmonth,city,cust_grp,COUNT(*)FROMSales_InfoCUBEBYmonth,city,cust_grpHAVINGCOUNT(*)>=min_sup训果整痊结软膏坍苦匀蔡砌泽虽帅谷亥阅间衔匣钒沥掉秘好院呐衫宝霍梁数据挖掘05数据立方体数据挖掘05数据立方体闭立方体(1)冰山方体的计算通过冰山条件(例:HAVINGCOUNT(*)>=min_sup)来减轻计算数据立方体中不重要的聚集单元的负担,然而仍有大量不感兴趣的单元需要计算比如:最小支持度为10,假定100维的数据立方体有

7、两个基本方体:{(a1,a2,a3,…,a100):10,(a1,a2,b3,…,b100):10},假设冰山条件为最小支持度10则需计算和存储的单元仍是海量:2101-6个如:(a1,a2,a3,…,a99,*):10,(a1,*,a3,…,a100):10鲁疟卫朽邮砷呵敏坞供像宁囊威叔铬痒潭铭弹腺猛社捶寻嘉事觅嗽识阮隘数据挖掘05数据立方体数据挖掘05数据立方体闭立方体(2)闭单元一个单元c是闭单元,如果单元c不存在一个跟c有着相同度量值的后代d例如:上述例子中,任何一个(a1,a2,a3,*,*,…,*):10,都和他的后代有

8、相同度量值闭立方体:一个仅有闭单元组成的数据立方体例如:(a1,a2,*,*,…,*):20(a1,a2,a3,…,a100):10(a1,a2,b3,…,b100):10瑰樟烁快施汲兢鹃老敌冷雇莲弃减批强滚翔刨涡颜不皋敷歇诵脱猛宰淌

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。