数据挖掘2015最新精品课程完整课件(第5讲)---关联规则挖掘的其它问题.ppt

数据挖掘2015最新精品课程完整课件(第5讲)---关联规则挖掘的其它问题.ppt

ID:56477136

大小:854.00 KB

页数:27页

时间:2020-06-19

数据挖掘2015最新精品课程完整课件(第5讲)---关联规则挖掘的其它问题.ppt_第1页
数据挖掘2015最新精品课程完整课件(第5讲)---关联规则挖掘的其它问题.ppt_第2页
数据挖掘2015最新精品课程完整课件(第5讲)---关联规则挖掘的其它问题.ppt_第3页
数据挖掘2015最新精品课程完整课件(第5讲)---关联规则挖掘的其它问题.ppt_第4页
数据挖掘2015最新精品课程完整课件(第5讲)---关联规则挖掘的其它问题.ppt_第5页
资源描述:

《数据挖掘2015最新精品课程完整课件(第5讲)---关联规则挖掘的其它问题.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、关联规则挖掘的其它问题主要内容基于多最小支持度的关联规则关联规则的评价支持度的分布大多数数据集中支持度的分布都不平衡一个零售数据集中支持度的分布支持度的分布如何合理设置最小支持度阈值minsup?minsup过高,可能会丢失稀有的、令人感兴趣的项目(如,贵重商品或耐用品)。minsup过低,则计算开销过大,结果项集过多。使用单一的最小支持度效果不佳。多最小支持度模型每个项目都有一个最小支持度(MinimumItemSupports,MIS)。通过为不同的项目提供不同的MIS值,用户可以表达对不同规则的不同支持度的需求。规则的最小支持度设MIS(i)代表项目i的MIS.规则R的最小支

2、持度阈值minsup是规则所包含项目的最小MIS。规则R:a1,a2,…,akak+1,…,ar满足最小支持度阈值,若其实际的支持度min(MIS(a1),MIS(a2),…,MIS(ar)).多最小支持度举例MIS(Milk)=5%,MIS(Coke)=3%, MIS(Broccoli)=0.1%,MIS(Salmon)=0.5%MIS({Milk,Broccoli})=min(MIS(Milk),MIS(Broccoli)) =0.1%支持度不再满足反单调性假设:Support(Milk,Coke)=1.5%且Support(Milk,Coke,Broccoli)=0.5%

3、{Milk,Coke}不频繁,但{Milk,Coke,Broccoli}频繁MSapriori算法按支持度升序排列项目e.g.:MIS(1)=10%MIS(2)=20%MIS(3)=5%MIS(4)=6%顺序:3,4,1,2对Apriori进行修改:L1:1-频繁项集(支持度minMIS(i))F1:{i

4、sup(i)MIS(i)}C2:2-候选项集从F1,而不是L1中连接得到举例假设数据集包含100条事务,第一次扫描数据库得到如下项目的支持度:{3}.count=6,{4}.count=3,{1}.count=9,{2}.count=25.则L1={3,1,2},andF1=

5、{3,2}由于4.count/n

6、BDABEACDACEADEBCDBCEBDECDEItemMIS(I)Sup(I)A0.10%0.25%B0.20%0.26%C0.30%0.39%D0.50%0.05%E3%4.20%主要内容基于多最小支持度的关联规则关联规则的评价挖掘各种关联规则支持度-置信度框架的局限性支持度的缺点在于许多潜在有意义的模式由于包含支持度小的项而被删去。置信度的缺陷在于忽略了规则后件中项集的支持度。如咖啡和茶的问题。置信度和支持度的失效Example(Aggarwal&Yu,PODS98)5000名学生中3000打蓝球3750吃稻米2000既打篮球又吃稻米打篮球吃稻米[40%,66.7%]被

7、误导了,因为吃稻米的学生总数为75%,高于66.7%.打篮球不吃稻米[20%,33.3%]则更为精确,尽管其支持度和置信度更低感兴趣度的应用InterestingnessMeasuresLift作为相关度量称规则A->B的提升度大于1,A和B正相关,A的出现意味着B的出现等于1,A和B独立小于1,A和B负相关,A的出现以往着B的减少感兴趣度的类型很多针对不同的应用,不同感兴趣度的效果不一样兴趣度的度量列表合适的感兴趣度Piatetsky-Shapiro:一个合适的感兴趣度应具备3个特性:若A和B是统计独立的,则M(A,B)=0当P(A)和P(B)保持不变时,M(A,B)随着P(A

8、,B)单调递增当P(A,B)和P(B)(或P(A))保持不变时,M(A,B)随着P(A)(或P(B))单调递减感兴趣度的性质M(A,B)=M(B,A)?对称的感兴趣度:support,lift,collectivestrength,cosine,Jaccard,etc非对称的感兴趣度:confidence,conviction,Laplace,J-measure,etc扩展不变性MaleFemaleHigh235Low1453710MaleFemaleHigh4303

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。