数据挖掘算法总括.ppt

数据挖掘算法总括.ppt

ID:56373763

大小:768.00 KB

页数:39页

时间:2020-06-14

数据挖掘算法总括.ppt_第1页
数据挖掘算法总括.ppt_第2页
数据挖掘算法总括.ppt_第3页
数据挖掘算法总括.ppt_第4页
数据挖掘算法总括.ppt_第5页
资源描述:

《数据挖掘算法总括.ppt》由会员上传分享,免费在线阅读,更多相关内容在PPT专区-天天文库

1、数据挖掘算法总括决策树需要掌握决策树根节点的选取(计算)决策树的建立1.决策树建立的关键2.对测试样例的信息期望(Theexpectedinformationneededtoclassifyagivensample(中文可能称:评价函数))信息期望的分析与计算平均信息期望信息期望的减少(Gain)3.决策树建立步骤(例)2021/7/293DataMiningTool-DecisionTree,JiahuangJi,Ph.D.AllRightsReserved决策树的建立--决策树建立的关键树根?建立一个好的决策树的关键是

2、决定树根和子树根的属性2021/7/294DataMiningTool-DecisionTree,JiahuangJi,Ph.D.AllRightsReserved决策树的建立--决策树建立的关键年龄青中老2021/7/295DataMiningTool-DecisionTree,JiahuangJi,Ph.D.AllRightsReserved决策树的建立--对测试样例的信息期望年龄信息期望=0信息期望=?信息期望=?张三属于哪一类?为了回答该问题,对张三的信息期望值是多少?信息期望=?2021/7/296DataMin

3、ingTool-DecisionTree,JiahuangJi,Ph.D.AllRightsReserved决策树的建立--对测试样例的信息期望年龄平均信息期望?信息期望的减少?信息期望?2021/7/297DataMiningTool-DecisionTree,JiahuangJi,Ph.D.AllRightsReserved决策树的建立--对测试样例的信息期望让我们称所需要研究的属性为“分类属性”。假设该属性共分m类,而它们每一类在数据表中计数的总和分别为s1,s2…,sm。令s=s1+s2+…+sm那么对于任一样例,

4、决定它所属类别的信息期望可以用下面的公式来计算:I(s1,s2…,sm)=-pilog2(pi)其中pi=si/si=1m信息期望?2021/7/298DataMiningTool-DecisionTree,JiahuangJi,Ph.D.AllRightsReserved决策树的建立--对测试样例的信息期望例:左表分类属性:买计算机?该属性共分两类(m=2):买/不买s1=641,s2=383s=s1+s2=1024p1=s1/s=641/1024=0.6260p2=s2/s=383/1024=0.3740I(s1,s

5、2)=I(641,383)=-(p1log2(p1)+p2log2(p2))=0.9537信息期望?2021/7/299DataMiningTool-DecisionTree,JiahuangJi,Ph.D.AllRightsReserved决策树的建立--对测试样例的信息期望信息期望的减少(又称Gain)=信息期望–平均信息期望基于节点数据表基于该节点的所有直系分支数据表2021/7/2910DataMiningTool-DecisionTree,JiahuangJi,Ph.D.AllRightsReserved决策树的

6、建立--对测试样例的信息期望平均信息期望,E,是节点各直系分支的信息期望值的加权总和1.假定选择年龄作树根节点,则:青年组:I(128,256)=0.9183中年组:I(256,0)=0老年组:I(257,127)=0.9157青年组比例:(128+256)/1024=0.375中年组比例:256/1024=0.25老年组比例:(257+127)/1024=0.375平均信息期望(加权总和):E(年龄)=0.375*0.9183+0.25*0+0.375*0.9157=0.6877Gain(年龄)=I(641,383)-E

7、(年龄)=0.9537–0.6877=0.2660平均信息期望?2021/7/2911DataMiningTool-DecisionTree,JiahuangJi,Ph.D.AllRightsReserved决策树的建立--对测试样例的信息期望2.假定选择收入作树根节点,则:高收入组:I(160,128)=0.9911中收入组:I(289,191)=0.9697低收入组:I(192,64)=0.8133高收入组比例:288/1024=0.2813中收入组比例:480/1024=0.4687低收入组比例:256/1024=0

8、.25平均信息期望(加权总和):E(收入)=0.2813*0.9911+0.4687*0.9697+0.25*0.8133=0.9361Gain(收入)=I(641,383)-E(收入)=0.9537–0.9361=0.0176平均信息期望?2021/7/2912DataMiningTool-Decis

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。