决策树--很详细的算法介绍

决策树--很详细的算法介绍

ID:45927898

大小:2.74 MB

页数:45页

时间:2019-11-19

决策树--很详细的算法介绍_第1页
决策树--很详细的算法介绍_第2页
决策树--很详细的算法介绍_第3页
决策树--很详细的算法介绍_第4页
决策树--很详细的算法介绍_第5页
资源描述:

《决策树--很详细的算法介绍》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、1决策树(DecisionTree)2021/7/1521、分类的意义数据库了解类别属性与特征预测分类模型—决策树分类模型—聚类一、分类(Classification)2021/7/153数据库分类标记性别年龄婚姻否是否是FemaleMale<35≧35未婚已婚2021/7/152、分类的技术(1)决策树4(2)聚类2021/7/153、分类的程序5模型建立(ModelBuilding)模型评估(ModelEvaluation)使用模型(UseModel)2021/7/15决策树分类的步骤6数据库2021/7/15训练样本(trainingsamples)建立模型测试样本(test

2、ingsamples)评估模型例:7资料训练样本婚姻年龄家庭 所得否是否是未婚已婚<35≧35低高否小康1.建立模型测试样本2.模型评估错误率为66.67%修改模型3.使用模型2021/7/154、分类算法的评估8预测的准确度:指模型正确地预测新的或先前未见过的数据的类标号的能力。训练测试法(training-and-testing)交叉验证法(cross-validation)例如,十折交叉验证。即是将数据集分成十分,轮流将其中9份做训练1份做测试,10次的结果的均值作为对算法精度的估计,一般还需要进行多次10倍交叉验证求均值,例如10次10倍交叉验证,更精确一点。2021/7/

3、152021/7/159速度:指产生和使用模型的计算花费。建模的速度、预测的速度强壮性:指给定噪声数据或具有缺失值的数据,模型正确预测的能力。可诠释性:指模型的解释能力。102021/7/15决策树归纳的基本算法是贪心算法,它以自顶向下递归各个击破的方式构造决策树。贪心算法:在每一步选择中都采取在当前状态下最好/优的选择。在其生成过程中,分割方法即属性选择度量是关键。通过属性选择度量,选择出最好的将样本分类的属性。根据分割方法的不同,决策树可以分为两类:基于信息论的方法(较有代表性的是ID3、C4.5算法等)和最小GINI指标方法(常用的有CART、SLIQ及SPRINT算法等)。

4、二、决策树(DecisionTree)(一)决策树的结构11根部节点(rootnode)中间节点(non-leafnode)(代表测试的条件)分支(branches)(代表测试的结果)叶节点(leafnode)(代表分类后所获得的分类标记)2021/7/152021/7/1512(二)决策树的形成例:13根部节点中间节点停止分支?2021/7/15(三)ID3算法(C4.5,C5.0)142021/7/15Quinlan(1979)提出,以Shannon(1949)的信息论为依据。ID3算法的属性选择度量就是使用信息增益,选择最高信息增益的属性作为当前节点的测试属性。信息论:若一事

5、件有k种结果,对应的概率为Pi。则此事件发生后所得到的信息量I(视为Entropy)为:I=-(p1*log2(p1)+p2*log2(p2)+…+pk*log2(pk))Example1:设k=4p1=0.25,p2=0.25,p3=0.25,p4=0.25I=-(.25*log2(.25)*4)=2Example2:设k=4p1=0,p2=0.5,p3=0,p4=0.5I=-(.5*log2(.5)*2)=1Example3:设k=4p1=1,p2=0,p3=0,p4=0I=-(1*log2(1))=02021/7/15152021/7/1516信息增益17Example

6、(Gain)n=16n1=4I(16,4)=-((4/16)*log2(4/16)+(12/16)*log2(12/16))=0.8113E(年龄)=(6/16)*I(6,1)+(10/16)*I(10,3)=0.7946Gain(年龄)=I(16,4)-E(年龄)=0.0167Gain(年龄)=0.0167Max:作为第一个分类依据2021/7/15Gain(性别)=0.0972Gain(家庭所得)=0.0177Example(续)18Gain(家庭所得)=0.688I(7,3)=-((3/7)*log2(3/7)+(4/7)*log2(4/7))=0.9852Gain(年龄)=

7、0.9852Gain(年龄)=0.2222I(9,1)=-((1/9)*log2(1/9)+(8/9)*log2(8/9))=0.5032Gain(家庭所得)=0.50322021/7/15Example(end)ID3算法19分类规则:IF性别=FemaleAND家庭所得=低所得THEN购买RV房车=否IF性别=FemaleAND家庭所得=小康THEN购买RV房车=否IF性别=FemaleAND家庭所得=高所得THEN购买RV房车=是IF性别=MaleAND年龄<3

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。