决策树和随机森林

决策树和随机森林

ID:37869749

大小:4.63 MB

页数:77页

时间:2019-06-01

决策树和随机森林_第1页
决策树和随机森林_第2页
决策树和随机森林_第3页
决策树和随机森林_第4页
决策树和随机森林_第5页
资源描述:

《决策树和随机森林》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、决策树和随机森林牛客网邹伟2015年1月23日64-1目标任务与主要内容掌握信息熵熵、联合熵、条件熵、互信息决策树学习算法信息增益ID3、C4.5、CARTBagging与随机森林的思想投票机制64-2CART输入数据x:M个样本数据,每个数据包括年龄、性别、职业、每日使用计算机时间等输出y:该样本是否喜欢计算机游戏64-3随机森林64-4决策树:Level64-5定义信息量原则:某事件发生的概率小,则该事件的信息量大。如果两个事件X和Y独立,即p(xy)=p(x)p(y),假定X和Y的信息量分别为h(X)和h(Y),则二者同时发生的信息量应该为h(XY)=h(X)

2、+h(Y)。定义事件X发生的信息量:hxlogx2思考:事件X的信息量的期望如何计算呢?64-6熵对随机事件的信息量求期望,得熵的定义:HXpxlnpxxX注:经典熵的定义,底数是2,单位是bit本例中,为分析方便使用底数e若底数是e,单位是nat(奈特)64-7联合熵和条件熵两个随机变量XY的联合分布形成联合熵,用H(X,Y)表示H(X,Y)–H(Y)(X,Y)发生所包含的熵,减去Y单独发生包含的熵:在Y发生的前提下,X发生“新”带来的熵该式子定义为Y发生前提下,X的熵:条件熵H(X

3、Y)64-8推导条件熵的定义式H(X,Y)H(Y)

4、p(x,y)logp(x,y)p(y)logp(y)x,yyp(x,y)logp(x,y)p(x,y)logp(y)x,yyxp(x,y)logp(x,y)p(x,y)logp(y)x,yx,yp(x,y)p(x,y)logx,yp(y)p(x,y)logp(x

5、y)x,y64-9根据条件熵的定义式,可以得到H(X,Y)H(X)p(x,y)logp(y

6、x)x,yp(x,y)logp(y

7、x)xyp(x)p(y

8、x)logp(y

9、x)xyp(x)p(y

10、x)logp(y

11、x)xyp(x)p

12、(y

13、x)logp(y

14、x)xyp(x)HY

15、Xxx64-10互信息两个随机变量X,Y的互信息,定义为X,Y的信息熵减去X,Y的联合熵。I(X,Y)=H(X)+H(Y)-H(X,Y)p(x,y)I(X,Y)p(x,y)logx,yp(x)p(y)64-11计算互信息定义式I(X,Y)=H(X)+H(Y)-H(X,Y)IX,YHXHYHX,Ypxlogpxpylogpypx,ylogpx,yxyx,ypx,ylogpx

16、px,ylogpypx,ylogpx,yxyyxx,ypx,ylogpxpx,ylogpypx,ylogpx,yx,yx,yx,ypx,ylogpx,ylogpxlogpyx,ypx,ypx,ylogx,ypxpy64-12条件熵与互信息的等式互信息:I(X,Y)=H(X)+H(Y)-H(X,Y)条件熵:H(X

17、Y)=H(X,Y)-H(Y)带入,得:I(X,Y)=H(X)-H(X

18、Y)条件熵:H(Y

19、X)=H(X,Y)-

20、H(X)带入,得:I(X,Y)=H(Y)-H(Y

21、X)由I(X,Y)≥0,得H(X)≥H(X

22、Y),H(Y)≥H(Y

23、X)如何用自然语言解释H(X)≥H(X

24、Y)?64-13强大的Venn图:帮助记忆64-14决策树的实例注:Weka的全名是怀卡托智能分析环境(WaikatoEnvironmentforKnowledgeAnalysis),是一款免费的,非商业化(与之对应的是SPSS公司商业数据挖掘产品--Clementine)的,基于JAVA环境下开源的机器学习(machinelearning)以及数据挖掘(dataminining)软件。它和它的源代码可在其官方网站下载。64-1

25、5决策树示意图64-16决策树(DecisionTree)决策树是一种树型结构,其中每个内部结点表示在一个属性上的测试,每个分支代表一个测试输出,每个叶结点代表一种类别。决策树学习是以实例为基础的归纳学习。决策树学习采用的是自顶向下的递归方法,其基本思想是以信息熵为度量构造一棵熵值下降最快的树,到叶子节点处的熵值为零,此时每个叶节点中的实例都属于同一类。64-17决策树学习的生成算法建立决策树的关键,即在当前状态

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。