数据挖掘决策树(自己制作)知识讲稿.pptx

数据挖掘决策树(自己制作)知识讲稿.pptx

ID:57300587

大小:740.94 KB

页数:31页

时间:2020-08-10

数据挖掘决策树(自己制作)知识讲稿.pptx_第1页
数据挖掘决策树(自己制作)知识讲稿.pptx_第2页
数据挖掘决策树(自己制作)知识讲稿.pptx_第3页
数据挖掘决策树(自己制作)知识讲稿.pptx_第4页
数据挖掘决策树(自己制作)知识讲稿.pptx_第5页
资源描述:

《数据挖掘决策树(自己制作)知识讲稿.pptx》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、决策树演讲:李伟能单位:云南大学(数学与统计学院)导师:孟捷什么是决策树?1.决策树的背景是什么?2.3.决策树是怎么样发展而来的?4.决策树可以做什么?5.现在国内外关于决策树的研究现状是什么?叶结点根结点内部结点体温胎生非哺乳动物哺乳动物非哺乳动物恒温否冷血是决策树构造流程经过预处理后的数据集,构建空树。选取未作判断的属性作为测试节点。基于不同的划分标准决策树的背景是什么?2.沃尔玛每小时从顾客交易获得数据为100万G,印出来可装2000万个文件柜。Twitter平均每天产生3.4亿条消息,而Facebook每天则

2、有40亿的信息扩散。世界上访问量最大的网站google,每天能处理的数据量高达20PB。每分钟的时间里,YouTube用户会上传48小时的新视频,全球电子邮件用户共计发出2.04亿封电子邮件在影视领域,大数据运用的成功案例当数美剧《纸牌屋》。该剧的制作方既不是电视台,也不是传统的电影公司,而是一家视频播放网站。2012年,视频网站Netflix开始准备推出自制剧。在决定拍什么、怎么拍时,Netflix抛开了传统的制作方式,启用大数据。通过在该网站上3000多万订阅用户每天的点击操作,如收藏、推荐、回放、暂停、搜索请求等

3、,Netflix进行精准分析,将这些数据用于倒推前台的影片生产。通过对大数据的分析、挖掘,Netflix发现,其用户中有很多人仍在点播1990年BBC经典老片《纸牌屋》。这些观众中,又有许多人喜欢导演大卫・芬奇,大多爱看演员凯文・史派西出演的电影。Netflix大胆预测,一部影片如果同时满足这几个要素,就可能大卖。于是,《纸牌屋》出现了,并大获成功。整部剧集一次性在Netflix网站发布,供订阅者观看,完全颠覆了传统的每周一集的播出模式。大数据的到来使得数据挖掘技术得到广泛发展生活中很多地方都需要分类,各种分类技术的诞

4、生为我们节省了大量的时间,决策树作为分类技术的一种,在零售、电子商务、金融、医疗卫生等方面有着广泛的运用。决策树有哪些优点?1、决策树构造的分类器容易理解;2、决策树算法的运算速度要快于其他分类方法;3、决策树分类方法得到的结果的准确率要优于其他算法。决策树方法是一种比较通用的分类函数逼近法,它是一种常用于预测模型的算法,通过将大量数据有目的分类,找到一些有潜在价值的信息。决策树的起源是CLS(ConceptLearningSystem),CLS是由Hunt、Marin和Stone为了研究人类概念模型而得来的,于196

5、6年提出,该模型为很多决策树算法的发展奠定了很好的基础。1986年,Quinlan提出了ID3算法。1984年,L.Breiman等人提出了CART(ClassificationandRegressionTree)算法。3.决策树是怎么样发展而来的?1993年,J.R.Quinlan又提出了C4.5算法,克服了ID3算法的一些不足。1996年,M.Mehta和R.Agrawal等人提出了一种高速可伸缩的有监督的寻找学习分类方法SLIQ(SupervisedLearningInQuest)。同年,J.Shafer和R.A

6、grawal等人提出可伸缩并行归纳决策树分类方法SPRINT(ScalablePaRallelizableInductionofDecisionTrees)1998年,R.Rastogi等人提出一种将建树和修剪相结合的分类算法PUBLIC(ADecisionTreethatIntegratesBuildingandPruning)ID3算法实例熵:基尼指数:分类误差:其中c是类的个数,并且在计算熵时,分裂属性标准ID3算法缺点ID3算法选用最大信息增益的属性作为决策树分裂属性。在算法实际应用中,这种方法偏向于选择多值属

7、性,但属性取值数目的多少与属性的匹配并无真正关联。这样在使用ID3算法构建时,若出现各属性值取值数分布偏差大的情况,分类精度会大打折扣。ID3算法本身并未给出处理连续数据的方法。ID3算法不能处理带有缺失值的数据集,故在进行算法挖掘之前需要对数据集中的缺失值进行预处理。C4.5算法C4.5算法同样是由Quinlan提出,它在ID3算法的基础上演变而来。C4.5算法除了拥有前述的ID3算法基本功能外,在其算法中还加入了连续值处理、属性空缺处理等方法。总结来说,C4.5算法在以下几个方面做出了改进:信息增益比例计算公式如下

8、:1)使用信息增益比例而非信息增益作为分裂标准。在上式中,称为分裂信息,它反映了属性分裂数据的延展度与平衡性,计算公式如下:2)处理含有带缺失值属性的样本C4.5算法在处理缺失数据时最常用的方法是,将这些值并入最常见的某一类中或是以最常用的值代替之。C4.5算法处理连续值属性过程3)处理连续值属性以每个数据作为阈值划分数据集,代价

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。