数据挖掘中决策树分类算法的研究

数据挖掘中决策树分类算法的研究

ID:34040024

大小:230.06 KB

页数:5页

时间:2019-03-03

数据挖掘中决策树分类算法的研究_第1页
数据挖掘中决策树分类算法的研究_第2页
数据挖掘中决策树分类算法的研究_第3页
数据挖掘中决策树分类算法的研究_第4页
数据挖掘中决策树分类算法的研究_第5页
资源描述:

《数据挖掘中决策树分类算法的研究》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第33卷第2期东华理工大学学报(自然科学版)Vol.33No.22010年6月JOURNALOFEASTCHINAINSTITUTEOFTECHNOLOGYJun.2010doi:10.3969/j.issn.1674-3504.2010.02.015数据挖掘中决策树分类算法的研究李如平(安徽工商职业学院电子信息系,安徽合肥231100)摘要:决策树方法是数据挖掘中一种重要的分类方法,决策树是一个类似流程图的树型结构,其中树的每个内部结点代表对一个属性的测试,其分支代表测试的结果,而树的每个叶结点代表一个类别。通过决策树模型对

2、一条记录进行分类,就是通过按照模型中属性测试结果从根到叶找到一条路径,最后叶节点的属性值就是该记录的分类结果。关键词:数据挖掘,分类,决策树中图分类号:TP311.13文献标识码:A文章编号:1674-3504(2010)02-192-05近年来,随着数据库和数据仓库技术的广泛应的内部节点进行属性的比较,并根据不同属性判断用以及计算机技术的快速发展,人们利用信息技术从该节点向下的分支,在决策树的叶节点得到结搜集数据的能力大幅度提高,大量数据库被用于商论。所以从根到叶节点就对应着一条合取规则,整业管理、政府办公、科学研究和工程开

3、发等。面对棵树就对应着一组析取表达式规则(张桂杰,海量的存储数据,如何从中有效地发现有价值的信2005)。息或知识,是一项非常艰巨的任务。数据挖掘就是把决策树当成一个布尔函数。函数的输入为为了应对这种要求而产生并迅速发展起来的。数物体或情况的一切属性(property),输出为”是”或据挖掘就是从大型数据库的数据中提取人们感兴“否”的决策值。在决策树中,每个树枝节点对应着趣的知识,这些知识是隐含的、事先未知的潜在有一个有关某项属性的测试,每个树叶节点对应着一用的信息,提取的知识表示为概念、规则、规律、模个布尔函数值,树中的每个

4、分支,代表测试属性其式等形式(姜灵敏等,2007)。中一个可能的值。分类在数据挖掘中是一项非常重要的任务。最为典型的决策树学习系统是ID3,它起源于分类的目的是学会一个分类函数或分类模型,把数概念学习系统CLS,最后又演化为能处理连续属性据库中的数据项映射到给定类别中的某个类别。的C4.5(C5.0)等。它是一种指导的学习方法,该分类可用于预测,预测的目的是从历史数据记录中方法先根据训练子集形成决策树。如果该树不能自动推导出对给定数据的趋势描述,从而能对未来对所有给出的训练子集正确分类,那么选择一些其数据进行预测(赵翔,200

5、5)。分类算法最知名的是它的训练子集加入到原来的子集中,重复该过程一决策树方法,决策树是用于分类的一种树结构。直到时形成正确的决策集。当经过一批训练实例1决策树介绍集的训练产生一棵决策树,决策树可以根据属性的取值对一个未知实例集进行分类。使用决策树对决策树(decisiontree)技术是用于分类和预测实例进行分类的时候,由树根开始对该对象的属性的主要技术,决策树学习是一种典型的以实例为基逐渐测试其值,并且顺着分支向下走,直至到达某础的归纳学习算法,它着眼于从一组无次序、无规个叶结点,此叶结点代表的类即为该对象所处的则的事例中

6、推理出决策树表示形式的分类规则(赵类。翔,2005)。它采用自顶向下的递归方式,在决策树决策树是应用非常广泛的分类方法,目前有多种决策树方法,如ID3,C4.5,PUBLIC,CART,CN2,收稿日期:2010-02-28SLIQ,SPRINT等。大多数已开发的决策树是一种作者简介:李如平(1973—),男,安徽肥东人,讲师,硕士,主要研究方向:核心算法的变体,下面先介绍一下决策树分类的基计算机应用技术、信息管理。本思想决策树构造与剪枝,然后详细介绍ID3和第2期李如平:数据挖掘中决策树分类算法的研究193C4.5算法及决策

7、树算法的分析及改进等。可能缺少必须的数据而造成数据不完整;可能数据不准确、含有噪声甚至是错误的,所以要讨论噪声2决策树构造与剪枝问题。基本的决策树构造算法没有考虑噪声,生成决策树分类算法通常分为两个步骤,决策树生的决策树完全与训练例子拟合。有噪声情况下,完成和决策树剪枝。全拟合将导致过分拟合,即对训练数据的完全拟合2.1决策树构造反而不具有很好的预测性能。剪枝是一种克服噪声的技术,同时它也能使树得到简化而变得更容易决策树构造算法的输入是一组带有类别标记理解。的例子,构造的结果是一棵二叉树或多叉树。二叉1)两种基本的剪枝策略。树

8、的内部结点(非叶子结点)一般表示为一个逻辑①前期剪枝(Forward-Pruning)是在树的生长判断,如形式为(ai=vi)的逻辑判断,其中ai是属过程完成前就进行剪枝(马丽等,2008)。在树的生性,vi是该属性的某个值。树的边是逻辑判断的分长过程中,决定是继续对不纯的训

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。