决策树生成系统

决策树生成系统

ID:33760896

大小:1.59 MB

页数:71页

时间:2019-03-01

决策树生成系统_第1页
决策树生成系统_第2页
决策树生成系统_第3页
决策树生成系统_第4页
决策树生成系统_第5页
资源描述:

《决策树生成系统》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、太原理工大学硕士学位论文决策树生成系统姓名:张理强申请学位级别:硕士专业:计算机应用指导教师:郑兆瑞20030101太原理_[人学硕十学位论文抉策树生成系统决策树生成系统摘要分类是数据挖掘领域中的一个重要研究课题。在分类的过程中,首先给定一个包含多条记录的训练集,每条记录都包含多个属性,其中一个属性标明每条记录属于哪一类,我们称之为乡譬荔号。分类的目的就是建立一个以类标号属性除外的其它属性为判定条件的模型,通过这个模型可以对以后未知类标号的记录进行正确分类。决策树方法是分类中最常用的工具之一。它是一个类似

2、于流程图的树状模型,其中每个内部节点表示一个属性测试,每个分枝代表一‘个测试输出,而每个树叶节点代表“类”或“类分布”。通过决策树模型对一条记录进行分类就是通过按照模型中属性测试结果从根到叶找到‘条路径,最后叶节点的类标号就是该记录的分类结果。本课题研究的内容是建立一个完整的决策树生成系统。它包括数据预处理、决策树的生成、决策树剪枝、分析和评估、生成分类规则五个部分。数据预处理中主要包括数据清洗(减少噪声或处理丢失的值)、相关分析(删除不相关或冗余属性)决策树生成系统和数据变换(如概化数据到较高的概念层,

3、或对数据规范化)等内容。决策树生成则是按照某种属性评价方法递归地对各个属性进行评价,找到最优的分割条件,生成一棵完全生长的决策树。在这个阶段我们采用了信息增益法、Gini索引法和Relief算法三种属性评价方法,并在实验结果部分对三者的性能进行了比较。决策树剪枝则是为了防止在决策树生成阶段生成的决策树中存在的“过适应”问题和提高决策树的分类准确率,对生成的决策树按照一定的方法进行剪枝。在此我们实现了最小描述长度法(MDL),因为该算法在准确率、剪枝后决策树的大小和运行速度方面都有很大的优势。决策树分析和评

4、估阶段主要是对生成的决策树的各方面的性能进行评估。本系统实现的是保持法和10折交叉确认法,主要是对生成的决策树模型进行准确率方面的评估。在生成规则阶段主要是将决策树转化为比较直观的IF—THEN规则形式,让用户能更好地理解分类结果。从实验结果中我们可以看到:信息增益法和Gini算法相比,无论是在生成节点数还是在运行速度上都比较相似,二者的分类速度都要快于Relief算法,但Relief算法在某些特定的数据库上生成的结果要明显优于前两者。并且我们在税务信息太原理工大学硕士学位论文系统中的数据上应用该系统也取

5、得了比较满意的分类结果。但是我们研究的目的是生成一个紧凑的,高准确率的、易于理解和具有可伸缩性的决策树系统,本系统在运行效率、与数据仓库集成、对复杂数据进行分析等方面还存在许多不足之处,我们将会在以后的工作中做进一步的改进。关键词:分类,决策树,属性选择,剪枝太原理工大学硕士学位论文决策树生成系统ASYSTEMOFDECISl0NTREESCoNSTRUCTIoNABSTRACTClassificationisanimportantproblemindatamining.Inclassification,

6、wearegivenasetofexamplerecords,calledatrainingset,whereeachrecordconsistsofseveralfieldsorattributes.Oneoftheattributes,calledtheclasslabel,indicatestheclasstowhicheachexamplebelongs.Theobjectiveofclassificationistobuildamodeloftheclassifyingattributebase

7、dupontheotherattributes.Onceamodelisbuilt,itcarlbeuseddeterminetheclassoffutureunclassifiedrecords.Decisiontreeisoneofthemostpopularclassificationtools.Adecisiontreeisaflow-chart—liketreestructure,whereeachintemalnodedenotesatest011anattribute,eachbranchr

8、epresentsanoutcomeofthetest,andleafnodesrepresentclassesorclassdistributions.Themethodthatadecisiontreemodelisusedtoclassifyarecordistofindapaththatfromroottoleafbymeasuringtheattributestest,andtheclasslabeledOilthe

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。