决策树算法在计算机教学评价数据挖掘中的应用

决策树算法在计算机教学评价数据挖掘中的应用

ID:36866432

大小:216.25 KB

页数:4页

时间:2019-05-17

决策树算法在计算机教学评价数据挖掘中的应用_第1页
决策树算法在计算机教学评价数据挖掘中的应用_第2页
决策树算法在计算机教学评价数据挖掘中的应用_第3页
决策树算法在计算机教学评价数据挖掘中的应用_第4页
资源描述:

《决策树算法在计算机教学评价数据挖掘中的应用》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、山东广播电视大学学报2011年第4期决策树算法在计算机教学评价数据挖掘中的应用木刘法伦.-。张新仁,(1.滨州学院远程教育学院,山东滨州256600;2.滨州广播电视大学,山东滨州256600)摘要:将决策树ID3算法应用到计算机教学评价数据挖掘中,建立学生考试成绩是否优秀的决策树,并利用事后修剪法实现分类决策树的剪枝。最后由决策树产生分类规则,建立考试成绩优秀分析决策树模型。关键词:决策树;计算机教学评价;数据挖掘中图分类号:TP312文献标识码:A文章编号:1008-3340(2011)04—0o53—04一、概述输入:训练样本,各属性均取离散数值,可供归纳的候

2、决策树是一种常用于分类和预测模型的算法,它通过选属性集为attribute_list。将大量数据有目的的进行分类,从而找到一些有价值的、输出:决策树。潜在的信息。其基本算法是贪心算法,采用自顶向下的递算法流程:归方式构造决策树。最有影响和最早的是Quinlan于1979(1)创建一个节点N;年提出的基于信息熵的ID3方法⋯。(2)若该节点中的所有样本均为同一类别C,则(一)核心问题(3)返回N作为一个叶节点并标志为类别C;第一,决策树构建,即如何快速有效地创建决策树,且(4)若attribute_list为空,则建立的决策树能更容易地被理解;第二,决策树剪枝,即对(

3、5)返回N作为一个叶节点,并标记为训练样本集中己建立的决策树进行优化处理,使结果树大小适中。最普遍的类别:(二)适用范围(6)从attribute_list选择一个信息增益最大的属性决策树方法并不适用于现实世界中的所有问题。只有test_attribute;在满足一定的条件时才可以产生理想的结果[3]。(7)并将节点N标记为testattribute;(1)实例须用“属性一值”的形式描述。实例是由一系列(8)对于test_attribute中的每一个己知取值ai,准备划固定的属性(如:“性别”)和值(如:“男”或“女”)构成,而属分节点N所包含的样本集:性的取值范围

4、比较小时,决策树的效果最好,对基本算法(9)根据test_attribute=ai条件,从节点N产生相应的扩展后也可以处理数值属性。一个分支,以表示该测试条件:(2)目标属性的可能取值是离散的。(10)设si为testattribute=a~条件所获得的样本集合;(3)训练样本可以有错误。(11)若si为空,则二、算法(12)将相应叶节点标记为该样本集合中类别个数最(一)ID3算法描述多的类别:ID3算法根据给定数据集产生一个决策树。(13)否则将相应叶节点标志为Generate_d【eeisiontree收稿时间:2011-04-11{基金项目:滨州学院教学研究项

5、目(BYJYYB200930)作者简介:刘~e(1975-),男,山东惠民人,讲师,硕士,主要从事电大开放教育教务管理与教学研究工作。张新仁(1975-),男,山东滨城人,讲师,硕士,主要从事电大开放教育教务、考务、学籍管理工作。53山东广播电视大学学报2011年第4期(Si,attribute—list,test_attribute);现利用决策树算法,分析学期、性别、专业和层次对(二)属性选择“计算机文化基础”统考成绩的影响.实现学生情况分类。ID3算法的核心是确定一个最佳的分裂属性。通常用(一)数据转换信息增益(informationgain)度量来选择属性。

6、选择信息增数据转换主要是对数据进行规格化操作。益最高的属性作为当前节点的测试属性。由于表1中大部分属性是离散值属性,现仅对连续值在给出information的具体计算公式之前,需明确该公属性“考试成绩”进行离散化处理。式应满足的两个基本条件:直方图是一种较简单的离散化工具,分为等宽分箱和(1)如果某个类没有实例,则information=O;等深分箱两类。等宽分箱将属性值划分成相等的部分或区(2)如果各个类中实例个数相等,则information=1。间。而在等深分箱中,值被划分使得每个部分包括尽可能设是t个样本的集合,目标属性有m个取值,即{C,相同个数的样本。透

7、过直方图很清晰的看出.多数学生成,⋯,Cl。设Si是类G的样本数。则当对一个给定的样绩都在120分左右.正好符合正态分布。将“考试成绩”属本进行分类时所需的信息熵为:性的所有值离散化为三类:成绩从0—89属于“不及格”.90—129属于“及格”,130以上属于“优秀”。~nfo(r)一∑PJog2(Pi)(1)对于“专业”这一项.由于专业种类比较多,这里将其其中是任意样本属于的概率,即Si/t估计。通常划分为“文科”、“理科”、“工科”和“艺体”。经过预处理后的情况下,对数函数以2为底,熵用bits作单位。部分学生成绩表见表2。设属性具有n个不同的值,,2⋯.,

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。