决策树在贷款客户信用评估中的应用.pdf

决策树在贷款客户信用评估中的应用.pdf

ID:58313766

大小:217.14 KB

页数:3页

时间:2020-09-06

决策树在贷款客户信用评估中的应用.pdf_第1页
决策树在贷款客户信用评估中的应用.pdf_第2页
决策树在贷款客户信用评估中的应用.pdf_第3页
资源描述:

《决策树在贷款客户信用评估中的应用.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、研究与开发决策树在贷款客户信用评估中的应用王秀慧,许彩欣(石家庄邮电职业技术学院,石家庄050021)摘要:针对如何在贷款过程中尽可能地降低风险,提出利用决策树理论对客户的基本情况进行分析,建立银行贷款客户信用评估决策树模型。为防止过拟合问题的产生,对最初生成的决策树又利用基于规则的方法进行裁剪修正,使得决策模型不只在训练集上的信用度决策获正确率较高,在相互独立的不同测试集和验证集上都取得令人满意的效果。关键词:决策树;C4.5;信用评估;规则裁剪0引言树。属性排序以著名信息学家香农(C.E.Shannon)信息论

2、中的熵概念[4]为理论基础,用熵来度量信息的不确定近年来,个人信贷业务在我国迅速上升。然而信贷性。熵实际上是系统信息量的加权平均,即系统的平均业务在给个人带来方便,给银行带来效益的同时,也给信息量。要提高决策树的分类效率,相当于要求熵值下银行带来了暗藏的风险。美国的次信贷危机就是一个降更快。因此,ID3算法的实质是构造一株熵值下降平很好的例子。如何在贷款的过程中尽可能地降低风险,均最快的决策树。做好对贷款客户的信用评估至关重要。本文利用决策例如,设某表由对象集U构成,共有t个属性(A1,树理论通过对贷款客户的学历、

3、年龄、职业、收入等基A2,…,Aj,…,At),其中属性Aj有w个取值{aj1,aj2,…,ajw},本情况进行分析,得出该客户的信用等级,为银行决定这w个取值可将对象U分化为:{Uj1,Uj2,…,Ujw}。是否为该客户提供贷款提供参考。1.2信息熵1决策树和信息熵若实例学习的目的是形成n个分类,其中Pj表示发生第j类(1≤j≤n)信息的概率(在ID3中用相对频1.1决策树率来近似表示),则预期信息量[4,6]:决策树方法是数据挖掘的核心技术算法之一,它通过将大量数据有目的地分类,从中找出一些潜在的、H(U)=-

4、ΣPjlog2Pj对决策有价值的信息,常用于预测模型中。国际上最早若用属性Aj对对象集U的分化{Uj1,Uj2,…,Ujw}做信和最有影响的决策树方法是由Quiulan研制的ID3决宿,则后期信息量:策树生成算法[3]。H(U

5、Aj)=ΣP(Ujm)H(Ujm)ID3算法的基本思想是:将一棵决策树看作一个信息增益为:信源,利用信息论中的信息增益寻找数据库中具有最I(U,Aj)=H(U)-H(U

6、Aj)大信息量的字段(属性),建立决策树的一个节点,再依其中使得I(U,Aj)=max[I(U,Aj)]的属性Aj含信息次

7、将字段的不同取值作为信宿的表现状态,找出信息量最大,为决策树的根,再对每一个分支的其他属性循量最大的字段建立树的分支;然后在每个分支子集中环使用该方法,即可得决策树。用ID3算法生成的决策重复建立树的下层节点和分支的过程,即可建立决策树中一个内部节点代表对某个属性的一次测试,一条收稿日期:2011-03-29修稿日期:2011-04-29作者简介:王秀慧(1974-),女,河北沧州人,讲师,研究方向为计算机技术及应用趥趭现代计算机2011.05研究与开发边代表一个测试结果,叶子代表某个类或者类的分布,③熵增益为:最

8、上面的节点是根节点。决策树的根节点对应于最大I(U,Ai)=H(U)-H(U

9、Ai)不确定状态,表示在分类开始之前对欲分的对象一无④计算熵增益率:所知。随着每一个属性值的判断,从决策树中选出一棵Gain(A)=I(U,Ai)/H(S)子树后,不确定性就小了一些。到达叶节点后,分类任(2)选择熵增益率最大的属性学历作为树的根节务完成,不确定性也变为零。点。使用决策树对一个对象进行分类时,由树根开始(3)利用该节点的样本子集,重复以上两步,对各对该对象的属性逐个判断其值,并顺相应的分枝往下分支的子集仍然选择信息增益率最

10、大的属性作为子节走,直到某个叶节点,此叶节点代表的类就是该对象的点直到所有的子集包含同一类别的数据,即分类到叶类。实际应用中这种分类的结果即是进行需求预测所子为止。需的有用信息。由以上步骤就能构造一棵决策树,可以用它来对新的样本进行分类。2决策算法2.2决策树的简化ID3算法以及C4.5算法都是经典的决策树算法,许多分类规则都存在一个普遍的问题———过度拟C4.5算法是ID3算法的改进,继承了ID3的全部优点,不合,由训练集生成的决策树对训练集分类的结果很好,仅分类准确率高而且速度也更快,C4.5算法在ID3的基但

11、用它来对未参与决策树生成过程的新的数据集进行础上改进了对连续型属性的处理。如果存在连续型的描分类得到的结果,可能并不理想。因此有必要对生成的述性属性,那么首先要做的是把这些连续型属性离散化。初始决策树进行简化修正,也称为剪枝,来得到更一般2.1C4.5决策过程的分类规则,剪枝后得到的新的决策树可能会使得它对以某银行个人贷款客户信用评估数据库为例,取训练集分类

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。