基于数据挖掘的银行个人客户信用评分模型的研究

基于数据挖掘的银行个人客户信用评分模型的研究

ID:37380518

大小:1.89 MB

页数:45页

时间:2019-05-22

上传者:U-145848
基于数据挖掘的银行个人客户信用评分模型的研究_第1页
基于数据挖掘的银行个人客户信用评分模型的研究_第2页
基于数据挖掘的银行个人客户信用评分模型的研究_第3页
基于数据挖掘的银行个人客户信用评分模型的研究_第4页
基于数据挖掘的银行个人客户信用评分模型的研究_第5页
资源描述:

《基于数据挖掘的银行个人客户信用评分模型的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

对外经济贸易大学硕士论文摘要企业信用评级是新巴塞尔资本协议确定的信用风险计量基础,也是目前银行信贷风险管理的主要方法。在我国,由于企业征信数据建设相对滞后,企业信用评级方法尚以定性分析为主。本文侧重于对商业银行个人客户信用评分模型的研究,以住房贷款数据为分析标的,研究如何将数据挖掘中的分类算法应用于真实的个人信用数据中,挖掘出隐含的规律,并量化为具体的评分模型;同时根据应用案例对模型作出调整,建立符合实际需求的新型个人信用评分模型。本文从已获得的某商业银行的真实房屋贷款样本出发,采用数据挖掘技术,运用决策树cART算法,经过数据采集、抽取、预处理,建立了个人评分决策树模型,再在决策树模型的基础上,对属性进行赋权,得出信用评分模型。本文得出的信用评分模型是一个百分制的个人信用评分模型,对于此模型,建立了评价标准。从对模型评价的结果看,个人信用评分模型在评价高信用级别的用户中有较高的预测准确度,在评价中、低级信用级别的用户准确度不尽入人意,这同时也是现今银行进行信用评分的难点,对这些存在还款风险的用户,是给予贷款还是拒绝,是一个难题。在通用法则失灵的同时,抽取更多客户的信息,也是进一步增加预测准确性的方法。本人建立个人信用评分模型是一个通过客观建模法形成的模型。经过调整,引入主观建模的方法,用层次分析法建立主观个人信用评估模型,并由此对客观建模法进行修正,最终得出调整结果。关键词:决策树信用评分数据挖掘 对外经济贸易大学硕士论文ABSTRACT助tc印d蛇。edityatingis奴允undationof。记itriskmeasuTementasthcN即BasleQpi回A以刀记pro因sedandwhlchisthe加porta.tmethodforCreditriskmangcmentof山。b田止.Inchina,thedsveloPmentofdatab暇forentc印ri,crditratingisatthebegin吨5切geandthcquali咖vcanalysisis奴mainmcthod.Theesay丘沁usedon幼alysis如b口即tocratea协dividua1Creditratingmodclforcommerciaibank.Basedonhous吨foandstab撰,幼alyzehowto如vlicatcdstaminngmethodtorealindividualratingdatab别沁幼dtryto6ndsomeuncovcrrulcs.T七eCreditratingmodelwillbeestablisbedfinally.Basedonthcrealindividualfoandatab撰,suPportedbydataminingskill,wcuseCARfmetbodtoanalyzcthedatabase.Followedbydatagathering、extracting、previousProcessing,weestablisht加individualcreditmting,decisio。加emodcl.Furthennorc,wegettheindividualcr七ditratingmodcl.Alldthemodelwcgetisbascd加1(X)percentmcasuTingmcthod,itcanbclPbal止tocstablisblbcratingfon”ula.Fromthetestingresul仁t加modelcanforecasthighlcvclcreditclicntmorecxactIy.Buttothemiddle皿dlowlevclcredltdient,the化sultislessexactly.Itisalsoatoughtasktothecreditrating.R暇ivedorrejcctd,thisisaquestion.Moreinformationmustbccollectedforthemoreautheniicforecastrcsult.TheoriginalmodclisestabIishedbyobjeCtivclysight.AndweeditthcmodelbyaddingsubjeCtivclysight.Uyeranalysismcthodisusedtoestablishthemodel.Throughwecombinedthcsubjectivelyand0bjectivelymcthod,wegetthefinallyvcrsion.KeyW6rds:DeCisiontree;creditrating;datamining 对外经济贸易大学硕士学位论文第一章绪论Ll论文的选题背景和研究现状LLI论文的选题背景研究将数据挖掘技术应用于构建银行个人客户的信用评分模型以辅助信用决策是基于现实需要的要求,是在该领域的尝试性探索。中国经济的快速发展,激发了信贷消费的巨大发展,各种消费贷款迅速升温,国内许多商业银行扩大了在信用消费方面的业务。由于历史原因,其中大部分银行缺乏一套有效的个人客户信用评分方法,即使存在有也存在评估准确性差的缺点。这样直接导致个人信贷消费业务的进一步发展。现在随着各行各业的信息化程度不断提高,专家预计平均每18个月信息量就翻一番,而我们对这些信息的利用率只有5%一10%,有些行业甚至还远远低于这个比例。。怎样从大量数据中挖掘出有用、有效的信息,成为急切的现实需要。笔者对中国银行数据管理的现状观察到,我国的银行具有世界最先进的硬件设施和数据仓库,汇集了大量数据,但缺乏从大量数据中发掘有用信息的工具,往往导致“数据爆炸但知识贫乏”。由于银行产品的同质性,这样银行的竞争优势,往往在于能否从大量数据中掌握了海量的业务和客户信息背后的业务规律,做出各种合理的决策,才能在激烈的市场竞争中取胜。可以预见,在与外资银行的竞争中,我国中资商业银行的核心竞争力,应该首先体现在对本土客户关系的理解和对客户资源利用的优势上,金融界专家称之为“原生性”。而信用评分与信用决策正是基于这类丰富而珍贵的本土客户资源。简单的、定性的和主观的信用评分体系已经不能满足银行业开发和推广新的金融产品和服务的需要,只有在这一过程中应用数据挖掘技术,才能沿着“数据分析一知识发现一决策支持”的发展之路走到数据挖掘在银行应用的最高阶段—金融智能。LLZ国内外的研究现状金融和电信也是数据挖掘领域运用发展得最好的行业,在这两个行业,客户的信用分析是一切商业规则分析的基础,因而也具有不可替代的重要性。国外信用评级的研究始于上世纪三十年代,属于信用评级发展的第一阶段,这一阶段的主要建模方法是基于传统的比例分析方法,如“sc”、“LA即”和财务比率分析等方法,我国学者王春峰等(1999)通过建立还款能力指标体系,利用定量技术判别借款人的违约概率也属于这种方法。第二阶段始于上世纪六十年代,这一阶段的主要建模方法是基于多元统计方法,主要方法包括多元判别分析法,Logistic回归模型田众长.,.和甲自业二及X位心位众tn计仲润脚用价究,翻门忽.翻翔,《”.1十二 对外经济贸易大学硕士学位论文以及聚类分析、k近邻判别等非参数方法。第三阶段始于上世纪八十年代,这一阶段的主要方法是人工智能方法,主要建模方法包括专家系统,人工神经网络。、支持向量机和遗传算法等。第四阶段始于上世纪末,这一阶段主要是采用对信用风险组合计量的方法,主要模型有1995年KMV公司提出的信用监测模型;1997年J.P.Morgan银行提出的信用度量术模型,同期麦肯锡公司提出的CreditPortfolioVi,模型;以及之后穆迪评级公司提出的CreditCalc+模型,标准普尔提出的Credit雨del和CreditPro模型等。在应用领域,数据挖掘的研究远远不如基础理论和技术研究那么热烈,尽管一些著名的软件厂商推出专门的数据挖掘软件,但是业界还没有该类软件的统一的标准。而数据挖掘在金融领域的应用,国外的金融机构表现得很积极,但是大多数机构出于商业保密的需要,不愿公开其具体细节,而据美国软件提供商提供的报告声称:美国第一银行、HeadLand抵押公司、Fcc国家银行、联邦住房贷款抵押公司、wclsFargo银行、Melon银行、化学银行、美国联邦储蓄银行等一批重要的金融机构都在进行某种领域的数据挖掘,尽管他们只字未提。针对信用评分方面,美国的著名的nCO评分是应用最为广泛的评分准则,至今其指标体系也没有完全地公布于众,只有关键的一些个人指标是可以获得的。国内有关数据挖掘的研究主要还局限于基础技术和算法的研究上,而其在金融中应用的理论和方法进行系统而专门研究的尚未见诸报道。有些金融行业专业人士的相关研究也仅止步于体系的研究,而没有展开深入。这与国外迅速发展的研究势头形成鲜明的对比,这不仅直接影响商业银行零售业的发展,将来也很有可能成为此领域软件系统发展的瓶颈.我国的个人信用评分主要由银行业负责,具体评定工作又分散到各家商业银行独自完成,各家银行的个人信用评分自成体系,评估结果不统一,可比性也差强人意。我国商业银行目前推出的个人金融服务也涉及信用评分方面,但是基本上是根据国外的评分模型做出调整。在申请人身份的核实、住所信息的调查、与银行借贷关系等等都存在缺失情况。因此无论是作为CRM的一部分,还是单独的评估体系,都需要加强对于现有信用评级模型的改进,与我国正在推行的社会个人征信体系完美结合。LZ主要研究对象和内容本文是针对于商业银行个人客户信用评分模型的研究,研究如何将数据挖掘中的分类算法应用于真实的个人信用数据中,挖掘出隐含的规律,并量化为具体的评分模型;同时根据应用案例对模型作出调整,建立符合实际需求的新型个人信用评分模型。本课题的研究内容:.加.1.认5.Q翻七,J.门.目伪.”r.t,‘几《1.臼》.^‘...rl创州of...r.二它.日..d“..犷...ri二州匕加1..如。目“..,ix口..‘臼r.曰.」...1of肠阳r.tiO..1R.二叮dy峨舫】,别~盯 对外经济贸易大学硕士学位论文一、研究现有的主客观信用评分体系,根据我国商业银行实际应用情况,针对已获得的信用数据,进行数据分析,筛取相对重要的属性,进行下一步挖掘探索。二、深入研究决策树算法,在信用评分建模领域的算法,选择以盯算法作为数据挖掘的工具,并通过挖掘建立个人信用评分模型。三、用真实数据对生成模型进行评价和验证,并对模型进行调整,提出与主观个人信用评价模型相结合的新模型。其中,研究重点在于如何将已获得个人贷款信息通过信息挖掘建立可信度高的个人评分模型,实现理论与实践相结合,同时如何针对实际应用情况引入主观评价结果作为调整系数,建立新的具有实际应用意义的个人信用评分模型。13论文的结构安排本文主要研究如何对应用决策树算法建立银行个人信用评分模型,以及在实际情况下如何对模型进行评价调整,建立具有现实应用意义的个人信用评分模型。文章结构如下:章节内容对论文选题的背景及意义作了简要的分析,同时介绍了数据挖掘技术在第一章绪论信用评分领域的理论研究和实践应用现状。详细地概括了本文的研究内容以及结构安排.对本文研究的个人信用评分领域相关知识作了概述,这是对该领域进行深入研究的前提和基础。主要包括个第二章个人信用评估与数据挖掘人信用以及信用评价的基本概念,个人信用评价体系构成;主观和客观两种基本信用评价方法;并对数据挖掘基础知识进行基本的介绍。主要是对应用决策树算法建立个人信用评分模型的过程进行研究和分第三章构建基于决策树算法的个人信用析:包括算法和相应工具的选择:指评分模型标体系的初选,数据的采集,预处理;建立决策树模型以及属性的量化形成客观的信用评分模型。对第三章的结果进行评价,并对评价结果做出分析。同时引入主观评价方第四章模型评价和最终调整法作为前述客观评价结论的调整,形成新的信用评分模型。针对建模的过程和建模中产生的问第五章结论题进行总结分析 对外经济贸易大学硕士学位论文第二章个人信用评分与数据挖掘2.1个人信用评分的基本概念通常信用的考察主体有两个:企业和个人。不同的主体有不同的考察因素和方式,但是考察目的是相同的:一是分析借款人的还款意愿,二是分析借款人的还款能力。本文的研究对象是个人信用。个人信用是建立在信用基础上的涉及个人的信用汇总,是指社会根据某公民现有和历史的记录对其可预见的偿付能力和偿付意愿给与的相应的信赖和评价,通过信用获得资金、物质融通的便利。个人信用评分就是通过分析汇总借款人的各个信用信息而得出的经过量化的信用等级。个人信用评分也是银行或其他金融机构利用所获得的信用申请人的信息,进行风险预测的一种方法和技术。它是把数学和统计模式用于个人信贷发放决策,对个人履行各种承诺的能力和信誉程度进行全面评价,确定信用等级和信贷限额的一种方法。其功能是以个人的信贷申请书和征信报告等资料为基础信息,对该申请人的信贷风险程度进行分析,并得到数字量化的结果作为贷款决策的依据,从而使信贷决策自动化、科学化。从本质上讲,个人信用评分是一种对个人信用的一种定量化描述,用客观的方式预测信用行为。它具有减少坏帐,促进决策标准化、业务自动化以及快速高效的优点。22个人信用评分模型建立的基本方法上一节中,阐述了信用和个人信用评分,可以看出后者是对个人信用进行评价的量化指标,如何建立这种指标正是本文的研究重点。在研究领域和应用领域中对建立个人信用评分模型的方法有着诸多的探讨和实践,宏观上来看有主观和客观两大类:主观的方法是授信方利用经验甚至直觉产生信用评分规则或者评分结果的一种方式;而客观的方法是利用统计或数据挖掘工具,从客观数据出发,总结出规律,建立个人信用评分模型的一种方法。下面对这两大类方法进行详细的阐述。2.2.1主观评价建模方法主观评价建模方法是指基于授信方(目前指发放贷款或推广其他金融产品的商业银行)的经验对申请方各种因素赋权,最终对其信用资信状况给与结论的方法。目前,绝大多数银行对借款人的要素分析方法主要包括:一是“SC,方法,即从品德与声望(Character)、资格与能力(Capacity)、资金实力(。pi以orcas协、担保(couatcral)、经营条件或商业周期(condition)s个方面分析借款人的信用状况;二是“sw”方法,即从借款人州no)、借款用途(why)、还款期限(whcn)、担保物柳hat)、如何还款伪。哟5个方面分析借款人的信用状况;三是“SP"方法,即从个人因素(Pcrsonal)、目的因素 对外经济贸易大学硕士学位论文(Pu,心阴)、偿还因素(paymeno、保障因素少mtOCtion)、前景因素伊erspe以ivc)5个方面分析借款人的信用状况。涉及个人信用的若干因素可以分为两大类:一类是定量因素,一类是定性因素。对一个人信用的影响常常是这两类因素共同作用的结果。主观评价建模方法就是根据授信方的主观经验判断这两类方法中的变量权重,进而把主观分析数据化和模型化,形成个人信用评分模型。国内外的经验表明主观评价方法建立信用评价模型主要着重对信用因素中的定性因素进行量化,包括个人所处的环境,偿债意愿以及相应的担保状况等。那么如何建立主观的分析体系、计算各指标的权重进而形成信用评分模型呢?理论界流行的主观赋权方法有很多种,其本质都是根据评价者对指标重要程度的认识来确定权数。适合个人信用评价的主观赋权方法有专家判断法和层次分析法。(1)专家判断法专家判断法的基本思路是:邀请一批对评价对象有深入了解的专家,让他们各自独立的给出每个评价指标的权数。然后将专家的意见集中起来,求出每个评价指标权数的平均值和方差。如果第一次专家的意见过于分散,还要将各专家的意见进行分析整理,并将整理的结果再反馈给各位专家,让他们在了解其他专家意见的情况下,进一步作出判断。经过多次反复,直至专家们的赋权结果趋于一致,并将最后的平均值作为各评价指标的权数。这种方法简单实用,是主观建模方法的主要方法之一。专家判断法主要有下列三种:1、专家个人意见集合法先征求专家个人意见,然后加以综合,确定预测值.2、专家小组法将专家分成小组,运用专家们的集体智慧进行判断预测。3、特尔非法通过函询方式向若干专家分别征求意见,各专家在互不通气的情况下,根据自己的观点和方法进行预测,然后企业把各专家的意见汇集到一起,采用不记名方式反馈给各位专家,请他们参考别人意见修正本人原来的判断,反复数次,最终确定预测结果。(2)层次分析法层次分析法是美国运筹学家Saty教授于二十世纪80年代提出的一种实用的多方案或多目标的决策方法。其主要特征是,它合理地将定性与定量的决策结合起来,按照思维、心理的规律把决策过程层次化、数量化。问题该方法自1982年被介绍到我国以来,以其定性与定量相结合地处理各种决策因素的特点,以及其系统灵活简洁的优点,迅速地在我国社会经济各个领域内,如能源系统分析、城市规划、经济管理、科研评价等,得到了广泛的重视和应用。 对外经济贸易大学硕士学位论文2.2.2客观评价的建模方法(1)神经网络方法神经网络是一种模仿人脑信息加工过程的智能化信息处理技术,具有自组织性、自适应性以及较强的稳健性气神经网络模型的类型较多,目前已不下数十种.代表性的神经网络模型有BP神经网络、GMDH网络、双向联想记忆、自适应共振理论。本质上,用来解决信用评分问题的神经网络可以视为一个对线性组合后变量进行非线性变换,然后再循环线性组合、非线性变换的一种方法.以BP(BackPropagation)神经网络为例:BP神经网络的输入(待评估申请者的特征项指标)和输出(信用得分或者信用等级)关系是一个高度非线性的映射关系。如果输入节点数为n,输出节点数为n,则网络是从n维欧氏空间到m维欧氏空间的一个映射。通过BP算法调整神经网络中的连接权重、网络规模(包括n,m和隐层节点的数目),就可以实现非线性分类。如图2.1所示:图2.1神经网络结构图资料来源:《数据挖掘》迈克尔贝里著13页例如,假设1表示某人按时还款(没有违约),一1表示违约。将一个按时还款人的样本资料输入模型,如果其得分为0.2(这样误差就为1刁.2=0.8),网络会将这一错误信息送回模型进行重新调整以减少误差,直到不能再减小为止。当所有的用于估计模型的样本(称为训练样本)的误差达到最小时,模型就建好了,下面就可以利用这一模型对一个新的申请者的信用进行评估。(2)决策树方法决策树法根据数据的值,把数据分层组织成树型结构,即用树型结构来表示决策集.‘州目甲.一一.一.叫t~.叻.~.一一困.一.‘.,l而:一目一白..一掩介脚州目灼眺“ 对外经济贸易大学硕士学位论文合,这些决策集合通过对数据集的分类产生规则。。在决策树中每一个分枝代表一个子类,树的每一层代表一个概念。2.3个人信用评分的现状分析在前面两节中论文着重对个人信用及建立信用评分模型的方法做了详细的介绍,也阐述了本文所选的建模方法及其优势,下面将个人信用领域的实际发展现状进行探讨。个人征信制度是对个人信用历史、信用状况、信用程度等进行确认的一整套制度。它是一个国家的经济、金融发展的制度基础,包括个人信用档案、个人信用评估、个人风险预带和个人信用风险管理等。它的建立和发展对于一国的个人银行业务的发展起着至关重要的助推作用。FICO模型是当今世界上较为权威的个人信用评分模型。该模型首先刻画消费者的信用、品德以及支付能力的指标,在把各个指标分成若干的档次确定各个档次的得分,然后计算每个指标的加权,最后得到消费者的总得分。FICO打分的范围是325州洲),其计算的基本思想是,把借款人过去的信用历史资料与数据库中的全体借款人的信用习惯相比较,检查借款人的发展趋势是否跟经常性违约、随意透支、甚至申请破产等各种陷入财务困境的借款人发展趋势是否相似。信用分高于680分的被认为信用情况很好,而低于6叨分的则被认为信用很差,金融机构一般根据FICO得分对申请人做出贷款或者不贷款的决定。Flc沪评分模型作为Fairlsac&company公司的专有产品,并没有对外公开全部的指标,同时它的计算方法也没有公开,因而尽管在美国的信用评价中该分值具有举足轻重的意义,但是它的精确性、公平性和合法性是完全无法调查、无法验证和不规则的,因而对于其他国家也不具备普遍推广的价值。在信用经济发达的西方国家,己经形成一套完整的信用评分体系,同时有了很成型的应用,但是这些信用评分体系并没有根据新经济情况做出及时地调整。我国个人征信制度建设到2000年才真正起步,短短几年的时间,虽然取得了一些进展,但仍然很不完善,存在着许多问题.到目前为止,我国的个人征信制度只是局部性、试点性的,尚未在全国范围内展开,缺乏统一的征信标准和市场化的征信机构,个人信用资料处于分割或封锁的状态,而且符合我国国情的征信法律体系还有待完善。个人征信制度的不完善,使得商业银行在开展个人银行业务时存在着严重的信息不对称,增加了个人银行业务的成本。例如在个人信贷过程中,借款者对自身财务状况和还款能力及意愿的了解要远甚于银行,向银行提供的资料信息也往往是利于个人的。并且,相比工商贷款而言,个人信贷具有分散性及额度小的特点,平均每笔贷款对银行收入的贡献度要远远小于工商贷款,但对于每一笔个人信贷,银行都必须像工商贷款一样,在发放前对申请者进行资信调查,并辨别所提供资料的真伪,在贷款后对分印.明.殊.⋯州.今人..,的姐月切⋯允翻二‘.,,.,.阴~....‘‘〕.勿:护尹.一1一.肉目‘~.*-1,~ 对外经济贸易大学硕士学位论文散的客户逐一进行跟踪,监控和掌握其财务状况以适时地调整其贷款额度,使贷款的风险降低,无形中提高了银行的成本一收益比。因此,作为以追求利润最大化为目标的商业银行也就失去了发放个人信贷的内在动力。同时,个人征信制度的不完善还使得商业银行的个人银行业务面临较高的信用风险。个人信用风险主要来源于个人的履约能力和履约意愿两方面。与公司的破产制度及基本账户制等法律法规对公司的履约意愿产生的硬性约束不同,个人的履约意愿很大程度上取决于个人品格,而这种品格很难以科学的方法加以计量,一般只能根据过去的信用记录和经验对其进行评价。.在个人历史信用资料缺乏的情况下,这种评价就很难进行。为了避免个人信用风险导致的坏账风险,减少银行损失的可能性,银行在办理个人银行业务时制定了较为严格的条款,对个人银行业务的拓展较为谨慎,对个人信贷客户的审查较为细致。这就使得银行将对个人的资产业务局限在风险较低的有抵押担保的住房按揭、汽车贷款等传统的个人银行业务上面,而减少了其他无抵押的消费信贷等个人银行业务的供给,从而在很大程度上制约了我国商业银行个人银行业务快速全面的发展。综合来看,我国个人信用评分的应用现状就是银行业缺乏标准、有效、符合现代经济环境的并可以帮助其树立竞争优势的信用评分模型和系统,但是各大银行的硬件条件良好,具备利用先进技术开发高效信用评分模型的条件,但是数据资源浪费严重。事实上,我国商业银行的硬件环境良好,从最初的业务处理电子化,到后来各银行内部网络和垂直业务体系的建成,直至数据大集中工程的实施,银行业具有世界一流的存储环境与网络体系,也具备开发这种模型的硬件环境和数据源.我国社会的大环境下,个人征信体系也处于同步发展的时期。本文通过对个人信用评分基本概念和建立信用评分模型方法的研究,以及对我国银行业个人信用方面的深入调查,明确了应用先进的数据挖掘技术建立客观信用评分模型的必要性、紧迫性以及其科学性,论述了在信用领域的数据挖掘方法有着强大的应用价值。2.4数据挖掘基本知识DavidHa刀d对数据挖掘的定义为:数据挖掘就是对观测到的数据集进行分析,目的是发现未知的关系和以数据拥有者可以理解并对其有价值的新颖方式来总结数据。0从商业的角度上来看,数据挖掘的作用就是在“数据矿山”中找到蕴藏的“知识金块”,帮助企业减少不必要投资的同时提高资金回报。世界范围内具有创新性的公司都开始采用数据挖掘技术来判断哪些是他们的最有价值客户、重新制定他们的产品推广策略,以用最小的花费得到最好的销售。数据挖掘是一个利用各种分析工具在海量数据中发现模型和数据间关系的过程,这“助‘刀...曰..抽..‘.州‘如,习.脚山目...甲抽.侧户....日.叫.门”侧山目....臼......月..日卜.目官白.......」..日白..叨‘.曰.卜....d,自..山比 对外经济贸易大学硕士学位论文些模型和关系可以用来做出预测。数据挖掘的第一步是描述数据,计算统计变量(比如平均值、均方差等),再用图表或图片直观的表示出来,进而可以看出一些变量之间的相关性。选择正确的数据源对整个数据挖掘项目的成败至关重要,在后面数据挖掘的步骤中我们会着重强调这一点。单单是数据描述并不能为人们制订行动计划提供足够的依据,你必须用你的这些历史数据建立一个预言模型,然后再用另外一些数据对这个模型进行测试。一个好的模型没必要与数据库中的数据10%的相符(城市交通图也不是完全的实际交通线路的等比缩小),但它在你做决策时是一个很好的指南和依据。最后一步是验证你的模型。建立测试集来校验模型的准确度并对模型进行评价。当模型效果差到不可接受的程度时,就需要重新建立模型。常见的数据挖掘方法有:传统统计方法、决策树归纳法、人工神经网络、遗传算法、粗糙集方法等。决策树方法作为数据挖掘充分利用先验信息处理数据间的非同质关系,可有效地对数据进行分类.这种方法虽然结构简单,但具有很高的分类精确度和分类效率,适合训练样本数据量较大的情况.值得一提的是它克服了多元参数、非参数统计方法的一些不足,具体表现在:自动选择变量、降低维数;较好的处理特别数点和缺失信息;可用于处理连续变量和离散变量或其线性组合的分类问题.⑧美联储曾在《平等贷款机会法案》(EqualcreditopPOrtunityAd)中称这种方法是在信用系统中经过实证检验并且在统计意义上完美的办法。不仅如此,与现代的数据仓库和OLAP技术结合起来的决策树方法也是实现数据挖掘技术在信用领域应用的最重要体现。决策树的原理就是利用二叉树结构进行数据的非参数统计。其一般思路是:在整体样本数据的基础上,生成一个多层次、多叶结点的树,按广度优先建立,直到每个叶结点包含相同的类为止,以充分反映数据之间的联系(这时这个树往往反映的是训练过度情况下的数据联系)。然后对其进行删减,产生一系列子树,参照一定的规则从中进行选择适当大小的树,用于对新数据进行分类。即建造最大树、对树删减、选择适当的树用于新样本分类。决策树算法是数据挖掘分类技术的重要方法,应用决策树建立信用评分模型是也本文主要选取的建模方法,在下面章节的内容中,本文会对决策树的构建、变量选择以及分割规则进行详细的介绍,在此不作赘述。通常,对于个人信用评分建模方法的比较和评估,可以根据下列标准来进行:.预测的准确率:这涉及模型正确地预测新的或先前未见过数据的类标号的能力。.速度:这涉及产生和使用模型的成本。口..............口0,一,’.~~.’~‘一一一一‘一..,t刁闷二毛..翻日比口.日皿自..月苦卜翻 对外经济贸易大学硕士学位论文.强壮性:这涉及对于噪声数据或具有空缺值的数据模型正确预测的能力。.可伸缩性;这涉及给定大量数据,有效地构造模型的能力。.可解释性:这涉及学习模型的理解和可洞察的层次。决策树对比神经元网络的优点在于可以方便地将结果以可视化的形式表达出来,并且可以生成一些规则。虽然神经网络的结果往往要优于决策树的结果,但当进行一些决策同时需要相应的理由的时候,使用神经网络就很难再满足要求。决策树具有很好的可解释性的优点非常符合本文研究的需要。决策树的优点总结如下:了能够生成可以理解的规则:了计算量相对来说不是很大,所以计算速度较快;了可以处理连续和离散的字段,了可以清晰地显示嘟些字段比较重要;了训练精度高;了决策树很擅长处理非数值型数据.综合比较来看,对于信用评价问题,决策树方法从可操作性上以及可解释性上都是最好的选择。因而本文基于决策树建立个人信用评分模型。 对外经济贾易大学硕士学位论文第三章构建基于决策树算法的个人信用评分模型在上一章节中,介绍了个人信用评分及数据挖掘的相关知识,本文重点在于选择数据挖掘的决策树算法,以及如何应用该算法并基于事实样本数据进行数据挖掘的过程,并最终得出个人信用评分模型的结果。3.1决策树算法分析决策树方法提供了一种展示类似在什么条件下会得到什么值这类规则的方法。比如,在贷款申请中,要对申请的风险大小做出判断,图3.1是为了解决这个问题而建立的一棵决策树,0从中我们可以看到决策树的基本组成部分:决策节点、分支和叶子。收入>Y40,000夕准、工作时间巧年高负债叮凌州冲低风险高风险高尽吐低风险图3.1决策树示意图资料来源:httP:刀~.365u.co.c可ZILiao/Detail/FileJ3635.ht.1决策树中最上面的节点称为根节点,是整个决策树的开始。本例中根节点是“收入>¥40众刃”,对此问题的不同回答产生了“是”和“否”两个分支。决策树的每个节点子节点的个数与决策树在用的算法有关。如CART算法得到的决策树每个节点有两个分支,这种树称为二叉树。允许节点含有多于两个子节点的树称为多叉树。每个分支要么是一个新的决策节点,要么是树的结尾,称为叶子.在沿着决策树从上到下遍历的过程中,在每个节点都会遇到一个问题,对每个节点上问题的不同回答导致不同的分支,最后会到达一个叶子节点。这个过程就是利用决策树进行分类的过程,利用几个变量(每个变量对应一个问题)来判断所属的类别(最后每个叶子会对应一个类别)o假如负责借贷的银行官员利用上面这棵决策树来决定支持哪些贷款和拒绝哪些贷款,那么他就可以用贷款申请表来运行这棵决策树,用决策树来判断风险的大小。“年收入>¥40,0”和“高负债”的用户被认为是“高风险”,同时“收入<¥40p以〕”但“工作时间>5年”的申请,则被认为“低风险”而建议贷款给他/她。建立决策树的过程,即树的生长过程是不断的把数据进行切分的过程,每次切分对应一个问题,也对应着一个节点。对每个切分都要求分成的组之间的“差异”最大。0决砚材欣口七“,:刀~.,.匆..‘.理让..八知.,1冲“.,洲加‘‘t.l 对外经济贸易大学硕士学位论文各种决策树算法之间的主要区别就是对这个“差异”衡量方式的区别。对具体衡量方式算法的讨论超出了本文的范围,在此我们只需要把切分看成是把一组数据分成几份,份与份之间尽量不同,而同一份内的数据尽量相同。这个切分的过程也可称为数据的“纯化”。以上例子,包含两个类别一低风险和高风险。如果经过一次切分后得到的分组,每个分组中的数据都属于同一个类别,显然达到这样效果的切分方法就是我们所追求的。到现在为止我们所讨论的例子都是非常简单的,树也容易理解,当然实际中应用的决策树可能非常复杂。假定我们利用历史数据建立了一个包含几百个属性、输出的类有十几种的决策树,这样的一棵树对人来说可能太复杂了,但每一条从根结点到叶子节点的路径所描述的含义仍然是可以理解的。决策树的这种易理解性对数据挖掘的使用者来说是一个显著的优点。然而决策树的这种明确性可能带来误导。比如,决策树每个节点对应分割的定义都是非常明确毫不含糊的,但在实际生活中这种明确可能带来麻烦(凭什么说年收入¥40,01的人具有较小的信用风险而¥4D卿幻的人就没有).建立一颗决策树可能只要对数据库进行几遍扫描之后就能完成,这也意味着需要的计算资源较少,而且可以很容易的处理包含很多预测变量的情况,因此决策树模型可以建立得很快,并适合应用到大量的数据上。对最终要拿给人看的决策树来说,在建立过程中让其生长的太“枝繁叶茂”是没有必要的,这样既降低了树的可理解性和可用性,同时也使决策树本身对历史数据的依赖性增大,也就是说这是这棵决策树对此历史数据可能非常准确,一旦应用到新的数据时准确性却急剧下降,我们称这种情况为训练过度。为了使得到的决策树所蕴含的规则具有普遍意义,必须防止训练过度,同时也减少了训练的时间。因此我们需要有一种方法能让我们在适当的时候停止树的生长。常用的方法是设定决策树的最大高度(层数)来限制树的生长。还有一种方法是设定每个节点必须包含的最少记录数,当节点中记录的个数小于这个数值时就停止分割。与设置停止增长条件相对应的是在树建立好之后对其进行修剪。先允许树尽量生长,然后再把树修剪到较小的尺寸,当然在修剪的同时要求尽量保持决策树的准确度尽量不要下降太多。对决策树常见的批评是说其在为一个节点选择怎样进行分割时使用“贪心”算法。此种算法在决定当前这个分割时根本不考虑此次选择会对将来的分割造成什么样的影响。换句话说,所有的分割都是顺序完成的,一个节点完成分割之后不可能以后再有机会回过头来再考察此次分割的合理性,每次分割都是依赖于他前面的分割方法,也就是说决策树中所有的分割都受根结点的第一次分割的影响,只要第一次分割有一点点不同,那么由此得到的整个决策树就会完全不同。而且,通常的分割算法在决定怎么在一个节点进行分割时,都只考察一个预测变量,即节点用于分割的问题只与一个变量有关。这样生成的决策树在有些本应很明确 对外经济贸易大学硕士学位论文的情况下可能变得复杂而且意义含混,为此目前新提出的一些算法开始在一个节点同时用多个变量来决定分割的方法。比如以前的决策树中可能只能出现类似“收入<¥35刀阅,,的判断,现在则可以用“收入<(035*抵押)"必收入>¥35卿力或抵押<150卿””这样的问题。决策树很擅长处理非数值型数据,这与神经网络只能处理数值型数据比起来,就免去了很多数据预处理工作。甚至有些决策树算法专为处理非数值型数据而设计,因此当采用此种方法建立决策树同时又要处理数值型数据时,反而要做把数值型数据映射到非数值型数据的预处理。一般来说,决策树的构造主要由两个阶段.组成:第一阶段,建树阶段:选取训练数据建立决策树,直到每个叶节点拥有相同的类标记为止,决策树建成。第二阶段,调整阶段:用剩余数据检验决策树,如果所建立的决策树不能正确回答所研究的问题,要对决策树进行调整剪枝和增加节点)直到建立一棵正确的决策树。因而比较分析决策树算法也要从选择测试属性、划分样本集和树剪枝上三个方面进行分析。决策树方法自产生至今,先后涌现出多种算法,根据在此三方面的不同,比较有代表性的算法包括D3,C4.5,CART,C比叼D,SUQ和SPR】NT等。其中最值得注意的是ID3和CA卫T,其他算法大多基于此演变而来。CA卫T算法采用一种二分递归分割的技术,总是将当前样本集分割为两个子样本集,使得生成的决策树的每个非叶节点都有两个分枝。因此CART算法生成的决策树是结构简洁的二叉树。图3.2是CART算法cartformtreeo的具体描述。其中,T代表当前样本集,当前候选属性集用tattribotclist表示。《1】创建根节点N二(2)为N分配类别;(3,企T娜属于同一类别ORT中只姗一个样本则返回N为叶节点,为其分配类别:(4)FORR人CHTa也为血妞中的属性执行该属性上的一个划分,计算此次划分的OIHI系数;(,〕N的测试属性触川Jttr币u..T-..幻七川e洲中其有最小OINI系数的属性;(‘)划分T为众,T.两个子集二(?)调用伪吐比珑加e(n》;(8)调用.”比,加e(几);图3.2CART算法伪码资料来源:本研究整理CART算法划分属性的度量方法是基于Gl卜几系数,GDn系数越小则划分越合理。数据集5的分类属性C有m个不同的离散属性值c:,cZ,⋯⋯兔即5中的记录有m个类别,那么其GL呵1系数就是:.中以肤甲..”..扭.帕....,确...月二‘目月二脚,...‘.瑞.1。.,:卜. 对外经济贸易大学硕士学位论文oini(s,一‘一菩扩其中P。是类别c。出现的频率。如果用属性A将数据集5分成两部分5.,5:。那么这个划分的GINI系数就是:Gini(s)一帕·Gini(sl)+侧卜Gini(sz)其中51,凡分别为这两个部分的样本个数.对候选属性集中的每一个属性,CART算法计算该属性上每种可能划分的GINI系数,找到G】N】系数最小的划分作为该属性上的最佳划分,然后比较所有候选属性上最佳划分的GINI系数,拥有最小划分GINI系数的属性成为最终测试属性。CART算法考虑到每个节点都有成为叶子节点的可能,对每个节点(包括叶节点和非叶节点)都分配类别。分配类别的方法可以用当前节点中出现最多的类别,也可以参考当前节点的分类错误或其它更复杂的方法。为了简化决策树的规模,提高生成决策树的效率,又出现了根据GINI系数来选择测试属性的决策树算法,使得生成的决策树可以是结构简单、易于理解的二叉树。为此,本文选择由salfordsystems开发的数据挖掘软件CART作为分类器,它基于CA卫T算法,应用决策树来解决分类问题,CART在下载时提供使用教材1,不需要特殊的培训,同时对于挖掘结果有很好的解释说明.3.2数据采集及抽取本文研究的根据商业银行个人房屋贷款信息的相关数据。为了更好的理解业务需求,本文的数据项和指标选取包括数据的相关处理都采取统计数据分析与专家法相结合的方式。下面就数据采集的过程作具体的阐述。3.2.1指标体系的初步选择根据前文介绍的信用“SC”评价,信用评价的指标体系应该包括品德与声望(Character)、资格与能力(。p硕t分、资金实力(Capi回orcash)、担保(colateral)、经营条件或商业周期(C匀nditon)s个方面分析借款人的信用状况.也就是说所选取的数据要涉及申请者的以上五个方面信息。然而事实上,在实际的商业银行环境中,并不是所有的非大客户个人信息都有科学的管理,同时也不是多有的数据项都可以为研究所用.因而在数据指标体系的初步选取上,本文把专家法和实际可获取数据相结合。结合调研和阅读文献掌握的我国目前的实际情况以及国外的多家金融机构的信用评分情况,评估客户的信用情况要考虑四大主要因素,分别是申请人的自然情况、职业情况、家庭情况、与银行的业务往来关系。这四大因素实际上是对“SC”的一种综不二了二二二万了二甲,魂口,.匕.曰..臼..户.白二加即巨...,白.口.日匆.‘..一日.d.臼二」闭...,创. 对外经济贸易大学硕士学位论文合的反映,具体又包括以下因素:(1)自然情况:年龄、性别、婚姻情况、健康情况、文化程度、住宅类型、当前住宅居住时间;(2)职业情况:单位性质、职业、职位、职称、在当前单位工作年限、月收入;(3)家庭情况:家庭人均月收入、家庭债务收入比例;(4)与银行的业务往来关系:账户、存款余额、业务往来、其他借款情况(都是指与被申请的银行业务往来关系).根据本文获取的数据情况以及3位来自信贷部的专家建议,本文按照以上四类大因素和19个二级因素作为指标体系,进行数据的初步选择。3.2.2数据的采集及抽样确定好个人信用评价的指标体系,接下来就要按照该指标体系,进行数据字段的选择。本文的数据来源是某商业银行的个人购房贷款信息。个人信用贷款数据的采集涉及贷款申请表,借款人基本情况表,经济情况调查表,还贷情况记录表等数据表,由于这些数据每天都在变化,我们的数据采集选用的是固定一天的数据库(2006年12月)。数据的采集过程是所有的数据都从银行数据中获得,这种情况会出现严重的数据过剩,这种过剩不仅体现在数据表字段的过剩,甚至对于数据表本身都是过剩的。所以作为着重建立科学信用评分模型的研究课题,本文以综合的二维表作为数据源,数据源中的数据取自大规模的数据库,而不是把数据源基于数据库本身。采集到的数据字段包括:性别、年龄、婚姻状况、健康状况、最高学历、行业、职位、现单位工作时间、本地居住时间、是否本地人、居住状况、家庭人均月收入、是否有本行定期存款、是否有本行信用卡、是否在本行证券系统开立账号、是否本行员工、是否参加医疗保险、是否参加养老保险、主要经济来源、联系地址类型、联系电话类型、是否提供手机号、法人担保单位资质、自然人保证、是否委托扣款、贷款金额(元)、家庭年收入(元)、家庭月均收入(元)、累计拖欠月数、连续拖欠月数、家庭资产负债比率%、家庭或有负债比率%。经过调查分析,在此32个因素中,有些是不适应做通用的信用评分模型的。把此32个因素与上面确定的指标体系进行整合,并作出以下调整:(1)自然情况方面保持不变:(2)职业情况去掉职业、职称、单位性质,月收入,增加行业;(3)家庭情况增加家庭年收入(元)、家庭月均收入(元):(4)与银行的业务关系确定为是否有本行定期存款、是否有本行信用卡、是否在本行证券系统开立账户、是否本行员工: 对外经济贸易大学硕士学位论文井增加第五类(5)保险情况:是否参加医疗保险、是否参加养老保险整理之后,最终要作为数据源的因素确定为:性别、年龄、婚姻状况、健康状况、最高学历、行业、职位、现单位工作时间、本地居住时间、居住状况、家庭人均月收入、是否有本行定期存款、是否有本行信用卡、是否在本行证瘾二万立账户、是否本行员工、是否参加医疗保险、是否参加养老保险、家庭年收入(元)、家庭月均收入(元)、累计拖欠月数、连续拖欠月数、家庭资产负债比率%。总计22项,其中连续拖欠月数作为预测变量,而不是分析变量。经过专家法的验证,是否本地人、主要经济来源、联系地址类型、联系电话类型、是否提供手机号、法人担保单位资质、自然人保证、是否委托扣款、贷款金额(元)、家庭或有负债比率%十项被删除。初步确定了数据源指标,下面就是进行数据的抽样。在本研究中,用数据库中500多条数据进行数据挖掘显然是不合适的。因而在数据库中用随机抽样的方法抽选一半250条数据作为训练数据,然后再随机抽取100条数据作为测试数据,以对结果进行再修正。经过数据采集和抽样,最终形成具有两张数据表:其中一张具有250条记录,另一张有100条记录,每一条记录中具有前文所述的21个字段。事实上,本节的数据采集所确定的指标体系只是对于分析所需字段的经验性初步选择,并没有从统计意义上进行数据的分析处理。。畜下一节数据的预处理中,会以该表为基础进行清理,并从统计的意义上对指标体系和最终的二维数据表做出阐述。3.3数据预处理高质量的决策必然依赖于高质量的数据,因此数据预处理是知识发现过程的重要步骤,同时也是数据挖掘中最为耗时和繁琐的过程。因为现实世界中经过初步采集后的数据依然多半是不完整的、有噪声的和不一致的,所以在获取数据源后,需要对它们进行清洗和转换,使其符合数据挖掘算法的要求,并能够产生最为可靠和准确的结果。数据预处理包括数据清理、数据集成、数据变换和数据归约等12。本章将根据个人房屋贷款数据信息的实际特征,使用数据清理和数据转换技术以及SPSS统计软件对采集到的二维数据(处理数据集)进行预处理,生成目标数据(挖掘数据集)使之能够满足建立个人信用评分模型的需要。本节中为了对处理过程作清楚地阐述,以1以X】条样本的测试数据表为例。3.3.1数据清理数据清理是对数据进行整理,对噪声数据和不一致数据进行处理,可以增加数据挖.,.......目目.....1抽万⋯加.里玉,....于...口日..艘..‘..旧盼.翻.口日.压.甲..月“,.日卜四 对外经济贸易大学硕士学位论文掘结果的准确性。在本文中是根据实际情况对数据采取不同的处理方式:(1)对于空缺值的处理:空缺值出现的可能性很多,主要是由于数据采集时缺乏样本数据产生的。对空缺值进行处理有许多方法和手段,包括最大频数填充、平均值填充、人工随机填充等方法,对此,要根据变量自身的特点,采用不同的方法进行处理。对于离散型的空缺值,采用同类频数最多的值代替:在最高学历中,存在5条空缺值,从表3.1可以看出所有记录中“大学专科”的记录比例最高,为30.4%,且是这两条记录的“行业”信息存在,都属于“批发和零售行业”,在对所有属于该行业的记录进行分析后,有30.4%的“批发和零售行业”的记录最高学历为“大学专科”,也是同类频数最高的,因而对于缺失“最高学历”数据的五条记录,填补为“大学专科”。QJmU以湘下明u翻CyP.rC.ntV白1匕p.m曰的Pel的川丫白.时5刀月.日初中1.O.O.8大学本科月5515.315.316一1大学专科90330.430.448石高中57319.319,365名其他月礴014.吕14名8O方研究生及以上431。41。4胶力中专、技校53518,018.010.0下0怕!2955,侧】.01川)0表3.1最高学历频数分析资料来派:本研究整理而对于存在连续性的数据,例如家庭人均月收入(连续值),也有数据为空缺和出现“0”值的情况。在这里,我们用平均值来进行处理,比较符合均值的原则.对于“家庭月均收入”,其均值为4703.12元,见表3.2所以空缺值和“0”值用“47(X)”来代替。口..‘dPth,5场住.时.c.表3J月收入均值分析资料来源:本研究整理对于某些数据,存在3个字段以上的空缺值,如果进行人工填补会对其准确程度有影响,对此类数据,进行删除处理。 对外经济贸易大学硕士学位论文(2)对于噪声数据的处理:处理方法诸如“分箱”、“聚类”、“回归”等。本文对于噪声数据有如下的处理方式:枚举型数据的处理:性别、是否本行职员、是否参加保险等,如果存在“男女气“是否”以外的其它数据,应作为噪声数据进行删除。对于存在边界值的数据,当家庭人均月收入,如果存在负值,或出现远大于正常水平的数值,就将其归类为噪声数据进行处理。(3)对于数据不一致性的处理:数值类型不一致、长度不一致等等。对于“年龄”字段,现有的数据分成四个年龄层次“35到50岁(含)”、“25到35岁(含)”、召18到25岁(含)”、“50岁以上”,但是同时我们可以看到存在离散的数值型数据,例如42、28、37等,对于这些数据的整理,我们人工把它归入上面的层次类别。一致性处理,还包括对行业、职位等文本字段的出现不一致数据字段的处理。经过数据清理,整理出2450条数据,28个字段,见表3.3Data盯ittentoc八学习资料、毕业论文、随机取样后数据.xls.28variablesand2450cases盯ittentorange:SPSS.vari的le:性别T即e:string,idth:2Variable:年龄T”e:String份idth:12yariable:婚姻状况T即e:String贾idth:10variable:健康状况Type:String.idth:4yariable:最高学历Type:String份idth:12Variable:行业T,pe:Striug下idth:30Yariable:职业T邓e:String贾idth:40var主able:现单位工作时间T”e:String,idth:12variable:本地居住时间T扣e:String份idth:1,物riable:是否本地人T邓e:String贾idth:18Variable:居住状况T即e:String份idth:12yari曲le:家庭人均月收入T即e:String份idth:16variable:是否有本行定期存款Type:String,idth:2Variable:是否有本行信用卡Type:Stri昭,idth:2variable:是否在本行证券系统开立帐户T”e:String,idth:2Variable:是否本行员工T即e:String甘idth:2yariable:是否参加医疗保险T扣e:String,idth:2vari曲le:是否参加养老保险T即e:String,idth:2variable:是否提供手机号r即e:String,idth:2Variable:购房用途T即e:String份idth:4yariable:抵押物变现能力T扣e:String份idth:4 对外经济贸易大学硕士学位论文yariable:贷款金额(元)T扣e:N四ber份idth:11加c:0V叮iable:房屋价值(元)T即e:N四ber份idth:11加c:0Variable:月均还款颁(元)T,pe:洲山ber.idth:11加c:0V盯iable:家庭月均收入(元)TyPe:N山吐岭r,idth:lDec:0V盯iable:连续拖欠月数T即e:别助ber贾idth:11加c:0Variable:最计拖欠月数T,pe:N.山er,idth:n加c:ovali曲le:家庭资产负债比率丁yPe:枷.ber,idth:n加识0表3J数据清理结果资料来源:本研究整理需要指出的是,这只是数据清理后的初步筛选结果,仍然会有许多不合理和不适合CAI灯挖掘的字段,这将在后续内容中依次阐述。3.3.2相关性分析及冗余处理在对数据进行清理之后,接下来的步骤是对其进行相关性分析和冗余处理。数据的冗余处理是把一些重复的信息进行处理。相关性分析是为了减少约束条件,在保证分析准确性的基础上降低分析的强度。本文正是基于以上原则,对各属性进行处理。对冗余属性进行相关性分析。’3相关分析是研究变量间密切程度的一种常用统计方法。线性相关分析研究两个变量间线性关系的强弱程度和方向。相关系数r是描述这种线性关系强弱程度和方向的统计量。_艺(A一刁(B一习伪刁)丐几其中,n是元组个数,A和B分别是A和B的平均值,巧和几分别是A和B的标准差。如果上式的值大于0,则表明A和B是正相关的,该值越大,一个属性蕴涵另一个的可能性越大。相关系数越大越接近于1说明A和B存在的相关性就越大,这两个属性有一个相对来说就是冗余的.如果r=0,说明A和B没有相关性.r<0说明这两个属性是负相关的。下面是对27个字段的相关性分析。从表3.4我们可以看到累计拖欠月数和连续拖欠月数相关系数为0.912,可以认为这两个变量具有强相关性。根据现实经验这两个变量也具有强相关性,所以删除“累计拖欠月数”。1.石庆盛.晰云t。多种个人.用钾分.里在中.自用的比搜目究ti]趁廿.宜,到匆口,:.洲‘,).心卜刁,. 对外经济贸易大学硕士学位论文连续拖欠月殡计拖欠月数致累计拖欠月数P。。幻.C劝re肠6加19l的5够份一汕ed).侧:幻N别阅2450连续拖欠月数P曰Cbn笼lalion,i2(=)151乡(2,ta目ed).仪犯N245()2450卜〔劝比clationissigni石can.at此0.01妙cl(2一ilcd).表3月月数相关分析表资料来源:本研究整理在信用分析的所有属性中,经过相关性的处理,还剩下19个因素,其中连续拖欠为决策变量,将其他的变量设定为条件变量.完成相关的冗余处理后,下面要进行的就是对现有数据的进一步变换,使其不仅在统计意义上是非异常的,非噪声的、冗余较少的千净数据,而且是适合挖掘的、能够使数据挖掘算法有效、快速进行的数据形式。下面就是对于上文得到测试数据集的进一步变换和规约。3.3.3数据变换(1)数据变换在所得的原始信息中绝大部分的字段值都是字符型的,为了在数据处理中,占用更小的空间和取得更快的计算速度,要把字符型的数据转化为数值型的数据,这样会更便利于数据挖掘。例如:“性别”、“年龄”、“健康状况”、“行业”、“职位”、“最高教育气“家庭人均月收入”、“是否参加养老保险”等。事实上,从本文收集到的数据来看,去除冗余属性的17个属性中,只有三个属性“家庭月均收入”,“连续拖欠月数”、“家庭资产负债比”、“现单位工作时间”是数值型连续变量。所以首先把文本型变量转化为数值型变量。因为字段较多,只将部分属性的变换规则示意如下:性别代码0男01女02健康状况代码1良好n一般12(2)数据压缩:如果原数据可以由压缩数据重新构造而不丢失任何信息,则所使用的数据压缩技术是无损的,如果只能重新构造原数据的近似表示,则该数据压缩技术是有损的。另外一种常用的方式是用替代的、较小的数据表示、替换或估计数据。利用数据压缩的处理方式,针对“婚姻状况”、“职位”和“行业”三个字段的分类进行调整处理。 对外经济贸易大学硕士学位论文在数据挖掘研究中,连续属性离散化是一个很重要的问题。大多数数据挖掘算法都要求连续属性数据必须预先离散化之后才能进行。连续属性离散化就是在特定的连续属性的值域范围内设定若干个离散化划分点,将属性的值域范围划分成一些离散化区间,再用不同的符号或整数值代表属于每个区间的属性值。数据离散化就是使用概念分层“,用较高层次概念替换较低层次的“原始”数据。这是人们从感性认识到理性认识的升华,通过抽象得出的概念更有力量,也更有说服力。下面是一个概念分层的例子。第一条规则:受过高等教育的人比例增加1%,GDP上升2%.对数据进行抽象化处理可以得出以下的规则:第二条规则:高等教育能促进GDP增长。规则2就是对规则1的抽象,更简洁也更能说明问题。对于给定的属性,概念分层定义了该属性的一个离散化。通过收集并用较高层次的概念替换较低层的概念。对于连续性数据,可以采取离散化的方法。首先,对于本文所获取的个人信用数据处理集来说,“连续拖欠月数”属性是本文的决策属性,而其他的属性都称为条件属性。对于该属性的数据分析发现“连续拖欠月数”是个从0-103的连续变量,但是决策树建立信用评分是要解决在一定范围内的分类问题。因而要把该变量转换成能够标记类别水平的值才能满足要求。根据2450条数据作出该属性的频数分析:连续拖欠月数FrequenCype陀entlV白fidPelCenllPe比e爪阴.458.4584Val对01月30闷78s232616.2144:74762384aa.46964阳3石a石731573a刀3刀76月.6I94…94.98107a111j62282711J8339291卫1卫8451月..t.于翻爪们.习中伪口日今.,.草.性的离故兔升翻帆日究峪皿.日】.碑门,,拐砚D.月因卜创的 对外经济贸易大学硕士学位论文伯科乃名e631臼.1J875粗匆名名朋313汉::0e9314179001512马SO4怕4…2.29061718.791318e…2916怕7J9192018.7926刽7名名929225.0…0朋9臼20.894724招…S95习25e卫95石即s.2957刀s…1…195月加596习四496230.229643110月…496习韶2:1se习341974肠42297e38礴2卫977s71…0…0978381978411978427J名朋1477名名9844a2.1.19a5492…1…19865o1986放14盼226 一一一一一一一一一一一一一一卫丝丝进鱼墨木学硕士学位论文.⋯⋯-_马‘…O:0.9.260Z.9名6aj力.9J64峭…0.0.日日.4龙‘.0.99.474弓.1﹄9.575曰.刀.099.684口.1.1‘99.6863…1…1日9.8872的名8‘.9.9洲…0…09.91010.O1031创】.0下b怕1.24501,0.01月扣.0图幼连续拖欠月数频数分析图资料来源:本研究整理对该图进行详细分析可以看到,“连续拖欠月数”的频数大体上分为三个水平,高级水平是连续拖欠月数为“0”个月的,其频数为1430;中级水平是连续拖欠月数是为“1一12”个月的,其频数为73;剩下的拖欠贷款在12个月以上的。结合现实意义,可以看到从未拖欠的贷款的占58.4%,超过半数的贷款者都有很好的信用记录。对于中级水平,可以看到29.钱的客户在一年内还清贷款。从财务管理角度来看,一年期属于短期资金范畴,这些用户在资金得到融通后,具备还款能力。对于连续拖欠12个月的用户,可以看到占到1.浅,他们拖欠的是一笔长期资金,在长期内不能偿还贷款,这会影响到银行的现金周转,对此用户要严格控制贷款。根据以上原则,本文把连续的变量“连续拖欠月数”,分别按照0值、1一12值、12以上值,离散成为三个级别:将“拖欠月数”=0(没有拖欠任何的银行本金及利息)的纪录,也就是一个用户,标记为“高信用级别”:将“拖欠月数”(1一12)的纪录(拖欠银行本金及利息小于12个月,但是不为0)的纪录标记为“中信用级别”;将“拖欠月数”)12的纪录(拖欠银行本金及利息大于6个月)的记录标记为“低信用级别”。这个和财务管理上短期资金和长期资金的区别是一致的。进行分层变换的属性还包括“行业”,“职位”和“婚姻状况”,这三个因素在原始数据中都已经是离散值,但基于简化原则做一定的处理。我们可以看到原有的“婚姻状况”字段包含“未婚”、“己婚无子女”、“已婚有子女”、“离异”、“丧偶”和“其他”几项,实际上在文法的角度和实际意义上有很多重复的地方。因此,为了 对外经济贸易大学硕士学位论文简洁和无损信息量,将这六个层次合并成两类“已婚”和“未婚”。同理,本文把“行业”这个概念由原来的20个类别缩减为10个类别。而针对“职位”,我们把原有的10类综合而成4类。转换后的结果,见表3.5:转换属性分类表其它批发和零售业务,租赁和商务服务,居民服务和其他服务业农、林、牧、渔业,采矿业,地质勘察行住宿和餐饮业,娱乐业业房地产业,建筑业,制造业类交通运输、仓储业别邮政业电信、计算机服务和软件业,公共管理和社会组织,国际组织金融业,会计师,律师,咨询电力、嫩气及水的生产和供应业(能源)教育业,卫生、社会保障和福利业,体育,水利、环境和公共设施管理业职企业事业单位负责人级位专业技术人员类基层服务人员别个体工商户及其他婚未婚姻已婚表3占转换属性资料来源:本研究整理经过以上的处理,我们得到了2073条记录,其中每个记录含有14个属性(l个决策属性和13个条件属性)。该数据集作为进入数据挖掘软件(决策树分类器)的测试数据集。下面要进行的就是将这些数据导入数据挖掘软件CART,进行决策树建模了。事实上,针对CA丑T软件的具体要求,训练数据集和测试数据集要进行处理之前要作相应的变换:1.离散化变量进行数值处理,用数值代码代替离散化变量.2.根据以RT的特点,由于CART对中文无法正确的处理,将中文属性名进行相应的英文变换。处理后得到进入CART的字段表3.6: 对外经济贸易大学硕士学位论文转换后的数据集字段表性别家庭人均月收入年龄是否有本行定期存款婚姻状况是否有本行信用卡健康状况本地居住时间最高学历连续拖欠月数行业家庭资产负债比率%职业是否参加养老保险表1‘转换后的数据集字段表资料来派:本研究整理3.4建立个人信用评分决策树模型在实际对C人卫T进行操作中,由于计算机硬件的问题,可以看到,同时14个变量进行处理,计算机无法正确的生成树,内存占用过多是CART存在的一个问题.对此,我们进行如下的一些处理.1.在CART软件中,有一个指标是衡量属性重要性的,该指标以相对百分数表示,在预测和分类中发挥最大作用的属性赋值为10,而其他的属性以贡献值为依据一直减少到0。在本文选择的14个指标中,以RT处理的结果见表3.7:RelatiVeNumberofMinimum万m即d朋CeCalegoriesQt亡goryEARN州GPE1仪】.以幻10478州DUSTRY61.567458JOB48.875538EDUCAllo39‘213556CONTINUOUS35‘214AGE32.925DEBTC户尸131.7813刀州田R卫531‘214375ASSURANC21.213铭21812.98721522821228表3.7属性重要性分析表资料来源:本研究整理 对外经济贸易大学硕士学位论文︸1气、..,.’.其中令X=呢卜xZ司石1567xl,x3=0.4875xl,..一l’=0.〕闭21xl,函数为:....布!.L口林‘·INT(X‘著毛’·‘0可得Y=(左,14,9,7,6,6,6,6,5,4,4,2,2,1),这意味在信用评分中,各因素所占百分比从2既到1%,分别顺序对应的是前述14个变量,该百分比就是各个属性的“决策影响程度值”。3.5.2每个属性不同取值的量化在确定完14个属性的权重以后,就确定了某个属性在决策中的重要程度,要想根据个人信息得到信用评分模型,还要确定每个属性的各个取值的重要程度,也就是对离散型变量的每个取值赋值,对连续型变量先离散化,然后找到分层后每一层量化后的分值。首先,进行连续型变量的离散化。本文数据集中的连续型变量“家庭月均收入气对于“家庭月均收入”,用EXCEL数据分析中的直方图3.6进行分析有:圈频率,累积%[1扮产代泄盖万争氛赢图3汤月均收入直方图资料来源:本研究整理按照“前5%,后5%”的惯例,我们把“月均收入”离散化成五层:7加以下(4.39%);7(X)一31叉洲)(累积频率57.05%);3《XX).7《X洲)(累积频率84.99%);7(XX)口15《X洲)(累积频率95.80%);巧00以上。这样所有的变量都成为离散型变量,对于一种变量,下面就可以构造一种方法计算各个取值的权数:了,、‘且.、矛确定各个信用级别的“信用保险系数”al(卜0,1,2);了n、‘乙.、产构造X,二{x,。,毛1,毛21代表该属性的j层次上信用级别为0,1,2的频数: 对外经济贸易大学硕士学位论文(3)令凡为设在j层次上的信用分值:5,一(x,产。+xJ八+xjzaz)/(x,。+xJ、+xJ:)(4.10)(4)取分值最高的层sj为该属性的“决策影响程度”值,也就是占有10既的比例。同时沿用CART中重要程度比的概念,按照与最好取值的比例,以此确定其他层次取值的分数:在作者和银行业务人员的交流中,有下面的经验数据,他们把信用级别做了划分。把信用级别分成“1分,“2”,“3”三个级别。“1”,“2”,“3”的信用保险系数为(0.8,0.3,0.01),这里认为“1”代表信用级别最好的人(即没有拖欠贷款的人)违约概率小,会有70%的把握继续成为好信用的人;而“2"代表信用级别一般的人(拖欠贷款属于短期,1一12月内),有20%会在未来的趋势中成为信用好的人;“3”代表信用差的人(即长期拖欠资金,在12个月以上的),基本上在未来也不会成为好信用的人,也就是说已经造成了信用的欠缺,因而其信用保险系数为1%。在此,我们以“最高学历”为例,以测试集为样本演示该方法的计算过程:首先,将“最高学历”分为五层:研究生及以上;大学本科;大学专科;高中/中专、技校;其他。相对于决策属性连续拖欠月数的交叉表如下:连续拖欠月数Total1123最高学历大学本科206o41307大学专科科51261116S2高中/中专、技校42221615078其他l048778269研究生及以上2016271、,回11974o3862073表3名学历一连续拖欠月数交叉表资料来源:本研究整理按照默认的顺序,51二(206x0.8+60x0.3+4lx0.01)乃07习·60同理,可以计算得出,又习.58;凡=051;又=0.41:凡二0.61:其中最高分值为凡,即“研究生及以上”,前文中我们得出的决策影响程度重,“最高学历”为7,则5,转化为7,按照比例分别转化为以下结果:51=7,又,6.5,凡巧,又=5。用同样的方法 对外经济贸易大学硕士学位论文处理剩余的13个属性,得出最后的信用评分模型。3.6个人信用评分模型的结果个人评分模型建立过程对于数据进行全面的预处理在干净数据集的基础上,选择重要变童,建立并简化CART决策树,同时提取分类锐则根据建树和剪枝过程中各个属性的贡献程度,确定每个属性时于决策的影响程度.也扰是各属性的权值离散化每个属性,并根据每个属性相对于决策属性的列联表以及决策类别的信用保险系数,确定特定属性中每个取值的相时重要程度和分值根据上述的处理,得出个人评估信用模型,具体的权重和处理过的分值如表3.9所示:个人信用评分最终表属性总属性值属性取值范围权重权重700以下6700一3000l2家庭人均月收223000一7000l7入7000一150002015000以上22其它2批发和零售业务,租赁和商务服务,居民服务和其他4农、林、牧、渔业,采矿业,地质勘察6住宿和餐饮业,娱乐业5房地产业,建筑业,制造业6行业交通运输、仓储业7邮政业电信、计算机服务和软件业,公共管理和社会ll金融业,会计师,律师,咨询10.5电力、燃气及水的生产和供应业(能源)l0教育,卫生、社会保障和福利业,体育,水利、环境14职业企业事业单位负责人级9 对外经济贸易大学硕士学位论文专业技术人员7基层服务人员4个体工商户及其他5研究生及以上7大学本科7最高学历大学专科6.5高中/中专、技校6其他5O月6连续拖欠月1一12月4数12月以上l18到25岁(含)225到35岁(含)5年龄35到50岁(含)650岁以上4无负债6家庭资产负债1一10(含)4比10一60(含)260以上0小于3年l本地居住时3到10年(含)3。5间10年以上是否参加养老保是5险否3.5未婚3婚姻状况已婚4是否有本行定是4期存款否3是否有本行信用是2卡否l男2性别女2良好l健康一般0表1,个人信用评分最终表资料来派:本研究整理 对外经济贸易大学硕士学位论文这是一个百分制的信用评分表,可以根据个人的信息对其信用进行量化,得到一个百分制的数值,但这只是一个量的概念,难以说明这个分值到底代表怎样的信用等级。例如“60”分相当于什么等级?针对这个问题,下一步就是基于这样的评分标准,对于信用等级进行分类,明确信用级别与信用得分的关系。3.7个人信用评价标准的确定想要解决个人信用等级与信用分值的对应关系问题,首先要把明确在随机的样本中,每个信用级别的样本个数和比例。在本文研究的信用问题中,信用级别分为3等:信用好,信用一般,信用差。在对2D73个样本进行分析后,这三种级别的比例为(58.4%,30一08%,u.52%)。本人从中测试集里取1仪力条记录按照评估模型进行评分并按照上述信用比例进行分析,得出下面表3.10结论:信用评分分值信用级别76一1叨l60一7520一593表3.10信用评分分值与信用级别对应表资料来源:本研究整理根据信用评分模型,同时参考信用级别,就可以对个人信用进行具体的评估操作了。在具体操作上,针对个人信用评分,怎样评价信用评分分值和信用级别的关系主要由业务人员对于金融产品本身的理解决定,不可避免的,对于有些特定的问题要进行特殊的处理方式。完全基于上述模型进行评价既是不严谨,也是不合理的。在下一章节中会根据实际情况对模型进行调整。3.8本章小结本章是全文的核心章节,基于实际中的商业银行个人信用数据,通过数据采集、抽取、数据预处理,以及应用这些样本数据建立CA丑T决策树的全过程,建立了个人信用评分模型。同时根据生成的决策树分析了树规则,确定了条件属性对决策属性的影响程度,也给出了计算每个属性中具体取值的方法。在建立包含14个属性因素的个人信用评分模型的同时,也指出了分值与信用级别的对应规则。在下一章节,将以此决策树模型为基础做出评价和调整。 对外经济贸易大学硕士学位论文第四章模型的评价和最终调整第三章主要阐述了基于真实样本建立个人信用评分模型的过程。在本章中,将对已经产生的模型进行评价,并做出必要的调整。4.1模型的评价本文所述的信用评分模型的建立过程分为三个步骤:首先建立以盯决策树模型:然后根据以RT决策树的结果进行变量属性的赋权:最后根据样本对每个属性中的取值进行量化。不难看出,后两个步骤是以决策树模型为基础,也就是说其正确性的根基是决策树模型的合理性,当然还包括量化方法的合理性等。因而,本节中的理论评价涉及两个部分:对以RT决策树模型的评价以及量化后最终评分模型的评价,用来分别验证决策树建立的正确性以及分值量化方法的合理性。要评价一个决策树的正确性,有很多指标,针对CA丑T决策树的特点将其总结如下:(1)错分概率气错分概率是一个衡量决策树的分类和预测正确性的关键指标。它的计算很简单,就是计算在利用生成的决策树进行分类时,样本的一个类被错误的分到其他类的概率。在应用的过程中,该指标也是针对训练集和样本集分别给出的。(2)预测成功率:预测成功率也是衡量树结果的重要指标。它给出了利用该树对测试集和训练集样本进行某个类别预测时,预测正确的样本占各自样本集该类样本的百分比。在分析过程中,样本集和测试集都被视为一个新的集合来进行分类和预测,如果在两个集合中的预测成功率都很高,则证明当一个未知类别的记录进入到决策树中进行分类预测的话,其预测的成功率也会很高。(3)树的稳健性:该指标是根据错分概率和预测成功率派生出来的,它的计算是把对于样本集和训练集的前两个指标进行比较,如果相差的很小,就证明用该树在新的集合上会产生同样的分类和预测效果。本文针对上述三个指标,得出的分析结果如下:(l)错分概率:针对为信用级别为“1”,“2”和“3"的三类样本,算出为针对这三个类的错分样本数以及错分概率,括号内的部分为测试样本集的三个类别错分数据。见表4.1”.甲挂,门.1.口佗.中决.材月毯的.时计称舰自月研究切别.压,.,1.一1., 对外经济贸易大学硕士学位论文错分概率表PdotWgt0别沼P代七WgtC以川1〔为四盆MisCla翻M臼沁玩50的t10j8401210.(X)1210101一(X)1010.083(581.058141一以】410.071)20.34】犯623.(X)623720.115(30Lo30155」以丛)30.1152240.(X)24()590.245(118.印11828一0280.234)TolalL以洲)加73.0加73232.叨23211艾X)124一0124)表4.1错分概率表资料来浑:本研究整理由上表,对于“1”类,训练集的1210个样本中有101个样本被错误的分类到了其他的类别中,在581个测试样本集的“1"类样本中有41个被错误分类。同样可以得出“2”类和“3”类的错分概率。对于“1”类样本,决策树分类准确率非常高,“2”类和“3”类,有一定的偏差。(2)预测成功率:其中表的上下部分分别为训练样本和测试样本集的预测正确率,“corcct”行明确了该指标。见表4.2预测正确率表}训练样本集预测正确率一刁ACtUa】P代dic比doass曰润热012Tot习1108.砚犯67.035.《刃1210一(X)96.仪】505.02.0623.042。J】10018.0240.0PRED.双打.1246.0582.0245.02073.0C口川妞CTO.刃5a812a邓夕测试样本集预测正确率AdualPredic比doa日5声d,二1oassoTotal1536一口洲)3L盆14.0581一加 对外经济贸易大学硕士学位论文221.加241侧(X)的.0301.03刀.03.092.ons.oPRED.俄打.580.0275.o145.(X)11兀旧.0C口天只EC了a夕2Ja801抹龙2表松预侧正确率表资料来源:本研究整理可以看出,对于反映最高信用等级的“1”类样本的预测正确率,无论训练集还是测试集都在90%以上,有较高的准确率。而“1”和“2”,正确率在78%一80%之间。(3)通过上述两张表的结论,可以看出此决策树树的错分概率以及预测正确率对于训练集和测试集都比较接近。这就意味着该决策树具有一定的稳健性。上述三个指标可以推导出:本文所生成决策树在对具有最高信用级别的个人用户判断准确率较高,在9服以上,而对于“2”类和“3”类个人用户的预测准确程度在8俄左右。从实验的角度上来看第三章以此决策树为基础对各属性值进行赋权的基础是比较合理的。决策树是信用评分模型的基础。接着是在评价决策树的基础上对信用评分模型进行评价。在本文中将用真实样本来模拟商业环境的方式对第三章得出的个人信用评分模型进行验证与评价。现在从原始样本中,随机抽出10条数据,依据个人信用评分模型的规则进行评分,并把计算得出的分值按照“76分以上”,“印一75分”以及“60分以下”的三个级别进行分级,并分别标记类别“1”,“2”,“3万。当预测的结果与真实样本的值有很大的拟合度,可以证明评分模型是有效的。如果存在较大差异说明在决策树建立过程中的错误在属性权重的量化过程中被放大,权重量化不尽合理。下面是对10个测试样本中,我们把“预测级别”和“样本级别”的做交叉表分析:样本级别123Tbt自1预侧14112457级别28882434312191’Otal5323241o表们预测级别和样本级别交叉表资料来源:本研究整理由上表可以看出,“1”类样本的预测正确率为72%:“2”类样本预测正确率为3 对外经济贸易大学硕士学位论文%;“3,类样本预测正确率为63%。根据上面的分析结果,可以看出,决策树的评价显示其具有相对较高的正确性,特别在高信用级别的预测精度很高上:但量化后的信用评分模型由于决策树的错误被放大,预测正确性较低,存在较大的错误。对于这种情况,将在下一章节对出现这种结果的原因进行具体的分析。4.2模型的评价结果分析从4.1小节可以看出,个人信用评分决策树的评价是:对于信用好的客户能够进行正确率为0%以上的预测,对于信用一般和信用差的用户的预测正确率偏低,在80%左右;信用评分模型的评价是总体上预测正确率偏低,最高的高信用级别预测正确率在72%,其他两个信用级别正确率都在70%以下。究其原因,从主观和客观两个原因进行分析,表4.4: 对外经济贸易大学硕士学位论文主观原因客观原因一、在数据处理的问题上。数据处理包括一、从我国现今的社会背景来看,目前的数据的冗余处理,变换和规约,离散化和信用保障是以个人的道德修养为主,诚信分层等。在所有步骤中,本人都尽量以专作为一种美德融于道德体系当中,对于从业原则进行分析处理,但仍然有主观处理事经济活动的绝大多数人是高信用的,因的因素,在离散区间处理上有较大的主观而对于好信用的记录,一般来讲是容易预性,比如说对于连续拖欠贷款的划分按照测的17。即使把所有的申请者都认为是好信“0个月”、“1一12个月”,“12个月以用的,相比于其他的两个类别也会产生偏上”的划分模式在各银行信用分析预测部低的错误率。这就是为什么在两个评价中,门都会存在差异。高信用级别的预测准确性总高于中、低信二、对于代价矩阵的赋值。代价矩阵是标用级别的原因。志错分代价的指标,代价矩阵给的越好,二、也正是因为信用制度的不完善,以及模型就越准确。在本文的研究中为了处理我国商业银行信息化处在不断发展的过程矛01,、‘且I、中,所以在个人信用信息的收集处理上存下....1.0J1..工.上的方便,默认了最简单的..代价在很多问题。因而本文分析的数据存在大....J.,0..11,、了量的噪声数据。这些数据在进入挖掘之前矩阵,也就是把所有错分的代价视为一样。要经过手工的处理,因而融入了相当大的在真实环境中,这种处理是不尽合理的。主观性,扩大了原本就存在的误差。同时,比如说,把“0”类用户被错分到“2”类能够收集到的样本是已经被银行所接受进用户的结果很可能是银行最终失去这个用行贷款的用户,而那些在申请的过程中被户,造成“零”收益,而反之则会错误的过滤掉的“较低信用”客户信息并没有进把信用差的记录纳入到系统中来,造成相入到数据库中,因此从根本上造成了样本当大的“负”收益。由此可见,其错分代的信息偏差。价代价是不一样的。正因为这种误差的存在,导致最后较低的预测准确性。三、由于实验环境的限制,对许多属性进行了过滤处理,许多它们在评估中也是重要的评价变量。这都导致着最后准确性的降低。表4.4主客观原因比较表资料来源:本研究整理n王..⋯中个人.月资伯拍衍的.立臼】.启村众.肠究,口曰1。翻刃.(10》:心卜翻. 对外经济贸易大学硕士学位论文通过对主客观原因的分析,我们找出了个人信用评分模型的一些问题所在。在实际的应用中,一个好的信用评分模型应该具有更高的预测准确率,更好的解释性。第五章内容就是把该信用评分模型应用到实际的商业银行环境中并对模型进行相应的调整和总结。4.3个人信用评分模型的调整从4.1节对个人信用评分模型的评价看来,在中、低信用等级的预测准确性偏低。在银行的实际操作中,也常见到无法对中、低信用者做出合理评价的问题,因为他们的评分信息或多或少都会存在一定的问题,对评分的影响也有大有小。对此,需要在评分的基础上对其信息采取进一步收集的方法。即在本文产生的信用评分基础上,要根据具体的情况做出相应的调整。这种具体的情况包含三个方面:一、银行对风险的承受能力,承受能力强的银行不妨在拒绝标准上放低一些;二、社会发展状况,社会整体发展好坏的大背景也是考量的标准,在社会处于高速发展期的时候可以在拒绝标准上作出相对宽松的处理;三、用户具体信息的复核,对能对银行带来较高收益的贷款,同时也孕育更大的风险,需要对这些个案采取特别处理的方法,以实现盈利和风险的平衡。在本文的第二章里提到主客观评价建模方法,信用评分模型只是客观评价建模的方法,对此引入主观建模方法作为对上述信用评分模型进行修正。4.4层次分析法建立主观个人信用评分模型在第二章介绍信用评分模型建模方法中,本文介绍了两种建模方式可以形成信用评分模型:一种是主观建模,另一种是客观建模。利用决策树建立信用评分模型是客观建模方式的一种。现在我们要对客观建模的结果进行修正,修正的方式就是结合主观建模方式。下面是具体的建模步骤:一、由专家确定参与评分的属性18。专家对属性进行评分,最后进行汇总,最后抽取最高的10一14项作为评分属性。二、对已经确定的属性,专家再给予属性进行赋权处理,对各专家的赋权采用几何平均或算术平均的方法确定各属性权重。三、在对各属性下的属性值进行赋权,同样采用几何平均或算术平均进行赋权处理,决定属性值的权重。四、上述三步确定了一个初选的评分模型,邀请不同的专家组重复三次,确定三个备选评分模型。五、最终对模型引入4.1节的评价方法,确定预测准确率最高的模型。1.石庆口,肠云仁,多仲个人,用钾分.皿在中.口用的比艘日究0].砚计日究。,...别...),们,,。 对外经济贸易大学硕士学位论文4.5主观和客观信用评分模型的结合用层次分析法建立的主观信用评分模型会和决策树方法建立的客观信用评分模型有所不同,但是它包含了专家的经验以及主观的判断信息以及很多无形的判断规则,能够对客观信用评分分数的做出合理的修正t’.现在要确定一个主观修正比率。根据国内外主要商业银行和专门评估机构认为企业财务因素和非财务因素的权重之比为7:3左右,我们把财务因素理解为客观的,而非财务因素为主观的,因而我们把客观模型得出的信用分值与主观的信用分值的比例确定为7:30在此,我们把基于决策树建立的客观信用模型的信用得分记为5,而通过层次分析法建立的主观模型得分记为50,最终的得分记为5,则调整后的结果为:5.0.7凡+0.3凡无疑,主观与客观的结合,在理论上应该能够对模型结果的修正起到很好的作用,但是其具体的实践评价还有待研究。至此,本文完成了基于以盯决策树的个人信用评分模型构建的全过程:数据准备、处理、建模、评价和调整。1.兰麟军,马门二典咬史,甘.,⋯抢月拍术及X在自.中曲血月与二田.翔脚晚,..口.肠‘.,。的刊月。 对外经济贾易大学硕士学位论文第五章结论数据挖掘技术应用于社会各业务领域已经成为现今时代的一个研究热点。在金融领域,随着我国人民币业务的开放,外资银行的进入,提高我国银行业整体竞争能力己经成了当务之急。贷款作为银行的主要业务领域,采取更为准确的信用评分机制是银行提升整体竞争力的一个重要方面气本文从已获得的某商业银行的真实房屋贷款样本出发,采用数据挖掘技术,运用决策树以RT算法,经过数据采集、抽取、预处理,建立了个人评分决策树模型,再在决策树模型的基础上,对属性进行赋权,得出信用评分模型。本文得出的信用评分模型是一个百分制的个人信用评分模型,对于此模型,建立了评价标准·。从对模型评价的结果看,个人信用评分模型在评价高信用级别的用户中有较高的预测准确度,在评价中、低级信用级别的用户准确度不尽入人意,这同时也是现今银行进行信用评分的难点,对这些存在还款风险的用户,是给予贷款还是拒绝,是一个难题。在通用法则失灵的同时,抽取更多客户的信息,也是进一步增加预测准确性的方法。本人建立个人信用评分模型是一个通过客观建模法形成的模型.经过调整,引入主观建模的方法,用层次分析法建立主观个人信用评估模型,并由此对客观建模法进行修正,最终得出调整结果.经过主观建模法的调整,可以把专家意见和社会大背景等不易量化的因素加入到模型中来,对在真实环境中对此模型进行应用有很大的帮助。加【井】民拐,思,二招佗翻—摘筑企盘皿.砚井图..。索摘伪伟.口空:.,空.大华出.牡。口曰:,卜,,. 对外经济贸易大学硕士学位论文参考文献1、余长慧,潘和平.商业智能及其核心技术[Jl.计算机应用研究,么刃2,2仪犯(3)2、信用常识【EB/OLI·htP:/lx”阴.creditinfo.com.口火苗ncselinfolviewnous.asp?userid二28,2(X抖3、张维,李玉霜.商业银行信用风险分析综述.管理科学学报,1998(9)4、文忠桥,曾刚,王芳等.信用风险度量与管理,国际金融研究,2002(11)5、赵著.我国个人信用的博弈分析和体系构建10].成都:西南交通大学,203.6、钟楚南.主编.个人信用征信制度[M】.北京:中国金融出版社,202.7、何晓群.现代统计分析方法与应用.北京:中国人民大学出版社,201.8、钱水土,黄震宇.信用评分模型在中小企业资信评估中的应用[J].商业经济与管理,20049、姜明辉,姜磊,王雅林.线形判别式分析在个人信用评分中的应用网.管理科学,2003,16(1)10、章彰,商业银行信用风险管理[M].北京:中国人民大学出版社,202.n、吴冲,乔木.商业银行非财务信用风险分析阴哈尔滨工业大学学报,205,7(3).12、姜明辉,王欢,王雅林.分类树在个人信用评分中的应用IJ].商业研究,2003,2003(12):66一88.13、毛保华,评价指标体系分析及其权重系数的确定IJ].系统工程,1991,9仔》.14、中国银行业监督管理委员会,巴塞尔新资本协议第三次征求意见稿.ht1P/cbrc·即v.cn二15、咖IJiawe‘Han,MichelineKamber著.数据挖掘概念与技术[M].范明,孟小峰译.北京:机械工业出版社,200116、韩明,数据挖掘及其对统计学的挑战[J].统计研究,2001,VS17、中国人民大学统计学系数据挖掘中心.统计学与数据挖掘[Jl.统计与信息论坛,2002,V17(1)18、陈富赞,寇继淞,王以直.数据挖掘方法的研究IJ.系统工程与电子技术,2000,V22(8)19、窦万春,李东波,王玉,张世琪.基于知识应用的数据挖掘技术理论分析与应用研究网.计算机集成制造系统,200,V6(4)20、中国人民大学统计学系数据挖掘中心.数据挖掘中的决策树技术及其应用.统计与信息论坛,2002,V17(2)21、Sd.stat.math.CAR不OasificationandRegressionTrces[EB10L].http汾w洲.Pit.目ul代sna/~.Cart. 对外经济贸易大学硕士学位论文22、CA丑TforwindowsU盯、ouide【EB10月·bt午:价林阴.Saiford-Systems.com/sa】fordsystcms一P双xlu引比一WhilePaperS.址m·23、Willi田.Gt忱此.5吻Ple引比曰改ingin。曰认.傲刀nngmod心llJ].JaPaDandthcW玩ldB旧nomy,198,V10.24、J.刃血retaL,On伪mbiningoas涌ers,正EET“吐..onPA]旧,voL20,No3,March19825、KW。洲如etaL,〔为mbhationofm吐婚Icc】aSifie“此切9】以川.ccuracycst加圈Ies,正ETranS.onPatle口Analysis耐Mach加‘瘫uige。,vol一而.4,Ap川1卿26、DOnaldoeman,Mcmbcr,IEE,Brunojedynak.Model一出沈dclasificati叻t介姆5团.IEET门nsadionsonlnformationTheo斗,2的1,V47(3)27、SalvatoreRu函eri.Efidcnt以.51,].正EETransactionsonknowlcdgeanddataen乡nCering,2叨2,V1428、MichaelaBlack,RayJHichcy.MaintainingthepeifOrmaDceofalcarneddasifierunderconcePt如ft[习.hitcligentDa之aAnalysis,1999,V320了、Creditscoring胡dCrcditC油rdslEB/0习.tP:l/W.allcreditonline·com八oPICS/七redltSCoring·html,2(X)3·30、5留easereA.Aneficienialgotihmforminngas狱祀iationrulesinlargcdstebasel^].UK:ProcofV廿Blq,195肠 对外经济贸易大学硕士学位论文致谢在论文成稿的同时,两年的硕士研究生生涯就要结束了。在这两年里,我在对外经贸大学获得了许多,成长了许多。能顺利的毕业,我首先要感受我的母亲、我的外公外婆。是他们的慈爱,让我有了学习和奋斗的资本。没有他们的养育,我不可能完成我的学业。周志忠教授是我的导师,感谢周教授,在我读研的日子里,给我莫大的指导和帮助,让我能够找到学习的规律,找到生活的真谛。要感谢张莉老师,她在我论文定题和开题答辩给了我巨大的帮助,她给我的丰富资料让我能够在正确的道路上一直走下去。这里也要感谢我们学科方向的陈恭和教授,他一直关注着我们的成长,给了许多有益的意见。感谢谢怀军教授和黄健青教授,谢教授的严谨学风让我有严格要求的动力,黄教授生动丰富的讲课把我带进了数据挖掘的领域。必须感谢陈进教授,他在信息经济学的课程里建立指标体系的方法让我在论文最迷茫的时候有了坚定的方向。感谢姜华老师,她给我在学习和实习中以最大的帮助和便利。两年岁月虽然很短,但我却感到受益菲浅,感谢216宿舍的兄弟们给予我生活中的巨大快乐。感谢产业经济学这个大班级,就像一个大熔炉让我有一直前进的动力。感谢我的朋友丁晓霞在这两年内给我的幸福和温暖。研究生生涯即将结束,我会更加加强自己的理论学习,运用到工作实践中去,为社会主义现代化的建设添砖加瓦。

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
大家都在看
近期热门
关闭