基于数据挖掘的银行客户分类模型研究

基于数据挖掘的银行客户分类模型研究

ID:33820730

大小:3.17 MB

页数:52页

时间:2019-03-01

上传者:U-10915
基于数据挖掘的银行客户分类模型研究_第1页
基于数据挖掘的银行客户分类模型研究_第2页
基于数据挖掘的银行客户分类模型研究_第3页
基于数据挖掘的银行客户分类模型研究_第4页
基于数据挖掘的银行客户分类模型研究_第5页
资源描述:

《基于数据挖掘的银行客户分类模型研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

重庆人学硕士学位论文2相关研究概述2.1客户关系管理概述2.1.1客户关系管理客户关系管理(CRM)是现代管理理念和信息技术相结合的产物,它以信息技术为手段,对客户资源进行集中管理,并在企业的内部实现客户信息和资源的共享,围绕“客户为中心”设计和管理企业的战略、业务流程、组织结构和技术系统,从而形成一个自动化的解决方案,以提高客户忠诚,进而实现企业收入的增长和效率的提高,达到企业和客户的双赢。客户关系管理(CRM)是正在兴起的一种旨在改善企业与客户之间关系的新型管理机制。它是一套先进的管理思想及技术手段,通过将人力资源、业务流程与专业技术进行有效的整合,最终为企业涉及到客户或消费者的各个领域提供了完美的集成,使得企业可以以更低的成本、更高的效率来满足客户的需求。2.1.2客户分类准确的客户分类是企业有效地实施客户关系管理的基础。客户分类是根据客户属性来划分客户集合,通过获得的客户类别来分析和预测客户的消费模式,建立起一对一的客户服务体系,实行差异化的客户管理。客户分类是现代营销理念的产物,是第二次世界大战后西方发达国家市场营销理论和战略的新发展。它主要是指企业在明确的战略、业务模式和专注市场中根据客户的价值、需求和偏好等综合因素对于客户进行分类,对不同的客户群提供具有针对性的产品、服务和营销模式。经过若干年的发展,客户分类的理论和方法不断完善,而且被广泛地应用于营销实践。客户分类理论的提出和应用是具有一定的客观基础的,它是商品经济发展和市场竞争日益激烈的产物。对于商业银行也是同样的道理,商业银行有着广大的客户群体,这些客户千差万别。对于不同的客户,他们的需求又是千变万化的。银行不可能满足所有客户的需求,这不仅是由银行自身物质条件所限制,而且从经济效益方面来看也是不可取的。故而,银行应该分辨出它能有效为之服务的最有价值的客户,为他们提供更为个性化的服务,而不是四面出击,兼顾每一个银行客户。在早期的客户分类中常用的是经验描述法,即通过决策人员的经验对客户进行分类15】;数值统计法一般是基于客户的人口统计学特征进行类别的划分16J。智能分析法主要是近年来兴起的数据挖掘等基于人工智能技术的分类方法[71。在客户关系管理这一领域,己有许多学者对客户分类进行较为深入的研究,并提出了自己的方法。本文即是采用数据挖掘技术,对银行客户进行分类,建立客户分类预测模型。4 重庆大学硕十学位论文2相关研究概述2.1.3市场细分理论①市场细分概述市场细分是现代营销理念的产物,是第二次世界大战后西方发达国家市场营销理论和战略的新发展。市场细分理论的提出和应用是具有一定的客观基础的,它是商品经济发展和市场竞争日益激烈的产物,被认为是关键的营销概念和营销研究文献中一个极为重要的核心部分。其主要理论依据有两个:第一,顾客需求的异质性。也就是说,并不是所有的顾客需求都是相同的,只要存在两个以上的顾客,需求就会不同,由于顾客需求与欲望及购买行为是多元的,所以顾客需求满足呈现差异。顾客需求的异质性是市场细分的重要依据。第二,企业资源的有限性和为了进行有效的市场竞争.现代企业由于受到自身实力的限制,不可能向市场提供能够满.足一切需求的产品或服务,而且任何一个企业,即使是处于市场领先地位,都不可能在市场营销全过程中占绝对优势。为了进行有效竞争,企业必须进行市场细分,选择最有利可图的目标细分市场,集中企业资源,制定有效的竞争策略,以取得和增强竞争优势。所以,企业资源的有限性和进行有效竞争是对市场进行细分的外在要求。银行也是这样,一个银行的客户是多种多样的,各个客户的需求也是千变万化的,银行不可能满足所有客户所有的需求,这不仅是由银行自身条件所限制,而且从经济效益方面来看也是不足取的,因而银行应该分辨出它能有效为之服务的最具吸引力的市场,扬长避短,而不是四面出击。②商业银行市场细分原则·应用市场细分理论首先要解决的问题是如何确定市场细分变量,即决定使用何种变量对市场进行细分。在传统的营销理论中,确定市场细分变量主要有两大原则:一是依据自然属性来细分市场,二是依据行为属性来细分市场。依据自然属性来细分市场主要是利用人口统计学、社会经济学、经济地理原理所提供的特定市场内有关个人的重要信息来细分市场,其变量主要有地理细分变量、人口统计变量、社会经济变量等,也可以把这些变量结合起来进行细分。依据行为属性细分市场主要是通过对人们的心理分析、个性特征、生活方式的研究来细分市场,其变量主要有心理分析变量、产品使用量变量和产品效益变量等。市场细分理论的利用,可结合个人银行业务产品和客户生命周期的研究,对商业银行个人银行业务发展的根本需求和客户的目标定位有理论指导作用。2.2数据挖掘在CRM中的研究现状.数据挖掘技术的主要特点和任务是从组织积累的大量历史数据资源中,识别出有效的、新颖的、潜在的、有用的及最终可以理解的信息或知识,管理者利用这些信息或知识改进、优化决策,从而提高效率和效益【8】。针对数据挖掘特定领域的应用,人们开发了许多专用的数据挖掘工具,这包括生物医学、DNA分析、金融、零售业和电信【9J[10l。这些实践将数据分析技术与特定领域知识结合在一起,提供了 重庆大学硕十学位论文2相关研究概述满足特定任务的数据挖掘解决方案。CRM是数据挖掘的另一主要应用领域。在企业管理客户生命周期的各个阶段都会用到数据挖掘技术,数据挖掘能够帮助企业确定客户的特点,从而可以为客户提供有针对性的服务【11】【12】【131。TillerLScott[141认为数据挖掘优化了CRM的服务功能,可以为客户服务提供准确的参考信息,提高对客户事务处理的能力。AdamRombel[151认为客户关系管理为客户与银行之间创建了一个沟通渠道,数据挖掘技术进一步优化银行内部的业务流程,使这一渠道变得更加高效与快捷,并且通过分析客户的交易行为,更好的了解客户和保留客户,挖掘客户的爱好和兴趣,从而以最快的速度响应客户的需求,为客户提供最优质的服务,极大地提高客户的忠诚度,如GrothRIl6J认为集成有数据挖掘技术的营销辅助工具可以提供高精确度的模式识别和预测功能,使商业人员有效地策划和开展营销活动。Cardell【1。7】等学者运用树网模型研究移动通信行业的客户扰动问题,考察了与客户流失相关的变量并预测客户流失的概率;BreiIIlaIlllsJ将分类和回归树(CART)算法应用于基于客户人口特征、合同数据、客户服务日志的客户扰动预测;Chih—PingWei【19】开发了以决策树方法为基础、可以在合同水平上识别潜在流失者的分类组合预测技术。银行和金融机构中产生的金融数据通常相对比较完整、可靠和高质,这大大方便了系统化的数据分析和数据挖掘。国外一些学者对数据挖掘在银行CRM中的应用作了重要阐述,数据挖掘技术可以应用到贷款偿还预测和客户信用政策分析;对目标市场客户的分类与聚类;洗黑钱和其他金融犯罪的侦破120l。与此同时,国外的许多研究机构和银行也在这方面进行了实质性的研究和产品开发,并且在银行业得到广泛应用。如美国HNC公司开发了Marksman数据挖掘工具,美国Firstart银行使用该数据挖掘工具根据客户的消费模式预测何时为客户提供何种产品;IBM公司开发TIntelligentMiner软件,Mellon银行使用该数据挖掘软件提高销售和定价金融产品的精确度,如家庭普通贷款【2l】。此外,美国第一银行、FCC国家银行、WellFargo银行也都采用了数据挖掘技术,并取得了显著的效果圈。我国银行在数据挖掘应用方面还处于刚刚起步阶段。孙波四J运用数据挖掘技术建立银行评优与选择的客户贡献度分析框架,针对性地讨论如何有效地运用已有的数据获取重要客户名单,以辅助决策者制定决策方案,即通过对重要客户的深入挖掘和针对性服务,极大化客户价值,优化客户服务,增加银行利润;聂晶、孙捷【24】构建了基于数据挖掘的商业银行客户关系管理系统的体系结构;郑华125J利用数据挖掘技术中的“聚类”分析法进行银行客户关系管理系统的构建;蔡则祥、汪加才阑,胡致杰[271浅谈数据挖掘技术在商业银行CRM中的应用;翟凌慧、马少平、唐焕玲【28J描述了信用卡数据分类挖掘中的数据预处理过程;何俊、温家吲291、扬辉po]对数据挖掘及其在银行业的应用进行了研究;蒋缨、强海涛f3IJ对数据挖掘在商业银行中的应用趋势进行了分析与展望;黄解军、万幼川、潘和平【321、张颖【331,郭莹、张晓燕p4]对数据挖掘在银行CRM中的应用作了探索性研究;徐小平、刘玉宝[35J对我国银6 重庆大学硕十学位论文2相关研究概述行业客户关系管理的含义、效用以及实施步骤进行了概括性研究:陈增圭136J对以CRM为核心的银行信息系统架构和功能架构进行了研究。目前国内采用数据挖掘技术在客户分类的应用上主要有以下研究:周欢137】借鉴蚂蚁算法针对具体的燃气行业进行了分析,提出了一套适用客户的分类指标;闫相斌、李一军、邹鹏、卢涛【38】采用混合式遗传算法对客户聚类,研究了一种客户动态、静态属性数据相结合的客户分类方法.康健;梁允荣【39】采用决策树方法探讨数据挖掘技术在企业实际工作中的应用方式与应用领域,分析金融客户分类的必要性;刘瑜、郑平、刘莹M通过对经典决策树算法基本思想的描述,在综合大量文献的基础上,总结了各种算法的特性和优势,提出了决策树技术应用于客户细分的发展方向;王建民、王传旭14lJ通过构建企业与客户交易记录的原始数据矩阵,应用主成分一聚类分析的方法来定量地研究客户对企业的利润贡献度,进行客户分类工作;周粉妹【42】利用决策树算法算法对租赁公司的客户进行分类,给出了分类步骤发现了申请或不申请租赁的客户类型特征,从而为公司租赁业务制定最佳指导策略;周晓刚,洪春勇【43】通过蚁群算法对企业的客户消费数据进行分类,以此来获取不同类型客户的需求并针对不同类型的消费群体制定相应的营销策略;李春宏mJ从数据挖掘技术在客户关系管理中的应用入手,分析了客户分类的必要性,研究了客户分类的数据挖掘系统架构;赵林明【45J讨论了如何用判定树提取客户的分类规则,并对规则的正确度进行了评估;肖进、贺昌政[461探讨了基于SODM的贝叶斯分类器结构学习及其在客户分类中的应用。以上对数据挖掘技术的研究对国内数据挖掘技术的发展有积极的意义,但其研究主要是针对数据挖掘技术的理论及其应用的综述,或是对数据挖掘技术在CRM应用中的框架的阐述。在针对客户分类的应用研究上也只针对分类的某一方面进行研究,如部分研究采用数据挖掘某一方法对未有类别标号的客户进行分析,对客户进行分类,此类研究是一个提高对现有客户进行分类的方法,而对新客户的分类作用不大。而另一部分研究是在已有客户类别的基础上建立分类预测模型,此类研究对新客户的类别预测较为适用,但是其建模前的客户类别标号的确定是公司基于传统的分类方法而确定的,缺乏一定的准确性。本文将避免以上的几种缺陷,以重庆某商业银行为例,采用数据挖掘中的分类方法,建立银行的客户分类预测模型,以指导银行的客户关系管理。但是为了避免国内银行对现有客户的类别定位不准确,而影响分类模型的结果,本文在对银行客户建立分类预测模型之间,采用数据挖掘方法中的聚类分析法,对银行客户的进行聚类,确定现有客户的类别。进而在此聚类的基础上通过决策树分类器方法对银行客户建立分类预测模型,并将该模型应用到已有其余客户以及未来加入的新客户上,以便银行科学、快速、有效的区分不同价值的客户,为银行在客户关系管理方面提供一个强有力的支持工具。7 重庆人学硕十学何论文2相关研究概述2.3数据挖掘概述2.31数据挖掘定义数据挖掘(DataMining,DM)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在的有用信息和知识的过程。其过程H1主要有如图2.1所示:j算。数槲谖圈21数据挖捌过稃示意幽Fig.2lDataminingprooessdiagram8 重庆大学硕士学位论文2相关研究概述其常用方法主要有:①关联规则分析关联规则分析是发现交易数据库中不同商品(项)之间的联系,这些规则反映客户购买行为模式。②分类预测分类预测可以用于提取描述重要数据类的模型或预测未来的数据趋势。通过对预先建立的学习模型进行有指导的学习训练,最终可以获得具有一定准确率的分类方法。③聚类聚类是在预先不知道目标数据库有多少类的情况下,希望将所有的记录组成不同的类,并且使得在这种分类情况下,以某种度量为标准的相似性,在同一类之间最小化,而在不同类之间最大化。2.3.2聚类方法(以SOM方法为例)@SOM概述SOM网络算法是一种聚类算法,它能根据其学习规则对输入的模式进行自动分类,即在无监督的情况下,对输入模式进行自组织学习,通过反复地调整连接权重系数,最终使得这些系数反映出输入样本之间地相互关系,并在竞争层将分类结果表示出来。因此,SOM神经网络在结构上模拟了大脑皮层中神经元是二维空间点阵的结构,并在功能上通过网络中神经元间的相互作用和相互竞争,模拟了大脑信息处理的聚类功能、自组织和学习功能。该算法被广泛应用于各种模式识别和分类问题中娜】【49】。SOM神经网络由单层神经元网络组成,其输入神经元与输出神经元之间为双向权连接。因为网络在学习中的竞争特性也表现在输出层上,所以输出层又可称为竞争层,而与输入神经元相连的权值及其输入合称为输入层。输入层神经元的数量由分类衡量指标的个数决定。竞争层可以由一维或二维网络矩阵方式组成。SOM网络就是利用其自组织特点,将N个输入量组成的一维序列映射到维的神经元阵列上,通过自我调整从而进行信息聚类。这种自组织的聚类过程在系统自主且无监督指导的条件下完成的。②聚类效果评估对于划分的聚类方案,不考虑外部信息时,我们主要关注的是聚类结构的优良性度量。一般可分成两类:簇的凝聚性(clustercohesion)度量确定簇中对象如何密切相关。簇的分离性(clusterseparation)度量确定一个簇如何不同于其他簇。这些指标通常称为内部指标(internalindex)。同时就有外部指标(externalindex),度量发现的聚类结构与某种外部结构的匹配程度。此外,还有相对的簇评估度量,是用9 重庆人学硕+学位论文2相关研究概述于对多个簇比较的内部或外部指标度量。由于样本数据的一些局限性导致文中只能对聚类进行了内部指标的度量。本文因数据原因,属于非监督性簇评估,只能进行内部指标的度量。簇内部指标的有效性的度量都基于簇凝聚度和簇离散度。而簇的凝聚度通常以误差平方和SSE来度量:簇离散度通常以总组间变差SSB来度量。相应公式[50i如下:SSE=∑dist(c,,工)2J∈己其中仁表示簇C。的质心足总跚=∑m,dist(cf,c)2i=1其中c,表示簇C。的质心;C表示总体质心;m。表示簇Cf中有镌个个体。2.3.3分类方法(以决策树为例)①决策树决策树方法是较为常用的分类方法,它的预测效果较好且以树形结构表示,树的节点处给出对结果预测起较为重要作用的属性,结果形象直观,便于获得更多的挖掘信息以及应用。C4.5方法是在国际上影响较大的决策树方法【51】【521。因此本文采用C4.5决策树方法,对客户建立价值预测分类模型。1)连续属性最佳分割度量最佳的分割值应使组内的目标变量差异最小,即组内目标变量的取值分布越集中越好,组问目标变量的取值差异越大越好。选择最佳属性分割值通常是根据划分后子女节点不纯性的程度。不纯的程度越低,类分布就越倾斜。本文以熵(entropy)为不纯性度量标准1501。对连续属性来说,测试条件采用二元输出的比较测试,如(年收入勺)或(年收入净)(v是属性年收入的最佳分割值)。划分方法:将连续属性中Ⅳ个不同训练记录排序(1,l<眈<⋯。可以用属性彳将S划分为y个子集{sl,s2,⋯⋯,sv};其中,昌包含S中这样一些样本,它们在彳上具有值aj。如果么选做测试属性(即最好的分裂属性)则这些子集对应于由包含集合S的节点生长出来的分枝。设S是子集西中类Ci的样本数。根据由彳划分成子集的熵(entropy)或期望信息为:E(彳):主型≠马(¨%)j=loI(页sly+""+SmJ一充当第,个子集的权,并且等于子集(即A值为喁)中的样本个S数除以S中的样本总数。熵值越小,子集划分的纯度越高。注意,对于给定的子集sj,I(Slj,岛,..⋯‰)一∑p#log:(弓)。在4上分枝将获得的编码信息是(即信息增益)是Gain(A)=I(s1,⋯,Sm)一E(彳);信息增益率(informationgainratio)【50】100是Gainmti。(彳)=面G面ain!矗(A丽)。其中SplitInfo(A)=一∑p(s,)l092p(s,),k是属性彳将s分成的部分数,p(墨)1.1是s,部分占总记录S的比例。Gainratio是某个属性导致两个信息量之间的差异率。也就是说具有最高信息增益率的属性,能够最好的反映记录中的不同类的差别,因此选择最高信息增益率的属性作为判定树的测试属性,建立分枝。 重庆人学硕士学位论文2相关研究概述3)决策树的修剪氖先剪枝(提前终止规则)在这种方法中,树增长算法在产生完全拟合这个训练数据集的完全增长之前就停止决策树的生长。为了做到这一点,需要采用更具有限制性的结束条件,例如,当观察到的不纯性度量的增益低于某个确定的阈值时就停止扩展叶节点。这种方法的优点在于避免产生过分拟合训练数据的过于复杂的子树,然而,很难为提前终止选取正确的阈值。闽值太高将导致拟合不足的模型,而阈值太低就不能充分地解决过分拟合的问题【53】。b.后剪枝在该方法中,初始决策树按照最大规模生长,然后进行剪枝的步骤,按照自底而上的方式修剪完全增长的决策树。修剪有两种做法:用新的叶节点替换子树,该叶节点的类标号由子树下记录中的多数类确定;或者用子树中最常适用的分支代替子树。当模型不能再改进时终止剪枝步骤【53J。与先剪枝相比,后剪枝技术倾向于产生更好的结果,因为后剪枝是根据完全增长的决策树做出的剪枝决策,先剪枝则可能过早终止决策树的生长。然而,对于后剪枝,当子树被剪掉后,生长完全决策树的额外的开销就被浪费了。鉴于模型的准确度考虑,本文采用后剪枝方法。4)分类效果评估乱混淆矩阵由于准确率度量将每个类看得同等重要,因此它可能不适合用来分析不平衡数据集。在不平衡数据集中,稀有类比多数类更有意义。对于二元分类,稀有类通常记为正类,而多数类被分为是负类。图2.2显示了混总分类模型正确和不正确预测的实例数目的混淆矩阵。如图2.2所示:ac砌Predict+——+TPFNFPTN图2.2混淆矩阵Fig.2.2Confusionmatrix混淆矩阵中主要有以下几种指标1541:真正率(truepositiverate,TPR)或灵敏度(sensitivity)定义为被模型正确预测的正样本的比例,即:TPR=TP/(TP+FN)12 重庆大学硕士学位论文2相关研究概述真负率(truenegativerate,TNR)或特指度(specificity)定义为被模型正确预测的负样本的比例,即:TNR=TN/(TN+FP)假正率(falsepositiverate,FPR)定义为被预测正类的负样本比例,即:FPR=FP/(TN+FP)假负率(falsenegativerate,FNR)定义为被预测为负的正样本比例,即:FNR=FN/(TP删)召回率(recall)和精度(precision)是两个广泛适用的度量,用于成功预测一个类比预测其他类更重要的应用。精度(P)和召回率(R)具体公式如下:p=-TP/(TP+FP)FTP/(TP+FN)精度确定在分类器断言为正类的那部分记录中实际为正类的记录所占的比例。精度越高,分类器的假正类错误率就越低。召回率度量被分类器正确预测的正样本的比例。具有高召回率的分类器很少将『F样本误分为负样本。实际上召回率的值等于真正率。对整个模型来说正确率和错误率为主要评估指标:正确率Accuracy=(TP+TN)/(TP+TN+FN+FP)错误率Errorrate=(FN+FP)/(TP+1N+FN+FP)以上公式同样可以推广到3类以上的模型评估。本文最为关注的客户为高价值客户,因此在利用以上指标评价模型时,将高价值客户视为正类,其余客户视为负类。b.Lift值和Capturedresponse值Lift值和Capturedresponse值衡量的是,与不利用模型相比,模型的预测能力“变好”了多少。不同的是Lift值表示的是在采用模型的前提下,取对某类客户预测效果最好的一定数量比例的客户,这些客户中属于这一类的客户的比例,与不采用模型的前提下取相同数量比例的客户,这些客户中属于这一类的客户的比例的比值。Capturedresponse值表示的是在利用模型的条件下,取对某类客户预测效果最好的,且取与不利用模型在所有客户中取的相同比例的客户,在这些客户中真正属于这一类客户的比例。②组合分类器组合分类器方法将多目标分类问题转换为两个目标问题。通过聚集多个分类器的预测来提高分类准确率,这些技术为组合或分类器组合方法。组合方法Lhi)Jl练数据构建一组基分类器,然后通过对每个分类器的预测进行 重庆大学硕士学位论文2相关研究概述投票来进行分类。其基本的思想是,在样本数据上构建多个分类器,然后在分类未知样本聚集它们的预测结果。构建组合分类器有许多方法:通过处理训练数据集。这种方法根据某种抽样分布,通过对原始数据进行再抽样来得到多个训练集。抽样分布决定一个样本选作训练的可能性大小,并且可以因试验而异。然后,使用待定的学习算法为每个训练集建立一个分类器。装袋和提升是两种处理训练数据集的组合方法。通过处理输入特征。这种方法中,通过选择输入特征的子集来形成每个训练集。子集可以随机选择,也可能根据领域专家的建议选择。一些研究表明,对那些含有大量冗余特征的数据集,这种方法的性能非常好。随机森林就是一种处理输入特征的组织方法,它使用决策树作为基分类器。通过处理类标号。适用于类数比较多的情况。通过将类标号随机划分成两个不相交的子集A和B,把训练数据变成为二类问题。类标号属于子集A的训练样本指派到类0,而那些类标号属于子集B的训练样本被指派到类l。然后,适用重新标记过的数据来训练一个基分类器。重复重新标记类和构建模型步骤多次,就得到一组基分类器。当遇到一个检验样本时,适用每个基分类器预测它的类标号。如果检验样本被预测为0,则所有属于A的类都到一票。相反,如果它被预测为类1,则所有属于B的类都得到一票。最后统计选票,将检验样本指派到得票最高的类。通过处理类标号处理多分类问题的方法有两种:第一种方法将多类问题分解成K个二类问题。为每一个类Y‘,Y创建一个二类问题,其中所有属于Y‘的样本都被看作正类,而其他样本作为负类。然后,构建一个二元分类器,将属于Y。的样本从其他类中分离出来。这种方法成为一对其他(1-r)方法。第二种方法称为一对一(1.1)方法,它构建K(k一1)/2个二类分类器,每一个分类器用来区分一对类(Y‘,yJ)。当为类(Y‘,yJ)构建二类分类器时,不属于Y‘或v,的样本被忽略掉。不论1.1还是1-r方法,都是通过组合所有二元分类器的预测对检验实例分类。组合预测的典型做法是适用投票表决,将检验样本指派到得票最多的类。本文即采用1—1法。2.4数据挖掘的主要工具目前国际上广泛应用的数据挖掘工具有很多,比如SAS公司I拘EnterpriseMiner,SPSS公司的Clementine,Waikato大学开发的Weka平台,SQLSever的数据挖掘模块,IBM公司的DBMiner等等。本文应用了SASEnterpriseMiner进行了数据挖掘14 重庆人学硕士学位论文2相关研究概述的应用研究。SAS是美国软件研究所(SASInstituteInc.)研制的一套大型集成应用软件系统,具有完备的数据存取、数据管理、数据分析、数据展现功能。由于其具有强大的数据分析能力,一直为业界著名软件,在数据处理和统计分析领域,被誉为国际上的标准软件和最权威的优秀统计软件包,广泛应用于金融、科研、教育、生产、政府行政管理等不同领域,发挥着重要的作用。@SAS软件的数据挖掘方法论——SEMMASEMMA是SAS公司针对使用其数据挖掘工具EnterpriseMiner而提出的数据挖掘方法论。它将数据挖掘过程划分为以下几个主要步骤:数据抽样(Sample),数据特征探索和分析(Explore),数据调整与预处理(Modify),算法的选择、模型的建立或知识的发现(Model),模型或知识的综合解释与评价(Assess)。@SAS软件的数据挖掘模块枷nterpriseMiner(EM)简介SASEnterpriseMiner是一种通用的、屡获业界大奖的数据挖掘工具。它是第一个也是目前市场上唯一一个能完整实现数据挖掘全过程的产品,提供友好的图形化界面实现从一般性到高层次的挖掘。它与SAS数据仓库和OLAP集成,更可实现从提出数据、抓住数据到得到解答的端到端(end-to—end)的知识发现。SAS公司统计分析的强大优势和完美的数据挖掘产品,可以帮助识别最有利润的客户群并揭示其中的特征、分析用户访问网络路径的规律、改善电子商务的策略、通过准确的信用风险评分提高客户的利润率、提高保险业的险率精算程度、欺诈检测、客户流失管理、组合销售、非法侵入检测、以及其他需要预测和发现规则的应用等等。SASEnterpriseMiner提供全面的数据挖掘算法:聚类分析、SOM/KOHONEN神经网络分类算法、关联模式,序列模式分析、多元回归模型、决策树模型(C4.5,CHAID,C√6蝴)、神经网络模型(MLP,RBF)等,SAS/STAT、SAS/ETS等模块提供的统计分析模型和时间序列分析模型也可嵌入其中。SASEnterpriseMiner是一个自动化程度很高的挖掘工具,它提供“抽样.探索.转换.建模.评估”(SEMMA)的方法论,方便的处理流程组织、完美的报表和图形分析结果,以引导用户挖掘的全过程。15 重庆大学硕士学位论文3基丁银行客户价值的分类挖掘模型3基于银行客户价值的分类挖掘模型3.1研究基本思路基于数据挖掘的银行客户分类模型建立的思路如下:鉴于目前国内银行对客户分类的必要性,本文以重庆某商业银行为例,采用数据挖掘中的分类方法,建立银行的客户分类预测模型,以指导银行的客户关系管理。但是分类模型的建立前提是对现在已有类标号的客户进行分析建模,而目前国内银行对现有客户的类别确定大多是通过简单的客户身份(如:客户的年薪)或者客户存款数额,对客户进行类别定位,这种类别定位方法显得不准确。因此,本文在对银行客户建立分类预测模型之前,采用数据挖掘方法中的聚类分析法,对银行客户的进行聚类,确定现有客户的类别,在此基础上对银行客户建立分类预测模型。在整个研究过程中,首先根据某银行重庆分行客户历史交易数据以及客户相关资料,以季度和年为单位计算出每一位客户为银行带来的利润,根据客户对银行的带来的利润为基础,通过聚类的方法对该银行客户进行聚类分析,确定客户的类别,区分出高价值客户、一般价值客户以及低价值客户。进而在此聚类的基础上通过决策树分类器方法对银行客户建立分类预测模型,并将该模型应用到已有其余客户以及未来加入的新客户上,以便银行科学、快速、有效的区分不同价值的客户,为银行在客户关系管理方面提供一个强有力的支持工具。具体研究路线流程图如图3.1所示。图3.1研究流程图Fig.3.1Flowchartofresearch3.2问题确定银行面对高价值客户竞争同益激烈的市场,如何能够科学有效的将客户归类,发现银行的高价值客户已经成为银行能在竞争中获胜的重要环节,本文即是以银行16 重庆大学硕+学位论文3基于银行客户价值的分类挖掘模型不同价值客户的分类以及对未来客户价值的预测为课题进行研究,建立有效的客户价值分类预测模型,并使之应用到银行实际竞争中去。3.3数据采集及预处理3.3.1数据模型本论文以XX银行重庆分行为例,从XX银行重庆分行数据库中随机抽取2007年1月至12月重庆地区部分客户的数据。原始数据包含了6079个客户约600000条交易记录。因为银行资料保密原因,在数据信息提取前由该银行内部人员对保密信息进行处理,得到的具体原始数据模型如表3.1所示:表3.1数据模型Table3.1Datamodel其中客户数据模型以及业务类别数据模型的具体情况如表所示:表3.2客户数据模型亿lble3.2Datamodelofclient表3.3业务类别数据模型Table3.3datamodelofbusinesstype●--●●___-____-●_-----_________-_●__-_--●___-_____-●______●__-__●_-———●———————。_—————。_———————————————————————_————————————⋯序号属性名称属性类型17 重庆大学硕十学位论文3基于银行客户价值的分类挖掘模型3.3.2数据预处理数据预处理是对选择后的数据进一步整理,检查数据完整性以及数据的一致性,并通过一些操作减少数据量,减少数据噪声,将数据转换成适合数据挖掘的形式。①数据汇总由于每次的交易记录都记载在样本数据中,出现了多少次交易客户名就会重复多少次。不便于进行数据分析,必须进行属性约简。用Excle中的自动筛选将同一客户的交易记录汇总,最后每个客户在银行的不同活动(如:POS消费、网上消费)的交易记录在一个月中只出现一次。②空缺值处理样本数据中在没有发生的业务项中以空缺值的形式出现,为使有效利用数据建立好的模型效果,故将样本数据中的空缺值以O来填充。③预处理后的数据模型经过以上对数据进行的预处理,得到初步的预处理数据模型,如表3.4所示:表3.4预处理后的数据模型Table3.4Pretreatmentdatamodel18 重庆人学硕士学位论文3基于银行客户价值的分类挖掘模型续表3.4:3.4聚类分析在表3.4节基础上,对数据进行进一步预处理,得到聚类分析的数据模型。3.4.1数据模型基于表3.4,经过以下数据预处理,得到聚类分析的数据模型,如表3.5所示:表3.5聚类数据模型Table.3.5Datamodelofcluster19 重庆大学硕+学位论文3基丁二银行客户价值的分类挖掘模型3.4.2数据预处理①属性选择客户的类别以客户对银行带来价值的大小为主要依据,基于表3.4,选择与客户价值相关的客户属性,选择结果如表3.6所示:表3.6属性选择鱼垒塑:鱼婴曼卫翌匹盟Q£里垒Qi堡序号属性属性类型②计算收益样本数据中,记录了客户在每个月中各种类型的交易记录,为了研究需要以季度为单位对数据进行处理,将一个季度中的每个月份不同消费类型的收益金额相加,得到每季度每位客户为银行带来的利润,最后得出每个客户在这一年中为银行带来的总利润。在表3.6所选属性中按照银行收益率,把不同类型的交易金额乘以该项的收益率计算出该项的银行收益额。如:客户p1在1季度中POS消费共10969元,银行对POS消费的收益率为0.65%,该项银行的收益为:10969"0.65%=71.3元。③数据归一处理在聚类分析中,收益属性重要性视为相同,因此将所有主要成份等价转换到O一1之间的数值。对每个数据进行归一处理,数据归一化公式为:归一似=丽xi-歹q丽Jmin忑经过以上数据预处理,得到表3.5中的聚类数据模型。3.4.3聚类分析本文通过对几种聚类方法的相互比较,发现SOM对此数据类型的聚类效果较好,因此本文在对客户价值聚类过程中,采用自组织图(SOM)方法对该银行预处理后的数据进行聚类分析,得出基于价值的银行客户类别。 重庆大学硕+学位论文3基丁银行客户价值的分类挖掘模型3.4.4聚类模型评估聚类分析结束后,需对模型结果进行评估。本文通过聚类模型的主要评估指标聚集度和离散度对模型结果进行评估。3.5分类3.5.1分类数据模型基于聚类分析的结果,确定客户类别,并在表3.4的基础上,进行以下数据预处理,得出分类模型建立的数据模型,如表3.7所示:表3.7分类数据模型Table.3.7Datamodelofclassification序号属性属性类型lIdnominal2性别binary3年龄interval4年初余额interval5第一季度笔数POS消费interval6第一季度金额POS消费interval7第一季度笔数柜台存款m—terval8第一季度金额柜台存款㈣al9第一季度笔数柜台取款intervallO第一季度金额柜台取款interval11第一季度笔数缴费iIl钯Ⅳal12第一季度金额缴费interval13第一季度笔数自助取款interval14第一季度金额自助取款interval15第二季度笔数POS消费interval44第四季度金额自助取款inteⅣal45groupordinal46grouplbinary47group2binary塑鲤噬堕翌毁2l 重庆大学硕士学位论文3基于银行客户价值的分类挖掘模型表3.7中的group表示基于聚类分析的结果,确定的原始客户类别,即第l类、第2类和第3类;而groupl表示原始客户类别经过第一次客户类别转换后的第一组客户类别,包括A类和B类客户;group2表示原始客户类别经过第二次客户类别转换后的第二组客户类别,包括A类和B类客户;group3表示原始客户类别经过第三次客户类别转换后的第三组客户类别,包括A类和B类客户。3.5.2数据预处理①属性选择表3.4中,保险金额、贷款金额、工资金额、柜台取款、国债金额、基金金额、理财金额、银行扣费、证券交易等属性值几乎为空,对分类模型的建立会起到噪音的作用,影响分类模型的预测效果,故将每个月中的以上属性删除。而在聚类过程中以买个季度以及一年中的对银行提供的利润为主要依据,而每月余额与客户向银行提供利润有很大的相关性,为了保证分类模型的应用意义,故将客户每个月的余额删除。②属性的合并样本数据中有关客户的属性过多,会导致模型在后期的应用中过于复杂并且容易使模型过分拟合,影响分类模型的应用准确度,因此本研究中将每个季度中的相同属性值合并,形成以季度为单位数据值。③类标号处理采用1一l法,将原来数据中的l、2、3类分别以不同组合形成三个分类器的二类目标变量,具体分组如下:第一个分类器的目标变量A(1/12)和B(3/3),即第一个分类器中的A类包括原数据中1、2两类,B类包括原数据中的第3类。第二个分类器的目标变量A(1/3)和B(2/2),即第二个分类器中的A类包括原数据中l、3两类,B类包括原数据中的第2类。第三个分类器的目标变量A(2/3)和B(1/1),即第三个分类器中的A类包括原数据中2、3两类,B类包括原数据中的第l类。基于以上对数据的预处理,得到表3.7中的数据模型。3.5.3分类预测模型①选择连续属性最佳分割值和建立新节点文中对连续属性的分割值以及决策树新节点的建立以entropy为度量。②建模方法文中在对银行客户分类模型的建立过程中,通过一个三叉决策树模型和一个二叉决策树组合分类器模型相互比较,得出对银行客户分类预测效果较好的分类预测模型。 重庆人学硕+学位论文3基丁银行客户价值的分类挖掘模型3.5.4分类模型评估文中在对组合器中的单个分类器模型结果评估时主要使用EnterpriseMiner中应用比较普遍的混淆矩阵、CapturedResponse图、Lift图来评价模型的性能。主要通过在EnterpriseMiner中运行Assessment来得到对模型的评估的图形,可以得到出该模型的准确率、利得率等,从此判断该模型是否可以接受。而在对组合分类器的最终模型评估时,SAS软件本身没有给出相应的评估标准,因此本中通过对组合分类器模型结果的统计,得出模型的混淆矩阵,从而得到评估需要的相应指标,如正确率、精准度和召回率等。为了便于三叉决策树模型和二叉决策树组合分类器模型相互比较,本文在对三叉决策树模型进行评估过程中,采用与二叉决策树组合分类器模型相同的评估方法以及指标。3.6模型的应用银行分类预测模型建立后,银行可以通过该模型对已有其余未标类别的客户进行分类,同时对新客户进行一个快速、有效的类别识别。另外,通过该模型还可以获得一些与客户价值相关的客户属性。根据这些信息,银行在以后的客户关系管理过程中可以有针对性的采取一些提高客户价值的措施。 重庆大学硕士学位论文4基于银行客户价值的聚类模型——案例分析本章是着重针对基于客户价值对银行客户分类进行聚类分析的案例分析,总体思路:首先对基于第三章聚类分类的数据预处理结果,进行第一次聚类分析。因为本章研究主要目的要正确鉴定银行中的三类客户,即低价值客户、一般价值客户和高价值客户。为了在客户分类上尽量少的将部分价值相对高的客户归为价值相对低的一类,研究中在第一次聚类中选择了四类,以便根据结果合理的进行价值归类。然后在第一次聚类结果中发现,第二、三、四类客户的价值远大于第一类客户,但是在数量上却远少于第一类,综合考虑下,将第一类客户进行再次聚类分析,从中找出价值相对高一点的一般价值客户,为银行尽量多的找到有价值客户。而同样为了在客户分类上尽量少的将部分价值相对高的客户归为价值相对低的一类,研究中在第二次聚类中选择了三类,以便根据结果合理的进行价值归类。最后通过对两次聚类结果的综合分析,得出银行客户的最终类别。具体流程如图4.1所示:银行客户聚类分析的预处理数据(,&M、):1、L。/<夕第一次聚类之乡模型评估jL7\/f,第一类\声7芦7玉7仁匹舞、舞、舞、7r弋,,-。(第二次聚类:四类之乡\一-/\。一/、、—一/,’f银行客户聚类模型评估≮。7\。7\,7孛皆哮银行客户基于价值的分类图4.1聚类流程图Fig.4.1Flowchanofcluster 重庆大学硕士学位论文4基于银行客户价值的聚类模型——案例分析4.1第一次聚类4.1.1数据导入将聚类数据导入SAS软件白带文件夹work中,起名为clusterdata,即work.elusterdata。使用SASEnterpriseMiner的SOM/Kohonen方法建立聚类模型的“SEMMA'功。析流程图4.2所示:画■嘲幽4,2聚类流程酗Fi94.2Flowchartofeluslgr将Work.clusterdata导入数据源节点,数据源节点中导入数据的基本概况:所导入数据源节点的数据共有6079行,6列。而且在建立聚类模型的过程中随机抽取6079条数据中的2000条作为建模样本。4.12聚类分析在SOM节点,将输入变量标准化。选择general栏,选择MchSOM方法,并根据研究需要,选择一个四个类的格子空『自J。运行SOM节点,然后观察结果。SOM结果窗口包括两部分。左边的是格子,格子中矩形的颜色就是每类中客户的数量,颜色越浅,频率计数越少:颜色越深,频率计数越高。标准化均值图表中右边的l墨|表示每个变量的标准均值。在图中注意有三个变量。如果变量太多,窗口没有显示完所有变量的信息,标准化变量图可以用来比较每个类的整个标准化均值。从标准化均值图中我们可以观察到第1类客户无论是每个季度还是总利润的平均值都远远低于总客户的平均利润。重复以上操作可以得到2、3、4类的标准化均值图。从而观察到第2、3、4类客户无论是每个季度还是总利润的平均值都高于总客户的平均利润,因此都属于高价值客户。 重庆人学砸士学位论文4基于银行客户价值的聚类模l!——案例分析4.1.3聚类结果使用insight节点看结果在insight节点,选择entiredataset(整个数据集)。运行insight节点,观察聚类结果。如图4.8所示:幽4.8第一次聚类结果Fig.48Theresul!ofthefirstcluster4.1.4模型评估通过对聚类结果的统计,得出4个簇的误差平方和:筇1类SSE=∑dist(c,,z)2=o734338J以第2类SSE=∑dist(c,,J)2=1.624168x配第3类SSE=∑disKc,,T)2=l513877⋯第4类SSE=∑disl(c,,x)2=4274835X配4个簇的误差平方和SSE值比较少,因此可以判断4个簇问的聚集性比较好。4个簇的组问变差: 重庆大学硕士学位论文4基于银彳亍客户价值的聚类模型——案例分析f总跚=∑飘dist(c.,02:0638856+5313409+2.361504+10201436』;l=】8.5152054个簇的总SSB的值相对较大,说明簇与簇之问的分离性较好。综合4个类的误差平方和SSE与总组间变差SSB评价指标,可以判定该聚类模型效果较好。4.2第二次聚类在第一次聚类结果中发现,第一类客户的价值远小于第二、三、四类客户,但是在数量上却远大于第一类,综合考虑下,将第一类客户进行再次聚类分析,从中找出价值相对高一点的一般价值客户,为银行尽量多的找到有价值客户。42l聚类结果在第一次聚类结果中的第一类客户数据基础上,重复第一欢聚类过程,得到第一二次聚类的结果,如图4.9:图4.9第二次聚类结果Fig4.9"l'heresultofthesecondcluster4.2.2模型评估通过对聚类结果的统计,得出 重庆人学硕士学位论文4基于银行客户价值的聚类模型——案例分析簇的误差平方和:第1类SSE=∑dist(cf,x)2:0.035883XeCI第2类SSE=∑dist(cj,x)2_o.325335x∈G第3类SSE=∑dist(cf,x)2=o.665043x∈G3个簇的误差平方和SSE值比较少,因此可以判断3个簇间的聚集性比较好。簇的组间变差:、,'r_、^总SSB=>:m。dist(c,,c)2=0.94555352+0.60182808+0.32713l446i=1=1.8745130473个簇的总SSB的值相对组内误差平方和值较大,说明簇与簇之间的分离性较好。综合3个类的误差平方和SSE和总组间变差SSB评价指标,可以判定该聚类模型效果较好。4.3客户类别管理基于第一次聚类结果,在聚类结果的利润标准化均值图中二、三、四类客户给银行带来的利润标准化均值远远大于总平均值,故将其归为同一类。综合三类客户四个季度及一年总利润的标准化均值分别为:0.065028、0.03697089、0.037092、0.04028、0.110159。同样从第二次聚类结果三类客户的利润标准化均值图中可以看到,第一类客户的价值远小于客户的此类客户总体平均价值,而第二、三类客户的标准化平均价值却远高于此类客户总体标准化平均价值,故将此两类归为同一类。综合第二次聚类结果中的第二、第三类客户四个季度及一年总利润的标准化平均值分别为:0.008663、0.0046909、0.005585、0.007153、0.016079。而第二次聚类结果中的第一类客户四个季度及一年总利润的标准化平均值分别为:0.001t70961、0.000594、0.000809、0.000975、0.002186。整个样本数据中的客户四个季度及一年总利润的标准化平均值分别为:0.007991、0.004437、0.004811、0.0055555、0.014016。基于两次聚类结果的综合分析,将所有客户分成三类:第一次聚类中的第二、三、四类客户为高价值(第3类)客户:第二聚类结果中的第二、三类客户为一般价值(第2类)客户;第二次聚类结果中的第一类客户为低价值(第1类)客户。客户聚类结果如表4.1所示:28 重庆大学硕七学位论文4基于银行客户价值的聚类模型——案例分析第1类第2类第3类41191485475p14,p19,p22,p25,p30,p32,p41,p44,p46,p52,p73,p79,p85,p103,p108,p109,⋯’‘。p6069,p6070,p6071,p6072,p6073,p6074·p6075,p6076,p6077,p6078p6,pll,p12,p13,p16,p17,p18,p21,p23,p26,p27,p34,p36,p39,p45,⋯。。‘p5999,p6002,p6004,p6012,p6m6,p6024,p6025,p6029,p6030,p6058,p6079pl,p2,p3,p4,p5,p7,p8,p9,plO,p15,p20,p24,p28,p29,p31,p33,p35,⋯’。。p5705,p5707,p5725,p5799,p5802,匝!Q!:巳至!!Z:巳兰2鲤:P主堑!!世!箜!匹塑兰 重庆大学硕+学位论文5银行客户的分类模璎——案例分析5银行客户的分类模型——案例分析以上一章的聚类结果为依据,将每一位客户对应的类别添加到样本数据中,作为分类建模的数据。本章分类模型中的目标变量共有三类,即属于多目标分类模型。而决策树分类模型以两个目标变量的分类为基础,两个目标变量的分类模型相对与多目标的分类模型准确率有较大提高,因此本研究通过三叉决策树分类器和二叉决策树组合分类器方法相互比较,得出最终分类预测模型,其总路线如图5.1所示:图5.1分类预测模型建立流程Fig.5.1Theflowofclassificationmodel5.1客户数据选择本文建立分类预测模型是以聚类结果产生的有类标号的客户数据为依据,采用三叉决策树和二又决策树的组合分类器方法建立分类预测模型,最后通过二者的比较,得出对预测效果较好的预测模型。为了使两种方法有可比性,在建模过程中,同时都以相同的4079客户数据建立模型,以剩下的2000客户数据作为测试数据,来评估分类器的预测效果。30 重庆大学硕十学忙论文5银行客户的分类模型——案例分析基于第三誊表3.7分类数据模型阻及分类样本数据的选择.进行分类模型的建立。5.2三叉决策树采用聚类分析过程中导入数据的方法,将分类数据导入SAS数据库中。在SASEmcq)riscMiner中建立三叉决策树分类模型的“SEMMA'’分析流程。5.21数据导入将workdata导入数据源节点,数据源节点中导入数据的基本概况:分类数据中共包含4079位客户的交易记录,每位客户对应48个属性。分类模型的建立是从4079个数据中随机抽取2000条作为建模样本。在variables选项中将group的modelrole属性设置为ta唱ct,作为此次分类模型的目标变量。而groupl、group2、g"oup3属性设置为喇ect,表示此三个变量在此次建模过程中不参与建模。5.2.2数据分割在datapartition节点,设置数据中60%作为曲in值,40%作为validation值。5.2.3Tree节点设置打开tree节点,在Basic选项中选择Entropymdact诂n选项,因为此次建模用的三叉树模型,所以在maximumnumberofbranchesfi,omanode选项中设置为3。5.2.4模型与剪枝运行tree节点,得出决策树模型,并对决策树进行剪枝。本文采用后剪枝的方法对决策树进行剪枝,处理过分拟合问题。通过决策树增长状况可以看出此决策树的虽大长度可达到64个节点,但是从第25个节点开始模型的train数据值中的错误率下降不大,而相反validation数据值中的错误率却在升高。因此决策树出现过分拟合问题.其黯佳修剪位置25个节点。同时考虑到对每个节点观察值数量的限制,确定最终的模型。部分模型图如图52所示:凹5.2三叉树的部分树型幽Fig.52ThepartoflreediagramofⅢgle№ 重庆大学硕士学位论文5银行客户的分类模型——案例分析5.2.5模型的评估①预测结果将验证数据导入SAS数据库中。打开流程图中与score节点相连接的数据源节点,将未知类别数据导入改节点中,在Role选项中选择score选项。在第一个分类器中的score节点,在Settings选项中选择Applytrainingdatascorecodetoscoredataset项。打开insight节点,在data选项卡中选择Entiredataset选项,在dataset项目中,选择select按钮,选择EMDATA.SD项。运行Insight节点,得到第一个分类器对未知数据分类预测的结果。②模型评估在该过程中,SAS软件中没有评估指标,因此本文在评估三叉决策树分类器时通过预测值与实际值相比较的方法,经过统计得出分类器的混淆矩阵,从而通过所得混淆矩阵对三叉决策树分类器的结果进行评估。客户分类预测结果与真实结果的比较如表5.1所示:32 重庆大学硕士学位论文5银行客户的分类模型——案例分析续表5.I:通过预测值和实际值的对比,得出三叉决策树分类器模型的混淆矩阵,如图5.3所示:actual321310928278121190l29761341图5.3混淆矩阵Fi95.3Confusionmatrix从混淆矩阵中可以在评估该模型的时候,取了2000个客户,其中1类客户1446个,真J下预测为1类的有1341个,预测为2类的有76个,预测为3类的有29个。2类客户389个,预测为1类的有190个,真正预测为2类的有121个,预测为3类的有78个。3类客户165个,预测为1类的有28个,预测为2类的有28个,真正预测为3类的有109个.因为高价值客户是第3类,所以对第3类客户较为重视,其各种评价指标如下所示:对整个模型:正确率Accuracy=109+121+1341/2000=78.55%错误率Errorrate=1.78.55%=21.45%对第3类客户:真正率TPIPl09/165=66.1%真负率TNR121+1341/389+1446=79.7%假正率FPR=I一79.7%=20.3% 重庆大学硕士学位论文5银行客户的分类模型——案例分析假负率FNR=I.66.1%=33.9%精度P_109/109+78+29=50.5%召回率R=109/165=66.1%从以上评价指标可以看出,三叉决策树模型的预测效果不理想。5.3组合分类器5.3.1第一个分类器的分类模型的建立采用聚类分析过程中导入数据的方法,将分类数据导入SAS数据库中。在SASEnterpriseMiner中建立组合分类模型的“SEMMA”分析流程。①数据导入将work.data导入数据源节点,数据源节点中导入数据的基本概况:分类数据中共包含4079位客户的交易记录,每位客户对应48个属性。分类模型的建立是从4079个数据中随机抽取2000条作为建模样本。在variables选项中将groupl的modelrole属性设置为target,作为此次分类模型的目标变量。而group、group2、group3属性设置为reject,表示此三个变量在此次建模过程中不参与建模。关闭该节点,保存设置。②数据分割打开datapartition节点,使数据中60%作为train值,40%作为validation值。(重)Tree节点设置在tree节点中的Basic选项中选择Entropyreduction选项④剪枝运行tree节点,得出决策树模型,并对决策树进行剪枝。本文采用后剪枝的方法对决策树进行剪枝,处理过分拟合问题。通过树完全增长状况可以看出此决策树的最大长度可达到14个节点,但是从第9个节点开始模型的train数据值中的错误率下降不大,而相反validation数据值中的错误率却在升高。因此决策树出现过分拟合问题,其最佳修剪位置9个节点。同时考虑到对每个节点观察值数量的限制,最终的决策树叶节点为6,模型如图5.4所示。 煎庆大学硕七学亿论文5银行客户的分类模刑——案例分析图5.4树形圈FiB,54Diagxamof口钟form⑤模型的评估运行畸ight节点,对模型进行评估。1)混淆矩阼瓤『⋯。l躲l,矧i。l,引,嚣I,,3*自*0s2”Ⅲ?幽5.5混淆矩阵Fig.5..5C.o面usionmatrix从混淆矩阵中可以在评估该模型的时候,取了1632个客户,其巾A类客户13t2个,真正预测为A类的有1253个,预测为B类的有59个。而B类客户320个,预测为A类的有82个,真正预测为B类的有238个,因为高价值客户在B类中,所以对B类客户较为重视,其各种评价指标如下所示:对整个模型:正确率ADcI昀cy_7矗78%^1458%=9136%错误率Errorrate=502n/o+362%=864%对B类客户:真正率TPR=238/320=7439% 重庆==l;=学硕士学位论文5银行存户的分类模型——案例分析真负率1NR=1253/1312-一)5.5%假正率FPR=59/1312=4.5%假负率FNR=82/320=25.63%精度P=238/297=80.13%召回率R=238/320=7438%从以上评价指标可以看出,该模型的预测效果非常好。2)CapturedResponse图毒至从CapturedResponse图可以看出,该分类模型对分类效果晟好的前10%客户的预测准确率则达到了40%多。模型韵预测准确率较高。3)Lift圈L-⋯du’【鲨篁亘三二二:]图5.7lift圈Fi舀53Liftchart从LiR图可以看出,该分类模型对分类效果摄好的前20%客户的预测的Hn值在3.8以上,即该模型对分类效果最好的前20%客户的预测准确率则达到了76%。 重庆大学硕士学位论立5银行,彝户的分类模型——案例分析模型的预测效果较好。分别利用第二、三个分类器重复以上过程得出第二、三个分类器的预测模型及其评价结果。532第二个分类器的模型①剪枝剪枝过程如下:采用后剪枝的方法对决策树进行剪技,处理过分拟合问题。通过树完全增长状况可以看出此决策树的最大长度可达到33个节点,但是从第11个节点丌始模型的train数据值中的错误率下降不犬,而相反validation数据值中的错误率没有下降甚至上升。凼此决策树出现过分拟合问题,其最佳修剪位置11个节点。『一J时考虑到对每个节点观察值数量的限制,最终的决策树节点为6,模型如图5.8所示。②模型的评估1)混淆矩阵圈5.8树形圈Fig.58Thechartoftxeeform‰{。⋯‘旧|2|j|l。旧憎|1圈5.9混淆矩阵Fig59Confusionm捌x)7g"L3iji 重庆人学硕十学位论文5银行客户的分类模型——案例分析从混淆矩阵中可以在评估浚模型的Ht候,取了1632个客户,其中A类客户1257个,真正预测为A类的有1210个,预测为B类的有47个。而B类客户375个,预测为A类的有236个,真J下预测为B类的有139个,因为高价值客户在A类中,所以对A类客户较为重视,其各种评价指标如下所示:对整个模型来说:正确率Accuracy-74.14%+852*/'.=8266%错误率Errorrate=2.88蜘1446%-1734%对A类客户来说真正率TPR=1210/1257:9626%真负率TNR=139/375=3707%假正率FPR=236,375—6293%假负率FNR=47/1257-374%精度P=12IO/1446=8368%召回率R=1210/1257-一)626%从以上评价指标可以看出,该模型的预测效果比较理想,可以接受。2)CapturedResponse图”一”,4。0三。6。o三。。”m筐兰兰j三二]l目~.1in·●T⋯圈510CaptⅢ'eaResponse图Fig510CapUtreresponsechart从CapturedReaporBe图可以看出,该分类模型对分类效果最好的前10%客户的预测准确率则达到了31%多。模型的预测准确率可以接受。3)LlR图 重庆人学硕+学位论文5银行客户的分类楔型——案例分析⋯⋯l∞P●rc●ntll●筐釜釜互三二]图5.11Lift图Fig.5IIliftc}Ian从LiR圈可以看出,该分类模型对分类效果晟好的前20%客户的预测的lifL值在2.6,即该模型对分类效果最好的前20%客户的预测准确率则达到了52%多。模型的预测效果可以接受。5.3.3第三个分类器的决策树模型∞剪枝剪枝过程如下:采用后剪枝的方法对决策树进行剪枝,处理过分拟合问题。通过树完全增长状况可以看出此决策树的最大长度可达到31个节点,但是从第15个节点丌始模型的train数据值中的错误率下降不大,而相反validation数据值中的错误率却没有下降。鉴于决策树模型的简洁和实用性问题,其最佳修剪位胃为15个节点。同时考虑到对每个节点观察值数量的限制,最终的决策树Pl+节点为7,模型如图512所示:②模型的评估1)混淆矩阵圉512树形图Fig512Treeformchart 重庆大学硕士学位论文5银行客户的分类模j14——案例分析鼽l⋯,。‘蚓矧嘏56I;引。:引;,搿,;=;;l黼;l㈧】口9⋯2幽513掘淆矩阵Fi9513Confusionmatrix从混淆矩阵中可以在评估该模型的时候,取了1632个客户,其中A类客户695个,真正预测为A类的有514个,预测为B类的有181个。而B类客户937个,预测为A类的有82个,真正预测为B类的有855个,因为高价值客户在A类中,所以对A类客户较为重视,其各种评价指标如下所示:对整个模型来说:J下确率Accuracy-315%+5239%=83890/.错误率Errorrote-5.02*Ad-1109%-16.11%对A类客户来说真正率TPR=514/695=7396%真负率TNR-855/937—9125%假lF率FPR=82/937=875%假负率FNR=181/695=2604%精度P_514/596=8624%召回率R=514/695=7396%从以上评价指标可以看出,该模型的预测效果比较理想,可以接受。2)CaoturedRespome搓I⋯o⋯o⋯P'】‘⋯1‘do⋯一匡生=二=兰兰!堕!—J图514CappedResponse图Fig.514C∞tLⅢrespoll∞chart豳器呻∞帅∞。 重庆大学碗1’学恤论文5银行』彝户的分类模型——案例分析从CapturedResponse图可以看mr该分类模型对分类效果最好的前10%客户的预测准确率则达到了20%。模型的预测效果虽然不是很好,但是完全可以接受。3)Lift图⋯⋯∞⋯●hLll‘~1~——————————————’————一匡堕竺兰竺二'!堕!————一幽515Lift性IF-导5.15Liltchart从Lm图可以看出,该分类模型对分类效果最好的前200/0客户的预测的Iin值在I.7,即浚模型对分类效果最好的前20%客户的预测准确率则达到了34%。模型的预测效果并非很好,但是可以接受。5.34组合分类器评估①导入预测数据将来知类别的数据导入SAS数据库中。手J开第一个分类器中与score节点栩连接的数据源节点,将未知类别数据导^改节点中.在Role选项中选择score选项。②Score节点设茕打开第一个分类器中的score节点,在Settings选项中选择Applylzainingdatasoofecodetosool'edataset项。@Eight节点设簧打丌insight节点,在data选项卡I}1选择Entiredataset选项,在dataset项目中,选择select按钮,选择EMDATA.SD项。④预测结果运行Insight节点,得到第一个分类器对未知数据分类预测的结果。重复以上过程,分别得出第二个分类器的分类预测结果和第三个分类器的分类预铡结果。组合分类昌{}的三次分类预涓结果如表5.2所示: 重庆大学硕十学位论文5银行客户的分类模型——案例分析AB⑤类标号投票对所得三组结果进行类标号投票处理,处理方法如下:第一个分类器所得的目标变量GROUPl中的A转换成1和2,将B转换成3和3。第二个分类器所得的目标变量GROUP2中的A转换成1和3,将B转换成2和2。42BABABABABABABABABA一皿鄙一庐西妒邸矽舯mmm小m舶椰邢渺渤~塞}.p正西P群Ⅸ一讲西mm川m讲m讲讲讲讲衅一修 重庆大学硕士学位论文5银行客户的分类模型——案例分析第一个分类器所得的目标变量GROUP3中的A转换成2和3,将B转换成1和1。转换结果如表5.3所示:表5.3投票概况里垒!堕:三堡璺瞍旦堡Q£型i整Id⋯GROUPiGROUP2GROUP3转换1转换1转换2转换2转换3转换3pl⋯AB12p2⋯A12p3⋯ABl2p4⋯AB12p5⋯BA3p6⋯A12p7⋯AI2p8⋯AB12p9⋯AB12p10‘‘。AB12pll‘‘’AB12p12⋯ABA12p13。。‘ABA12p14‘。’AB12p15’。’AB12p16⋯BA3p17。。‘AB12p18⋯AB12p19’‘。BA3p20。。。A12⋯p1999⋯AB12表中转换l表示groupl的转换结果,转换2表示group2的转换结果,转换3表示group3的转换结果.通过投票方式决定每一个客户的最终类别,即每一个客户在转换1、转换2和转换3属性对应的l、2、3类中出现频率最高的一类就视为改客户的类别。如第一个客户对应的转换1、转换2和转换3的类别为1、2、1、3、l、1,在六个数字中43l3l3l3l13l3“l2l2l2l2l2¨l323¨3l1l21l¨l 重庆大学硕十学位论文5银行客户的分类模犁——案例分析1出现的频率最高,故第一客户归为第一类客户。最后的投票结果如表5.4所示:表5.4投票结果!壁坐!里兰:堡堡曼堡!旦!!旦£!堕i翌g望:::垒垦Q!里!鱼曼Q堕丝鱼垦Q垦里三堑垫!蕉垫!整垫兰整选三整垫兰整堡三g翌竖p1⋯AB1213l1p2⋯Ai21323p3⋯AB12131p4⋯ABl2131p5⋯BA3l323p6⋯A12l323p7⋯A121323p8⋯AB12131p9⋯AB12131p10⋯ABI213l1pll’‘‘AB12i31p12‘’‘ABA1232p13’·。ABA1232p14⋯AB12131p15⋯AB12131p16⋯BA3I323p17。‘’AB12131p18⋯AB12131p19⋯BA31323No⋯A121323p1999‘·。AB1213篷鲤Q:::垒△!呈!三兰三⑥模型评估在SAS软件中没有给出组合分类器的混淆矩阵,因此本文在评估组合分类器时通过预测值与实际值相比较的方法,经过统计得出组合分类器的混淆矩阵,从而通过所得混淆矩阵对组合分类器的结果进行评估。客户分类预测结果与真实结果的比较如表5.5所示: 重庆人学硕士学位论文5银行客户的分类模型——案例分析表5.5预测结果与真实结果Table5.5Predictedresultandtrueresult!堕曼型坐!亟型笪!g翌业!塞堕笪!pl1p231p31p41p532p632p732p8l1p91plO1pll1ip122p132p141Ip151p163p171p181p193p2032p19991通过预测值和实际值的对比,得出组合分类器模型的混淆矩阵,如图5.16:32l31311222226228135116361394图5.16组合分类器混淆矩阵Fig.5.16ConfusionmaU'ixofcombinationclassifier45 重庆大学硕士学位论文5银行客户的分类模型——案例分析从混淆矩阵中可以在评估该模型的时候,取了2000个客户,其中1类客户1446个,真正预测为l类的有1394个,预测为2类的有36个,预测为3类的有16个。2类客户389个,预测为l类的有135个,真正预测为2类的有228个,预测为3类的有26个。3类客户165个,预测为1类的有22个,预测为2类的有12个,真正预测为3类的有131个.因为高价值客户是第3类,所以对第3类客户较为重视,其各种评价指标如下所示:对整个模型:正确率Accuracy=131+228+1394/2000=87.65%错误率Errorrate=l一87.65哆红12.35%对第3类客户:真正率TPR=131/165=79.4%真负率TNR=228+1394/389+1446=88.4%假正率FPR=I一88.4=11.6%假负率腓l一79.4=20.6%精度P=131/131+26+16=75.7%召回率IPl31/165=79.4%从以上评价指标可以看出,该模型的预测效果较好,可以接受此模型。5.4模型的比较与选择通过三叉决策树模型和组合分类器模型的评估,可以看出,在模型最重要的整体正确率和对高价值客户的精度、召回率方面,组合分类器效果远远好于三叉决策树分类器。因此我们选择组合分类器模型作为最后的客户分类预测模型。5.5模型的应用应用数据挖掘技术对银行客户的历史行为数据进行探索、分析,建立客户分类模型,对客户市场进行细分,找出了对银行贡献最大的高价值客户。该客户分类模型将应用到对现有客户进行分类,以及预测未来新客户的价值类别,以便银行对客户进行准而有效的管理。5.5.1预测客户类别应用该模型可以对银行现有客户进行科学、准确、快速的分类,同时可以对将来的新客户进行及时分类,以便对银行所有客户采取有效的管理措施,最大可能实现低价值客户向高价值客户的转变。应用该模型进行预测银行客户价值类别的具体操作:①将未知类别的客户资料进行数据预处理,如5.1节所示。 重庆人学硕士学位论文5银行客户的分类模型——案例分析②导入预测数据将未知类别的数据导入SAS数据库中。打开第一个分类器中与score节点相连接的数据源节点,将未知类别数据导入改节点中,在Role选项中选择score选项。关闭改节点,保存设置。@Score节点设置打开第一个分类器中的score节点,在Settings选项中选择Applytrainingdatascorecodetoscoredataset项。关闭改节点,保存设置。@Insight节点设置打开insight节点,在data选项卡中选择Entiredataset选项,在dataset项目中,选择select按钮,选择EMDATA.SD项。点击0k,关闭该节点,保存设置。⑤预测结果运行Insight节点,得到第一个分类器对未知数据分类预测的结果。重复以上过程,分别得出第二个分类器的分类预测结果和第三个分类器的分类预测结果。⑥类标号投票对所得三组结果进行类标号投票处理,处理方法如下:第一个分类器所得的目标变量GROUPl中的A转换成l和2,和3。第二个分类器所得的目标变量GROUP2中的A转换成1和3,和2。第一个分类器所得的目标变量GROUP3中的A转换成2和3,和1。将B转换成3将B转换成2将B转换成1⑦分类预测结果通过投票方式决定每一个客户的最终类别。如第一个客户对应的转换类别为1、2、1、3、l、1,在六个数字中1出现的频率最高,故第一客户归为第一类客户。5.5.2在客户管理上的应用同时通过该模型还可以看出和银行客户价值联系较为紧密的客户属性有哪些,以便银行对客户进行管理时采取有针对性的措施,如:从该模型中的第一个分类器中可以看出与客户价值高低有较大相关性的属性,按照其相关程度高低排序分别为:客户年初余额、第四季度柜台存款金额、第一季度柜台存款金额、第三季度柜台存款金额;从该模型中的第二个分类器中可以看出与客户价值高低有较大相关性的属性,按照其相关程度高低排序分别为:客户年初余额、第一季度柜台存款金额、第47 重庆大学硕+学位论文5银行客户的分类模型——案例分析三季度柜台存款金额;从该模型中的第三个分类器中可以看出与客户价值高低有较大相关性的属性,按照其相关程度高低排序分别为:客户年初余额、第一季度柜台存款金额、第三季度柜台存款金额。综合分析后可以看出与该银行客户价值高低有较大相关性的属性,按照其相关程度分别为:客户年初余额、第一季度柜台存款金额、第三季度柜台存款金额、第四季度柜台存款金额。因此银行在应用该分类模型对客户进行分类之后,可以根据客户的年初余额、第一季度柜台存款金额、第三季度柜台存款金额、第四季度柜台存款金额等属性,对客户采取有效管理措施。从而对高价值客户起到提高客户对银行的忠诚度等作用,同时也可以提高低价值客户和一般价值客户对银行的忠诚度以及对提高其对银行的价值,使部分客户转换为一般价值客户和高价值客户。具体管理措施,如银行在第一季度、第三季度、第四季度对在柜台存款客户开展多种客户关怀,比如通过打关怀电话、推荐客户适合的理财产品、送小纪念品等多种方式来提高客户的对银行的忠诚度,最大限度提高客户价值,提高银行收益,增强银行的市场竞争力。与此同时还可以以细分市场理论为指导,通过不同的物理渠道、不同产品组合和不同的人力资源配备来分层次对低价值客户、一般价值客户、高价值客户进行差别化服务。其中,低价值客户市场只提供电子化和自助化层次的服务渠道以及基本的银行服务,不提供高层次的产品组合服务:一般价值客户除基本服务外还提供相应的群体化咨询服务场所和有限的人力服务,重点是强化针对中层客户的产品组合服务,如私人借贷、楼宇贷款、名贵保险、信用卡、电话理财等服务。对于高价值客户群体提供专门的私秘性较强的服务场所和一对一的客户经理服务,在产品组合上通过“卓越”理财户口提供个性化的服务;对于更高层次的客户则通过私人银行服务提供更为贴身的个人服务。 重庆大学硕+学位论文6结论本文尝试着用数据挖掘工具,以银行客户价值为基础,建立一个针对商业银行的客户分类模型,在分类模型建立过程中,通过对商业银行客户价值分类问题的定量化建模研究与分析,利用SOM聚类方法、三叉决策树和决策树组合分类器方法等现代数据挖掘技术,建立相关的基于客户价值的客户分类预测模型,然后根据此模型来实施银行的管理关系管理重要环节,客户价值的分类与管理。在研究方法上,将客户关系管理理论同先进的数据挖掘方法、优化建模方法和经济分析方法结合起来,实现了管理理论与经济理论的融合、定性分析与定量建模方法的统一。最后通过实例检验了模型的可行性,获得了与基于客户价值的客户管理实践相关的客户关系管理策略。论文取得的主要成果包括:①数据挖掘技术正在被越来越多的商业银行应用,成为各银行改善各种业务,增进与客户的关系、加强客户保持管理和提高竞争力的重要工具。②首先探讨使用数据挖掘方法建立商业银行基于客户价值分类模型的可行性。③进行实例研究,使用SAS数据挖掘软件首先针对银行客户的价值大小对客户进行SOM聚类分析,通过模型评估得出客户基于价值类别。其次,通过三叉决策树和决策树组合分类器方法对不同价值客户建立分类预测模型并进行模型的有效评估。④在模型的输入变量中加入时间序列的因素,把商业银行客户与时间紧密相关的交易行为转换成输入变量加入到模型中来。⑤使用相同数据,采用三叉决策树与决策树组合分类器分别建立分类预测模型,通过二者相互比较,得出最终模型,从而证明组合分类器的预测效果比单个分类器预测效果好。但是也存在一些问题,如缺少好的数据,商业银行之中的绝大部分都未能保留良好的截面数据和时间序列数据。数据挖掘需要正确的数据才能真正体现数据挖掘的价值。展望未来,随着商业银行的进一步规划和发展,国内外银行之间的竞争越来越激烈,数据挖掘技术在商业银行客户关系管理领域有广阔的前景。应用数据挖掘来进行更为广泛、更全面的客户信息分析进而转化为知识,这将对银行的经营管理者提供决策信息,有利于降低银行的服务成本和提高服务质量。在未来,数据挖掘技术的潜力将会有更好的发挥。由于时问以及研究条件的限制,论文只是对课题作了初步研究,在研究深度以49 重庆大学硕:仁学位论文6结论及广度方面都还存在着不足之处,有待今后进一步进行深入研究,数据挖掘是从大量数据中发现有趣知识的一个复杂的过程,本文主要集中于对数据预处理和数据挖掘有关算法的分析,而对知识表示及模型评价还缺乏深入研究。因此本研究还需要不断地补充完善,今后还可以从以下几方面对课题继续开展研究:①在大型数据集或数据仓库上进行数据挖掘实用算法的实现研究。②针对某一类数据挖掘模型及其在客户分类管理中的应用开展深入研究,并且开展业务数据本身的研究以及数据收集方法的研究。③开展多种数据挖掘方法在客户关系管理中的综合应用以及比较研究。④紧密结合各种业务和应用,建立相应的客户分类模型,不断改进和丰富银行客户分类模型,使客户分类模型真正成为方便、实用的日常决策分析工具,使数据挖掘技术进一步得到发挥。 重庆大学硕十学位论文致谢致谢在论文即将完稿之际,我感触良多。通过各门课程的学习,以及与各位同学的交流与讨论,我学到了很多有用的知识和宝贵的管理方法与经验,受益匪浅。我在校学习期间,老师和同学都给过我很多的帮助、关心和鼓舞。在此,我深表感谢!首先要感谢我的导师—嘏副教授。李老师在工作上为我提供了很多有效的建议,在付诸实施以后取得了很好的成效;在学习上给予了我很大的指导和帮助,使我学到了许多有实用价值和研究价值的知识;在毕业论文的写作上,也给我提出了许多宝贵的意见,在李老师的指导下,我的论文得以顺利完成。其次,要感谢在我论文写作期间给予我支持与帮助的各位朋友及同事,他们在论文的资料收集与写作上也给予了我很大的帮助,提出了许多有价值的参考意见。再一次深深感谢所有曾经帮助过我,关心过我的各位老师和同学!赵金涛2009年3月 重庆人学硕十学位论文参考文献【l】翟鸿鸣.银行CRM系统的分析与设计【J】.微机发展2004(14)1,125—127【2】曲东荣.CRM在中国银行领域的应用阴.中国金融电脑2000(10):74-77【3】赵卫军,李捷.数据仓库和数据挖掘在银行CRM中的应用【J】.华南金融电脑2007(5):8—11【4】张成虎,于云树.银行CRM系统的需求与结构分析明.中国金融电脑20020):64-66【5】ZhengDafang,RodgersGJ,HuiPM.Amodelforthesizedistributionofcustomergroupsandbusinesses.StatisticalMechanicsanditsApplications,2002,3100):480-486.【6】Willim_nLB,JayE.Factoryfocus:Segmentingmarketsfromanoperationsperspective.IndustrialMarketingManagement,1991,3(10):363-387.[7】JangHeeL优,SangChanPark.Intelligentprofitablecustomersegmentationsystembasedonbusinessintelligencetools[J].ExpertSystemswithApplications,2005,29(1):145·152.【8】FritzH.Grupe,M.MehdiOwrang.DATABASEMININGDiscoveringNewKnowledgeandCompetitiveAdvantage阴.InformationSystemsManagement,1995,12(7):26-31.【9】FionaChau.Miningcustomerdataintointelligence[J].AnalysysResearch:march2007,(12):24—27.【10]PeterRPeacock.Datamininginmarketing[J].MarketingManagement,1998,6(4):8-18.【11]JimWheaton.CustomerDataMining[J].TargetMarketing,2006,29,(2)37-38【12]LeighMarjamaa.Managingyourcustomer潞。山口esthroughdatamhfing[J].CommunityBanker,2003,12(4):28—30[13]RonaldSSwirl.AcceleratingCustomerRelationshipsUsingCRMandRelationshipTechnologies[J].PrenticeHallPT心2001,(9):68—70【14]TillettLScott.BanksMineCustomerData[J].IntemetWeek,2000,831:45-46[151AdamRombel.CRMShiftstoDataMiningtoKeepCustomers[J].GlobalFinance,2001,15(11):97-98【16]Gmth&DataMining:BuildingCompetitiveAdvantages[j].Prentice-HallP也1999.【17]CardellNS,GolovnyaM,SteinbergD.Chummodelingformobiletelecommunications:WmningtheDuke/NCRTeradatacenterforCRMcompetition[R].2003,http:llwww.salford-systems.com【18]BreimanL,FriedmanJ,OlshenRStoneC.Classificationandregressiontrees阴.PacificGrove:Wadsworth,1984.【19]WeiC只ChiuIT.Turningtelecommunicationscalldetailstochurnprediction:adataminingapproach明.ExpertSystemswithApplications,2002,23:103·112.【20]KohHianChye,ChanKinLeongGerry.Dataminingandcustomerrelationshipmarketinginthe 重庆大学硕十学位论文参考文献bankingindustry们.SingaporeManagementReview,2002,24(2):1-27.[211扬辉.数据挖掘及其在商业银行中的应用[J】.中国金融电脑,1998(11):28-29f22】黄解军,7J幺)j)ll,潘和平.银行客户关系管理与数据挖掘的应用加.计算机工程与设计,2003(7):68-69【23】孙波.基于数据挖掘的银行客户贡献度分析系统框架【J】.机械管理开发,2005(2):63.-66【24】聂晶,孙捷.基于数据挖掘的商业银行客户关系管理系统构建研究明.科技创业月刊,2005(10):95-96[251郑华.基于数据挖掘银行客户关系管理系统构建研究阴.计算机与信息技术,2008(J0):82-84【26】蔡则祥.汪加才商业银行CRM与数据挖掘技术的应用【J】.商业银行经营与管理,2005(1):45-48【27]i辋致杰,数据挖掘技术在银行CRM中的应用川.金融信息化论坛,2008(7):4-6.【28】翟凌慧,马少平,唐焕玲.银行信用卡分类挖掘数据的预处理叨.计算机工程,2003(11):195—197.【29】何俊,温家明.数据挖掘及其在银行业的应用叨.华南金融电脑,2002(6):50.51【3I)】扬辉.数据挖掘及其在商业银行中的应用明.中国金融电脑,1998(11):28-29【31】蒋缨,强海涛.数据挖掘在商业银行中的应用趋势分析叨.甘肃社会科学,2003(5):78.79[321黄解军,万幼川,潘和平.银行客户关系管理与数据挖掘的应用阴.计算机:[程与设计,2003(7):68--69【33】张颖.数据挖掘技术在银行CRM中的应用fJ】.广西金融研究,2004(2):24-25【34】郭莹,张晓燕.数据仓库和数据挖掘技术在银行客户关系管理中的应ftq[J1.科技管理研究,2003(2):75-76[351徐,d,xla,刘玉宝.我国银行业客户关系管理研究明.现代管理科学,2003(1):19-20【36】陈增圭.建立以客户关系管理为核心的新型商业银行阴.中国金融电脑.2003(7):2-3【37]N欢.CRM中客户分类方法的研究与应用阴.计算机工程与设计.2008(3):659-661【38】闩相斌,李一军,邹鹏,卢涛.动静态属性数据相结合的客户分类方法研究阴.中国管理科学.2005(2):95—100.【39】康健,梁允荣.分类挖掘技术在金融客户关系管理中的应用忉.北京理工大学学报.2003(2):207-21【40】刘瑜,郑平,刘莹.分析型中CRM客户细分的决策树分类技术综述叨.科技软件评述。2006(2):8-9【41】王建民,王传旭.基于主成分一聚类分析方法的客户分类研究加.淮南师范学院学报.2003(3):76—78[421Nb5妹.决策树算法在客户分类中的应用川.南通职业大学学报.2006(3):79.82【43】周晓刚,洪春勇.蚁群聚类算法在客户分类中的应用【J】.计算机与现代化.2007(5):33.3553 重庆人学硕士学位论文参考文献【44】李春宏.数据挖掘技术在客户分类管理中的应用叨.中国管理信息化.2007年6月第10卷第6期,29—31H5]赵林明.基于数据仓库的信用“I:-客户分类规则获取叨.微计算机信息.2008(3):160—161【46】肖进,贺吕政.基于SODM的贝叶斯分类器结构学习及其在客户分类中的应用【J】.管理科学.20080.):54-60f47】邵峰晶,于忠清.数据挖掘原理与算法lM].北京中国水利水电出版社,2003:2.14【48】张乃尧,阎平凡.神经网络与模糊控制【M】.北京;清华大学出版社,1998[49]Haykin5.Neumlnetwork-AeomPrehensivefoundation[M].ZedEdition.Beijing:TsinghuaUniversityPress,2001【50]Pan-ningTan,MichaelSteinbach,VipinKumar.数据挖掘导论[M】.人民邮电出版社,2006:97—98,100,335.【51]范明,孟小峰译.数据挖掘——概念与技术【M】.北京:机械T业出版社,2001.30—35.【52】史忠植.知识发现[MI.北京:清华大学出版社,2002:100.101.【53]Pan-ningTan,MichaelSteinbaeh,VipinKumar.数据挖掘导论IMI.人民邮电出版社,2006:113一114.【54]Pan-ningTan,MichaelSteinbach,VipmKumar.数据挖掘导论[M】.人民邮电出版社,2006:181 重庆大学硕士学位论文附录附录A.作者在攻读硕士学位期间发表论文目录【1】第一作者导师李勇,第二作者赵金涛.分类挖掘方法在银行不良贷款信用风险评估中的应用.工业工程。2008,1I.(已发表).B.作者在攻读硕士学位期间参加课题目录【1】参与了重庆市自然科学基金项目:面向企业决策支持的社会网络挖掘算法及应用研究,2008.1.2008.1155

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
关闭