《基于数据挖掘的银行客户分类模型研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
重庆人学硕士学位论文2相关研究概述2.1客户关系管理概述2.1.1客户关系管理客户关系管理(CRM)是现代管理理念和信息技术相结合的产物,它以信息技术为手段,对客户资源进行集中管理,并在企业的内部实现客户信息和资源的共享,围绕“客户为中心”设计和管理企业的战略、业务流程、组织结构和技术系统,从而形成一个自动化的解决方案,以提高客户忠诚,进而实现企业收入的增长和效率的提高,达到企业和客户的双赢。客户关系管理(CRM)是正在兴起的一种旨在改善企业与客户之间关系的新型管理机制。它是一套先进的管理思想及技术手段,通过将人力资源、业务流程与专业技术进行有效的整合,最终为企业涉及到客户或消费者的各个领域提供了完美的集成,使得企业可以以更低的成本、更高的效率来满足客户的需求。2.1.2客户分类准确的客户分类是企业有效地实施客户关系管理的基础。客户分类是根据客户属性来划分客户集合,通过获得的客户类别来分析和预测客户的消费模式,建立起一对一的客户服务体系,实行差异化的客户管理。客户分类是现代营销理念的产物,是第二次世界大战后西方发达国家市场营销理论和战略的新发展。它主要是指企业在明确的战略、业务模式和专注市场中根据客户的价值、需求和偏好等综合因素对于客户进行分类,对不同的客户群提供具有针对性的产品、服务和营销模式。经过若干年的发展,客户分类的理论和方法不断完善,而且被广泛地应用于营销实践。客户分类理论的提出和应用是具有一定的客观基础的,它是商品经济发展和市场竞争日益激烈的产物。对于商业银行也是同样的道理,商业银行有着广大的客户群体,这些客户千差万别。对于不同的客户,他们的需求又是千变万化的。银行不可能满足所有客户的需求,这不仅是由银行自身物质条件所限制,而且从经济效益方面来看也是不可取的。故而,银行应该分辨出它能有效为之服务的最有价值的客户,为他们提供更为个性化的服务,而不是四面出击,兼顾每一个银行客户。在早期的客户分类中常用的是经验描述法,即通过决策人员的经验对客户进行分类15】;数值统计法一般是基于客户的人口统计学特征进行类别的划分16J。智能分析法主要是近年来兴起的数据挖掘等基于人工智能技术的分类方法[71。在客户关系管理这一领域,己有许多学者对客户分类进行较为深入的研究,并提出了自己的方法。本文即是采用数据挖掘技术,对银行客户进行分类,建立客户分类预测模型。4 重庆大学硕十学位论文2相关研究概述2.1.3市场细分理论①市场细分概述市场细分是现代营销理念的产物,是第二次世界大战后西方发达国家市场营销理论和战略的新发展。市场细分理论的提出和应用是具有一定的客观基础的,它是商品经济发展和市场竞争日益激烈的产物,被认为是关键的营销概念和营销研究文献中一个极为重要的核心部分。其主要理论依据有两个:第一,顾客需求的异质性。也就是说,并不是所有的顾客需求都是相同的,只要存在两个以上的顾客,需求就会不同,由于顾客需求与欲望及购买行为是多元的,所以顾客需求满足呈现差异。顾客需求的异质性是市场细分的重要依据。第二,企业资源的有限性和为了进行有效的市场竞争.现代企业由于受到自身实力的限制,不可能向市场提供能够满.足一切需求的产品或服务,而且任何一个企业,即使是处于市场领先地位,都不可能在市场营销全过程中占绝对优势。为了进行有效竞争,企业必须进行市场细分,选择最有利可图的目标细分市场,集中企业资源,制定有效的竞争策略,以取得和增强竞争优势。所以,企业资源的有限性和进行有效竞争是对市场进行细分的外在要求。银行也是这样,一个银行的客户是多种多样的,各个客户的需求也是千变万化的,银行不可能满足所有客户所有的需求,这不仅是由银行自身条件所限制,而且从经济效益方面来看也是不足取的,因而银行应该分辨出它能有效为之服务的最具吸引力的市场,扬长避短,而不是四面出击。②商业银行市场细分原则·应用市场细分理论首先要解决的问题是如何确定市场细分变量,即决定使用何种变量对市场进行细分。在传统的营销理论中,确定市场细分变量主要有两大原则:一是依据自然属性来细分市场,二是依据行为属性来细分市场。依据自然属性来细分市场主要是利用人口统计学、社会经济学、经济地理原理所提供的特定市场内有关个人的重要信息来细分市场,其变量主要有地理细分变量、人口统计变量、社会经济变量等,也可以把这些变量结合起来进行细分。依据行为属性细分市场主要是通过对人们的心理分析、个性特征、生活方式的研究来细分市场,其变量主要有心理分析变量、产品使用量变量和产品效益变量等。市场细分理论的利用,可结合个人银行业务产品和客户生命周期的研究,对商业银行个人银行业务发展的根本需求和客户的目标定位有理论指导作用。2.2数据挖掘在CRM中的研究现状.数据挖掘技术的主要特点和任务是从组织积累的大量历史数据资源中,识别出有效的、新颖的、潜在的、有用的及最终可以理解的信息或知识,管理者利用这些信息或知识改进、优化决策,从而提高效率和效益【8】。针对数据挖掘特定领域的应用,人们开发了许多专用的数据挖掘工具,这包括生物医学、DNA分析、金融、零售业和电信【9J[10l。这些实践将数据分析技术与特定领域知识结合在一起,提供了 重庆大学硕十学位论文2相关研究概述满足特定任务的数据挖掘解决方案。CRM是数据挖掘的另一主要应用领域。在企业管理客户生命周期的各个阶段都会用到数据挖掘技术,数据挖掘能够帮助企业确定客户的特点,从而可以为客户提供有针对性的服务【11】【12】【131。TillerLScott[141认为数据挖掘优化了CRM的服务功能,可以为客户服务提供准确的参考信息,提高对客户事务处理的能力。AdamRombel[151认为客户关系管理为客户与银行之间创建了一个沟通渠道,数据挖掘技术进一步优化银行内部的业务流程,使这一渠道变得更加高效与快捷,并且通过分析客户的交易行为,更好的了解客户和保留客户,挖掘客户的爱好和兴趣,从而以最快的速度响应客户的需求,为客户提供最优质的服务,极大地提高客户的忠诚度,如GrothRIl6J认为集成有数据挖掘技术的营销辅助工具可以提供高精确度的模式识别和预测功能,使商业人员有效地策划和开展营销活动。Cardell【1。7】等学者运用树网模型研究移动通信行业的客户扰动问题,考察了与客户流失相关的变量并预测客户流失的概率;BreiIIlaIlllsJ将分类和回归树(CART)算法应用于基于客户人口特征、合同数据、客户服务日志的客户扰动预测;Chih—PingWei【19】开发了以决策树方法为基础、可以在合同水平上识别潜在流失者的分类组合预测技术。银行和金融机构中产生的金融数据通常相对比较完整、可靠和高质,这大大方便了系统化的数据分析和数据挖掘。国外一些学者对数据挖掘在银行CRM中的应用作了重要阐述,数据挖掘技术可以应用到贷款偿还预测和客户信用政策分析;对目标市场客户的分类与聚类;洗黑钱和其他金融犯罪的侦破120l。与此同时,国外的许多研究机构和银行也在这方面进行了实质性的研究和产品开发,并且在银行业得到广泛应用。如美国HNC公司开发了Marksman数据挖掘工具,美国Firstart银行使用该数据挖掘工具根据客户的消费模式预测何时为客户提供何种产品;IBM公司开发TIntelligentMiner软件,Mellon银行使用该数据挖掘软件提高销售和定价金融产品的精确度,如家庭普通贷款【2l】。此外,美国第一银行、FCC国家银行、WellFargo银行也都采用了数据挖掘技术,并取得了显著的效果圈。我国银行在数据挖掘应用方面还处于刚刚起步阶段。孙波四J运用数据挖掘技术建立银行评优与选择的客户贡献度分析框架,针对性地讨论如何有效地运用已有的数据获取重要客户名单,以辅助决策者制定决策方案,即通过对重要客户的深入挖掘和针对性服务,极大化客户价值,优化客户服务,增加银行利润;聂晶、孙捷【24】构建了基于数据挖掘的商业银行客户关系管理系统的体系结构;郑华125J利用数据挖掘技术中的“聚类”分析法进行银行客户关系管理系统的构建;蔡则祥、汪加才阑,胡致杰[271浅谈数据挖掘技术在商业银行CRM中的应用;翟凌慧、马少平、唐焕玲【28J描述了信用卡数据分类挖掘中的数据预处理过程;何俊、温家吲291、扬辉po]对数据挖掘及其在银行业的应用进行了研究;蒋缨、强海涛f3IJ对数据挖掘在商业银行中的应用趋势进行了分析与展望;黄解军、万幼川、潘和平【321、张颖【331,郭莹、张晓燕p4]对数据挖掘在银行CRM中的应用作了探索性研究;徐小平、刘玉宝[35J对我国银6 重庆大学硕十学位论文2相关研究概述行业客户关系管理的含义、效用以及实施步骤进行了概括性研究:陈增圭136J对以CRM为核心的银行信息系统架构和功能架构进行了研究。目前国内采用数据挖掘技术在客户分类的应用上主要有以下研究:周欢137】借鉴蚂蚁算法针对具体的燃气行业进行了分析,提出了一套适用客户的分类指标;闫相斌、李一军、邹鹏、卢涛【38】采用混合式遗传算法对客户聚类,研究了一种客户动态、静态属性数据相结合的客户分类方法.康健;梁允荣【39】采用决策树方法探讨数据挖掘技术在企业实际工作中的应用方式与应用领域,分析金融客户分类的必要性;刘瑜、郑平、刘莹M通过对经典决策树算法基本思想的描述,在综合大量文献的基础上,总结了各种算法的特性和优势,提出了决策树技术应用于客户细分的发展方向;王建民、王传旭14lJ通过构建企业与客户交易记录的原始数据矩阵,应用主成分一聚类分析的方法来定量地研究客户对企业的利润贡献度,进行客户分类工作;周粉妹【42】利用决策树算法算法对租赁公司的客户进行分类,给出了分类步骤发现了申请或不申请租赁的客户类型特征,从而为公司租赁业务制定最佳指导策略;周晓刚,洪春勇【43】通过蚁群算法对企业的客户消费数据进行分类,以此来获取不同类型客户的需求并针对不同类型的消费群体制定相应的营销策略;李春宏mJ从数据挖掘技术在客户关系管理中的应用入手,分析了客户分类的必要性,研究了客户分类的数据挖掘系统架构;赵林明【45J讨论了如何用判定树提取客户的分类规则,并对规则的正确度进行了评估;肖进、贺昌政[461探讨了基于SODM的贝叶斯分类器结构学习及其在客户分类中的应用。以上对数据挖掘技术的研究对国内数据挖掘技术的发展有积极的意义,但其研究主要是针对数据挖掘技术的理论及其应用的综述,或是对数据挖掘技术在CRM应用中的框架的阐述。在针对客户分类的应用研究上也只针对分类的某一方面进行研究,如部分研究采用数据挖掘某一方法对未有类别标号的客户进行分析,对客户进行分类,此类研究是一个提高对现有客户进行分类的方法,而对新客户的分类作用不大。而另一部分研究是在已有客户类别的基础上建立分类预测模型,此类研究对新客户的类别预测较为适用,但是其建模前的客户类别标号的确定是公司基于传统的分类方法而确定的,缺乏一定的准确性。本文将避免以上的几种缺陷,以重庆某商业银行为例,采用数据挖掘中的分类方法,建立银行的客户分类预测模型,以指导银行的客户关系管理。但是为了避免国内银行对现有客户的类别定位不准确,而影响分类模型的结果,本文在对银行客户建立分类预测模型之间,采用数据挖掘方法中的聚类分析法,对银行客户的进行聚类,确定现有客户的类别。进而在此聚类的基础上通过决策树分类器方法对银行客户建立分类预测模型,并将该模型应用到已有其余客户以及未来加入的新客户上,以便银行科学、快速、有效的区分不同价值的客户,为银行在客户关系管理方面提供一个强有力的支持工具。7 重庆人学硕十学何论文2相关研究概述2.3数据挖掘概述2.31数据挖掘定义数据挖掘(DataMining,DM)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在的有用信息和知识的过程。其过程H1主要有如图2.1所示:j算。数槲谖圈21数据挖捌过稃示意幽Fig.2lDataminingprooessdiagram8 重庆大学硕士学位论文2相关研究概述其常用方法主要有:①关联规则分析关联规则分析是发现交易数据库中不同商品(项)之间的联系,这些规则反映客户购买行为模式。②分类预测分类预测可以用于提取描述重要数据类的模型或预测未来的数据趋势。通过对预先建立的学习模型进行有指导的学习训练,最终可以获得具有一定准确率的分类方法。③聚类聚类是在预先不知道目标数据库有多少类的情况下,希望将所有的记录组成不同的类,并且使得在这种分类情况下,以某种度量为标准的相似性,在同一类之间最小化,而在不同类之间最大化。2.3.2聚类方法(以SOM方法为例)@SOM概述SOM网络算法是一种聚类算法,它能根据其学习规则对输入的模式进行自动分类,即在无监督的情况下,对输入模式进行自组织学习,通过反复地调整连接权重系数,最终使得这些系数反映出输入样本之间地相互关系,并在竞争层将分类结果表示出来。因此,SOM神经网络在结构上模拟了大脑皮层中神经元是二维空间点阵的结构,并在功能上通过网络中神经元间的相互作用和相互竞争,模拟了大脑信息处理的聚类功能、自组织和学习功能。该算法被广泛应用于各种模式识别和分类问题中娜】【49】。SOM神经网络由单层神经元网络组成,其输入神经元与输出神经元之间为双向权连接。因为网络在学习中的竞争特性也表现在输出层上,所以输出层又可称为竞争层,而与输入神经元相连的权值及其输入合称为输入层。输入层神经元的数量由分类衡量指标的个数决定。竞争层可以由一维或二维网络矩阵方式组成。SOM网络就是利用其自组织特点,将N个输入量组成的一维序列映射到维的神经元阵列上,通过自我调整从而进行信息聚类。这种自组织的聚类过程在系统自主且无监督指导的条件下完成的。②聚类效果评估对于划分的聚类方案,不考虑外部信息时,我们主要关注的是聚类结构的优良性度量。一般可分成两类:簇的凝聚性(clustercohesion)度量确定簇中对象如何密切相关。簇的分离性(clusterseparation)度量确定一个簇如何不同于其他簇。这些指标通常称为内部指标(internalindex)。同时就有外部指标(externalindex),度量发现的聚类结构与某种外部结构的匹配程度。此外,还有相对的簇评估度量,是用9 重庆人学硕+学位论文2相关研究概述于对多个簇比较的内部或外部指标度量。由于样本数据的一些局限性导致文中只能对聚类进行了内部指标的度量。本文因数据原因,属于非监督性簇评估,只能进行内部指标的度量。簇内部指标的有效性的度量都基于簇凝聚度和簇离散度。而簇的凝聚度通常以误差平方和SSE来度量:簇离散度通常以总组间变差SSB来度量。相应公式[50i如下:SSE=∑dist(c,,工)2J∈己其中仁表示簇C。的质心足总跚=∑m,dist(cf,c)2i=1其中c,表示簇C。的质心;C表示总体质心;m。表示簇Cf中有镌个个体。2.3.3分类方法(以决策树为例)①决策树决策树方法是较为常用的分类方法,它的预测效果较好且以树形结构表示,树的节点处给出对结果预测起较为重要作用的属性,结果形象直观,便于获得更多的挖掘信息以及应用。C4.5方法是在国际上影响较大的决策树方法【51】【521。因此本文采用C4.5决策树方法,对客户建立价值预测分类模型。1)连续属性最佳分割度量最佳的分割值应使组内的目标变量差异最小,即组内目标变量的取值分布越集中越好,组问目标变量的取值差异越大越好。选择最佳属性分割值通常是根据划分后子女节点不纯性的程度。不纯的程度越低,类分布就越倾斜。本文以熵(entropy)为不纯性度量标准1501。对连续属性来说,测试条件采用二元输出的比较测试,如(年收入勺)或(年收入净)(v是属性年收入的最佳分割值)。划分方法:将连续属性中Ⅳ个不同训练记录排序(1,l<眈<⋯
此文档下载收益归作者所有