数据挖掘商业案例分析与实现

ID：23766875

大小：2.15 MB

页数：138页

时间：2018-11-10

上传者：U-960

资源描述：

《数据挖掘商业案例分析与实现》由会员上传分享，免费在线阅读，更多相关内容在应用文档-天天文库。

WORD格式可编辑目录第一部分金融行业应用51.前言51.1客户细分―使客户收益最大化的同时最大程度降低风险51.2客户流失―挽留有价值的客户61.3交叉销售61.4欺诈监测61.5开发新客户71.6降低索赔71.7信用风险分析72.客户流失82.1客户流失需要解决的问题82.2客户流失的类型92.3如何进行客户流失分析？92.4客户流失应用案例113.客户细分213.1信用风险分析213.2客户细分的概念213.3客户细分模型223.4客户细分模型的基本流程233.5细分方法介绍253.6客户细分实例254.营销响应304.1什么是营销响应？304.2如何提高营销响应率？304.3营销响应应用案例325.信用评分385.1信用评分背景385.2信用评分的概念395.3信用评分的方法395.4信用评分应用案例426.客户满意度研究506.1为什么要进行客户满意度研究？506.2满意度研究的目标和内容506.3满意度研究方法516.4结构方程模型在客户满意度测评中的应用546.5满意度研究在金融行业中的应用557.CRISP-DM简介577.1数据理解587.2数据准备587.3建立模型587.4模型评估59专业技术资料整理 WORD格式可编辑7.5部署（发布）598.数据挖掘经验谈608.1采用CRISP-DM方法论608.2以终为始608.3设定期望值608.4限定最初的项目范围608.5确保团队合作618.6避免陷入数据垃圾619.数据挖掘部署策略629.1策略1－快速更新批处理方式629.2策略2－海量数据批处理方式639.3策略3－实时封装方式649.4策略4－实时定制方式6510.成功案例6710.1国外成功案例6710.1.1BancoEspiritoSanto(BES)6710.1.2BankFinancial6710.1.3美国汇丰银行6810.1.4美国FirstUnion公司6910.1.5Achmea公司7010.1.6标准人寿保险公司7110.2国内成功案例7110.2.1中国建设银行风险预警管理项目7110.2.2光大银行信贷风险管理项目7210.2.3中国银行信用风险评级管理项目7210.2.4中国中信银行7210.2.5部分金融业客户的名单（排名不分先后）73第二部分电信行业应用741.前言741.1数据挖掘的概念741.2数据挖掘技术在电信行业客户关系管理的主要应用领域如下:751.3数据挖掘成功方法论751.4商业理解761.5数据理解与数据准备771.6建立模型771.7模型检验771.8模型发布与应用772.国内数据挖掘应用中存在的问题782.1数据质量和完备性782.2相应的人员素质782.3应用周期782.4数据挖掘项目的建议：783.客户流失803.1客户流失需要解决的问题80专业技术资料整理 WORD格式可编辑3.2电信客户流失的类型813.3如何进行客户流失分析？813.4案例分析833.5商业理解833.6数据理解834.营销响应894.1为什么要进行营销响应分析？894.2营销响应894.3什么是营销响应？904.4如何提高营销响应率？904.5案例分析925.客户细分985.1客户细分的背景985.2客户细分的概念985.3客户细分模型995.4客户细分模型的基本流程1015.5细分方法介绍1025.6客户细分实例1026.客户满意度1066.1结构方程模型用于客户满意度测评中的应用1066.2满意度研究在金融行业中的应用1076.3研究目标1076.4研究过程1086.5满意度研究的结果分析1086.6结论1096.7客户总体满意度1096.8各品牌主要商业过程满意度及服务改进策略1096.9各品牌主要商业过程的具体满意度及改进策略1107.忠诚度1127.1忠诚度水平与性质1127.2离网与蚕食风险1147.3提升策略1158.CRISP-DM简介1168.1数据挖掘经验谈1188.2数据挖掘部署策略1199.成功案例1249.1国外成功案例1249.1.1SouthwesternBell（西南贝尔）1249.1.2CallCounter1249.1.3RuralCellularCorporatio1279.1.4英国电信公司1289.2国内成功案例1309.2.1某省级电信公司1309.2.2部分国内外电信客户的名单（排名不分先后）131专业技术资料整理 WORD格式可编辑第三部分制造行业应用1331.简介133专业技术资料整理 WORD格式可编辑第一部分金融行业应用1.前言随着中国加入WTO，国内金融市场正在逐步对外开放，外资金融企业的进入在带来先进经营理念的同时，无疑也加剧了中国金融市场的竞争。金融业正在快速发生变化。合并、收购和相关法规的变化带来了空前的机会，也为金融用户提供了更多的选择。节约资金、更完善的服务诱使客户转投到竞争对手那里。即便是网上银行也面临着吸引客户的问题，最有价值的客户可能正离您而去，而您甚至还没有觉察。在这样一种复杂、激烈的竞争环境下，如何才能吸引、增加并保持最好的客户呢？数据挖掘（DataMining，DM）是指从大量不完全的、有噪声的、模糊的、随机的数据中，提取隐含在其中的、有用的信息和知识的过程。其表现形式为概念（Concepts）、规则(Rules)、模式(Patterns)等形式。用统计分析和数据挖掘解决商务问题。金融业分析方案可以帮助银行和保险业客户进行交叉销售来增加销售收入、对客户进行细分和细致的行为描述来有效挽留有价值客户、提高市场活动的响应效果、降低市场推广成本、达到有效增加客户数量的目的等。1.1客户细分―使客户收益最大化的同时最大程度降低风险市场全球化和购并浪潮使市场竞争日趋激烈，新的管理需求迫切要求金融机构实现业务革新。为在激烈的竞争中脱颖而出，业界领先的金融服务机构正纷纷采用成熟的统计分析和数据挖掘技术，来获取有价值的客户，提高利润率。他们在分析客户特征和产品特征的同时，实现客户细分和市场细分。数据挖掘实现客户价值的最大化和风险最小化。SPSS预测分析技术能够适应用于各种金融服务，采用实时的预测分析技术，分析来自各种不同数据源－来自ATM、交易网站、呼叫中心以及相关分支机构的客户数据。采用各种分析技术，发现数据中的潜在价值，使营销活动更具有针对性，提高营销活动的市场回应率，使营销费用优化配置。专业技术资料整理 WORD格式可编辑1.1客户流失―挽留有价值的客户在银行业和保险业，客户流失也是一个很大的问题。例如，抵押放款公司希望知道，自己的哪些客户会因为竞争对手采用低息和较宽松条款的手段而流失；保险公司则希望知道如何才能减少取消保单的情况，降低承包成本。为了留住最有价值的客户，您需要开展有效的保留活动。然而，首先您需要找出最有价值的客户，理解他们的行为。可以在整个客户群的很小一部分中尽可能多地找出潜在的流失者，从而进行有效的保留活动并降低成本。接着按照客户的价值和流失倾向给客户排序，找出最有价值的客户。1.2交叉销售在客户关系管理中，交叉销售是一种有助于形成客户对企业忠诚关系的重要工具，有助于企业避开“挤奶式”的饱和竞争市场。由于客户从企业那里获得更多的产品和服务，客户与企业的接触点也就越多，企业就越有机会更深入地了解客户的偏好和购买行为，因此，企业提高满足客户需求的能力就比竞争对手更有效。研究表明，银行客户关系的年限与其使用的服务数目、银行每个账户的利润率之间，存在着较强的正相关性。企业通过对现有客户进行交叉销售，客户使用企业的服务数目就会增多，客户使用银行服务的年限就会增大，每个客户的利润率也随着增大。从客户的交易数据和客户的自然属性中寻找、选择最有可能捆绑在一起销售的产品和服务，发现有价值的产品和服务组合，从而有效地向客户提供额外的服务，提高活期收入并提升客户的收益率。1.3欺诈监测通过侦测欺诈、减少欺诈来降低成本。为了与欺诈活动作斗争，首先您需要预测欺诈在何时、何地发生。数据挖掘技术侦测在欺诈中常见的模式，预测欺诈活动将在哪里发生。专业技术资料整理 WORD格式可编辑对于银行业的公司来说，欺诈活动频繁发生的一个领域是自动取款机（ATM）。数据挖掘帮助公司预测欺诈性的ATM交易。银行可以来预测欺诈最有可能在哪个地理位置上发生。接着该信息就被传送给ATM网络的成员机构，由这些机构通知客户，让客户确定交易是否正当，从而避免发生更多的欺诈行为。有了这些信息，他们可以更快地冻结帐户或采取其它必要的手段。1.1开发新客户金融机构可以使用数据挖掘技术提高市场活动的有效性。银行部门对给出反馈的活动对象进行分析，使之变成新的客户。这些信息也可应用到其它客户，以提高新的市场活动的反馈率。1.2降低索赔保险公司都希望减少索赔的数量。可以使用聚类分析，根据现有客户的特征档案来找出哪些客户更有可能提出索赔请求。这些档案是通过对客户提取200至300个不同的变量而产生出来的。接着，您就可以针对那些可能提出较少索赔请求的客户开展获取活动。1.3信用风险分析传统的风险管理已无法有效控制跨区域、跨部门、跨行业的多种风险，利用科学的数据分析系统提高欺诈的防范，降低信用风险尤为重要。客户科学评估造成风险的因素，有效规避风险，建立完善的风险防范机制。专业技术资料整理 WORD格式可编辑1.客户流失随着金融体制改革的不断深化和金融领域的对外开放，我国金融行业的竞争日趋激烈。《2006年金融服务指数研究报告》显示，在我国金融业逐步对外资行业开放的今天，中国金融业的服务质量虽然有稳步提升，但总体仍需提高，中资银行面临着极大的优质客户流失的危险。这将对银行经营和效益产生极大的影响。除了提高服务质量，银行要加强营销活动，保留优质客户，首先面临的第一个问题就是，谁可能流失？应该针对哪些客户进行客户保留活动？针对所有的客户开展保留活动，成本太大。合理的做法是应用数据挖掘技术，研究流失客户的特征，从而对流失进行预测、并对流失的后果进行评估，采取客户保留措施，防止因客户流失而引发的经营危机，提升公司的竞争力。具体来说，客户流失是指客户终止与企业的服务合同或转向其它公司提供的服务。客户流失分析是以客户的历史通话行为数据、客户的基础信息、客户拥有的产品信息为基础，通过适当的数据挖掘手段，综合考虑流失的特点和与之相关的多种因素，从中发现与流失密切相关的特征，在此基础上建立可以在一定时间范围内预测用户流失倾向的预测模型，为相关业务部门提供有流失倾向的用户名单和这些用户的行为特征，以便相关部门制定恰当的营销策略，采取针对性措施，开展客户挽留工作。2.1客户流失需要解决的问题1）哪些现有客户可能流失？客户流失的可能性预测。主要对每一个客户流失倾向性的大小进行预测。2）现有客户可能在何时流失？如果某一客户可能流失，他会在多长时间内流失。3）客户为什么流失？哪些因素造成了客户的流失，客户流失的重要原因是什么。主要对引起客户流失的诸因素进行预测和分析。4）专业技术资料整理 WORD格式可编辑客户流失的影响？客户流失对客户自身会造成什么影响？客户流失对公司的影响如何？对可能流失客户进行价值评估，该客户的价值影响了运营商将要付出多大的成本去保留该客户。5）客户保留措施？针对公司需要保留的客户，制定客户和执行保留措施。2.1客户流失的类型为了避免由客户流失造成的损失，必须找出那些有流失危险和最有价值的客户，并开展客户保留活动。客户流失现象可以分为以下三种情况：1）公司内客户转移：客户转移至本公司的不同业务。主要是增加新业务，或者费率调整引发的业务转移，例如从活期存款转移至零存整取，从外汇投资转移至沪深股市投资。这种情况下，虽然就某个业务单独统计来看存在客户流失，并且会影响到公司的收入，但对公司整体而言客户没有流失。2）客户被动流失：表现为金融服务商由于客户欺诈等行为而主动终止客户与客户的关系。这是由于金融服务商在客户开发的过程中忽视了客户质量造成的。3）客户主动流失：客户主动流失可分为两种情况。一种是客户不再使用任何一家金融服务商的业务；另一种是客户选择了另一家服务商，如客户将存款从一家银行转移到另一家银行。客户主动流失的原因主要是客户认为公司不能提供他所期待的价值，即公司为客户提供的服务价值低于另一家服务商。这可能是客户对公司的业务和服务不满意，也可能是客户仅仅想尝试一下别家公司提供而本公司未提供的新业务。这种客户流失形式是研究的主要内容。2.2如何进行客户流失分析？对于客户流失行为预测来说，需要针对客户流失的不同种类分别定义预测目标，即明确定义何为流失，进而区别处理。预测目标的准确定义对于预测模型的建立是非常重要的，它是建立在对运营商的商业规则和业务流程的准确把握的基础之上。在客户流失分析中有两个核心变量：财务原因/非财务原因，主动流失/被动流失。对不同的流失客户按该原则加以区分，进而制定不同的流失标准。例如，非财务原因主动流失的客户往往是高价值的客户，他们会正常支付服务费用并容易对市场活动有所响应，这种客户是企业真正需要保留的客户。而对于非财务原因被动流失的客户，预测其行为的意义不大。专业技术资料整理 WORD格式可编辑研究哪些客户即将流失，是一个分类问题。将现有客户分为流失和不流失两类，选择适量的流失客户和未流失客户的属性数据组成训练数据集，包括：客户的历史通话行为数据、客户的基础信息、客户拥有的产品信息等。Clementine提供人工神经网络、决策树、Logistic回归等模型用于建立客户流失的分类模型。关于流失用户特征的分析，是一个属性约减和规则发现问题。Clementine提供关联分析方法，可以发现怎样的规则导致客户流失。也可以利用Clementine的决策树方法，发现与目标变量（是否流失），关系最为紧密的用户属性。由于不同类型的客户可能具有不同的流失特征。因此，在进行深入的客户流失分析时，需要先进行客户细分，再对细分之后的客户群分别进行挖掘。在预测客户流失时一个很重要的问题是流失的时间问题，即一个客户即将要流失，那么它可能什么时候会流失。生存分析可以解决这类问题。生存分析不仅可以告诉分析人员在某种情况下，客户可能流失，而且还可以告诉分析人员，在这种情况下，客户在何时会流失。生存分析以客户流失的时间为响应变量进行建模，以客户的人口统计学特征和行为特征为自变量，对每个客户计算出初始生存率，随着时间和客户行为的变化，客户的生存率也发生变化，当生存率达到一定的阈值后，客户就可能流失。分析客户流失对客户自身的影响时，主要可以考虑客户的流失成本和客户流失的受益分析。客户流失成本可以考虑流失带来的人际关系损失等因素，通过归纳客户的通话特征来表征。减少客户流失的一个手段就是增加客户的流失成本。客户流失的受益分析就是判断客户流失的动机，是价格因素还是为了追求更好的服务等。这方面内容丰富，需作具体分析。分析客户流失对公司的影响时，不仅要着眼于对收入的影响，而且要考虑其它方面的影响。单个的客户流失对公司的影响可能是微不足道的，此时需要研究流失客户群对公司收入或业务的影响。这时候可能需要对流失客户进行聚类分析和关联分析，归纳客户流失的原因，有针对性的制定防止客户流失的措施。在预测出有较大流失可能性的客户后，分析该客户流失对公司的影响。评估保留客户后的收益和保留客户的成本。如果收益大于成本，客户是高价值客户，则采取措施对其进行保留。至于低价值客户，不妨任其流失甚至劝其流失。总之在利用数据挖掘研究客户流失问题时，需要明确并深入理解业务目标，在明确的业务目标的基础上准备数据、建模、模型评估，最后将模型部署到企业中。专业技术资料整理 WORD格式可编辑2.1客户流失应用案例为了举例说明，我们设想一个虚构的银行ZBANK使用保留客户的应用或客户流失建模。ZBANK正受到来自其它金融机构日益激烈的竞争。住房贷款是ZBANK最宝贵的客户来源之一，在该业务中遇到一些客户会转投其它竞争对手。在营销策略方面，ZBANK给它的房贷新客户许多的优惠措施（如免费的电器和家具优惠券），因此它获得客户的初始成本相对要高于竞争对手。但是，由于此类贷款由市场主导，因此房屋抵押贷款给ZBANK带来较小的风险，同时也使其处于一个有利的战略地位可以交叉销售其它的服务如期房贷款和住房保险。除了保持其战略性市场主导地位，对于ZBANK来说预测客户流失的可能性也很重要，以便减少那些获得不久就拖欠贷款的新客户。ZBANK有一个客户数据库，包含了有关房贷客户的交易和人口统计信息。（1）商业理解预测现有用户中哪些客户在未来六个月中可能流失以及对哪些流失客户采取保留措施。（2）数据理解a)数据说明专业技术资料整理 WORD格式可编辑选取一定数量的客户（包括流失的和未流失的），选择客户属性，包括客户资料、客户账户信息等。利用直方图、分布图来初步确定哪些因素可能影响客户流失。所选取的数据属性包括：（1）客户号；（2）储蓄账户余额；（3）活期账户余额；（4）投资账户余额；（5）日均交易次数；（6）信用卡支付方式；（7）是否有抵押贷款；（8）是否有赊账额度；（9）客户年龄；（10）客户性别；（11）客户婚姻状况；（12）客户孩子数目；（13）客户年收入；（14）客户是否有一辆以上汽车；（15）客户流失状态。其中客户流失状态有三种属性：（1）被动流失；（2）主动流失，这是分析中特别关注的一类客户；（3）未流失。在分析中，我们主要关注的是主动流失的客户。被动流失对银行来说是意义最小的，因为该指标代表的大多数客户是在贷款期内卖掉了房子，因此不再需要房贷了。主动流失指的是转投向ZBANK竞争对手的客户，是该行关注的焦点。在开发这个应用之前，ZBANK将所有现有的客户归到上述的三个类别中。同时按照常规，所有的人口统计信息（也就是从客户年龄到客户是否有一辆以上汽车）每六个月更新一次，而交易信息（从储蓄账户余额到是否有赊账额度）则是实时更新的。为了让预测模型能预先进行指示以便采取补救措施，在目标变量（因变量）和输入变量（自变量）之间设定了6个月的延迟。也就是说，输入变量的采集六个月后再将客户流失状态分类；因此该模型提早6个月预测客户流失。b)数据描述及图表分析在数据理解中，可以利用描述及可视化来帮助探索模式、趋势和关系。图2.1显示了Clementine中数据理解的数据流图，包括：使用数据审核，统计分析，网络图，直方图，两步聚类，关联分析，查看数据属性之间的关系。专业技术资料整理 WORD格式可编辑图2.1：数据理解的数据流图图2.2显示了数据审核结果。可以很清楚地了解14个数据字段的基本情况。如数据类型、最大最小值、平均值、标准差、偏度、是否唯一、有效记录个数等。从图2.2可见，房贷客户的平均年龄是57.4岁，最小的18岁，最大的97岁。图2.2：数据审核图这些描述能帮助理解数据。使用绘图和直方图节点将数据可视化就产生了客户收入和年龄图及日均交易数的直方图（见图3）。将可视化的结果与目标变量联系起来，可以看出客户流失状态包含在不同的图表中。例如，客户的离中趋势，男性和女性客户的被动流失和主动流失以及每个级别的日均交易次数都包含在了图表中。这种对关系的初步评估对于建模是很有用的。更重要的是，结果表明主动流失在女性客户和不太活跃的客户（由日均交易次数确定）中较为多见。专业技术资料整理 WORD格式可编辑图2.3：各种数据分布图最后，一幅网状图表明了客户性别，客户婚姻状况，信用卡支付方式，客户流失状态之间的联系（见图3下左面板）。较强的关系由较粗的线表示。那些在一定标准（由用户定义）之下的联系则不包括在图中（例如在被动流失和选中的一些输入变量之间）。网状图表明现有客户（即非流动者）更多的是那些已婚男性，那些用其它账户进行信用卡支付的人。要注意的是，前面已经提到过，客户流失状态滞后输入变量六个月。c)关联分析及聚类的结果为了进一步了解房贷客户可以使用聚类。图2.4总结了使用双步聚类节点获得的结果。如图所示，客户似乎分为七种自然的聚类。所产生的聚类特征可用来定义和理解每个聚类以及聚类间的区别。例如，我们比较聚类1和聚类4，聚类1中包含的是较年轻并绝大多数已婚（92.2%），并且年收入较高的女性。而聚类4中包含的是较年长（平均要比1中大5岁），59.8%已婚，年收入较低（平均要比1中低4000美元）的男性。聚类的结果对于市场定位和分割研究是非常有用的，但是对于预测建模的作用则没这么明显。专业技术资料整理 WORD格式可编辑图2.4：两步聚类的部分结果本例使用关联分析来制订规则，寻找输入变量和目标变量间的关系。这些规则不仅对发现模式、关系和趋势很重要，对于预测建模（例如决定采用/不采用哪些输入变量）也很重要。我们使用Clementine的GRI（广义规则归纳）节点来进行联合分析，结果如图2.5所示。其中，第一条联合分析规则表明，有156名（或11.0%的）房贷客户的投资账户余额低于4988美元，其中81.0%是被动流失的。同样，第三条规则表明有198名（或13.9%的）房贷客户的活期账户余额超过1017美元，其中81.0%是主动流失的。其它的规则可以类似地进行理解。这些规则表明交易和人口统计信息是如何与客户流失状态联系起来的。要注意的是，客户流失状态滞后输入变量六个月。专业技术资料整理 WORD格式可编辑图2.5：关联分析的部分结果3）数据准备根据数据理解的结果准备建模用的数据，包括数据选择、新属性的派生，数据合并等。在本例中，利用Clementine进行数据准备的数据流图如图2.6所示。通过分裂节点，给数据集添加一个新的标志属性。该标志属性是0－16之间的随机数。然后再根据标志属性值（<4和）=4），利用过滤节点，将原来的数据样本分成训练集（约占75%）和测试集（约占25%）。图2.6：数据准备的数据流图（4）建立模型及评估专业技术资料整理 WORD格式可编辑预测建模是本例中最重要的分析，神经网络和决策树尤其适用于对房贷客户的流失建模。图2.7和图2.8展示的是使用Clementine训练神经网络模型和建决策树功能得到的神经网络和决策树的结果。图2.7：C5.0决策树结果图2.8：神经网络模型结果专业技术资料整理 WORD格式可编辑决策树模型中有4个终端节点和仅仅3个重要的输入变量（按照重要性降序排列）：投资账户余额、客户性别和客户年龄。神经网络模型在输入层、隐藏层和输出层分别有15个、5个和3个神经元。此外，最终要的5个输入变量是（按照重要性降序排列）：活期账户余额、客户孩子数目、储蓄账户余额、投资账户余额和客户婚姻状况。Logistic回归模型统计有效，卡方检验的p值为1.000，表明数据吻合得很好。此外，下列输入变量在统计时，在0.05的有效水平上预测客户流失状态也统计有效：储蓄账户余额c（p值=0.000）、活期账户余额（p值=0.000）、客户年龄（p值=0.002）、客户年收入（p值=0.033）及客户性别（p值=0.000）。从用评估图节点产生的提升表中可以看出每个预测模型都是有效的，如图2.9所示（从左至右分别为Logistic回归、决策树和神经网络）。提升表中绘制的是累积提升值与样本百分比的关系（在这里是构造/培训样本）。基准值（即评估每个模型的底限）是1，它表示当从样本中随机抽取记录的百分点时能成功地“击中”现有客户。提示值衡量的是当来自数据中的某一记录是一个现有客户的降序预测概率能被百分点反映时，预测模型“击中”现有客户的成功可能性（准确度）有多高。如图2.9（左）所示，每个模型的提升值均大于1，在100%时收敛于1。由于每个预测模型都能以有效精度预测目标变量（起码对于现有客户和非现有客户之间的关系），因此我们可以说它们都是有效的。图2.9：提升图（左）和三个模型的分析结果（右）值得注意的是神经网络和决策树得出的预测模型并不完全一致，这从图2.9（右）两个模型结果的比较可以看出来。所以，不仅要在训练样本中比较两个模型的表现，也要在训练/测试样本中进行比较，而后者更加重要。对于这些预测模型来说，评估它们相对表现的最佳办法应该是看它们预测目标变量（客户流失状态）的精确率。在本例中为了简单起见，假设总体精确度包括了比较不同预测模型表现的评估标准。在图2.10的右面板中，决策树模型的预测相对精确，总体精确度为81.6%，因此根据评估标准，决策树模型是最好的预测模型，应该在ZABNK预测房贷客户的流失中使用。专业技术资料整理 WORD格式可编辑图2.10：测试集的提升表（左）和三个模型的分析结果（右）（5）模型部署在本例中，决策树模型不仅精度最高，而且从图2.7中的简明的规则可以看出，决策树的模型也容易理解。结果表明，ZBANK的房贷客户中，那些39岁以上，在投资帐户中余额超过4976美元的女性更可能主动流失。要注意的是，客户流失状态滞后输入变量六个月。从到目前位置的结果来看，决策树客户流失预测模型能够更精确地根据交易和人口统计的信息判断出流失客户和非流失客户，从而产生增值效益。因此，ZBANK可以用决策树模型判断哪些客户倾向于主动流失，然后向他们提供优惠措施或采取其它预防措施。同样，客户流失模型可以判断哪些是流失风险较低的房贷申请者。使用数据挖掘的决策树模型可以用来对现有客户和新的房贷申请者进行评级。在Clementine中部署模型的数据流图如图所示。运行数据流后，Clementine自动将结果存储在逗号分隔的文件中。银行中其他人员即使没有安装Clementine，也可以使用记事本等软件打开查看。并且可以很好的集成到银行现有的其他业务系统中。图2.12给出了一个结果的例子。其中按照客户流失概率的大小，对客户进行排序。图2.11：模型部署的数据流图专业技术资料整理 WORD格式可编辑图2.12：流失概率和客户价值的散点图最后需要指出的是在本例中，模型的总体分类精确率是简化计算的。在实际使用中，一般还需要考虑误分类及其相关成本，还有流失客户和非流失客户在样本和总体中的相对比重。专业技术资料整理 WORD格式可编辑1.客户细分3.1信用风险分析随着金融市场逐步开放，商业银行和保险公司面临着巨大的压力和挑战。面对竞争和挑战、重点是做好客户市场细分，有效发掘客户需求，提供客户差异化服务。一个银行的客户是多种多样的，各个客户的需求也是千变万化的，银行不可能满足所有客户所有的需求，这不仅是由银行自身条件所限制，而且从经济效益方面来看也是不足取的，因而银行应该分辨出它能有效为之服务的最具吸引力的市场，扬长避短，而不是四面出击。对一个银行来说，在经营管理中应用市场细分理论是很有必要的。3.2客户细分的概念客户细分的概念是美国市场学家温德尔?史密斯(WendeiiR.Smith)于20世纪50年代中期提出来的。客户细分(CustomerSegmentation)是指按照一定的标准将企业的现有客户划分为不同的客户群。客户细分是客户关系管理的核心概念之一，是实施客户关系管理重要的工具和环节。SuzanneDonner认为：正确的客户细分能够有效地降低成本，同时获得更强、更有利可图的市场渗透。通过客户细分，企业可以更好地识别不同客户群体对企业的价值及其需求，以此指导企业的客户关系管理，达到吸引合适客户，保持客户，建立客户忠诚的目的。所谓客户细分主要指企业在明确的战略、业务模式下和专注的市场条件下，根据客户的价值、需求和偏好等综合因素对客户进行分类，分属于同一客户群的消费者具备一定程度的相似性，而不同的细分客户群间存在明显的差异性。客户细分的理论依据主要有：(1)客户需求的异质性。影响消费者购买决策因素的差异决定了消费者的需求、消费者的消费行为必然存在区别。因此可以根据这种差异来区分不同的客户，客户需求的异质性是进行客户细分的内在依据。(2)专业技术资料整理 WORD格式可编辑消费档次假说。随着经济的发展和消费者收入水平的提高，消费量会随之增加。但消费量的增加并非线性增长，而是呈现出区间性台阶式的变化形式，一旦消费者达到某种消费层次之后，消费变化的趋势将变得非常平缓。根据消费档次假说，消费者的消费档次或消费习惯在一段时期内是相对稳定的，这就为通过消费行为来划分消费群体提供了理论前提和基础。(3)企业资源的有限性和有效市场竞争的目的性。资源总是希缺的，由于缺乏足够的资源去应对整个客户群体，因此必须有选择地分配资源。为了充分发挥资源的最大效用，企业必须区分不同的客户群，对不同的客户制定不同的服务策略，集中资源服务好重点客户。(4)稳定性。有效的客户细分还必须具有相对的稳定性，足以实现在此基础上进行的实际应用，如果变化太快，应用方案还未来得及实施，群体就已面目全非，这样的细分方法就显得毫无意义。3.1客户细分模型客户群细分的目的是为了选择适合企业发展目标和资源条件的目标市场。客户细分模型是指选择一定的细分变量，按照一定的划分标准对客户进行分类的方法。一个好的细分模型，首先是要满足细分深度的要求，不同的使用者对客户细分的深度也有不同的要求，这就要求模型划分的结果能满足不同使用者的需要。其次是对数据的处理能力和容错能力，现代数据库的存储容量越来越大，数据结构也趋于多样性，误差数据也会随之增多，这就要求模型能适应数据在量和样上的膨胀，对误差数据能做出判别和处理。最后是模型要有很强的适用能力，变化是绝对的，而稳定只是相对的，无论是个人消费者还是消费群体，他们的消费行为都是在变化的，这就要求模型对客户的细分标准要随新的情况而不断更新。在对客户进行细分的方法中，除了传统的按照客户基本属性进行分类的方法以外，还有其他多种客户细分模型，如基于客户价值贡献度的细分模型、基于不同需求偏好的细分模型和基于消费行为的细分模型。基于消费者消费行为的客户细分模型研究，主要是以消费者的购买频率、消费金额等为细分变量，如RFM模型和客户价值矩阵模型。专业技术资料整理 WORD格式可编辑（1）RFM模型。RFM细分模型是根据消费者消费的间隔、频率和金额三个变量来识别重点客户的细分模型。R－Recency指客户上次消费行为发生至今的间隔，间隔越短则R越大；F—Frequency指在一段时期内消费行为的频率；M—Monetary指在某一时期内消费的金额。研究发现，R值越大、F值越大的客户越有可能与企业达成新的交易，M越大的客户越有可能再次响应企业的产品和服务。（2）客户价值矩阵模型。客户价值矩阵模型是在对传统的RFM模型修正的基础上提出的改进模型。用购买次数F和平均购买额A构成客户价值矩阵，用平均购买额替代了RFM模型中存在多重共线性的两个变量，消除了RFM模型中购买次数和总购买额的多重共线性的影响。在客户价值矩阵中，确定购买次数F和平均购买额A的基准是各自的平均值，一旦确定了坐标轴的划分，客户就被定位在客户价值矩阵的某一象限区间内。依据客户购买次数的高低和平均购买额的多少，客户价值矩阵将客户划分成四种类型，即乐于消费型客户、优质型客户、经常客户和不确定客户，如图3.l所示。图3.1：客户价值矩阵客户细分并没有统一的模式，企业往往根据自身的需要进行客户细分，研究目的不同，用于客户细分的方法也不同。总的来讲，客户细分的方法主要有四类，一、基于客户统计学特征的客户细分；二、基于客户行为的客户细分；三、基于客户生命周期的客户细分；四、基于客户价值相关指标的客户细分。3.1客户细分模型的基本流程专业技术资料整理 WORD格式可编辑客户细分包括六个基本流程：第一步：理解业务需求。在未来的业务中，知道谁是客户是个非常好的起始点，以了解瞬息万变的市场环境。清楚地了解客户也是对每个客户组采取有针对性措施的基础。客户细分就是根据其特征将相似的客户归组到一起，这是了解客户和针对特定客户组进行市场定向所不可缺少的。客户细分可根据许多不同条件而进行。这些条件可由简单的年龄、性别、地理位置或这些变量的组合来构成。当这些条件变得越来越复杂时，数据挖掘技术就应运而生了。决定使用哪些条件取决于客户细分的目的和应用方法。在使用数据挖掘开发客户细分时，最重要的部分是其结果应当在业务远景中意义深远，并且能够在实际业务环境中进一步得到应用。需要记住的一点是：由于市场环境是动态变化的，细分建模过程应当是重复性的，且模型应随着市场的变化而不断革新。第二步：选择市场细分变量。由于变量选择的优劣对细分结果质量的影响非常显著，所以变量选择应该建立在理解业务需求的基础之上，以需求为前提，在消费者行为和心理的基础上，根据需求选择变量。此外，变量的选择还应该有一定的数量，多了不好，少了也不好。第三步：所需数据及其预处理。为创建数据模型，必须使用收集到的原始数据，并将其转换成数据模型所支持的格式。我们称这个过程中的这个阶段为初始化和预处理。在金融业中进行客户行为细分通常需要行为数据和人口统计数据等类型的数据。行为数据是客户行为，可通过客户的账户信息、购买产品的信息等捕获。人口统计数据(如年龄、性别、工作等)可根据客户办理业务时，提供给金融机构的信息获得。这在识别或描述客户组的特征时很有用。第四步：选择细分技术。目前，通常采用聚了技术来进行客户细分。常用的聚类算法有K-means、两步聚类、Kohonen网络等，可以根据不同的数据情况和需要选择不同聚类算法来进行客户细分。第五步：评估结果。在对用户群进行细分之后，会得到多个细分的客户群体，但是，并不是得到的每个细分都是有效的。细分的结果应该通过下面几条规则来测试：与业务目标相关的程度；可理解性和是否容易特征化；基数是否足够大，以便保证一个特别的宣传活动；是否容易开发独特的宣传活动等。第六步：应用细分模型。根据客户细分的结果，市场部门制定合适的营销活动，进行有针对性的营销。总之，客户细分是金融机构与用户二者实现双赢的重要举措。目前用户需求呈现多样化、个性化的趋势，只有通过深入分析用户消费行为，精确识别、细分用户市场，开发出针对不同层次用户的服务品牌进行服务营销，方能使得各方价值发挥到最大，实现共赢。不同级别的客户对服务的需求以及“赢”的概念是不同的，正是因为为不同的客户提供不同的产品和服务才能使客户都达到满意，从而在市场上占据有利地位。专业技术资料整理 WORD格式可编辑3.1细分方法介绍在数据挖掘中，往往通过聚类分析的方法来实现细分。聚类分析方法至少有以下几类：（1）K-Means聚类法。使用者需要首先确定数据分为K群，该方法会自动确定K个群的中心位置，继而计算每条记录距离这K个中心位置的距离，按照距离最近的原则把各个记录都加入到K个群，重新计算K个群的中心位置，再次计算每条记录距离这K个中心位置的距离，并把所有记录重新归类，再次调整中心位置，依次类推……，当达到一定标准时，结束上述步骤。这种方法运算速度快，适合于大数据量。（2）两步聚类法：这种方法首先需要确定一个最大群数（比如说n），并把数据按照一定的规则分为n个群，这是该方法的第一步。接着按照一定的规则把n个群中最接近的群进行归并，当达到一定的标准时，这种归并停止，这就是该种方法最终确定的聚类群数（比如说m），这是第二步。两步聚类法的一个显著优点是可以不指定聚类群数，它可以根据据结构本身自动确定应该把数据分为多少群。（3）Kohonen网络聚类法：是运用神经网络的方法对数据进行细分的数据挖掘方法。为了提升客户的全面经验，许多金融机构将数据挖掘应用于客户细分在客户个人属性以及产品之间提取直观的联系。从这些现存的客户以及潜在客户中得到的客户特征经验的知识进而可以用于配合市场营销工作来增加交叉销售的机会，提高投资回报率（ROI）（Peacock，1998）。这使得金融机构可以提供特定的产品与服务来满足客户的需要。数据挖掘中典型的细分应用要么是使用有监督学习方法，要么是使用非监督学习方法来进行（Chung和Gray，1999）。对于前者，数据挖掘模型学习客户的行为特征与已经确定的我们感兴趣的输出变量之间的关系。例如，客户评价模型，将客户分为不同的等级，并得出每个等级的特征。另一方面，非监督学习方法基于客户的输入属性产生不同的类别，而且不需要设定我们感兴趣的输出变量。每个类别的成员享有相似的特征，并且与其它的类别之间的特征是截然不同的。3.2客户细分实例假设Z专业技术资料整理 WORD格式可编辑银行拥有以下数据：1．客户号；2．储蓄账户余额；3．活期账户余额；4．投资账户余额；5．日均交易次数；6．信用卡支付模式；7．是否有抵押贷款；8．是否有赊账额度；9．客户年龄；10．客户性别；11．客户婚姻状况；12．客户家庭情况（孩子数）；13．客户年收入；14．客户是否拥有一辆以上小汽车；15．客户流失状态。假设Z银行希望建立更为有效的市场营销战略来给持有高价值投资组合的客户推销其金融产品。为了做到这些，Z银行使用细分模型特征化了其客户，并且依赖客户属性分割这些客户为截然不同的类别。其后，自然可以利用这些从客户中得到的特征剖面来定制其市场营销战略来给其潜在的客户提供更多目标性的信息。此外，假设Z银行使用监督学习以及非监督学习建模技术来生成客户的特征。这里我们使用SPSS公司的数据挖掘软件Clementine。相关的数据挖掘应用程序图示参见图3.2。图3.2：投资账户余额分段专业技术资料整理 WORD格式可编辑对于监督学习模型，基于上面涉及到的十三个变量基础进行细分。目标变量是由输入变量－投资账户余额，直接生成的多分类变量。关于投资账户余额的分布可以由直方图节点来决定如何适当的将每个客户分类到三个箱柜中：高、中和低投资组合价值。关于投资账户余额的分布与归箱也显示在图3.2中。关于投资账户余额的归箱组成了我们感兴趣的投资价值目标变量。进而可以构建Logistic回归模型来生成基于不同单个客户投资价值的不同分类的特征属性。图3.3描述了Logistic回归模型的结果。进一步的结果表明，在预测每个客户的投资价值的预测模型中统计上显著的变量有储蓄账户余额和活期账户余额。进而，高价值投资组合客户的特征就由这些变量来决定。图3.3：Logistic回归模型非监督学习细分模型是基于十四个变量来做出的。在这种情形下，不需要设定目标变量。对于非监督学习细分，通常可以使用三种数据挖掘算法，也就是，两步聚类、Kohonen网络以及K-means聚类。对于我们的演示，这里仅仅使用了两步聚类。专业技术资料整理 WORD格式可编辑图3.4：两步聚类分析结果图3.4显示了使用两步聚类法生成的五个类别的聚类模型。关于每一类的信息也列了出来。例如，第4类包含278个客户，它描述了在这个类别中大部分的客户是男性且大部分无抵押贷款的客户。另一方面，第2类描述了大多数为已婚女性且拥有赊账额度的客户。更进一步的数据探索是建立在两步聚类结果上，通过利用我们所关心的变量的直方图或是分布图等图形化展示手段来比较五个类别的结果。图3.5显示了关于五个类别中流失状态以及流失率的比较。我们可以看到，第2类中拥有大多数的主动以及被动流失的客户。同样，第3类则是相当的混合了现存客户以及主动流失的客户。此外，第4类中具有最大的现存客户。对于其他的分类输入变量来讲可以绘出相似的分布图。图3.5：五个类别中流失状态以及流失率的比较专业技术资料整理 WORD格式可编辑最后，关于投资账户的直方图也可以根据五个类别分别绘出，参见图3.6。我们可以看到，第1类包含了相对其它几类更多的低投资账户的客户。另一方面，第3类则是由持有高价值投资账户的客户组成。如此，如果Z银行能够促销新产品，第3类的客户可能是更为有希望的目标群体，能够生成更好的市场营销结果。利用这些知识，Z银行现在能够设计适当的银行产品来满足那些不同的客户群体。图3.6：五个类别的投资账户余额的直方图专业技术资料整理 WORD格式可编辑1.营销响应为了发展新客户和推广新产品，企业通常会针对潜在客户推出各种直接营销活动。然而，如果目标客户的选择不明确，营销活动往往花费巨大而取得的实际效益不佳，甚至可能遭遇由于活动响应率太低而无法收回成本的境况。在当今竞争激烈的金融市场上，一方面，客户每天通过短信、电话、邮件、电子邮件、网站广告等方式会接触到大量的金融业务广告，缺乏针对性和足够吸引力的营销活动往往会被客户直接忽略。另一方面，用户越来越看重个性化服务，对新的金融产品具有较大的需求。为了更好的满足客户需求，许多公司采用了促销活动管理系统来帮助执行促销活动。这些管理系统增加了公司采取的促销活动的数量，却并不一定能改善促销活动的效率。事实上，不合适的促销活动和过多的促销活动只会导致用户对公司的不满意度增加。所以，有效促销活动不在于数量的多少，而在于要在恰当的时机，通过恰当的方式，向恰当的用户推销恰当的产品。也就是说，有效的促销活动，不在于涉及客户的数量多少，而在于针对的都是具有高响应概率的目标人群。这不仅可以提升客户的满意度，增强客户对公司的忠诚度，而且可以降低客户获取费用，增加营销活动投资回报率，直接带来公司效益的增加。数据挖掘中的营销响应分析可以帮助达到提高营销活动回报率的目标。4.1什么是营销响应？营销响应模型是一种预测模型。目标变量是预测谁会对某种产品或服务的宣传进行响应，自变量是客户及其行为的各种属性，如：客户年龄，客户收入，客户最近一次购买产品的时间，客户最近一个月的购买频率等。利用响应模型来预测哪些客户最有可能对营销活动进行响应，这样，当以后有类似的活动时，可以针对具有较高响应可能性的客户进行相应的营销活动。而对响应度不高的客户就不用对他们进行营销活动，从而减少活动成本，提高投资回报率。4.2如何提高营销响应率？专业技术资料整理 WORD格式可编辑金融机构应当在深入了解客户需求和客户特征的基础上，制定营销策略，从而达到增加营业收入和客户满意度的双重目标。我们提倡的不是针对最佳的客户群开展营销活动，而是针对每一个客户开展活动。所谓“知己知彼，百战不殆”，建立在对客户需求良好把握基础之上极具针对性的营销将极大地提高营销活动的成功率。要开展这样的营销活动，首先需要回答以下几个问题：?对谁开展营销活动??多长时间开展一次营销活动??何时开展营销活动??如何开展营销活动?金融机构在数据挖掘技术的帮助下，针对客户数据建立营销响应模型，在合适的时间，通过合适的渠道，以一种合适的接触频率，对合适的客户开展活动，从而提高营销活动的响应率和投资回报率。图4.1：营销活动的四个要素1)选择合适的客户金融机构对以往的营销数据进行分析，采用决策树等数据挖掘方法，识别出具有高响应率的客户的特征。通过选择合适的客户，可以排除对促销活动响应不积极的客户，将目标客户的数量大大减小，从而在实现更有针对性地营销的同时减小营销成本。据统计，通过减小目标客户的数量，通常可以节省25%-40%的营销费用，同时增加营销响应率。2)选择合适的渠道第二步是要针对用户选择合适的营销渠道，也就是和客户接触的方式。通过使用每个用户偏爱的方式与之接触，也有利于提升客户响应率。在确定促销渠道时，要考虑客户对渠道的偏爱，渠道成本，期望的响应率，其他营销限制条件等。3)选择合适的时间专业技术资料整理 WORD格式可编辑在当今竞争激烈的社会里，客户有很多满足自己需求的机会和选择。因此，一旦发现了客户尚未被满足的需求或者出现遗失客户风险时，一定要及时和客户接触。这种事件驱动的促销方式，通常也可以取得较高的响应率。4)选择合适的活动频率此外，并不是促销活动越多，效果越好。活动计划者需要根据实际情况，针对具体的客户，选择一个最优的活动次数，既使得客户的各种需求得到较好的满足，又避免因为过于频繁的接触而导致客户的反感。同时，过多的营销活动，也会增加营销成本。需要在增加的成本和提高的响应率带来的收益之间寻找一个最优点。客户自身的偏好对于营销活动的频率确定也至关重要，比如，对于不喜欢过于频繁的接到促销电话的客户，就要适量降低电话促销的频率。通过选择更有针对性地选择客户和根据客户的需求和偏好来推广促销活动，可以将促销活动的投资收益率提高25%-50%。表4.1：营销活动四阶段总结阶段1．合适的客户2．合适的渠道3．合适的时间4．合适的营销频率目标为营销活动选择最佳客户为目标客户选择最优营销方式在合适的时间对目标客户开展营销确定最适合客户的营销频率方法预测分析渠道优化事件营销促销优化策略预测谁是最有可能响应营销并且能给营销活动带来收益的客户在客户偏爱的方式和公司的成本与能力之间选取最优结合点变小的，经常性的营销活动为事件触发的营销活动在客户响应率和公司收益之间选择最佳结合点好处降低25%-40%的营销成本降低接触客户的成本响应率的提高至少达到两倍提高25%-50%的收益4.1营销响应应用案例一家虚拟银行新推出了一种新的抵押贷款业务，为了推广新产品，该银行决定执行直接营销活动。为此，分析人员收集了以往进行类似产品的营销时公司执行营销活动的相关数据，经过数据挖掘应用，计算客户影响概率，得到客户响应率模型，进而对客户对新产品的响应概率进行预测。从中选取响应率高的客户开展新产品营销活动。（1）商业理解识别出可能响应直接营销活动的客户，提高营销活动的响应率。（2）数据理解专业技术资料整理 WORD格式可编辑收集部分以往的营销活动数据（包括对活动响应的客户数据和未对活动响应的客户数据），选择客户属性，包括客户人口统计学特征和账户信息等。利用直方图、分布图来初步确定哪些因素可能影响客户响应。所选取的数据属性包括：用户编号、年龄、收入、孩子数目、是否有汽车、是否抵押、居住区域、性别、婚姻状况、在该银行是否有储蓄账户、在该银行是否有活期账户、是否对促销活动响应等12个字段。其中是否响应是预测的目标变量，共有两个属性：否：客户未响应营销活动；是：客户响应营销活动。图4.2：数据首先采用直方图，散点图等工具对数据之间的关系进行初步探索。下图是按照响应与否察看收入与孩子数目之间的散点图。可见，如果只考虑“孩子数目”属性，发现随着孩子数目增加，响应的客户比率降低。同时考虑“孩子数目”和“收入”属性，发现响应比率与“收入”和“孩子数目”的比值相关，这个比值通常被成为“相对收入”。图4.3：收入与孩子数目的散点图下图是孩子数目的分布图。有一个孩子的客户占44.3%。而在这些客户中，大部分是对直接营销活动进行响应的客户。总的说来，随着孩子数目增加，客户响应率降低。专业技术资料整理 WORD格式可编辑图4.4：孩子数目的分布图（3）数据准备根据数据理解的结果准备建模需要的数据，包括数据选择、新属性的派生，数据合并等。在数据理解中发现，是否响应与“收入”和“孩子数目”的比率有关，因此，派生出“相对收入”属性，定义为：如果“孩子数目”为0，则“相对收入”＝“收入”；否则，“相对收入”＝“收入”/“孩子数目”。（4）建立模型及评估对数据进行预处理之后，分别使用C5.0决策树模型，神经网络模型，C&RT决策树分类模型，以客户属性为输入变量，以客户是否响应为目标变量进行分类。然后对测试集分别应用这三个模型，选取效果最好的模型部署到企业中。图4.5：部分数据流图使用C5.0决策树对是否响应建模，发现与客户响应相关的共有4条规则，与客户不响应相关的共有8条规则。响应的客户有如下特点：有孩子，相对收入大于49997元；或者有孩子，有车，居住在郊区，在该银行开有储蓄账户，相对收入大于25563元；或者是年龄大于45岁，没有抵押贷款，在该银行开有储蓄账户，相对收入大于25563元；或者是年龄大于45岁，没孩子，没贷款，收入小于25563元。专业技术资料整理 WORD格式可编辑图4.6：C5.0决策树分类结果神经网络模型在输入层、隐藏层和输出层分别有20个、3个和2个神经元。此外，最重要的输入变量包括（按照重要性降序排列）：相对收入，孩子数目，收入等。其估计精度达到了87.77%。图4.7：神经网络的输出结果专业技术资料整理 WORD格式可编辑使用C&RT对是否响应建模，得到的规则包括：当相对收入小于25564.5元时，客户倾向于不响应；当相对收入大于25564.5元，孩子数目小于等于0.5（需根据实际业务情况进行解释），没有抵押贷款，且年龄小于等于45时，倾向于不响应；当收入大于25564.5元，孩子数目小于等于0.5，没有抵押贷款，且年龄大于45的客户响应率高。使用测试集评估不同模型的表现。其中“客户响应”表示目标变量的真实值，$C-响应、$N-响应、$R-响应分别表示使用C5.0、神经网络、C&RT得到的预测值。可见，C5.0的预测精度（95.29%）最高。最后，还可以查看不同模型预测结果的一致性。图4.8：C&RT分类结果图4.9：模型评估（5）模型部署专业技术资料整理 WORD格式可编辑通过建模和评估后，选择预测精度最高的C5.0模型部署到企业中。新的用户数据在经过C5.0模型评分后，按照流失概率的高低排序，通过ClementineSolutionPublisher发布。图4.10：模型部署数据流图图4.11：对新数据进行评分专业技术资料整理 WORD格式可编辑1.信用评分5.1信用评分背景20世纪90年代以来，随着中国经济的快速发展，中国的信用消费已逐步浮出水面，信用卡消费、个人汽车贷款、耐用消费品贷款、助学贷款、住房按揭等各种个人消费贷款陆续开办。中国银行业资产规模进一步得到扩张，但信贷过快增长中潜在风险增大，不良贷款比率仍偏高并可能反弹。进一步加强信贷管理已经成为银行控制风险、保持规模增长的首要问题。自1998年起，商业银行就一直在强化信贷管理、规范信贷决策行为、防范信贷风险，并取得了一定的成绩，但仍存在一些比较突出的问题。主要表现在：第一，对借款人的信用状况缺乏较全面的了解。由于我国的征信体系的建设尚处于起步阶段，商业银行不能像国外发达国家那样从征信局取得贷款申请人的信用资料，使得银行不能全面了解贷款申请人的信用状况，在发放个人贷款时信息不对称的问题相当突出。第二，对个人信用评价缺乏科学的方法。在对贷款人的信用风险进行评估以及决定是否发放贷款时，主要依靠授信机构的信贷人员进行主观判断，从而决定是否给予某个消费者一定的信用消费权利，精确的信用评分方法几乎没有使用。个人信贷业务的特点是单笔业务的交易量较小，但是业务的数量却较大。因此，主要依赖信贷人员判断的信用评估和控制方法，不仅无法对个人信用程度进行精确的计量，而且无法对个人信用程度进行精确的计量，而且无法有效地降低单笔贷款的管理成本。国际银行业信贷风险管理工具框架最为基础和核心的工作是建设信贷风险内部评级模型，只有在利用风险评级工具精确衡量风险的基础上，才能有效地运用更为复杂的信贷风险管理工具。这正是我国银行业所缺乏的。个人消费信贷的快速增长迫切要求商业银行提高建立与消费信贷增长相适应的风险管理体系。专业技术资料整理 WORD格式可编辑信贷风险内部评级模型的建立可以选择多种方式。在选择建立模型的方式时，必须遵循循序渐进的原则。例如，在数据质量不足和信贷文化较为落后的条件下，应该采取较为保守的方式作为起点，例如专家经验模型或采用外部的评级模型。在使用这些模型的过程中，除了能够更精确的衡量信贷风险从而优化银行资产质量外，而且客户经理也能够逐步掌握模型的应用技巧，培养起信贷风险管理文化，为以后实施数量统计模型做准备。随着银行个人业务的发展，银行业已经积累了大量的数据，可以尝试自建数量统计模型，以挖掘出适合国内经济环境和银行自身情况的风险因素。5.1信用评分的概念信用评分是指根据客户的信用历史资料，利用一定的信用评分模型，得到不同等级的信用分数。根据客户的信用分数，授信者可以分析客户按时还款的可能性。据此，授信者可以决定是否准予授信以及授信的额度和利率。虽然授信者通过分析客户的信用历史资料，同样可以得到这样的分析结果，但利用信用评分却更加快速、更加客观、更具有一致性。在信用评分领域有两个非常重要的方面：客户信用资料的收集：是指在信用消费中，通过调查了解申请授信的消费者个人的信用信息。利用信用评分模型进行评分：是指输入客户信用资料，通过信用评分模型得到客户的信用分数，确定客户的信用等级。5.2信用评分的方法在信用评分的过程中，最关键的就是信用评分模型的构建。用来产生信用评分的模型不胜枚举，每一种模型均有其独特的规则。在此，我们主要介绍信用评分模型的构建方法。信用评分模型的基本原理是确定影响违约概率的因素，然后给予权重，计算其信用分数。信用评分模型的构建，目前最为有效的手段是数据挖掘。下面对数据挖掘的定义进行简单介绍，并重点描述利用数据挖掘技术构建信用评分模型的步骤和方法。（1）信用评分模型构建步骤利用数据挖掘技术构建信用评分模型一般可以分为6个步骤，它们分别是：商业理解、数据理解、数据准备、建立模型、模型评估、模型部署。1）商业理解：明确数据挖掘的目的或目标是成功完成任何数据挖掘项目的关键。例如，确定项目的目的是构建个人住房贷款的信用评分模型。专业技术资料整理 WORD格式可编辑2）数据理解：在给定数据挖掘商业目标的情况下，下一个步骤是寻找可以解决和回答商业问题的数据。构建信用评分模型所需要的是关于客户的大量信息，应该尽量收集全面的信息。所需要的数据可能是业务数据，可能是数据库/数据仓库中存储的数据，也可能是外部数据。如果没有所需的数据，那么数据收集就是下一个必需的步骤。如果银行内部不能满足构建模型所需的数据，就需要从外部收集，主要是从专门收集人口统计数据、消费者信用历史数据、地理变量、商业特征和人口普查数据的企业购买得到。接着要对收集的数据进行筛选，为挖掘准备数据。在实际项目中，由于受到计算处理能力和项目期限的限制，在挖掘项目中想用到所有数据是不可能实现的。因此数据筛选是必不可少的。数据筛选考虑的因素包括数据样本的大小和质量。一旦数据被筛选出来，成功的数据挖掘的下一步是数据质量检测和数据整合。目的就是提高筛选出来数据的质量。如果质量太低，就需要重新进行数据筛选。3）数据准备：在选择并检测了数据挖掘需要的数据、格式或变量后，在许多情况下数据转换非常必要。数据挖掘项目中的特殊转换方法取决于数据挖掘类型和数据挖掘工具。一旦数据转换完成，即可开始挖掘工作。4）建立模型：在时间或其它相关条件（诸如软件等）允许的情况下，最好能够尝试多种不同的挖掘技巧来建立模型。因为使用越多的数据挖掘技巧，可能就会解决越多的商业问题。而且使用多种不同的挖掘技巧可以对挖掘结果的质量进行检测。例如：在构建信用评分模型时，分类可以通过三种方法来实现：决策树、神经网络和Logistic回归，每一种方法都可能产生出不同的结果。如果多个不同方法生成的结果都相近或相同，那么挖掘结果是很稳定、可用度非常高的。如果得到的结果不同，在使用结果制定决策前必须查证问题所在。5）模型评估和结果解释：数据挖掘之后，应该根据零售贷款业务情况、数据挖掘目标和商业目的来评估和解释挖掘的结果。6）模型部署：数据挖掘关键问题，是如何把分析结果即信用评分模型转化为商业利润。通过数据挖掘技术构建的信用评分模型，有助于银行决策层了解整体风险分布情况，为风险管理提供基础。当然，其最直接的应用就是将信用评分模型反馈到银行的业务操作系统，指导零售信贷业务操作。（2）信用风险评分模型构建方法信用评分模型是根据过去信用记录和个人资料进行数据分析，描述影响个人信用水平的因素，从而帮助贷款机构发放消费信贷的一整套决策模型。信用评分的目的是为了帮助银行决策，使银行确定对特定的客户采取特定的行动，它采用的技术主要是数理统计和人工智能的有关技术，信用评分方法很多，而且随着技术的发展和业务上的要求，新的评分技术也在不断推出，这里我们概要介绍其中几种。1）判别分析法专业技术资料整理 WORD格式可编辑该方法在个人信用评分历史上曾经是使用最广泛的方法。它通过利用所建立的判别函数的系数对特征变量加权来确定个人的信用得分。最早将判别分析用于信用评分系统的是Durand(1941)。它的特点是：要求特征变量服从多元正态分布，且两类子总体的协方差矩阵相等。在实际消费信用数据中，这些条件往往不易满足。这是判别分析引起质疑和批评的主要原因。2）回归分析法线性回归方法，普通的线性回归曾被用于解决信用评分中的分类问题，它产生的也是一个线性评分卡。但是线性回归方法用于信用评分时存在明显缺陷，即回归方程两边变量的取值范围可能不一致：右边取值可以从负无穷到正无穷，但方程的左边是概率变量p，其取值范围只能在（0，1）范围内。如果等式左边变换成p的一函数，它可以取任意值，则模型更有意义，于是，对线性回归进行改进而形成的Logistic回归方法就成为信用评分模型中使用最广泛的方法之一。Logistic回归模型克服了线性回归模型的缺陷，其回归方程两边的值均可取任意值。就理论背景而言，人们会认为在信用评分中Logistic回归比线性回归更合适，而Logistic也是现实中应用最广的评分模型。3）数学规划方法该方法通过研究对客户信用有影响的各个因素并确定它们的权重，把客户分为好、坏两类，从而建立一个线性规划方程，目的是使得方程误差最小，它也产生一个线性评分卡。绝大部分文献认为线性规划方法与统计学方法效果相当。4）神经网络方法神经网络是一种模仿人脑信息加工过程的智能化信息处理技术，具有自组织性、自适应性及较强的稳健性。神经网络模型类型较多，不下数十种。Chen&Titterington（1994）认为，神经网络方法实际上可以看作一种非线性回归。该方法可能存在过度拟合的问题。Davis（1992）也比较过神经网络与其他方法，认为神经网络能很好地处理数据结构不太清楚的情况，但其训练样本时间较长。此外，其可解释性较差也受到质疑。专业技术资料整理 WORD格式可编辑5）分类树方法分类树方法最后不生成一个评分卡，而是将消费者分成不同的组，在组内各样本的违约概率尽量相等，而违约概率在组之间的差异则尽可能大。其特点是能更有效地处理特征变量之间存在相互作用的情形，而且即使有些特征变量存在一定的数据缺失，该方法也能适用。分类树方法也有一些缺陷，如某些低端节点所包含的样本可能太少，从而使得在这些节点中所作的统计推断不可靠。6）最近邻方法也是一种非参数方法，其结果也是评分卡。它的思想是在申请人的特征向量空间内定义一种测度（距离）用于测量两个申请人之间的距离。当对一新申请人信用评估时，只要考察与他最近邻的k个人中“好客户”及“坏客户”的比例，根据此比例确定该申请人的信用类型。在以上几种信用评分方法中，到目前为止应用最成功的还是Logistic回归方法，它已取代线性回归、判别分析法而成为信用评分领域使用最普遍的统计方法。5.1信用评分应用案例（1）商业理解某银行的业务人员希望根据零售系统中现有的数据，了解具有较高风险的住房贷款协议的特征，以及那些已经贷款的客户中风险高信用低的客户特征，从而为实际的业务处理过程中，对新申请贷款的客户进行评估提供参考依据。其业务问题就是“能否通过贷款申请人的特征和贷款申请内容的情况来判断该客户的风险度？”对于这个业务问题，首先必须将客户的“风险”转换成可预测的数据指标。对于个贷业务来说，客户在申请某个贷款产品后可能会发生的违约概率可以作为衡量该客户“风险”重要的数据指标，违约概率越大，该客户的“风险”度也就越高。违约行为反应在业务数据中就是客户在贷款期限内发生了逾期情况，而逾期情况又可以从逾期的时长，逾期金额的大小，以及在贷款期限内，截止到统计时间为止的逾期次数等多个方面进行考量。例如将“还款逾期超过60天”作为客户发生违约的基本指标。相应的数据挖掘目标就是：违约客户的特征和预测；违约客户的评分和分级。在本例中，我们将最大逾期时间不到30天并且有12期以上的交易记录的定义为好客户；最大逾期时间超过60天的为坏客户。显然，有些客户并不能确定为好客户，又不能确定为好客户。如最大逾期时间在30天到60天之间的客户。因此，在我们所选取的建模总体中，客户实际被分为三类：好客户、坏客户和未确定客户。（2）数据理解数据主要来源于以下几个方面：?贷款协议文件：客户与银行发生贷款业务关系时所签立的协议；?贷款协议还款计划表：报告当期的贷款协议还款计划和往期还款历史记录；?专业技术资料整理 WORD格式可编辑客户信息文件：客户基本信息，包含性别、年龄、婚姻状况等信息；?客户信息文件（个贷）：客户附加信息，包括财产，工作，住址等信息。首先将各分行的原始数据进行追加，并从客户历史交易记录中汇总出逾期信息。将客户信息，协议信息和逾期信息进行合并，生成全行数据。下面所进行的数据理解和数据处理都是在这个数据样本文件的基础上进行。图5.1：数据理解通过Clementine中的数据审核节点查看数据的分布图（直方图、条形图）、数据的基本统计信息（最大值、最小值、平均值、标准差和偏度）和数据中有效数据所占的比例等。在数据审核节点中会自动对数据进行抽样来提高分析的速度。图5.2：使用Clementine数据审核节点查看数据的分布和基本统计信息专业技术资料整理 WORD格式可编辑（3）数据准备根据商业理解，我们选择住房贷款、选择合同开始年份在2003之后、还款周期为按月还款以及国家代码为中国的样本。选择好客户和坏客户样本，并进行均衡，均衡后的好坏客户占比基本相同，如图：图5.3：客户类型分布图通过对数据质量的检验发现抚养人口、劳动合同期限等字段由于缺失太多而无法清洗，考虑对这些字段进行剔除。而学历、单位性质、职位职称等字段可以将缺失值作为一个新的属性用在建模中。在数据准备部分，根据业务经验，我们还派生了一些新的字段，例如：月总收入、月还款占总收入比例等。鉴于一些特征变量的分类过多，不利于建模处理，因此对这些集合变量考虑进行重新分类，对连续变量也可以进行离散化处理。如图是对贷款金额的分组，可以看出第1、3组的贷款人相对较优，而第2、4、6的则比较差。图5.4：贷款金额分组（1）建立模型在本次建模中，主要使用Logistic回归、神经网络和C5.0分类树方法，从中挑选中最适合的模型用于评分和分级。不同的模型具有不同的优点和缺点，可以将不同的模型结合起来，充分利用各个模型的优点，从而得到一个更好的模型。专业技术资料整理 WORD格式可编辑首先，使用神经网络和C5.0分类树方法分别建立信用评分模型；然后将这两个模型的评分结果作为解释变量之一，再加上其余的特征变量，最后建立一个基于Logistic回归的信用评分模型。由于神经网络和C5.0分类树方法的预测精确度比较高，因此其信用评分结果中应该综合了解释变量和因变量之间关系的更多信息，将这种信用评分结果作为解释变量之一，应该能够提高模型的精确度。而最终用Logistic回归建立模型，又保证了模型的稳健性。通过神经网络敏感性分析可以看出：分行和按揭成数在模型中是最重要的，这两个变量的分析结果要远大于其他变量。分行最重要进一步说明每个分行客户的特征差别很大，对全部分行统一建立模型必然会影响到模型的精确度。如果在各分行数据量足够的情况下，推荐对每个分行建立一个模型。也可以考虑将客户特征相似的分行划分为一类，对每类分行建立一个模型。图5.5：神经网络敏感性分析在C5.0模型生成的决策树中，按揭成数为第一个拆分的变量；对按揭成数为2的贷款人，还款方法为第二个拆分的变量；对按揭成数为3的贷款人，分行为第二个拆分的变量。可以看着三个字段在模型中是最重要。图5.6：C5.0生成的规则集专业技术资料整理 WORD格式可编辑我们通过主成分分析共生成5个因子，这5个因子包含了绝大部分特征信息。通过这5个因子建立模型在损失一小部分信息的基础上解决了共线性问题。以5个因子作为输入建立了Logistic回归模型，结果为：图5.7：由主成分分析得到的因子图5.8：Logistic回归模型以Logistic模型预测为好客户的概率乘以1000作为模型的评分。模型的评分在0-1000之间，评分越高代表贷款人越优。按照模型评分从低到高的顺序将贷款人等分为10级，每级都有相同比例的贷款人，10级最优客户中好客户发生比为9.031，而1级最差客户中只有0.100。还可以对等级进行重新分组，合并具有相似好客户发生比的相邻客户等级。专业技术资料整理 WORD格式可编辑图5.9：Logistic回归模型给出的评分和等级（1）模型评估一个好的数据挖掘模型，要经过多方面的评估。在对模型进行评估时，既要参照评估标准，同时也要考虑到商业目标和商业成功的标准。在大多数的数据挖掘项目中，数据挖掘工程师要不止一次的应用某个特定的技术或者是利用不同的可选择的技术产生多种结果。因此在这一阶段的任务中，也要根据评估标准比较所有不同的结果。精确度是用来评估模型的最简单和最基础的指标。使用分析节点可以方便的对多个模型同时进行计算和比较。神经网络模型、C5.0决策树模型和Logistic模型的精确度分别为77.99%、69.58%和73.15%。其中神经网络的预测精确度是最高的，但是会出现过度拟和的问题。Logistic回归模型对坏客户的预测是最好的，综合了3个模型的优点，既能保证精确度又能保证模型的稳健性。图5.10：神经网络、C5.0和Logistic回归模型的精度比较从3个模型的收益图上可以看出，神经网络要略微优于C5.0决策树和Logistic回归。对于Logistic回归模型来说，找出的20%的客户中就可以发现35%的坏客户，30%的客户中就可以发现50%的坏客户。K-S统计量是一个易于理解和计算的统计量，它是好客户分布累计百分比与坏客户分布累计百分比之差，也就是区分度的最大值。下图是Logistic模型的K-S曲线，当模型的评分在412.585时，两条曲线的垂直距离达到最大值46.975。此时累计坏客户百分比为66.530，好客户百分比为19.572。模型的K-S统计量为46.975，在41-50之间，根据经验准则，这是一个好的模型。专业技术资料整理 WORD格式可编辑图5.11：神经网络、C5.0、Logistic回归的收益图K-S统计量是一个易于理解和计算的统计量，它是好客户分布累计百分比与坏客户分布累计百分比之差，也就是区分度的最大值。下图是Logistic模型的K-S曲线，当模型的评分在412.585时，两条曲线的垂直距离达到最大值46.975。此时累计坏客户百分比为66.530，好客户百分比为19.572。模型的K-S统计量为46.975，在41-50之间，根据经验准则，这是一个好的模型。图5.12：Logistic回归模型的K-S曲线专业技术资料整理 WORD格式可编辑ROC曲线和Gini系数则是利用好、坏客户分数分布的全部信息对评分模型区分好、坏客户的能力进行评估。下图中的红线代表了ROC曲线，离对角线（蓝线）越远，对应的评分模型也就越好。这说明ROC曲线和对角线之间的面积越大，评分模型的区分能力也就越强。图5.13：Logistic回归模型的ROC曲线专业技术资料整理 WORD格式可编辑1.客户满意度研究6.1为什么要进行客户满意度研究？客户满意（CS,CustomerSatisfaction），是指客户通过对一个产品或服务的感知效果/结果与其期望值相比较后，所形成的愉悦或失望的感觉状态。客户满意度就是对客户满意水平的量化，客户满意度在国内外越来越引起理论界和实业界人士的关注。但是面临客户多种多样的要求，以及这些要求反映的庞杂的信息，令企业的努力往往成效并不显著，而企业也存在资源有限的现实问题，不可能也不必要在所有方面令客户满意，如何做到用有限的资源有效提高客户满意度，这是“客户满意度研究”的任务，“客户满意度研究”是实现客户满意的第一步。客户满意度研究的应用价值主要表现在以下几个方面：客户满意度研究能帮助企业把其有限的资源集中到客户最看重的特性方面，从而达到建立和提升客户忠诚并保留客户；通过分析客户的价值，把有限的资源优先配给最有价值的客户；通过客户满意度研究，还能预测客户未来的需求，并调整客户接触链上的服务人员的评价、培训、选拔和补充工作；通过对客户满意度的持续跟踪研究，能动态揭示客户满意度的变化，评估满意度改善措施的效果，制定最为有效的行动策略。6.2满意度研究的目标和内容虽然达到客户满意度已成为许多公司和组织的主要营运目标，他们投入大量人力物力进行满意度方面的调查，然而由于对满意度指标把握的不准确和分析方法的贫乏，结果却难以得到关于改进产品和服务，提高客户满意度的有价值的结论。满意度指标确定和分析应用已成为进行客户满意度调查的关键和难点。而要理清和把握满意度调查的这两个方面，有必要先明确客户满意度调研的目标和分类。调查的核心是确定产品和服务在多大程度上满足了客户的欲望和需求。就其调研目标来说，主要达到四个目标：1.确定导致客户满意的关键绩效因素；2.评估公司的满意度指标及主要竞争者的满意度指标；3.判断轻重缓急，采取正确行动；4.控制全过程。专业技术资料整理 WORD格式可编辑就调查的内容来说，又可分为客户感受调查和市场地位调查两部分。客户感受调查只针对公司自己的客户，操作简便。主要测量客户对产品或服务的满意程度，比较公司表现与客户预期之间的差距，为基本措施的改善提供依据。市场地位调查涉及所有产品或服务的消费者，对公司形象的考察更有客观性。不仅问及客户对公司的看法，还问及他们对同行业竞争对手的看法。6.1满意度研究方法一个普通的客户满意度研究，通常的程序包含五大步聚：图6.2：满意度研究的大致步骤（1）客户类型判定在进行客户满意度研究之前，首先要清晰研究需要针对的客户。客户满意度研究的客户分类需考虑到：目前客户、过去客户、潜在客户。对于已经建立了完善的客户关系管理数据库的企业，可以从数据库中根据客户分类要求列出所有的客户名单，根据抽样方法从名单中选取被访客户，工业产品、电信、银行、保险等的客户满意度研究通常可以用此方法。对于没有建立或不太可能建立完善的客户关系管理数据库的企业，则需要通过对目标群体进行随机抽样的方法来选取被访客户，快速消费品通常需要采用此方法来进行。（2）确定影响客户满意度的关键评价指标关键评价指标的确定是客户满意度研究的重点，满意度研究首先应揭示出不同客户满意的评价指标在重要性上的差异、客户满意的程度，而且应找出满意和不满意的内在原因，并能比较各个竞争对手和自身在不同指标上的优劣。探索主要评价指标应从两个方向进行：一为企业内部，二为客户。专业技术资料整理 WORD格式可编辑通过对企业内部员工/管理者的访谈，了解企业内部员工/管理者对所提供的产品或服务的专业性认识，因此会比较系统和完整地提供建立客户满意度评价的体系和具体的指标。但对客户的访谈也是必不可少的，因为企业内部员工/管理者对客户满意的理解与客户的实际需求通常会存在着差距，因此必须从客户的角度了解他们对满意情况的评价准则。在这一过程中，有一些统计分析技术可以帮助企业制定和筛选出最能有效体现客户实际满意度的评价指标体系，下面是这一过程中经常用到的一些分析技术。因子分析法。利用因子分析方法分析客户的指标重要性评价数据，我们可以将不同指标分为若干个因子，从每个因子中选择一个指标。通过比较各个指标的负荷量和有效性可以帮助我们确定具体应选择的指标。判别分析法。应用判别分析方法，我们可以确定选出来的指标能否很好地预测整体满意或不满意的程度。交替使用因子分析和判别分析，得到的满意度指标不仅在统计上是有效的，而且在逻辑上讲也适用于测量客户满意度。结构方程模型（SEM）：关键评价指标体系的建立，实际上也是研究假设的确立，此部分是客户满意度研究的关键。随着满意研究理论探索和数据验证的不断深入，结构方程模型越来越成为满意度研究领域的重要工具，不论是前期关键评价指标体系的确定，还是后期满意度分析。在实际应用结构方程模型确定评价指标体系时，通常依据一定的客户满意度理论模型，然后对理论模型中的潜在变量逐级展开，直到形成一系列可以直接测量的指标，这些测量指标便构成了客户满意度评价指标体系。（3）测量客户对关键评价指标的满意度这部分主要通过定量研究进行，采用量级评分的方法进行测量。主要采用5级、7级或10级量表测量工具，对客户进行大规模的问卷调查。（4）确定关键评价指标的相对重要性这一步分析的一个关键部分是用整体满意程度作为因变量，用对关键评价指标的满意程度作为自变量进行结构分析。进行关键评价指标的满意度及其相对重要性测量的方法形形色色。但是，整体归结起来，可以大概划分为以下几种：1）简单易行型直截了当地问：“你对XX品牌的产品/服务总体上满意吗？”这种方式效率高，容易回答，而且容易了解到消费者对竞争品牌的总体评价。但是由于这样一个问题太过突兀和简单，受访者的回复在很多情况下不能代表其真实的意思。2）双重评价型专业技术资料整理 WORD格式可编辑这种方式需要调查设计者找到一些影响满意度的驱动要素，然后让受访者对被调查品牌在该驱动要素上的表现打分，同时还要对该驱动要素对其重要性程度进行打分。这样设计，不仅仅可以了解客户对某品牌产品/服务的满意度高低，而且可以了解对相应的满意度驱动要素的评价。这种方法考虑到满意度驱动要素，是一种进步。但是也存在几个缺陷：a)根据我们的经验，这种方式难以区分不同要素对消费者的真实重要程度。b)用驱动要素对受访者的重要性替代这一概念，这种“概念替换”经常会误导企业的资源配置。c)这种方式需要受访者对每个驱动要素的表现和重要性分别进行评估，需要占用受访者较多的时间和精力，从而增加了调查成功的难度。本方法目前在企业自身实施的满意度调查中应用得比较广泛，因为其应用基本不需要太多的统计分析技术，实施简单。3）双重评价改进型这种调查方式是在上一种方式的基础上改进而得到的。具体方法是：假定全部要素的重要性合计为100，受访者在对每个调查要素给予重要性权重的时候，需要使得权重和为100。这种方法可以部分弥补上面提到的a)类缺陷，但也无法解决上一方法中的缺陷b)和c)。4）采用线性回归统计分析技术随着市场调查分析技术的发展，统计工具在市场研究中应用得越来越多。利用多元回归分析技术，可以计算出满意度驱动要素对满意度的影响大小。这种影响大小可以解释为，当满意度驱动要素提升1分，满意度在现有的基础上可以提升多少分。当满意度的驱动要素非常少，而且这些要素相互之间的影响不强时，这种方法不失为一种简单有效的方法。实际上，多元回归分析在研究满意度问题的时候会存在以下几个问题：a)无法同时检验客户满意度各构成要素对客户整体满意度与客户忠诚度两个因变量的影响，模型中同时只能包含一个因变量。b)实际生活中，影响消费者对某种产品/服务满意度的要素通常非常多，对企业而言，这些要素越细化，在确定满意度提升的措施时才更有可操作性。而随着影响要素的增加和细化，如果采用回归的方式，计算出来的影响要素一般会由于这些要素的相互作用和影响，使其数值变得无法解释现实情况。从科学的角度看，随着新的分析研究技术的涌现，回归统计分析技术已经不太适用客户满意度分析研究领域。5)采用结构方程模型专业技术资料整理 WORD格式可编辑在社会科学及经济、市场、管理等研究领域，有时需要处理多个原因、多个结果的关系，或者会碰到不可直接观测的变量（即潜变量），这些都是传统的统计分析方法不好解决的问题。结构方程模型（SEM,StructuralEquationModeling），由K.Jorekog于1973年提出，它是一种因果关系模型，通过要素间的因果关系/准因果关系来揭示现实生活中的相互关系。结构方程模型弥补了传统统计分析方法的不足，在过去三十多年里不断得到迅速发展，成为多元数据分析的重要工具。目前广泛地应用于许多市场研究分析当中，它也是目前国际上流行的客户满意度研究分析手段。注：目前国际上流行的结构方程建模的工具主要有AMOS，LISREL，MPLUS，EQS。其中AMOS以其友好的图形界面，强大的结构化方程建模功能而得到广泛应用。6.1结构方程模型在客户满意度测评中的应用由于客户满意度研究对企业具有重大的指导作用，科学高效的研究方法和手段将成为满意度研究机构的核心竞争力，其研究成果能够为企业更加合理地配置资源提供科学依据。而结构方程模型已成为进行满意度研究的最重要的工具。目前，美国用户满意指数（ACSI）、瑞典用户满意指数、欧洲用户满意指数、中国用户满意指数（CCSI）等国家级用户满意度研究都是采用结构方程模型构建关系。一个有效实用的客户满意度研究结构方程模型的构建，需要对客户需求和感知进行深入研究，通过大量的前期工作，比如客户焦点小组访谈、客户需求分解、客户预调查、行业专家拜访、购买消费现场观察等多种手段，才能构建起一个基础模型。然后通过消费者试调查，采集到一定的数据后，对数据进行多种统计处理、分析和检验，根据相应的结果对模型进行必要的调整，然后才能应用到实际的客户满意度分析中。否则，随意构建的模型只能成为使得数字游戏显得高深莫测的工具。下图是运用结构方程模型来研究满意度模型的整个过程和大致思路：专业技术资料整理 WORD格式可编辑图6.3：利用结构方程模型进行满意度研究过程和思路在满意度研究中常用的结构方程模型示例图6.4：满意度模型框架示例6.1满意度研究在金融行业中的应用现在我国已兑现入世承诺、金融业全面开放。中国金融服务领域的竞争将愈演愈烈，只有了解消费者的需求，预测他们的消费趋势，并开发新的产品/服务来满足消费者的需求，同时在现有业务上提供令人满意的高质量服务，才能在这场竞争中立于不败之地。因此“客户满意”越来越成为众多金融服务行业已经意识和正在努力提高的经营指标，成为该行业工作的重点。下面借在某市对八家银行业（银行1-8）的满意度研究案例，介绍如何应用结构方程模型进行满意度研究。（1）研究目标和过程专业技术资料整理 WORD格式可编辑本调查虽然涵盖的是个人银行业务，没有直接涉及对公业务，但是任何一个人首先和银行发生业务联系的是个人业务。如果一个“公家人”或“公司人”在个人银行业务上对某家银行不满意，很难想象这个人在以后的对公业务上会与这家银行建立愉快的合作。毕竟，如今的银行业早就不是垄断行业了！本次研究框架根据银行满意度测评结构方程模型，对34个满意度驱动要素―知名度、银行实力、银行信誉、产品/服务创新、网点数量、网点位置分布、外部标识、内部环境、服务窗口数量、服务种类标示、服务设施配备、宣传资料、营业时间、办理业务种类、人员服务态度、手续简便、等候时间、办理效率、热线电话接通率、语音提示、自动声讯效率、人工热线接通情况、服务态度、业务水平、网上银行安全性、开通方便、操作方便、资料记录准确及时、网页速度、ATM机数量、可靠性、处理速度、取款金额次数限制、ATM机安全性等进行测算，给出分值及其对满意度的影响大小，并根据分析结果提出了满意度改进建议。（2）主要结论调查发现，从该市居民经常办理个人业务的银行和客户心目中最好的银行的提及率分布来看，银行1均高居榜首，但是银行1作为最好银行的提及率仅有主办理银行提及率的一半；而银行2和银行6作为最好银行的提及率远远高于其作为主办理银行的提及率。另外银行1作为主办理银行的提及率与去年调查结果相比下降了近十个百分点，而选择其它商业银行，如银行6、银行7、银行2办理业务的比例明显有所上升。客户在银行办理的业务类型中，人民币存取款、缴费、领工资、使用银行卡等业务的比重有所下降，而办理住房贷款、消费贷款、外币存取款的比重有所上升，说明银行提供的新业务内容正逐步得到消费者的认可。各主要银行的客户群体呈现出鲜明的人口特征。如银行1更受40岁以上的中老年人群的青睐；主要集中在工人、教师和离退休人员；主要为高中/中专学历的群体；个人月收入主要集中在1-3千元等等；银行6的用户满意度和忠诚度明显高于其它银行，银行1的用户忠诚度最低。银行1在服务厅、网络方面占有一定的优势，但是在服务软件、服务硬件方面均远远落后于其它银行；银行6虽然继续在银行形象、服务软件、服务硬件方面处于领先，但是与去年调查结果相比有了一定的退步.专业技术资料整理 WORD格式可编辑1.CRISP-DM简介在1996年，当时数据挖掘市场是年轻而不成熟的，但是这个市场显示了爆炸式的增长。三个在这方面经验丰富的公司DaimlerChrysler、SPSS、NCR发起建立一个社团，目的是建立数据挖掘方法和过程的标准。在获得了EC（EuropeanCommission）的资助后，他们开始实现他们的目标。为了征集业界广泛的意见共享知识，他们创建了CRISP-DM专家组（SIG，SpecialInterestGroup）。1999年，CRISP-DMSIG（SpecialInterestGroup）组织开发并提炼出CRISP-DM（CRoss-IndustryStandardProcessforDataMining，跨行业数据挖掘标准流程），同时在Mercedes-Benz和OHRA（保险领域）企业进行了大规模数据挖掘项目的实际试用。SIG还将CRISP-DM和商业数据挖掘工具集成起来。SIG组织目前在伦敦、纽约、布鲁塞尔已经发展到200多个成员。当前CRISP-DM提供了一个数据挖掘生命周期的全面评述。它包括项目的相应周期，各个阶段的任务和这些任务之间的关系。所有数据挖掘任务之间关系的存在是依赖用户的目的、背景和兴趣，最重要的还有数据。SIG组织已经发布了CRISP-DM1.0的电子版，这个可以免费使用。数据挖掘项目的生命周期由六个阶段组成。如图展示了这一数据挖掘过程的各个阶段，这些阶段之间的顺序并不固定，在不同阶段之间来回循环往往是非常有必要的。究竟下一步要执行哪个阶段或者哪一个特定的任务，都取决于每一个阶段的结果。图中的箭头表明了各阶段之间最重要和最频繁的依赖关系。图中最外层的这个循环表明了数据挖掘本身的循环性质。经过一个具体的数据挖掘项目得到了某项解决措施或办法并加以展开，并不代表数据挖掘本身已经结束。从这一数据挖掘过程以及解决措施展开的过程中所吸取的经验、教训，又引发了新的、通常是更加有挑战的商业问题。接下来的数据挖掘过程将会从过去的项目经验中获利。在接下来的内容中，我们将简要的勾勒一下每个阶段的轮廓：专业技术资料整理 WORD格式可编辑图7.1：CRISP-DM数据挖掘标准流程7.1数据理解数据理解阶段开始于数据的收集工作。接下来就是熟悉数据的工作，具体如：检测数据的质量，对数据有初步的理解，探测数据中比较有趣的数据子集，进而形成对潜在信息的假设。7.2数据准备数据准备阶段涵盖了从原始粗糙数据中构建最终数据集（将作为建模工具的分析对象）的全部工作。数据准备工作有可能被实施多次，而且其实施顺序并不是预先规定好的。这一阶段的任务主要包括：制表、记录、数据变量的选择和转换，以及为适应建模工具而进行的数据清理等等。7.3建立模型在这一阶段，各种各样的建模方法将被加以选择和使用，其参数将被校准为最为理想的值。比较典型的是，对于同一个数据挖掘的问题类型，可以有多种方法选择使用。一些建模方法对数据的形式有具体的要求，因此，在这一阶段，重新回到数据准备阶段执行某些任务有时是非常必要的。专业技术资料整理 WORD格式可编辑7.1模型评估从数据分析的角度考虑，在这一阶段中，您已经建立了一个或多个高质量的模型。但在进行最终的模型部署之前，更加彻底的评估模型，回顾在构建模型过程中所执行的每一个步骤，是非常重要的，这样可以确保这些模型达到企业的目标。一个关键的评价指标就是看，是否仍然有一些重要的企业问题还没有被充分地加以注意和考虑。在这一阶段结束之时，有关数据挖掘结果的使用应达成一致的决定。7.2部署（发布）模型的创建并不是项目的最终目的。尽管建模是为了增加更多有关于数据的信息，但这些信息仍然需要以一种客户能够使用的方式被组织和呈现。这经常涉及到一个组织在处理某些决策过程中，如在进行网页实时更新或者营销数据库的重复打分时，拥用一个能够即时更新的模型。然而，根据需求的不同，部署阶段可以是仅仅像写一份报告那样简单，也可以像在企业中进行可重复的数据挖掘程序那样复杂。在许多案例中，往往是客户而不是数据分析师来执行部署阶段。然而，尽管数据分析师不需要处理部署阶段的工作，对于客户而言，预先了解需要执行的活动从而正确的使用已构建的模型是非常重要的。专业技术资料整理 WORD格式可编辑1.数据挖掘经验谈8.1采用CRISP-DM方法论采用CRISP-DM方法论作为数据挖掘的指导能帮助确保获得成功的商业结果。在现实中对于一个数据挖掘项目来说，最初设定的商业目标很容易淹没在复杂数据挖掘技术和海量数据中，所以以一个已经被验证方法论为指导是很关键的。8.2以终为始为了能在项目终结时得到期望的ROI（ReturnOnInvestment，投资回报率），你应该在项目启动前已经确定了如何评估最终的结果的标准（例如：使用什么样的商业考核指标，它们是被如何计算或派生的）。例如你是不是想在20%的客户中找寻潜在流失者？基于客户保留计划的消费和营销反应程度，你如何将这些信息转换成商业收入增长期望值？或者你知不知道如果确定出额外的十条欺诈信息能节约多少开支？8.3设定期望值确保项目投资者明白数据挖掘不是解决商业问题的魔术棒。数据挖掘是借助计算机技术辅助解决商业问题的一种方法。就像任何商业问题，投资者需要首先提出可解决的问题，然后找寻方案。例如你计划为公司市场部做客户细分，那么应该与市场部的同事一起明确什么样的结果是最终希望得到的（例如：“我们使用产品信息和人口统计数据，所以希望得到基于客户的收入、年龄等信息的细分，这样能显示不同层次客户对产品的喜好”）。8.4限定最初的项目范围专业技术资料整理 WORD格式可编辑以现实可行的目标和日程表为开始，当你获得成功后，再转向更复杂的项目。例如与其试图立刻提高新客户的获取值，还不是集中精力在小的更实际的目标如对某一区域进行交叉销售，客户保留项目。8.1确保团队合作数据挖掘项目是一个团队工作。数据挖掘需要商业使用者理解实际问题和数据，也需要数据分析家提供分析解决方案，以及数据库管理者提供权限。例如，你可能在项目中需要数据挖掘专家、数据库专家和市场经理。因为他们来自不同的部门，可能在数据挖掘项目合作中会出现问题，所以找到可行的合作方式是很重要的。8.2避免陷入数据垃圾在项目进行中，始终明确需要解决的商业问题，确保项目结果的最终完成。如果你只是在没有项目计划的情况下简单的开始分析一堆数据，你将会很容易迷失在数据里而且浪费时间。不要让项目被大量数据单纯驱动，集中精力在商业目标上。你可能不需要使用系统中的所有数据，仅仅使用和项目相关的数据就可以了。你甚至可能会发现现有的数据不能足以解决现实的商业问题。即使海量数据也不能保证你就拥有准确的用于建模的数据.例如，使用最新的信息进行预测客户行为往往比用大量的历史数据准确。专业技术资料整理 WORD格式可编辑1.数据挖掘部署策略数据挖掘的结果发布可以很简单，例如只是生成一个规则集，对具体某个商业问题给出一个参考建议；也可能很复杂，如需要实时嵌入到客户的决策支持系统，为决策者提供前瞻性决定提供依据。以下阐述四种优化策略帮助部署高级分析结果，以及为获得最大投资回报设定的预测分析解决方案。这些策略是通过概括现实中使用Clementine数据挖掘平台的众多部署案例得到的，具有普遍应用性。快速更新批处理方式：使用快速高效的批处理功能部署数据挖掘，为数据简单快速的打分?海量数据批处理方式：策略性应用代码部署，注意代码开销平衡，集中在为海量数据高速打分?实时封装方式：将数据挖掘部署封装应用并将集成风险最小化，应用在用户定制的高速、实时为数据打分上?实时定制方式：将数据挖掘部署到为客户量身定做的应用产品上，在企业组织结构下实现不同功能的实时打分或者不能以实时封装方式部署的特殊商业目标9.1策略1－快速更新批处理方式快速更新批处理打分是应用最广泛的方式之一，适应于不需要实时响应的系统。例如，许多公司使用这种方式对客户数据库保持更新，通过客户关系管理应用为决策者提供最新预测分析。这种方式以及相关部署应用为与各式操作系统环境提供灵活集成。ClementineBatch和ClementineSolutionPublisher帮助你高效部署数据挖掘结果和迅速更新数据。在不需要Clementine客户端界面的情况下，后台部署Clementine数据挖掘流。Clementine批处理模式在命令行执行，而ClementineSolutionPublisher是一个灵活的打分组件，可以嵌入到应用中。这种部署方式可以在数据库内按计划执行，例如一个预测应用需要每月、每周、每天甚至每小时使用最新数据。因为这些运行方式都是执行整个数据流，更新打分时只需重新运行Clementine挖掘流。而且这种使用ClementineBatch或ClementineSolutionPublisher的运行方式可以完全被SPSSPredictiveEnterpriseService中的PredictiveEnterpriseManager模块自动使用。专业技术资料整理 WORD格式可编辑不同于其它的数据挖掘解决方案，Clementine能够部署整个数据挖掘过程，包括关键的数据准备，建模以及应用模型打分任务，可以在IBM?DB2?,Oracle?Database,以及Microsoft?SQLServer?内使用。这些Clementine部署操作因为使用三层体系架构，利用数据库的检索、优化和数据库内挖掘功能，确保高效数据库内挖掘。通常，大部分的公司只使用Clementine客户端运行所需要的批处理打分，而使用ClementineBatch或ClementineSolutionPublisher进行周期性打分。Clementine客户端使用数据流描述语言（StreamDescriptionLanguage）将需要执行的数据挖掘任务发送到Clementine服务器端。Clementine服务器分析挖掘任务决定那些可以在数据库端执行，将数据转移量降至最低。在数据库内运行完这些操作后，将剩余的和已整合的数据传递给Clementine服务器。图9.1：Clementine三层体系架构9.1策略2－海量数据批处理方式许多Clementine实施应用将Clementine数据挖掘流部署在一个可解释的打分引擎上，这样就需要评估数据挖掘的实际时间以及所需的最小代码开发量。数据挖掘的过程可以被描述在一个可以被打分组件或应用程序所解析的文件。而对于海量数据批量打分，其应用在至少部分数据挖掘过程已经转化成某种编程语言，并且编译成计算机可识别代码的基础上。从定义上讲，已编译模式比可解释模式要快。因为在海量数据打分环境下运行瓶颈经常发生在数据准备阶段而不是对新数据打分阶段，所以SPSS高速打分操作经常使用混合模式。Clementine使用PMML（PredictiveModelMarkup专业技术资料整理 WORD格式可编辑Language）将预测模型输出给高速打分引擎，PMML是一种描述数据挖掘模型的行业标准的XML标识性语言（PMML标准是一个用于模型交换的中间方式，这个标准是由一个由主流数据挖掘和数据库厂商组建的独立数据挖掘组织制定的）。PMML模型部署是在已将数据准备过程代码化后，将模型描述储存在PMML文件里，然后根据打分数据的要求将整个过程编译。SmartScore?就是SPSS基于以上应用的PMML打分软件开发包（SDK）。ClementinePMML模型也可以实施在IBMDB2数据库内挖掘，不需要将数据DB2数据库中迁入牵出，提高了性能。图9.2：两种典型部署方式9.1策略3－实时封装方式预测型分析应用在特定商业目标上时，通常需要实时、高速的对大数据集打分，SPSS预测分析应用例如PredictiveCallCenter?andPredictiveWebSite?就是为已存在的客户交互功能软件和CRM系统而设计的实时高速产品。PredictiveCallCenter?与呼叫中心系统集成，提供如提升销售、交叉销售、客户保留等的即时推荐和决定支持。采用被已证明可行性商业规则结合实时预测分析技术，PredictiveCallCenter?自动提供推荐内容并结合销售意见和其他代理需要知道的信息将其推荐内容显示在代办人员的屏幕上。Clementine可以将Clementine预测模型直接发布到SPSS预测分析应用产品上如PredictiveCallCenter。这样就允许将你自己训练的复杂模型使用PredictiveCallCenter实施并精炼成实时推荐应用发布出来。模型可以被开发成于多种类数据如网页、文本以及有关态度的数据相结合，并且具有特定商业目标的应用如提高交叉销售。多种预测模型可以被合并，例如，将交叉销售和欺诈检测模型相结合，可以确保销售人员不用将精力放在具有明显欺诈风险的客户身上。专业技术资料整理 WORD格式可编辑图9.3：呼叫中心推荐信息产生流程9.1策略4－实时定制方式对于在企业决策支持系统中决策优化目标需要不同功能的实时打分应用，或者针对某特定的商业实际需求，客户化的界面是十分关键和必要的。Cleo?和SPSSPredictiveAnalyticFramework?就是为适应广泛商业应用需求而设计的客户化实时打分产品。Cleo是创建基于网页打分应用的软件平台，它能简单快速的创建客户化网络应用。企业级用户使用Cleo，基于网络的数据挖掘实施工具，给予同一公司的多用户使用Clementine模型和根据特定需求的数据打分的权限。采用Clementine创建的预测模型，通过Cleod部署向导就可以很轻松的在线进行模型发布。在Cleoserver能即时产生网络应用，当决策者需要借助Clementine生成的预测流程支持他们的决策时，通过网络应用很轻松的实时为数据打分。不同于其它一些基于网络应用的分析工具需要安装桌面软件或插件，Cleo应用是真正的瘦客户端，所有使用者只需使用网页浏览器就可以获得权限。当企业需要更多高级功能，特别是通过与SPSS系统集成开发出更复杂的网络应用时，通常会使用PredictiveAnalyticFramework.这个平台和Cleo很类似，是一个可供多种客户使用的，网络分布的瘦客户端打分环境。它还加入了一些额外的功能如为了方便商业用户更新模型的简单易用界面，监控预测分析性能而自动生成的增益曲线等等。通过PredictiveAnalyticFramework向导，模型可以很轻松的发布到网络平台上。专业技术资料整理 WORD格式可编辑图9.5：SPSS定制开发应用示例专业技术资料整理 WORD格式可编辑1.成功案例10.1国外成功案例10.1.1BancoEspiritoSanto(BES)BES每天都致力于同那些可能流失的银行客户“奋勇战斗”。通过利用SPSS的数据挖掘工具Clementine，BES识别出了那些可能离开银行服务的客户的关键行为特征。JorgePortugal和他的战略营销队伍一起分析这些动态的关系，并分别建立起模型来验证相应的调整策略是否可以使得客户保持满意而不流失。应用结果?·利用从未使用过的客户行为数据资源并从中获益?·客户流失率降低了15%-20%?·底线利润增长了10%-20%10.1.2BankFinancialBankFinancial主要服务于芝加哥的大都市区域，在其八个支部机构中提供完整的金融服务，包括贷款、储蓄、保险以及投资。其资产超过10亿美元，其给零售客户以及商业客户同时提供服务。自从1962年开始进入到芝加哥郊区开展服务，BankFinancial就开始不断的成长，增加新的分支机构以及服务产品。为了满足客户不断变化的需求，BankFinancial的目标包括：?·增加市场营销的有效性?·增强针对现有客户的定位?·提升客户的获得以及保持?·最优化产品打包策略使用SPSS公司的Clementine，BankFinancial能够在很短的时间里得到更为准确的结果，提升了市场营销的有效性，降低了营销的成本。通过使用预测性的方法来进行市场营销，BankFinancial提升了其产品满足客户需求的能力，增加了客户赢得、保持以及满意度。专业技术资料整理 WORD格式可编辑10.1.1美国汇丰银行“预测分析帮助我们在合适的时间、用合适的产品和服务来接触合适的人。而SPSS为我们提供了进行这些分析的有力武器。”　　　　　　　　　　　　　------美国汇丰银行客户获取和研究部经理JoeSomm客户背景美国汇丰银行是HSBC集团成员之一，通过位于纽约的380个分支机构为140多万银行客户提供核算、投资、借贷和其它金融服务。美国汇丰银行资产为350亿美元。面临问题同一地区可能有多家银行设有分支机构，从而引起持续的竞争来吸引和保持附近的潜在客户。为保持高水平的客户获取和保持率，并维持可赢利性，银行经常要实现这些目标：扩展和现有客户的关系、控制营销费用以维持利润以及快速转移市场。解决方案美国汇丰银行用SPSS对不断增长的客户数据进行挖掘，建立预测模型来发现交叉销售和“翻滚”销售机会。定位于每一产品最有价值的客户可以使销售最大化、营销费用最小化。而且，SPSS的易用性使研究人员可以快速地把研究结果提交给决策者。应用结果小额银行是一个高竞争性的业务。过去，美国汇丰银行经常使用从市场研究公司购买的生命周期细分信息，向新旧客户推广产品。“外部的细分方案在发展新客户时可能是有价值的。但是，我们认为现有的140万用户的购买习惯和需求数据，会隐藏着更有价值的信息。”美国汇丰银行客户获取和研究部经理JoeSomma说。“我们只需对这些模式进行挖掘，来了解什么人在什么时候需要什么。这种预测分析帮助我们在合适时间、用合适的产品和服务接触合适的人。而SPSS为我们提供了进行这些分析的有力武器。”揭示特定客户的需求，销售增加50%“账户的存款中哪种特征预示着客户可能会对某种投资感兴趣呢？这种购买行为过去曾发生过很多次，可以帮助我们预测未来的购买行为。”Somma说，“用SPSS对数据进行挖掘帮助我们揭开了统计关系，更重要的是，为我们说明了这些关系的力度。这帮助我们在建立有效的营销策略的同时对资源进行优化。”Somma和银行各个产品部门的同事在用SPSS预测模型的基础上建立了成功的营销策略。短短三年时间，银行数个产品线销售提高了50%。专业技术资料整理 WORD格式可编辑营销费用减少30%通过更精确地定位目标客户，美国汇丰银行不仅发现了对特定产品最有前景的客户，同时也节约了费用。“比如，在进行直邮活动，我们可以更加有针对性，只寄出少量信件，而得到更高的回应率。在最近一次活动中，直接邮递的数量减少了三分之一，但销售收入仍相当于前次的95%。这样就极大地增加了投资回收率。”“没人希望淹没在不想要的产品信息中。通过用SPSS进行数据挖掘，我们减少了对那些不符合特征的客户的打扰。”提高了建立和开展实时营销战略的能力根据Somma的讲述，SPSS不仅帮助他们发现新的商业机会，而且比竞争者做得更快。“准备买存款证的客户可以买我们的，也可以买另一家银行的。这种情况下速度是非常重要的。越快进行营销活动，效果就越好。SPSS的易用性和强大的分析功能，使我们可以快速地建立模型。SPSS具备我们所需的分析深度和广度。而且，模型建立后，向产品线决策者发布也非常容易。您可以把逻辑展示给他们，而他们无需了解任何统计分析的知识就可以快速看到与过去购买某一产品的客户类似的客户。”10.1.1美国FirstUnion公司“作为这项研究的成果，现在我们确切明白了需要做什么来满足客户的需求和期望...”------FirstUnion的市场研究主管JimRobertson面临问题FirstUnion公司，美国第六大银行企业，需要检查其产品交付系统的性能需求和费用。希望把客户转移到低成本的渠道，但只是在发现这些新的渠道是可接受的之后。MarketAdvantage公司的咨询顾问们致力于发现能更好地满足客户需求的产品和交付渠道的变革，把客户转移到低成本渠道，并保护FirstUnion在竞争激烈的金融服务市场中处于领先地位。解决方案“SPSS是我们战略服务中理想的分析工具。它的方便性和深度分析功能都是一流的。”MarketAdvantage总裁JimLibby说。作为金融业最大、最高级的数据分析项目之一，MarketAdvantage使用SPSS和咨询顾问公司合作，为FirstUnion发现和实施关键的交付渠道战略。该项目中，MarketAdvantage首先进行了计算机辅助调查，他们在80个访问站从3600多个金融服务客户中收集数据。这些客户明确回答了有关储蓄账户、抵押、信用卡、贷款和信托、以及产品交付等方面的问题。由于First专业技术资料整理 WORD格式可编辑Union主要通过其费用昂贵的交付渠道—金融中心来分发这些产品，它还希望了解其他可选的交付方式。应用结果通过多种方式的聚类分析，用不同的“命题”（结合定价、服务、交付和特性）确定了回答者的分类。之后采用SPSS对这些结果做进一步的分类和描述，确定了新的细分客户。MarketAdvantage建立联合仿真模型确定哪些客户愿意采用其他可选的交付方式，如电话银行。并把这些模型和SPSS融入同一界面来区分在不同的方案下谁希望、谁不希望购买、转换或移植。这些模型有助于预示客户行为，并确定了那些愿意移植到新交付渠道的客户。“这项研究产生了最深入的、业界从未见到的对零售金融产品和其他可选分发渠道的同步认识。”Libby说。作为结果，FirstUnion金融中心的主要目标发生了重大变化，把大量的销售和服务转移到低成本的渠道，并显著地为职员减少了管理工作量。10.1.1Achmea公司客户背景Achmea公司是荷兰最大的金融服务提供商，拥有数百万的家庭保险客户和企业保险客户。从2002年开始，该公司归属Eureko集团，该集团是总部位于荷兰的一家金融服务供应商，Eureko集团的业务遍及欧洲十个国家，保险是其主要业务领域。应用结果增强索赔处理能力，提高欺诈识别技巧Achmea公司选择SPSS分析软件，增强其对保险索赔的处理能力，发掘更多的保险欺诈行为，降低企业运营成本，提高客户满意度。采用SPSS软件，该公司在索赔流程的初始－索赔告知阶段，就可以实时确定哪些索赔风险低，马上该认可，哪些索赔疑点重重，需作进一步的调整。这种“快速跟踪索赔处理”的方法为公司赢得了强劲的竞争优势，针对合法的索赔请求，不再需要履行成本高昂的处理流程，从而可以向客户提供更快捷的高品质服务。有了SPSS软件，Achmea公司还可以自动发掘潜在的欺诈行为。“SPSS软件使我们自动识别可疑的保险索赔，而这些索赔往往伴随着高额成本支出。SPSS软件还大大加快了我们对值得信赖的忠诚客户的索赔要求的响应速度。借助SPSS，我们预计发现比现在还多两倍的索赔欺诈，节约的成本高达数百万欧元。”Achmea公司对私业务部非寿险运营总监说。专业技术资料整理 WORD格式可编辑10.1.1标准人寿保险公司“Clementine所创造的价值远远超出了它本身，并且还将继续创造价值。”------标准人寿客户数据分析部DonaldMacDonald客户背景标准人寿保险公司是世界上最大的金融服务公司之一。它是标准人寿集团的一部分，该集团下还有标准人寿银行、标准人寿保健公司和标准人寿投资公司。面临问题标准人寿使用独立理财顾问（IFAs）向客户直接转售保单。公司为IFAs提供资金，但不知道每个顾问销售保单的具体情况。解决方案标准人寿选用Clementine建立起成功的IFAs的特征档案，并使用这些档案来培训表现不佳的顾问。为了建立这些档案，公司收集了每个IFA的信息，包括IFA的所在地、产生的收入、售出的保单数以及行为特征。应用结果?·在每个IFA零售店增加了收入和售出的保单数?·培训表现不佳的顾问，使之更好地工作?·在能带来高收益的地区设立新的IFA工作点，并撤销了业绩不佳的点10.1国内成功案例10.2.1中国建设银行风险预警管理项目针对经营管理中的风险加剧，建立风险预警机制势在必行。为此，建设银行建立了基于SPSS统计分析产品的风险预警管理系统，建立了风险处理和监测系统，进一步完善了建设银行的风险数据存取和管理机制，保障了银行收益。目前，建设银行已经基本完成了中国银行业的内部评级分析体系架构。专业技术资料整理 WORD格式可编辑10.2.1光大银行信贷风险管理项目光大银行采用Clementine产品，进行企业信贷风险数据分析，成功实现了对银行客户的信贷风险管理。光大银行对易用开放的产品、数据挖掘技术与信贷风险业务的完美融合极为认可。10.2.2中国银行信用风险评级管理项目面对日趋激烈的竞争，高效、系统的信用风险管理成为金融机构保持竞争优势的关键。中国银行采用SPSS公司的统计分析产品SPSS软件，建立信用风险评级管理系统，有效组建内部评级分析体系。10.2.3中国中信银行客户背景中信银行成立于1987年，隶属于中国中信集团公司。其业务辐射全球70多个国家和地区，包括公司银行业务、国际业务、资金资本市场业务、投资银行业务、住房按揭业务、个人理财业务、信用卡业务等。在英国《银行家》公布的2007年度“中国银行业百强”中，中信银行以一级资本和总资产分别位列中国第七大商业银行，位居股份制商业银行第三位。面临问题随着零售银行资产业务的迅速扩张，全国个人购房贷款数量的快速增长，零售资产业务的重要性在不断提升，已经成为银行业的重要利润来源。而不良贷款的出现给银行带来的巨大的损失。原有的评分卡模型采用类似回归算法的方式，已不能满足快速变化的业务的需求。因此，迫切需要建立新的、灵活易用的数据挖掘分析系统，对零售业务活动进行风险预测，并将风险控制集成在银行整体业务流程中，为业务管理和决策提供有力的支持。解决方案使用企业级数据挖掘平台Clementine，按照CRISP-DM标准流程，对中信银行过去3~5年的客户贷款历史数据进行分析，建立一个基于运用神经网络、决策树—Logistic回归的两阶段个人信贷风险评分模型，使用Clementine提供的评估图、表格、统计量等多种方法对各模型进行全面的评估。在模型的发布阶段，使用ClementineSolution专业技术资料整理 WORD格式可编辑Publisher，将个人信用评分模型嵌入到业务审批系统中，快速高效地实现了新贷款申请的在线分析应用。应用结果Clementine良好的稳定性和卓越的性能大大提高数据挖掘效率，可视化编程让业务人员和行业专家能够参与到数据挖掘项目中，业务经验和数据挖掘技术的完美结合，提高了数据挖掘模型的质量。现在，客户提交贷款申请后，前端的审批员只要轻轻点击按钮，就可以实时获取该客户的风险评分，根据客户的评分初步判断是否要发放贷款，大大提高了工作效率。10.2.1部分金融业客户的名单（排名不分先后）西班牙人民银行新加坡花旗银行法国国民互助信贷银行瑞士银行德国商业银行英国莱斯银行集团丹麦Basisbank英国Cahoot意大利Xelion美国Allstate保险公司法国AXA资产管理公司韩国LG火灾保险公司英国保诚人寿日本安田互助人寿保险标准人寿保险公司中国银行中国建设银行中国光大银行中国中信银行专业技术资料整理 WORD格式可编辑第二部分电信行业应用1.前言随着电信业务的发展和体制改革地不断深化，国内电信行业内部各大运营商之间的竞争日趋激烈，这一趋势在国内移动通信业内表现的尤为突出。移动通信运营商为了获取更多的客户资源和占有更大的市场份额往往采取“简单”的价格竞争和“此起彼伏”的广告宣传战，其弊端显而易见。这就要求运营商要采取以客户为中心的策略，根据客户的实际需求提供多样化、层次化、个性化的服务解决方案。因此，客户关系管理（CRM）成了电信运营商增加收入和利润，提高客户满意度、忠诚度的有效工具。在客户关系管理的流程中，为了准确、及时地进行经营决策，必须充分获取并利用相关的数据信息对决策过程进行辅助支持。近几年迅速发展起来的数据挖掘技术就是实现这一目标的重要手段。从电信业务层面来讲，电信业务已从单纯的提供市话和长话服务演变为提供综合电信服务，如宽带、移动电话、语音、传真、图像、电子邮件、计算机和Web数据传输，以及其他数据通信服务。电信、计算机网络、因特网和各种其他方式的通信和计算机的融合是目前的大势所趋。而且随着许多国家对电信业的开放和新兴计算与通信技术的发展，电信市场正在迅速扩张并越发竞争激烈。因此，为了提高企业竞争力利用数据挖掘技术来挖掘现有电信业务能力，提高商业效率具有重要意义。1.1数据挖掘的概念数据挖掘是根据企业的既定业务目标和存在的问题，对大量的业务数据进行探索，揭示其中隐藏的规律，并将其模型化，指导并应用于企业的实际经营。专业技术资料整理 WORD格式可编辑数据挖掘是建立在数据仓库基础上的高层应用，但数据挖掘跟数据仓库的其它一些应用如OLAP分析、预定义报表和即席查询等有很大的区别。后三者通常是用户根据已知的情况对所关心的业务指标进行分析；而前者则是在业务问题和目标明确但考察的问题不清楚时，对数据进行探索，揭示隐藏其中的规律性，进而将其模型化。电信运营商拥有许多成熟的数据库应用系统，如网管系统、财务系统、计费账务系统、112障碍管理系统、缴费销账系统等，并产生了大量的业务处理数据。如果针对客户关系管理相关决策分析的需求，对这些数据进行重组整合，就能充分利用这些宝贵的数据，体现信息的真正价值。1.1数据挖掘技术在电信行业客户关系管理的主要应用领域如下:（1）客户消费模式分析客户消费模式分析（如固话话费行为分析）是对客户历年来长话、市话、信息台的大量详单、数据以及客户档案资料等相关数据进行关联分析，结合客户的分类，可以从消费能力、消费习惯、消费周期等诸方面对客户的话费行为进行分析和预测，从而为固话运营商的相关经营决策提供依据。（2）客户市场推广分析客户市场推广分析（如优惠策略预测仿真）是利用数据挖掘技术实现优惠策略的仿真，根据数据挖掘模型进行模拟计费和模拟出账，其仿真结果可以揭示优惠策略中存在的问题，并进行相应的调整优化，以达到优惠促销活动的收益最大化。（3）客户欠费分析和动态防欺诈通过数据挖掘，总结各种骗费、欠费行为的内在规律，并建立一套欺诈和欠费行为的规则库。当客户的话费行为与该库中规则吻合时，系统可以提示运营商相关部门采取措施，从而降低运营商的损失风险。（4）客户流失分析根据已有的客户流失数据，建立客户属性、服务属性、客户消费情况等数据与客户流失概率相关联的数学模型，找出这些数据之间的关系，并给出明确的数学公式。然后根据此模型来监控客户流失的可能性，如果客户流失的可能性过高，则通过促销等手段来提高客户忠诚度，防止客户流失的发生。这就彻底改变了以往电信运营商在成功获得客户以后无法监控客户流失、无法有效实现客户关怀的状况。1.2数据挖掘成功方法论按照CRISP-DM（跨行业数据挖掘方法论），数据挖掘可以划分为以下六个步骤：专业技术资料整理 WORD格式可编辑图1.1：数据挖掘项目实施流程示意图1.1商业理解在这个阶段要明确面临的商业问题和数据挖掘想要达到的目的，完成商业问题到挖掘问题的定义过程。这阶段将产生的主要文档及提交物包括：a)确定商业目标。包括电信行业背景，需要实现的商业目标和成功标准等；b)形势评估。包括电信运营商拥有的资源、需求、假定和限制、风险偶然性、专业术语和成本收益等；c)在上述基础上确定数据挖掘的目标和成功标准；d)制定的项目计划和阶段性里程碑的设定说明。明确挖掘的目的。在进行数据挖掘前，一定要明确挖掘的目标。因为电信业务变化快，不同的时期，挖掘的对象并不一样，挖掘目标也千差万别，而挖掘目的不一样，决定了挖掘使用的模型和算法完全不一样。例如：电信开通新视通业务后，根据不同的类型用户对新视通业务的使用情况，预测2-3个月内可能使用该业务的用户类型，使用机率和话务量。专业技术资料整理 WORD格式可编辑明确影响挖掘目的的可能因素和结果。影响用户消费行为的因素是多种多样的，要比较的指标也是多种多样的，所有这些因素均应在模型中考虑。比如，要考虑IP业务对用户的影响，不仅要分析用户性质，还要分析用户消费额度；不仅要分析已经使用IP业务的用户性质和消费额度分布，而且要分析已使用IP业务的用户在未使用该业务前在原来的未开通IP业务用户中的分布和比例，还要分析使用IP业务的用户使用前和使用后消费行为的变化。1.1数据理解与数据准备数据理解和数据准备在真实的数据挖掘项目中会占很大的比重，搜集所有需要的数据和数据质量的保证是数据挖掘结果正确与否的关键。需要确定数据来源、确定数据整理方法。如对IP业务开通对用户行为的影响，原始数据来自用户资料、用户详单。根据上述确定的因素，定义原始指标和衍生指标。1.2建立模型针对不同的数据挖掘目标和数据特性，应采用不同的挖掘算法建立模型，并对筛选出的每种候选模型进行数据处理并产生结果。目前在电信行业常用的算法有：C5.0决策树、CART决策树、神经元网络和Logistic回归等算法。1.3模型检验对产生的模型结果需要进行比对验证、准确度验证、支持度验证等检验以确定模型的价值。在这个阶段需要引入更多层面和背景的用户进行测试与验证，通过对几种模型的综合比较，产生最后的优化模型。1.4模型发布与应用建立和检验模型并不是数据挖掘的目的，只有把模型发布到相关决策者手中，才能使我们通过数据挖掘提高企业利润或降低企业成本。例如在研究客户流失这个案例中，模型建立好后除了提交一份完整的报告和测试结果外，还需要通过发布工具将模型嵌入到用户的应用系统中，使决策者和相关管理者可以及时作出决策，实施相应的市场措施。模型发布后并不意味一个数据挖掘项目的结束，数据挖掘系统与业务系统间存在着作用与反作用的交互关系，随着时间的推移和数据的变化，这个闭环作用的系统中的很多关键参数需要及时调整，才能保证挖掘结果的质量并延长其有效的生命周期。所以有时我们说“数据挖掘是一门科学，同时也是一门艺术”。专业技术资料整理 WORD格式可编辑1.国内数据挖掘应用中存在的问题2.1数据质量和完备性国内电信运营商现有的、面向事务的数据在质量、完整性和一致性上存在许多问题，必须投入大量的精力去进行数据的抽取、净化和处理。此外，业务问题的相关数据有时难以全面收集。例如客户信用是客户价值评估中的关键因素，但由于国内未建立完善的信用体系，无法根据现有客户数据建立优质的信用评价模型，从而导致客户价值模型有效性的降低。2.2相应的人员素质在数据挖掘应用过程的多个环节中，人的主观辨识和控制是应用成败的关键，这就对系统使用人员提出了很高的要求。如果没有具备相应素质的使用和维护人员，必将导致分析系统与现实脱钩，无法达到预期效果。2.3应用周期a)数据挖掘系统将会直接告诉你有关商业问题的答案；b)数据挖掘系统将在工作流程中替代专业业务管理人员的角色；c)数据挖掘系统的建设过程中无视内部的知识和专家经验；d)数据挖掘系统是理论性的、以研究学习为导向的方法。2.4数据挖掘项目的建议：结合项目的投资确定数据挖掘项目的目标和回报周期，保证项目的可实施性。a)数据挖掘项目整个实施流程的管理和控制是非常重要的；b)数据挖掘项目需要和用户的专业业务人员紧密配合，共同寻找答案；c)培训业务人员，传递产品技能，提供挖掘分析的技术支持，让业务专家而不是技术人员成为项目的主导者；d)需要提供外部观点和一般经验，同时与内部特色相结合；e)确保实际的，以结果为导向的项目原则。专业技术资料整理 WORD格式可编辑本手册将从客户流失、客户细分、客户满意度和营销响应四个大方面，使用Clementine具体讲述数据挖掘在电信行业的具体应用。专业技术资料整理 WORD格式可编辑1.客户流失随着电信体制的改革和不断深化，国内电信行业内部各大运营商之间的竞争日趋激烈。电信运营商为了获取更多的客户资源和占有更大的市场份额，往往采取名目繁多的促销活动和层出不穷的广告宣传来吸引新客户。然而，统计发现，发展一个新客户比保持一个老客户的费用要高7倍，而如果“用户保持率”增加5%，将有望为运营商带来85%的利润增长。因此，对老客户的保留直接关系到运营商的利益，无论是客户流失还是话务量流失都将对运营商的经营产生深远的影响。针对这一问题，目前国外电信界应用最为广泛的解决方案之一，是应用数据挖掘技术，研究流失客户的特征，从而对流失进行预测、并对流失的后果进行评估，采取客户保留措施，防止因客户流失而引发的经营危机，提升公司的竞争力。具体说来，客户流失是指客户终止与企业的服务合同或转向其它公司提供的服务。客户流失分析是以客户的历史通话行为数据、客户的基础信息、客户拥有的产品信息为基础，通过适当的数据挖掘手段，综合考虑流失的特点和与之相关的多种因素，从中发现与流失密切相关的特征，在此基础上建立可以在一定时间范围内预测用户流失倾向的预测模型，为相关业务部门提供有流失倾向的用户名单和这些用户的行为特征，以便相关部门制定恰当的营销策略，采取针对性措施，开展客户挽留工作。3.1客户流失需要解决的问题1）哪些现有客户可能流失？客户流失的可能性预测。主要对每一个客户流失倾向性的大小进行预测。2）现有客户可能在何时流失？如果某一客户可能流失，他会在多长时间内流失。3）客户为什么流失？哪些因素造成了客户的流失，客户流失的重要原因是什么。主要对引起客户流失的诸因素进行预测和分析。4）客户流失的影响？专业技术资料整理 WORD格式可编辑客户流失对客户自身会造成什么影响?客户流失对电信公司的影响如何？对可能流失客户进行价值评估，该客户的价值影响了运营商将要付出多大的成本去保留该客户。5）客户保留措施？针对电信公司需要保留的客户，制定客户和执行保留措施。3.1电信客户流失的类型为了避免由客户流失造成的损失，必须找出那些有流失危险和最有价值的客户，并开展客户保留活动。电信行业的客户流失现象可以分为以下三种情况：1）公司内客户转移：客户转移至本电信公司的不同网络或不同业务。主要是电信公司增加新业务，或者资费调整引发的业务转移，例如从普通的固定电话转至IP电话。这种情况下，虽然就某个业务单独统计来看存在客户流失，并且会影响到公司的收入，但对公司整体而言客户没有流失。2）客户被动流失：表现为电信运营商由于客户欺诈或恶意欠费等行为而主动终止客户使用网络和业务。这是由于电信运营商在客户开发的过程中忽视了客户质量造成的。3）客户主动流失：客户主动流失可分为两种情况。一种是客户不再使用任何一家电信运营商的电信业务；另一种是客户选择了另一家运营商，即所谓的“客户跳网”。“客户跳网”的原因主要是客户认为公司不能提供他所期待的价值，即公司为客户提供的服务价值低于另一家电信运营商。这可能是客户对电信公司的业务和服务不满意，也可能是客户仅仅想尝试一下别家公司提供而本公司未提供的新业务。这种客户流失形式是研究的主要内容。3.2如何进行客户流失分析？专业技术资料整理 WORD格式可编辑对于客户流失行为预测来说，需要针对客户流失的不同种类分别定义预测目标，即明确定义何为流失，进而区别处理。预测目标的准确定义对于预测模型的建立是非常重要的，它是建立在对运营商的商业规则和业务流程的准确把握的基础之上。在客户流失分析中有两个核心变量：财务原因／非财务原因，主动流失／被动流失。对不同的流失客户按该原则加以区分，进而制定不同的流失标准。例如，非财务原因主动流失的客户往往是高价值的客户，他们会正常支付服务费用并容易对市场活动有所响应，这种客户是电信企业真正需要保留的客户。而对于非财务原因被动流失的客户，对于预测其行为的意义不大。研究哪些客户即将流失时，是一个分类问题。将现有客户分为流失和不流失两类，选择适量的历史上流失客户和未流失客户的属性数据组成训练数据集，包括：客户的历史通话行为数据、客户的基础信息、客户拥有的产品信息等。Clementine提供人工神经网络，决策树，logistic回归等模型用于建立客户流失的分类模型。关于流失用户特征的分析，是一个属性约减和规则发现问题。Clementine提供关联分析方法，可以发现怎样的规则导致客户流失。也可以利用Clementine的决策树方法，发现与目标变量——是否流失——关系最为紧密的用户属性。由于不同类型的客户可能具有不同的流失特征，因此，在进行深入的客户流失分析时，需要先进行客户细分，再对细分之后的客户群分别进行挖掘。在预测客户流失时一个很重要的问题是流失的时间问题，即一个客户即将要流失，那么它可能什么时候会流失。生存分析可可以解决这类问题。生存分析不仅可以告诉分析人员在某种情况下，客户可能流失，而且还可以告诉分析人员，在这种情况下，客户在何时会流失。生存分析以客户流失的时间为响应变量进行建模，以客户的人口统计学特征和行为特征为自变量，对每个客户计算出初始生存率，随着时间和客户行为的变化，客户的生存率也发生变化，当生存率达到一定的阈值后，客户就可能流失。分析客户流失对客户自身的影响时，主要可以考虑客户的流失成本和客户流失的受益分析。客户流失成本可以考虑流失带来的人际关系损失等因素，通过归纳客户的通话特征来表征。减少客户流失的一个手段就是增加客户的流失成本。客户流失的受益分析就是判断客户流失的动机，是价格因素还是为了追求更好的服务等。这方面内容丰富，需作具体分析。分析客户流失对电信公司的影响时，不仅要着眼与对收入的影响，而且要考虑其他方面的影响。单个的客户流失对电信公司的影响可能是微不足道的，此时需要研究流失客户群对电信公司收入或业务的影响。这时候可能需要对流失客户进行聚类分析和关联分析，归纳客户流失的原因，有针对性的制定防止客户流失的措施。在预测出有较大流失可能性的客户后，分析该客户流失对电信公司的影响。评估保留客户后的收益和保留客户的成本。如果收益大于成本，客户是高价值客户，则采取措施对其进行保留。至于低价值客户，不妨任其流失甚至劝其流失。总之在利用数据挖掘研究客户流失问题时，需要明确并深入理解业务目标，在明确的业务目标的基础上准备数据、建模，模型评估，最后将模型部署到企业中。专业技术资料整理 WORD格式可编辑3.1案例分析为了举例说明，我们设想为一个虚构的电信公司ABCTelcom的客户流失建模。ABCTelcom原本是市场的领先者，但目前正受到来自其它电信公司日益激烈的竞争。由于竞争对手接连推出了一系列新产品，并进行了大量的促销活动。最近半年来，ABCTelcom的客户流失较为严重。为了保持其战略性市场主导地位，ABCTelcom公司计划开展客户保留活动。在活动进行之前，为了尽可能提高活动收益，ABCTelcom需要对现有的客户的数据进行分析，从众多客户中找出流失可能性高的优质客户并针对其开展活动。而对于流失可能性低或者保留成本大于收益的客户，则可以不展开活动。此外，客户流失预测也能帮助ABCTelcom发现那些申请服务后不久就欠费停机的客户，从而减少这类客户带来的损失。3.2商业理解预测现有客户在未来六个月内流失的概率并分析保留客户活动的成本和收益，针对收益大于成本的客户开展客户保留活动，以减少公司优质客户的流失。3.3数据理解a)专业技术资料整理 WORD格式可编辑数据说明选取一定数量的客户信息（包括流失的和未流失的），选择相关的客户属性（包括客户资料、通话行为特征、消费属性、客服信息等）。利用直方图、分布图等数据分析工具初步确定哪些因素可能影响客户流失。所选取的数据说明如下：1．用户编号2．长途通话时间3．国际通话时间4．本地通话5．掉线次数6．付款方式7．本地话单类型8．长途话单类型9．年龄10．性别11．婚姻状态12．孩子数目13．估计收入14．是否有车15．是否流失其中客户流失状态有三种属性：1．被动流失2．主动流失，这是分析中特别关注的一类客户3．未流失，仍然是ABCTelcom的客户在分析中，我们主要关注的是，主动流失的客户。被动流失对电信公司来说是意义最小的，因为被动流失通常是客户发生欺诈，欠费等行为后不再继续使用该公司服务。主动流失指的是客户停止在ABCTelcom的业务，转向了其竞争对手，这通常是因为别的公司能够提供更切合客户需求的产品服务，是该行关注的焦点。在具体的应用之前，ABCTelcom将所有现有的客户归到上述的三个类别中。同时，所有的人口统计信息（也就是从年龄到是否有车）每六个月更新一次，而交易信息（从长途通话时间到长途话单类型）则是每个月实时更新的。为了让预测模型能预先进行指示以便采取补救措施，在目标变量（因变量）和输入变量（自变量）之间设定了6个月的延迟。比如，人口统计信息和交易信息都是2007年1月收集的，而是否流失则是2007年7月的数据。也就是说，输入变量采集六个月后再将客户流失状态分类；因此该模型提早6个月预测客户流失。b)数据描述和图Clementine提供了一系列数据描述和可视化的工具，可以帮助分析人员对数据分布以及数据之间的关系进行基本探索。这些工具包括：数据审核，统计分析，网络图，直方图，散点图，两步聚类等等。图2.1描述了客户的性别分布。可见，主动流失的客户以女性为主。而被动流失的客户男女比例基本持平。在三种客户状态中，被动流失的比例是最小的。专业技术资料整理 WORD格式可编辑图2.1：用户流失与性别的关系3.数据准备在数据准备阶段，分析人员根据数据理解的结果准备建模用的数据，包括数据选择、新属性的派生，数据合并等。在本例中，由于长途通话时间，国际通话时间和本地通话时间都是反映用户的对电话的使用情况，因此，将三者合并，得到新的通话总时间变量：通话总时间=长途通话时间+国际通话时间+本地通话时间由于用户编号是一个系统自动生成的属性，不具有实际意义，因此，在分析中将用户编号排除到模型之外。4.建立模型将准备的数据划分为训练集和检验集，首先利用C5.0决策树模型进行属性约减，然后以约减后的属性为自变量，以是否流失为因变量，训练神经网络模型，得到相应的客户流失预测模型。对检验集应用该模型，并根据预测结果的准确性评价模型。下图是模型建立和评估的数据流图。图2.2：Clementine中对客户流失建模的数据流图专业技术资料整理 WORD格式可编辑执行数据流，C5.0算法得到的规则集如下图所示。可见其中年龄，收入，国际通话时间，本地通话时间和性别是最重要的五个变量。C5.0得到的规则集里，有三类客户很容易主动流失。但是这只是一个初始的分析结果，还需要使用神经网络对这五个变量进行进一步建模。图2.3：Clementine中对客户流失进行属性约减得到的结果由于我们的关心是客户主动流失，因此派生一个新变量流失概率，如果是否流失属性为主动流失，则取值为1，否则取值为0。采用年龄，收入，国际通话时间，本地通话时间和性别为输入变量，流失概率为目标变量，根据数据集训练得到一个5-1-1结构的神经网络模型信息如下。专业技术资料整理 WORD格式可编辑图2.4：Clementine中采用神经网络对客户流失建模得到的结果5.模型评估和部署对训练集应用神经网络模型，可以对每个客户流失的可能性打分。将客户按照流失概率由大到小排序，然后根据公式：价值=长途通话时间*2+国际通话时间*5+本地通话时间*1派生出每个客户的价值大小。分析客户价值和流失概率之间的关系，对高价值高流失概率的客户进行采取措施，如给与一定的优惠，进行挽留，对低价值的客户可以任其流失。图2.5：模型评估和部署的数据流图图2.6：评分和价值的散点图对高价值高流失概率的客户采取营销活动进行挽留的成本和收益如下图所示。可见，通过及时地发现要流失的客户并根据客户价值及时采取挽留措施，可以避免因客户流失而带来的损失。在验证模型后，可以利用ClementinePublisher发布模型，使得模型可以在多种环境中使用。专业技术资料整理 WORD格式可编辑图2.7：营销活动的成本和收益专业技术资料整理 WORD格式可编辑1.营销响应4.1为什么要进行营销响应分析？为了发展新客户和推广新产品，电信公司通常会针对潜在客户推出各种直接营销活动。然而，如果目标客户的选择不明确，营销活动往往花费巨大而取得的实际效益不佳，甚至可能遭遇由于活动响应率太低而无法收回成本的境况。事实上，一方面，在当今竞争激烈的电信市场上，客户每天通过短信，电话，邮件，电子邮件，网站广告等方式会接触到大量的电信业务广告。缺乏针对性和足够吸引力的营销活动往往会被客户直接忽略。另一方面，电信用户越来越看重个性化服务，对新的电信业务具有较大的需求。为了更好的满足客户需求，许多公司采用了促销活动管理系统来帮助执行促销活动。这些管理系统帮助增加了公司采取的促销活动的数量，却并不一定能改善促销活动的效率。事实上，不合适的促销活动和过多的促销活动只会导致用户对公司的不满意度增加。所以，有效促销活动不在于数量的多少，而在于要在恰当的时机，通过恰当的方式，向恰当的用户推销恰当的产品。也就是说，有效的促销活动，不在于涉及客户的数量多少，而在于针对的都是具有高响应概率的目标人群。这不仅可以提升客户的满意度，增强客户对公司的忠诚度，而且可以降低客户获取费用，增加营销活动投资回报率，直接带来公司效益的增加提高营销响应率的成果是显然的。假设有100000个潜在客户，每客户期望平均收益为￥100元，若我们将响应率提高0.5%，达到1%，则花费同样的市场营销费用，每月能多增加收入￥50000元。4.2营销响应专业技术资料整理 WORD格式可编辑为了发展新客户和推广新产品，企业通常会针对潜在客户推出各种直接营销活动。然而，如果目标客户的选择不明确，营销活动往往花费巨大而取得的实际效益不佳，甚至可能遭遇由于活动响应率太低而无法收回成本的境况。在当今竞争激烈的金融市场上，一方面，客户每天通过短信、电话、邮件、电子邮件、网站广告等方式会接触到大量的金融业务广告，缺乏针对性和足够吸引力的营销活动往往会被客户直接忽略。另一方面，用户越来越看重个性化服务，对新的金融产品具有较大的需求。为了更好的满足客户需求，许多公司采用了促销活动管理系统来帮助执行促销活动。这些管理系统增加了公司采取的促销活动的数量，却并不一定能改善促销活动的效率。事实上，不合适的促销活动和过多的促销活动只会导致用户对公司的不满意度增加。所以，有效促销活动不在于数量的多少，而在于要在恰当的时机，通过恰当的方式，向恰当的用户推销恰当的产品。也就是说，有效的促销活动，不在于涉及客户的数量多少，而在于针对的都是具有高响应概率的目标人群。这不仅可以提升客户的满意度，增强客户对公司的忠诚度，而且可以降低客户获取费用，增加营销活动投资回报率，直接带来公司效益的增加。数据挖掘中的营销响应分析可以帮助达到提高营销活动回报率的目标。4.1什么是营销响应？营销响应模型是电信企业使用最频繁的一种预测模型。目标变量是预测谁会对某种产品或服务的宣传进行响应，因变量是客户及其行为的各种属性，如：客户年龄，客户收入，客户最近一次购买产品的时间，客户最近一个月的购买频率等。利用响应模型来预测哪些客户最有可能对营销活动进行响应，这样，当以后有类似的活动时，利用响应模型来预测出最有可能的响应者，从而对他们采取相应的营销活动。而对响应度不高的客户就不用对他们进行营销活动，从而减少活动成本，提高投资回报率。4.2如何提高营销响应率？电信公司应当在深入了解客户需求和客户特征的基础上，制定营销策略，从而达到增加营业收入和客户满意度的双重目标。我们提倡的不是针对最佳的客户群展开营销活动，而是针对每一个客户开展活动。所谓“知己知彼，百战不殆”，建立在对客户需求良好把握基础之上极具针对性的营销将极大地提高营销活动的成功率。要开展这样的营销活动，首先需要回答以下几个问题：对谁开展营销活动?专业技术资料整理 WORD格式可编辑多长时间开展一次营销活动?何时开展营销活动?如何开展营销活动?电信公司在数据挖掘技术的帮助下，针对客户数据建立营销响应模型，在合适的时间，通过合适的渠道，以一种合适的接触频率，对合适的客户开展活动，从而提高营销活动的响应率和投资回报率。图3.1：营销活动的四个要素1)选择合适的客户电信公司对以往的营销数据进行分析，采用决策树分类等数据挖掘方法，识别出具有高响应率特征的客户作为营销活动的目标客户。通过选择合适的客户，可以排除对促销活动反应不积极的客户，将目标客户的数量大大减小，从而在实现更有针对性地营销的同时减小营销成本。据统计，通过减小目标客户的数量，通常可以节省25-40%的营销费用，同时增加营销响应率。2)选择合适的渠道第二步是要针对用户选择合适的营销渠道，也就是和客户接触的方式。通过使用每个用户偏爱的方式与之接触，也有利于提升客户响应率。在确定促销渠道时，要考虑客户对渠道的偏爱，渠道成本，期望的响应率，其他营销限制条件等。3)选择合适的时间在当今竞争激烈的社会里，客户有很多满足自己需求的机会和选择。因此，一旦发现了客户尚未被满足的需求或者出现遗失客户风险时，一定要及时和客户接触。这种事件驱动的促销方式，通常也可以取得较高的响应率。4)专业技术资料整理 WORD格式可编辑选择合适的活动频率此外，并不是促销活动越多，效果越好。活动计划者需要根据实际情况，针对具体的客户，选择一个最优的活动次数，既使得客户的各种需求得到较好的满足，又避免因为过于频繁的接触而导致客户的反感。同时，过多的营销活动，也会增加营销成本。需要在提高的成本和提高的响应率带来的收益之间寻找一个最优点。客户自身的偏好对于营销活动的频率确定也至关重要，比如，对于不喜欢过于频繁的接到促销电话的客户，就要适量降低电话促销的频率。通过选择更有针对性地选择客户和根据客户的需求和偏好来推广促销活动，可以将促销活动的投资收益率提高25%—50%。表3.1：营销活动过程阶段1．合适的客户2．合适的渠道3．合适的时间4．合适的营销频率目标为营销活动选择最佳客户为目标客户选择最优营销方式在合适的时间对目标客户开展营销确定最适合客户的营销频率方法预测分析渠道优化事件营销促销优化策略预测谁是最有可能响应营销并且能给营销活动带来收益的客户在客户偏爱的方式和公司的成本与能力之间选取最优结合点变小的，经常性的营销活动为事件触发的营销活动在客户响应率和公司收益之间选择最佳结合点好处降低25%-40%的营销成本降低接触客户的成本响应率的提高至少达到两倍提高25%-50%的收益4.1案例分析为提升业绩，某电信公司要决定执行直接营销活动。为此，分析人员需要识别出可能回应直接营销活动的客户，从而展开有针对性的直接营销。1．商业理解识别出可能回应直接营销活动的客户，提高营销活动的响应率。2．数据理解收集部分以往的营销活动数据（包括对活动响应的客户数据和未对活动响应的客户数据），选择客户属性，包括客户人口统计学特征和账户信息等。利用直方图、分布图来初步确定哪些因素可能影响客户响应。所选取的数据属性包括：编号，年龄，收入，孩子数目，是否有汽车，是否抵押贷款，居住区域，性别，婚姻状况，在该银行是否有储蓄帐户，在该银行是否有活期账户，是否对促销活动响应等12个字段。其中是否响应是预测的因变量，共有两个属性：否：客户未响应营销活动是：客户响应营销活动专业技术资料整理 WORD格式可编辑图3.2：数据首先采用直方图，散点图等工具对数据之间的关系进行初步探索。下图是按照响应与否察看收入与孩子数目之间的散点图。可见，如果只考虑“孩子数目”属性，发现随着孩子数目增加，响应的客户比率降低。同时考虑“孩子数目”和“收入”属性，发现响应比率与“收入”和“孩子数目”的比值相关，这个比值通常被成为“相对收入”。图3.3：收入与孩子数目的散点图专业技术资料整理 WORD格式可编辑下图是孩子数目的分布图。有一个孩子的客户占44.3%。而在这些客户中，大部分是对直接营销活动进行响应的客户。总的说来，随着孩子数目增加，客户响应率降低。图3.4：孩子数目的分布图（3）数据准备根据数据理解的结果准备建模需要的数据，包括数据选择、新属性的派生，数据合并等。在数据理解中发现，是否响应与“收入”和“孩子数目”的比率有关，因此，派生出“相对收入”属性，定义为：如果“孩子数目”为0，则“相对收入”＝“收入”；否则，“相对收入”＝“收入”/“孩子数目”。（4）建立模型及评估对数据进行预处理之后，分别使用C5.0决策树模型，神经网络模型，C&RT决策树分类模型，以客户属性为输入变量，以客户是否响应为目标变量进行分类。然后对测试集分别应用这三个模型，选取效果最好的模型部署到企业中。图3.5：部分数据流图使用C5.0决策树对是否响应建模，发现与客户响应相关的共有4条规则，与客户不响应相关的共有8条规则。响应的客户有如下特点：有孩子，相对收入大于49997元；或者有孩子，有车，居住在郊区，在该银行开有储蓄账户，相对收入大于25563元；或者是年龄大于45岁，没有抵押贷款，在该银行开有储蓄账户，相对收入大于25563元；或者是年龄大于45岁，没孩子，没贷款，收入小于25563元。专业技术资料整理 WORD格式可编辑图3.6：C5.0决策树分类结果神经网络模型在输入层、隐藏层和输出层分别有20个、3个和2个神经元。此外，最重要的输入变量包括（按照重要性降序排列）：相对收入，孩子数目，收入等。其估计精度达到了87.77%。图3.7：神经网络的输出结果专业技术资料整理 WORD格式可编辑使用C&RT对是否响应建模，得到的规则包括：当相对收入小于25564.5元时，客户倾向于不响应；当相对收入大于25564.5元，孩子数目小于等于0.5（需根据实际业务情况进行解释），没有抵押贷款，且年龄小于等于45时，倾向于不响应；当收入大于25564.5元，孩子数目小于等于0.5，没有抵押贷款，且年龄大于45的客户响应率高。图3.8：C&RT分类结果之后使用测试集评估不同模型的表现。下图给出了模型评估的结果。其中是否响应表示目标变量的真实值，$C-是否响应代表使用C5.0模型得到的目标变量预测值，$N-是否响应代表使用神经网络模型得到的目标变量预测值，$R-是否响应代表使用C&RT模型得到的目标变量预测值，可见，这三个模型中，C5.0的预测精度是最高的，达到了95.29%以上。最后，还可以查看不同模型预测结果的一致性。图3.9：模型评估（5）模型部署专业技术资料整理 WORD格式可编辑通过建模和评估后，选择预测精度最高的C5.0模型部署到企业中。新的用户数据在经过C5.0模型评分后，按照流失概率的高低排序，通过ClementineSolutionPublisher发布。图3.10：模型部署数据流图最后发布的结果如下表所示。评分就是某个客户流失的概率大小。图3.11：对新数据进行评分专业技术资料整理 WORD格式可编辑1.客户细分5.1客户细分的背景随着电信体制改革的深化，中国加入WTO，我国电信运营业的竞争也日趋激烈。现今，“个性化”营销、“一站式”服务、沟通“零距离”、“用户至上，用心服务”等词眼层出不穷。综合来说，这些与营销和服务相关的术语、理念，对象都是电信客户。服务源于良好的营销，因此，客户关系最终决定了电信市场营销。我国电信业发展到今天，不仅初步形成六大运营商同台竞技的市场格局，而且从“卖方市场”转向“买方市场”，决定了客户关系的“大一统”必然向细分客户关系和“个性化”营销和服务的转变。因此，细分客户关系是电信营销的关键所在，客户细分可以对客户获取、客户保持、客户增值等提供全面的支持。恰当的细分标准必须得到有效的细分方法的辅佐，细分方法的选取应该取决于细分的目的和主题，当目的明确时可以选取若干细分标准而后进行多维细分，但当运营商着眼于更广泛的消费者特性分析时，这种主观定义的细分方法就显得力不从心，数据挖掘方法相比于基于统计的客户细分方法的功效就强大得多，运营商对数据挖掘的重视程度也日益加深。基于数据挖掘技术的分类方法，为更深入的客户细分提供有效的手段。与其他行业相比，中国电信运营业拥有更多有关用户的数据。谁能正确地挖掘与分析隐含这些数据中的知识，谁就能更好地向用户提供产品与服务，能够发现更多的商机，从而在竞争中获胜。5.2客户细分的概念客户细分的概念是美国市场学家温德尔?史密斯(wendeiiR．Smith)于2O世纪5O年代中期提出来的。客户细分(CustomerSegmentation)是指按照一定的标准将企业的现有客户划分为不同的客户群。客户细分是客户关系管理的核心概念之一，是实施客户关系管理重要的工具和环节。Suzanne专业技术资料整理 WORD格式可编辑Donner认为：正确的客户细分能够有效地降低成本，同时获得更强、更有利可图的市场渗透。通过客户细分，企业可以更好地识别不同客户群体对企业的价值及其需求，以此指导企业的客户关系管理，达到吸引合适客户，保持客户，建立客户忠诚的目的。所谓客户细分主要指企业在明确的战略、业务模式下和专注的市场条件下，根据客户的价值、需求和偏好等综合因素对客户进行分类，分属于同一客户群的消费者具备一定程度的相似性，而不同的细分客户群间存在明显的差异性。客户细分的理论依据主要有：(1)客户需求的异质性。影响消费者购买决策因素的差异决定了消费者的需求、消费者的消费行为必然存在区别。因此可以根据这种差异来区分不同的客户，客户需求的异质性是进行客户细分的内在依据。(2)消费档次假说。随着经济的发展和消费者收入水平的提高，消费量会随之增加。但消费量的增加并非线性增长，而是呈现出区间性台阶式的变化形式，一旦消费者达到某种消费层次之后，消费变化的趋势将变得非常平缓。根据消费档次假说，消费者的消费档次或消费习惯在一段时期内是相对稳定的，这就为通过消费行为来划分消费群体提供了理论前提和基础。(3)企业资源的有限性和有效市场竞争的目的性。资源总是希缺的，由于缺乏足够的资源去应对整个客户群体，因此必须有选择地分配资源。为了充分发挥资源的最大效用，企业必须区分不同的客户群，对不同的客户制定不同的服务策略，集中资源服务好重点客户。(4)稳定性。有效的客户细分还必须具有相对的稳定性，足以实现在此基础上进行的实际应用，如果变化太快，应用方案还未来得及实施，群体就已面目全非，这样的细分方法就显得毫无意义。5.1客户细分模型专业技术资料整理 WORD格式可编辑客户群细分的目的是为了选择适合企业发展目标和资源条件的目标市场。客户细分模型是指选择一定的细分变量，按照一定的划分标准对客户进行分类的方法。一个好的细分模型，首先是要满足细分深度的要求，不同的使用者对客户细分的深度也有不同的要求，这就要求模型划分的结果能满足不同使用者的需要。其次是对数据的处理能力和容错能力，现代数据库的存储容量越来越大，数据结构也趋于多样性，误差数据也会随之增多，这就要求模型能适应数据在量和样上的膨胀，对误差数据能做出判别和处理。最后是模型要有很强的适用能力，变化是绝对的，而稳定只是相对的，无论是个人消费者还是消费群体，他们的消费行为都是在变化的，这就要求模型对客户的细分标准要随新的情况而不断更新。在对客户进行细分的方法中，除了传统的按照客户基本属性进行分类的方法以外，还有其他多种客户细分模型，如基于客户价值贡献度的细分模型、基于不同需求偏好的细分模型和基于消费行为的细分模型。基于消费者消费行为的客户细分模型研究，主要是以消费者的购买频率、消费金额等为细分变量，如RFM模型和客户价值矩阵模型。(1)RFM模型。RFM细分模型是根据消费者消费的间隔、频率和金额三个变量来识别重点客户的细分模型。R—recency指客户上次消费行为发生至今的间隔，间隔越短则R越大；F—frequency指在一段时期内消费行为的频率；M—monetary指在某一时期内消费的金额。研究发现，R值越大、F值越大的客户越有可能与企业达成新的交易，M越大的客户越有可能再次响应企业的产品和服务。(2)客户价值矩阵模型。客户价值矩阵模型是在对传统的RFM模型修正的基础上提出的改进模型。用购买次数F和平均购买额A构成客户价值矩阵，用平均购买额替代了RFM模型中存在多重共线性的两个变量，消除了RFM模型中购买次数和总购买额的多重共线性的影响。在客户价值矩阵中，确定购买次数F和平均购买额A的基准是各自的平均值，一旦确定了坐标轴的划分，客户就被定位在客户价值矩阵的某一象限区间内。依据客户购买次数的高低和平均购买额的多少，客户价值矩阵将客户划分成四种类型，即乐于消费型客户、优质型客户、经常客户和不确定客户，如图4.l所示。图4.1：客户价值矩阵客户细分并没有统一的模式，企业往往根据自身的需要进行客户细分，研究目的不同，用于客户细分的方法也不同。总的来讲，客户细分的方法主要有四类，一、基于客户统计学特征的客户细分；二、基于客户行为的客户细分；三、基于客户生命周期的客户细分；四、基于客户价值相关指标的客户细分。专业技术资料整理 WORD格式可编辑5.1客户细分模型的基本流程客户细分包括六个基本流程：第一步：理解业务需求。在未来的业务中，知道谁是客户是个非常好的起始点，以了解瞬息万变的市场环境。清楚地了解客户也是对每个客户组采取有针对性措施的基础。客户细分就是根据其特征将相似的客户归组到一起，这是了解客户和针对特定客户组进行市场定向所不可缺少的。客户细分可根据许多不同条件而进行。这些条件可由简单的年龄、性别、地理位置或这些变量的组合来构成。当这些条件变得越来越复杂时，数据挖掘技术就应运而生了。决定使用哪些条件取决于客户细分的目的和应用方法。在使用数据挖掘开发客户细分时，最重要的部分是其结果应当在业务远景中意义深远，并且能够在实际业务环境中进一步得到应用。需要记住的一点是：由于市场环境是动态变化的，细分建模过程应当是重复性的，且模型应随着市场的变化而不断革新。第二步：选择市场细分变量。由于变量选择的优劣对细分结果质量的影响非常显著，所以变量选择应该建立在理解业务需求的基础之上，以需求为前提，在消费者行为和心理的基础上，根据需求选择变量。此外，变量的选择还应该有一定的数量，多了不好，少了也不好。第三步：所需数据及其预处理。为创建数据模型，必须使用收集到的原始数据，并将其转换成数据模型所支持的格式。我们称这个过程中的这个阶段为初始化和预处理。在运营商中进行客户行为细分通常需要行为数据和人口统计数据等类型的数据。行为数据是客户行为，可通过运营商的事务数据(账单数据、详单数据、CDR数据等)而捕获。人口统计数据是当客户首次启用其通话服务时，他们会将客户人口统计数据(如年龄、性别、工作等)提供给运营商，这在识别或描述客户组的特征时很有用。第四步：选择细分技术。目前，通常采用聚了技术来进行客户细分。常用的聚类算法有K-means、两步聚类、Kohonen网络等，可以根据不同的数据情况和需要选择不同聚类算法来进行客户细分。第五步：评估结果。在对用户群进行细分之后，会得到多个细分的客户群体，但是，并不是得到的每个细分都是有效的。细分的结果应该通过下面几条规则来测试：与业务目标相关的程度；可理解性和是否容易特征化；基数是否足够大，以便保证一个特别的宣传活动；是否容易开发独特的宣传活动等。第六步：应用细分模型。根据客户细分的结果，市场部门制定合适的营销活动，进行有针对性的营销。专业技术资料整理 WORD格式可编辑总之，客户细分是电信运营商与用户二者实现双赢的重要举措。目前用户需求呈现多样化、个性化的趋势，只有通过深入分析用户消费行为，精确识别、细分用户市场，开发出针对不同层次用户的服务品牌进行服务营销，方能使得各方价值发挥到最大，实现共赢。不同级别的客户对服务的需求以及“赢”的概念是不同的，正是因为为不同的客户提供不同的服务才能使客户都达到满意，从而在市场上占据有利地位。5.1细分方法介绍在数据挖掘中，往往通过聚类分析的方法来实现细分。聚类分析方法至少有以下几类：1．K-Means聚类法。使用者需要首先确定数据分为K群，该方法会自动确定K个群的中心位置，继而计算每条记录距离这K个中心位置的距离，按照距离最近的原则把各个记录都加入到K个群，重新计算K个群的中心位置，再次计算每条记录距离这K个中心位置的距离，并把所有记录重新归类，再次调整中心位置，依次类推……，达到一定标准时，结束上述步骤。这种方法运算速度快，适合于大数据量。2．两步聚类法：这种方法首先需要确定一个最大群数（比如说n），并把数据按照一定的规则分为n个群，这是该方法的第一步。接着按照一定的规则把n个群中最接近的群进行归并，当达到一定的标准时，这种归并停止，这就是该种方法最终确定的聚类群数（比如说m），这是第二步。两步聚类法的一个显著优点是可以不指定聚类群数，它可以根据据结构本身自动确定应该把数据分为多少群。3．Kohonen网络聚类法：是运用神经网络的方法对数据进行细分的数据挖掘方法。5.2客户细分实例假设某电信运营商拥有以下数据：帐户明细综合帐，存放的是帐户级费用和SI级的费用，包括应收帐、已欠账、调帐。时间为2006年11月到2007年3月。字段信息如下表所示：1．费用标识2．费用类型3．已销帐金额专业技术资料整理 WORD格式可编辑4．当前欠费5．帐户标识6．本地网标识7．表示费用产生时费用所属营业点8．转入总费用9．使用费原始费用10．总发生费11．总调帐费用12．原始新产生费用13．转出总费用14．补退费金额15．账目类型16．客户标识费用类型说明表，包括以下字段：1．费用标2．费用名3．ARPU状4．费用类型假设该电信运营商希望更深入地了解小灵通客户的情况，建立更为有效的市场营销战略来给小灵通客户推销其电信产品。首先根据维度表费用标识字段，选择小灵通客户的信息，包括上网通信费、区间通话费、区内通话费、国内长途、国际长途、电话信息、来电显示、短信，根据费用说明表中的ARPU值以及费用类型字段区分上述几种业务情况。我们将帐户综合明细帐，和费用类型说明中的数据根据客户标识进行合并，得到小灵通客户的费用和费用类型信息。数据流如下：专业技术资料整理 WORD格式可编辑图4.2：数据理解数据流重新结构化数据，并对每个客户每种类型的费用进行汇总，超级节点分别派生出本地话费、增值业务、国内长途、国际长途的数据，得到建模需要的数据：图4.3：数据准备数据流利用客户的交费记录，使用聚类算法，自动生成多个类别（如5档）。这样不仅能对小灵通客户有初步的认识，也能够为后续分析，如进行客户金字塔分析建立初步的分析基础。根据上述数据，对小灵通客户五种不同类型业务的消费情况进行聚类，找出具有相似消费倾向的客户。专业技术资料整理 WORD格式可编辑图4.4：两步聚类结果从分析的结果可以看出：Cluster-1和Cluster-2中的客户基本上都是低价值的客户，Cluster-3中的客户在每个类型的服务中消费都比较高，即高价值客户。为了更好的发现高价值客户的特征，我们对Cluster-3中的客户进一步聚类，结果如下：图4.5：高价值客户聚类从结果看出，X=0,Y=0的客户，增值业务消费较高，X=0,Y=2的客户，上网通信消费较高，而X=3,Y=2的客户使用小灵通的目的主要是打电话。专业技术资料整理 WORD格式可编辑1.客户满意度6.1结构方程模型用于客户满意度测评中的应用由于客户满意度研究对企业的重大指导作用，科学高效的研究方法和手段将成为满意度研究机构的核心竞争力，其研究成果将为提高整个社会的整体满意水平，指导企业更加合理地配置资源提供科学决策依据。而结构方程模型越来越被业界认可为“满意度研究的科学高效的研究方法和手段”，成为进行满意度研究必不可少的工具。目前，美国用户满意指数（ACSI）、瑞典用户满意指数、欧洲用户满意指数、中国用户满意指数（CCSI）等国家级用户满意度研究都是采用结构方程模型构建关系。一个有效实用的客户满意度研究结构方程模型的构建，需要对客户需求和感知的深入研究，通过大量的前期工作，比如客户焦点小组访谈、客户需求分解、客户预调查、行业专家拜访、购买消费现场观察等多种手段，才能构建起一个基础模型。然后通过消费者试调查，采集到一定的数据后，对数据进行多种统计处理、分析和检验，根据相应的结果对模型进行必要的调整，然后才能应用到实际的客户满意度分析当中去。否则的话，随意构建的模型只能成为使得数字游戏显得高深莫测的工具。下图是运用结构方程模型来研究满意度模型的的整个过程和大致思路：图6.3：利用结构方程模型进行满意度研究过程和思路在满意度研究中常用的结构方程模型示例专业技术资料整理 WORD格式可编辑图6.4：满意度模型框架示例6.1满意度研究在金融行业中的应用中国加入WTO梦已成真，各行各业的市场竞争更加激烈，特别是电信行业，将面临与日俱增的的市场压力、更精明的竞争对手和更苛刻的消费者。中国通信行业正从快速增长阶段迈入平稳成长阶段，服务质量已经成为企业的核心竞争力。因而电信运营商市场营销工作的重点不仅仅是吸引新用户，突出价格策略的重要性，而是要将如何维护老用户作为市场营销工作新的重点，从而服务策略的重要性逐渐突现。目前市场上的价格竞争将逐渐过渡到服务竞争。移动与联通已经形成了较为激烈的竞争格局，随着电信、网通等国内运营商及国外运营商进入移动通信市场，这种竞争愈演愈烈。电信运营商能否在如此严峻的经营环境下顺利发展，关键因素在于能否站在消费者的角度考虑产品和服务，消费者是否满意其提供的产品或服务。“客户满意”越来越成为众多电信运营商已经意识和正在努力提高的经营指标，成为运营商工作的重点。下面借某电信运营商在某省的满意度研究案例，介绍如何应用结构方程模型进行满意度研究。6.2研究目标专业技术资料整理 WORD格式可编辑该电信运营商期望通过客户满意度研究了解：不同品牌客户和集团客户对该公司的整体服务工作的满意度评价，以及不同品牌客户对本公司各商业流程环节上的服务感受及满意度水平，并了解不同品牌客户对本公司的忠诚度。同时判断当前业务、服务工作中存在的主要问题。重点围绕各个商业过程，有针对性地发现问题，从而改善服务短木板。通过满意度指数，比较各地市分公司的服务工作差异，以便为省公司的考核提供依据。进行与竞争对手CSI测评的比较分析，确定该省电信运营商客户服务工作中有待改善的地方，并以绩优区域为标杆，不断提高和推动该省该电信运营商的用户满意度。预测今后的业务、服务竞争趋势，制定应对竞争的一系列策略和方案。6.1研究过程本研究中的结构方程的满意度模型在本研究中，各方面满意度的研究（如不同品牌客户和集团客户对整体服务工作的满意度、不同品牌客户对各商业流程环节上的满意度等等）都是基于图5.3所示的满意度框架模型，只是在不同的满意度分析时具体的观测指标有些变动（如不同品牌相应的商业过程的指标）。图5.3：某省电信运营商的满意度研究的框架模型满意度模型框架示例6.2满意度研究的结果分析根据图5.3所示满意度理论模型及潜在变量对应的观测变量，分别建立不同品牌满意度模型。在不同品牌的客户满意度理论模型得到验证后，就可利用调查数据计算得出客户的总体满意程度及各分项满意程度。6.3结论专业技术资料整理 WORD格式可编辑最终本次满意度研究获得了圆满成功，给电信运营商提出了有建设性和可执行的满意过改进和提升客户忠诚度的改进计划。具体包括：6.1客户总体满意度1.图5.4给出了基于图5.3所示的满意度模型及调查结果得出的该运营商各品牌及其竞争对手的总体满意度指数。图5.4运营商及其竞争对手各品牌客户的总体满意度指数2.图5.5给出了基于图5.3所示的满意度模型及调查结果得出的该运营商及其竞争对手各地区各品牌的总体满意度指数。3.从图5.4，可以看在该省电信运营商的各品牌及客户群中，品牌1-4客户的满意度处于高水平并比较接近，与去年相比，该电信运营商各品牌的服务水平比较稳定。只有品牌5客户满意度水平显得较低。4.与竞争对手比较，该运营商继续保持较高的服务领先优势。品牌3、4的满意度明显高于竞争对手的品牌A、B；客户忠诚度比竞争对手高15个左右百分点；但对手品牌B对品牌2、小灵通对品牌1的离网风险比去年有较大增加。小灵通对品牌1、2客户的蚕食现象也显著增加。5.从图5.5可以看出该省部分市区的客户总体满意度仍然较低，个别地区尤其明显。6.2各品牌主要商业过程满意度及服务改进策略?各品牌主要商业过程总体满意度（以下以品牌1、2说明）品牌1：专业技术资料整理 WORD格式可编辑品牌2：全省服务改进方向根据研究结果，我们为该运营商提出全省的服务改进建议，如下： 6.1各品牌主要商业过程的具体满意度及改进策略研究中主要围绕网络服务、服务厅服务、热线服务、缴费充值服务、梦网服务、优惠活动、网站服务满意度这些主要商业过程的提出了满意度的具体改进策略，如对于网络服务的满意度和具体改进策略，有如下结果网络服务满意度水平及改进策略总体上，客户网络方面总体满意度较高，其中最高的是品牌3、品牌5相对偏低；与竞争对手比较，网络服务总体满意度具有明显优势。在通话质量方面明显高于竞争对手；总体上在绝大部分场合的网络信号都处于中高水平，但在山区的信号满意度较低；专业技术资料整理 WORD格式可编辑对于不同场合拨打电话无法接通率，总体上室内的无法接通率最高，其中品牌2的室内无法接通率较高，超过50%；品牌3-5的无法接通率相对较低。竞争对手的无法接通率与品牌2较为接近，对手品牌A的无法接通率大于对手品牌B。对于网内网间通话无法接通率方面，自身各品牌客户打竞争对手品牌的客户手机时无法接通率较高，品牌2尤其较高；而竞争对手客户打市话或该运营商时无法接通率较高。对于掉话率，品牌1、2的掉话率高于品牌3-5（品牌2更高），室内的掉话率高于室外，室内掉话率较高的有品牌2（51%），竞争对手的掉话率也达40%以上。对于短信故障率方面，短信发送不成功发生率较高（品牌5与品牌1最为明显），其次是短信发送成功但对方较长时间才收到；品牌5在短信故障率方面发生率最高。各品牌客户对网络质量不满意的地方主要是信号差，其次是网络覆盖不广；品牌2不满的地方还表现在通话不稳定/易断线，品牌1则是难接通/接通率低，品牌5则是信息接收不好/慢；竞争对手在各方面的不满的比例更高。图5.6客户对网络方面总体满意度专业技术资料整理 WORD格式可编辑1.忠诚度7.1忠诚度水平与性质各品牌忠诚度自身各品牌忠诚度都较高，各品牌中忠诚度最高的是品牌2的客户（89.8%），最低的是品牌5的客户（83.7%）；总体上，自身品牌客户的忠诚度高于竞争对手的品牌；竞争对手两品牌的忠诚度都为75%。忠诚度细分模型说明：根据忠诚度和满意度的不同，我们将客户共分成四大类型：安全羊、劝服者、异动者、流动者。图5.7?忠诚度细分：模型说明1）安全羊（高满意度高忠诚度）：当前品牌的重要客户群。他们对该品牌产生了服务固化的态度。2）劝服者（高满意度低忠诚度）：专业技术资料整理 WORD格式可编辑有一定现存风险的客户，对服务有较高的满意程度，但没有强化他们的忠诚度，可能与他们喜欢尝新事物的兴趣、竞争对手的吸引等有关。3）异动者（低满意度高忠诚度）：有一定潜在风险的客户，对服务不满意，但仍表示将继续使用服务，可能与目前市场环境如运营商的选择数量有限有关。如果市场环境没有改变，这类客户不会流失。4）流失者（低满意度低忠诚度）：这类客户属于高现存风险的客户，他们对所属运营商的服务不满意，并表示不想继续使用服务。自身品牌的安全羊比例明显高于竞争对手；自身品牌中，品牌5客户的流失者与异动者较高。与去年相比，今年品牌3-5的客户的异动者（无奈的忠诚）比例有明显增加，一旦市场出现新的运营商或网络品牌，这部分不稳定客户将释放较大的离网风险。不同忠诚度类型客户的满意度：将不同忠诚度的四种客户进行分析发现：各品牌安全羊的满意度都达85分以上，满意度较高的是品牌3、4；各品牌劝服者的满意度都达84分以上；各品牌异动者与流失者的满意度都低于60分；大客户的流失者满意度更低。图5.8各品牌忠诚度类型专业技术资料整理 WORD格式可编辑表5.1：不同忠诚度类型客户的满意度7.1离网与蚕食风险短期离网风险品牌1、2客户的主要流失方向是竞争对手与小灵通；品牌3-5客户的主要流失方向为内部流动，流向自身的其它品牌；竞争对手客户的主要流失方向是品牌1、4。品牌2，转向竞争对手的比例较高；品牌1，转向对手品牌A与自身品牌4的比例较高；品牌5，转向品牌4的比例最高；品牌4，主要转向自身的其它品牌；品牌3，转向品牌4的比例最高。与去年比较离网风险比较与去年比较，潜在流失客户有变化，转向品牌1的客户在减少，转向品牌4的客户在增加，具体如下：?品牌2：转向对手品牌2的比例上升；?品牌1：转向小灵通的比例上升；?品牌5：转向品牌1的比例上升；?品牌4：转向品牌1的下降，转向品牌3比例的上升；?品牌3：转向品牌1的下降，转向品牌4比例的上升；?对手品牌：转向品牌1的下降，转向品牌4比例的上升?蚕食风险?自身及竞争对手的品牌都面临被小灵通蚕食的危险，品牌1受小灵通品牌蚕食最大，品牌3-5客户受小灵通蚕食较小；品牌1、2主要被竞争品牌蚕食，品牌3-5主要表现为“网内”蚕食。与去年比较被蚕食的风险比较专业技术资料整理 WORD格式可编辑自身及竞争对手的品牌被小灵通蚕食的比例都在上升，被小灵通蚕食最为严重的是品牌1、1；自身品牌中，品牌4、5被品牌3蚕食的比例上升；品牌1、5被品牌4蚕食的比例上升。7.1提升策略基于以上的忠诚度分析结果，研究中对各个品牌分别针对不同的忠诚度类型的客户提出了具体的服务改进策略，以提高忠诚度。下面以品牌1为例说明。品牌1 图5.9品牌1忠诚度提升策略专业技术资料整理 WORD格式可编辑1.CRISP-DM简介在1996年，当时数据挖掘市场是年轻而不成熟的，但是这个市场显示了具有爆炸式增长的潜力。三个在这方面经验丰富的公司DaimlerChrysler、SPSS、NCR发起建立一个社团，目的建立数据挖掘方法和过程的标准。在获得了EC（EuropeanCommission）的资助后，他们开始实现他们的目标。为了征集业界广泛的意见共享知识，他们创建了CRISP-DMSpecialInterestGroup（简称为SIG）。大概在1999年，SIG（CRISP-DMSpecialInterestGroup）组织开发并提炼出CRISP-DM（CRoss-IndustryStandardProcessforDataMining），同时在Mercedes-Benz和OHRA（保险领域）企业进行了大规模数据挖掘项目的实际试用。SIG还将CRISP-DM和商业数据挖掘工具集成起来。SIG组织目前在伦敦、纽约、布鲁塞尔已经发展到200多个成员。SIG组织已经发布了CRISP-DMVersion1.0ProcessGuideandUserManual的免费使用电子版。当前CRISP-DM提供了一个数据挖掘生命周期的全面评述。它包括项目的相应周期，其中各自任务和这些任务之间的关系。当前这个数据挖掘的程序模型，为数据挖掘项目的生命周期提供了一个综合的描绘。它包括了一个数据挖掘项目所要经历的各个阶段，各阶段的任务以及这些任务之间的相互关系。从描绘的层面来看，是不可能鉴别出所有这些任务之间的关系的。但本质上看，这些任务之间是否存在关系，取决于使用者的目的，背景及其利益所在，与此同时，更重的还在于数据。数据挖掘项目的生命周期由六个阶段组成。如图展示了这一数据挖掘过程的各个阶段，这些阶段之间的顺序并不固定，在不同阶段之间来回反复往往是非常有必要的。究竟下一步要执行哪个阶段或者哪一个特定的任务，都取决于每一个阶段的结果。图中的箭头表明了阶段之间最重要和最频繁的依赖关系。图中最外层的这个循环表明了数据挖掘本身的循环性质。经过一个具体的数据挖掘项目得到了某项解决措施或方法并加以展开，并不代表数据挖掘本身已经结束。从这一数据挖掘过程以及解决措施展开的过程中所吸取的经验、教训，又引发了新的，通常是更加焦点的商业问题。接下来的数据挖掘过程将会从过去的项目经验中获利。在接下来的内容中，我们将简要的勾勒一下每个阶段的轮廓：专业技术资料整理 WORD格式可编辑图6.1：数据挖掘方法论流程示意图商业理解这一初始阶段主要集中在对项目目标的理解，以及从商业角度考虑，对客户需求的理解。进而把这些理解转化为一个数据挖掘的定义和为了达到目标的初步方案。数据理解数据理解阶段开始于数据的收集工作。接下来就是熟悉数据的工作，具体如：检测数据的质量，对数据有初步的理解，探测数据中比较有趣的数据子集，进而形成对潜在信息的假设。数据准备数据准备阶段涵盖了从原始粗糙数据中构建最终数据集（将作为建模工具的分析对象）的全部工作。数据准备工作有可能被实施多次，而且其实施顺序并不是预先规定好的。这一阶段的任务主要包括：制表，记录，数据变量的选择和转换，以及为适应建模工具而进行的数据清理等等。建模在这一阶段，各种各样的建模方法将被加以选择和使用，其参数将被校准为最为理想的值。比较典型的是，对于同一个数据挖掘的问题类型，可以有多种方法选择使用。一些建模方法对数据的形式有具体的要求，因此，在这一阶段，重新回到数据准备阶段执行某些任务有时是非常必要的。评估专业技术资料整理 WORD格式可编辑数据分析的角度考虑，在这一阶段中，您已经建立了一个或多个高质量的模型。但在进行最终的模型部署之前，更加彻底的评估模型，回顾在构建模型过程中所执行的每一个步骤，是非常重要的，这样可以确保这些模型是否达到了企业的目标。一个关键的评价指标就是看，是否仍然有一些重要的企业问题还没有被充分地加以注意和考虑。在这一阶段结束之时，有关数据挖掘结果的使用应达成一致的决定。部署Bank模型的创建并不是项目的最终目的。尽管建模是为了增加更多有关于数据的信息，但这些信息仍然需要以一种客户能够使用的方式被组织和呈现。这经常涉及到一个组织在处理某些决策过程中，如在决定有关网页的实时人员或者营销数据库的重复得分时，拥用一个能够即时更新的模型。然而，根据需求的不同，部署阶段可以是仅仅像写一份报告那样简单，也可以像在企业中进行可重复的数据挖掘程序那样复杂。在许多案例中，往往是客户而不是数据分析师来执行部署阶段。然而，尽管数据分析师不需要处理部署阶段的工作，对于客户而言，预先了解需要执行的活动从而正确的使用已构建的模型是非常重要的。8.1数据挖掘经验谈采用CRISP-DM方法论采用CRISP-DM方法论作为数据挖掘的指导能帮助确保获得成功的商业结果。在现实中对于一个数据挖掘项目来说，最初设定的商业目标很容易淹没在复杂数据挖掘技术和海量数据中，所以以一个已经被验证方法论为指导是很关键的。以终为始为了能在项目终结时得到期望的ROI（ReturnOnInvestment，投资回报率），你应该在项目启动前已经确定了如何评估最终的结果的标准（例如：使用什么样的商业考核指标，它们是被如何计算或派生的）。例如你是不是想在20%的客户中找寻潜在流失者？基于客户保留计划的消费和营销反应程度，你如何将这些信息转换成商业收入增长期望值？或者你知不知道如果确定出额外的十件欺诈信息能节约多少开支？设定期望值专业技术资料整理 WORD格式可编辑确保项目投资者明白数据挖掘不是解决商业问题的魔术棒。数据挖掘是借助计算机技术辅助解决商业问题的一种方法。就像任何商业问题，投资者需要首先提出可解决的问题，然后找寻方案。例如你计划为公司市场部做客户细分，那么应该与市场部的同事一起明确什么样的结果是最终希望得到的（例如：“我们使用产品信息和人口统计数据，所以希望得到基于客户的收入、年龄等信息的细分，这样能显示不同层次客户对产品的喜好”）。限定最初项目范围以现实可行的目标和日程表为开始，当你获得成功后，再转向更复杂的项目。例如与其试图立刻提高新客户的获取值，还不是集中精力在小的更实际的目标如对某一区域进行交叉销售，客户保留项目。确保团队合作数据挖掘项目是一个团队工作。数据挖掘需要商业使用者理解实际问题和数据，也需要数据分析家提供分析解决方案，以及数据库管理者提供权限。例如，你可能在项目中需要数据挖掘专家、数据库专家和市场经理。因为他们来自不同的部门，可能在数据挖掘项目合作中会出现问题，所以找到可行的合作方式是很重要的。避免陷入数据垃圾在项目进行中，始终明确需解决的商业问题，确保项目结果的最终完成。如果你只是在没有项目计划的情况下简单的开始分析一堆数据，你将会很容易迷失在数据里而且浪费时间。不要让项目被大量数据单纯驱动，集中精力在商业目标上。你可能不需要使用系统中的所有数据，仅仅使用和项目相关的数据就可以了。你甚至可能会发现现有的数据不能足以解决现实的商业问题。即使海量数据也不能保证你就拥有准确的用于建模的数据.例如，使用最新的信息进行预测客户行为往往比用大量的历史数据准确。8.1数据挖掘部署策略数据挖掘的结果发布可以很简单，例如只是生成一个规则集，对具体某个商业问题给出一个参考建议；也可能很复杂，如需要实时嵌入到客户的决策支持系统，为决策者提供前瞻性决定提供依据。以下阐述四种优化策略帮助部署高级分析结果，以及为获得最大投资回报设定的预测分析解决方案。这些策略是通过概括现实中使用Clementine数据挖掘平台的众多部署案例得到的，具有普遍应用性。快速更新批处理方式：使用快速高效的批处理功能部署数据挖掘，为数据简单快速的打分海量数据批处理方式：策略性应用代码部署，注意代码开销平衡，集中在为海量数据高速打分专业技术资料整理 WORD格式可编辑实时封装方式：将数据挖掘部署封装应用并将集成风险最小化，应用在用户定制的高速、实时为数据打分上实时定制方式：将数据挖掘部署到为客户量身定做的应用产品上，在企业组织结构下实现不同功能的实时打分或者不能以实时封装方式部署的特殊商业目标策略1--快速更新批处理方式快速更新批处理打分是应用最广泛的方式之一，适应于不需要实时响应的系统。例如，许多公司使用这种方式对客户数据库保持更新，通过客户关系管理应用为决策者提供最新预测分析。这种方式以及相关部署应用为与各式操作系统环境提供灵活集成。Clementine’sBatch和ClementineSolutionPublisher帮助你高效部署数据挖掘结果和迅速更新数据。在不需要Clementine客户端界面情况下，后台部署Clementine数据挖掘流。Clementine批处理模式在命令行执行，而ClementineSolutionPublisher是一个灵活的打分组件，可以嵌入到应用中。这种部署方式可以在数据库内按计划执行，例如一个预测应用需要每月、每周、每天甚至每小时使用最新数据。因为这些运行方式都是执行整个数据流，更新打分时只需重新运行Clementine挖掘流。而且这种使用ClementineBatch或ClementineSolutionPublisher的运行方式可以完全被SPSSPredictiveEnterpriseService中的PredictiveEnterpriseManagerModule自动使用。不象其他的数据挖掘解决方案，Clementine能够部署整个数据挖掘过程，包括关键的数据准备，建模以及应用模型打分任务，可以在IBM?DB2?,Oracle?Database,andMicrosoft?SQLServer?内使用。这些Clementine部署操作因为使用三层体系架构，利用数据库的检索、优化和数据库内挖掘功能，确保高效数据库内挖掘。通常，大部分的公司只使用Clementine客户端运行所需要的批处理打分，而使用ClementineBatch或ClementineSolutionPublisher进行周期性打分。Clementine客户端使用数据流描述语言（StreamDescriptionLanguage）将需要执行的数据挖掘任务发送到Clementine服务器端。Clementine服务器分析挖掘任务决定那些可以在数据库端执行，将数据转移量降至最低。在数据库内运行完这些操作后，将剩余的和已整合的数据传递给Clementine服务器。专业技术资料整理 WORD格式可编辑图8.1：Clementine三层体系架构策略2--海量数据批处理方式许多Clementine实施应用将Clementine挖掘流部署在一个可解释的打分引擎上，这样就需要评估数据挖掘的实际时间以及所需的最小代码开发量。数据挖掘的过程可以被描述在一个可以被打分组件或应用程序所解析的文件。而对于海量数据批量打分，其应用在至少部分数据挖掘过程已经转化成某种编程语言，并且编译成计算机可识别代码的基础上。从定义上讲，已编译模式比可解释模式要快。因为在海量数据打分环境下运行瓶颈经常发生在数据准备阶段而不是对新数据打分阶段，所以SPSS高速打分操作经常使用混合模式。Clementine使用PMML（PredictiveModelMarkupLanguage）将预测模型输出给高速打分引擎，PMML是一种描述数据挖掘模型的行业标准的XML标识性语言（PMML标准是一个用于模型交换的中间方式，这个标准是由一个由主流数据挖掘和数据库厂商组建的独立数据挖掘组织制定的）。PMML模型部署是在已将数据准备过程代码化后，将模型描述储存在PMML文件里，然后根据打分数据的要求将整个过程编译。SmartScore?就是SPSS基于以上应用的PMML打分软件开发包（SDK）。ClementinePMML模型也可以实施在IBMDB2数据库内挖掘，不需要将数据DB2数据库中迁入牵出，提高了性能。图8.2：两种典型部署方式专业技术资料整理 WORD格式可编辑策略3--实时封装方式预测型分析应用在特定商业目标上时，通常需要实时、高速的对大数据集打分，SPSS预测分析应用例如PredictiveCallCenter?andPredictiveWebSite?就是为已存在的客户交互功能软件和ＣＲＭ系统而设计的实时高速产品。PredictiveCallCenter?与呼叫中心系统集成，提供如提升销售、交叉销售、客户保留等的即时推荐和决定支持。采用被已证明可行性商业规则结合实时预测分析技术，PredictiveCallCenter?自动提供推荐内容并结合销售意见和其他代理需要知道的信息将其推荐内容显示在代办人员的屏幕上。Clementine可以将Clementine预测模型直接发布到SPSS预测分析应用产品上如PredictiveCallCenter。这样就允许将你自己训练的复杂模型使用PredictiveCallCenter实施并精炼成实时推荐应用发布出来。模型可以被开发成于多种类数据如网页、文本以及有关态度的数据相结合，并且具有特定商业目标的应用如提高交叉销售。多种预测模型可以被合并，例如，将交叉销售和欺诈检测模型相结合，可以确保销售人员不用将精力放在具有明显欺诈风险的客户身上。图8.3：呼叫中心推荐信息产生流程策略4--实时定制方式对于在企业决策支持系统中决策优化目标需要不同功能的实时打分应用，或者针对某特定的商业实际需求，客户化的界面是十分关键和必要的。Cleo?和SPSSPredictiveAnalyticFramework?就是为适应广泛商业应用需求而设计的客户化实时打分产品。Cleo是创建基于网页打分应用的软件平台，它能简单快速的创建客户化网络应用。企业级用户使用Cleo，基于网络的数据挖掘实施工具，给予同一公司的多用户使用Clementine模型和根据特定需求的数据打分的权限。采用Clementine创建的预测模型，通过Cleod部署向导就可以很轻松的在线进行模型发布。在Cleo专业技术资料整理 WORD格式可编辑server能即时产生网络应用，当决策者需要借助Clementine生成的预测流程支持他们的决策时，通过网络应用很轻松的实时为数据打分。不象其他一些基于网络应用的分析工具需要安装桌面软件或插件，Cleo应用是真正的瘦客户端，所有使用者只需使用网页浏览器就可以获得权限。图8.4：Cleo实时打分当企业需要更多高级功能，特别是通过与SPSS系统集成开发出更复杂的网络应用时，通常会使用PredictiveAnalyticFramework.这个平台和Cleo很类似，是一个可供多种客户使用的，网络分布的瘦客户端打分环境。它还加入了一些额外的功能如为了方便商业用户更新模型的简单易用界面，监控预测分析性能而自动生成的增益曲线等等。通过PredictiveAnalyticFramework向导，模型可以很轻松的发布到网络平台上。图8.5：SPSS定制开发应用示例专业技术资料整理 WORD格式可编辑1.成功案例9.1国外成功案例9.1.1SouthwesternBell（西南贝尔）易于使用和强大的统计分析功能使西南贝尔公司的地区经理和居民质量咨询师MikeCallagher对SPSSforWindows爱不释手。在1993年刚开始接触分析软件的时候，Gallagher使用的是另一个非Windows界面的产品，但很快他听说了SPSS。如今，Gallagher和他的同事们都在使用SPSS来为高级公司决策者作数据分析工作。“SPSS使我可以专注于统计分析，而不必在了解软件的使用上拖延时间。”Gallagher几乎每天都使用SPSS来分析可能会对位于五个州的近一万名员工产生影响的问题。经过数据分析，Gallagher提出了各种可以减低费用、增加总体客户满意度、提升西南贝尔市场地位的工作改进方案。一个例子是有关“重复维修”的问题：维修人员在第一次维修后十天内必须再次进行维修。Gallagher使用SPSS做了两个步骤的分析。首先，他分析了以前在西南贝尔的大型机系统收集和保存的大约85万条记录，这使他基本了解了哪些因素对重复维修有最大影响。然后，他用交叉表和回归技术对大约12000条记录进行了分析，以确定在维修过程中需要改进的地方。最后，重复维修流程的改进显著地减少了成本，增加了客户满意度。西南贝尔每年减少了大约15000次维修派遣。allagher在讲到他们成功的关键时说“关键在于能够快速灵活地处理大量数据。从这方面来说，SPSS正是我需要的、能告诉我要在什么地方集中注意力的工具。”9.1.2CallCounter公司简介：CallCounter,Inc.,是英格兰一家有近几年成立的新公司，主要业务是为电信公司高效地收集和分析用户呼叫数据，从而为电信公司增加收入。面临问题：专业技术资料整理 WORD格式可编辑要为电信公司采集准确的呼叫数据，并识别出收入损失的地方并进行趋势预测CallCounter必须做到：?每月对数百万消费者的呼叫数据进行分析，避免数据丢失?区分电话呼叫类别，避免少计费?实施市场研究，帮助电信公司更好地了解他们的客户解决方案：CallCounter用SPSS快速、方便地对呼叫数据进行分析，发现收入损失的地方，并提出解决建议。为其客户节约了时间和费用。结果：帮助客户减少收入损失每年为客户节约15万美元以上对任何电信公司来说，保证收入都是最基本的。由于电信公司的收入来源越来越复杂，保证收入的问题也变得更加严峻。不幸的是，很多主管人员忽略了它，因为他们认为收入损失并不重要，只不过是简单的业务成本而已。但是，这方面的专家Deloitte和Touche最新的研究证明：收入损失超过了业务成本。根据他的研究，电信公司由于错误的呼叫数据一般损失11%的收入。这些损失是由于不正确地采集和标记数据、错误的账单和糟糕的订单录入造成的。CharlieSeymour在1996年成立CallCounter的动机就是防止收入减少。他希望同时为Cellular和Land-line电话公司解决他们关心的保证收入和数据分析问题。Seymour在电信行业已经工作25年，他的主要工作是开发账单系统。他相信天衣无缝的数据收集系统是不存在的，而且没有明确的方法让电信公司分析他们的呼叫数据来回答严峻的问题，如“所有的呼叫都记账了吗？”，“客户正在打国内长途或本地电话吗？”。他的方案是：帮助电信公司更准确地分析数据，使他们了解收入是怎么减少的，如何最终减少损失。CallCounter依赖SPSS进行这些分析。Seymour用SPSS向电信公司提供可靠的分析数据，简化并加速了他们的市场研究和数据查询过程。更重要的是，帮助这些电信公司减少了收入损失。CallCounter如何做到这些呢？根据Seymour的说法，CallCounter是惟一一个直接从交换机—拨号音的起源地收集数据的公司。一般来说CallCounter首先分析电话公司一个月的数据，在月底用SPSS的分析结果协调电话公司的账单。为了让电话公司图形化地对照比较，CallCounter用易于理解的饼状图来表示分析结果。帮助客户减少收入损失专业技术资料整理 WORD格式可编辑即便是只有几个员工的小型电话公司每月也可能有两百万次电话呼叫。如此大量的数据可能会使电话公司错误地分析数据，导致收入损失。“如果在月底不能对数据进行分析，他们就不能向长途电话公司和用户提供正确的账单，从而引起收入损失。电话公司无法确定账单是对还是错。更糟糕的是，很多电话公司不相信他们有这种问题。幸运的是，SPSS帮助这些公司有效地分析数据，避免了收入损失。”CallCounter市场部经理AndrewDesjardins说。位于缅因州的SacoRiver电话公司是CallCounter早期的客户之一。为帮助Saco避免收入损失，CallCounter赞助了它的数据收集软件。这个软件会在异常情况下触发警告，如设定时间内异常的低音量呼叫。CallCounter的软件使用25个报警器来分析和监控收集的实时数据。通过纠正异常报警，CallCounter保证了进入记账系统的数据的准确性，从而避免了收入损失。仅在第一年，CallCounter就发现了5个呼叫数据处理错误，为用户避免了10万元的潜在收入损失。“SPSS使我们只需较少的工作量就能为电话公司增加收入。”Seymour说。Land-line电话公司向运营商支付账单，如Sprint、AT&T和MCI，因为使用了他们的当地设备。这是一个大额的月度账单，轻易就达到地方电话公司收入的一半。“市话通讯公司报告的市内和国内长途电话数量，决定了需要向运营商支付的费用。”Seymour说，“有些电话呼叫难以确定是从哪里打出的。这种情况下，你要么听信运营商的，要么进行检查数据。”大多数电话公司非常希望量化电话呼叫，但很多公司没有这方面的能力。CallCounter可以用SPSS分析这些呼叫并提供准确的结果。根据Seymour的解释，通过更认真准确地分析市内和国内长途电话呼叫，市话通讯公司不仅避免了收入损失，还节约了10%的接入成本。每年为客户节约15万美元以上每一个电话公司都要求进行数据分析。这种要求同时来自公司外部和内部。如，市场部需要知道什么样的方案才能获得和保持满意的客户，工程部门需要分析一天内不同时间的呼叫通讯量，以准确地进行需求预测，管理部门需要进行数据分析以确保和运营商签订的合同最大限度地保护了公司利益。Seymour发现大多数公司在电话呼叫数据的分析上遇到过问题。“在我们的帮助下，仅仅通过准确的数据采集、标定和分类，每年就轻易地为小型电话公司节约了15万美元。”专业技术资料整理 WORD格式可编辑9.1.1RuralCellularCorporatio背景介绍RuralCellularCorporation(RCC)为美国中西部、东北、西北和南部地区提供无线通讯服务。RCC服务于邻近大都市的郊区或旅游业、农业和小规模商业盛行的高速公路附近。自从1990年以来，RCC发现在乡村通讯市场存在的机会并逐渐经发展成为主要的区域性无线通讯提供商。通过提出创新性的解决方案，与运营效果好的公司进行合作和提供优异服务的承诺，RCC占领了市场。面临问题为了保持公司业务和经济效益的持续增长，RCC必须提出独特的解决方案以最大程度满足客户的需求。如果有一个较好的市场研究方法，能够明确客户需求，将有利于做出决策。解决方案RCC公司使用了SPSS统计分析软件来进行它的市场研究工作，其中包括客户满意度分析、品牌研究和其它研究以定位市场和特征等。通过连续的收集和分析市场信息，RCC能够较好的决定产品、改善品牌及分配资源。结果使用SPSS产品后，RCC公司已经体会到从大量数据中得到支持商业决策信息的重要性。“我们不能想象如果没有统计数据的支持该如何做生意，”RCC公司市场研究部项目经理NoelRoos说道，“一些公司的决策是来自于领导核心的直观判断，这是非常危险的，因为人总是趋向于相信你愿意相信的事情。令人惊异的是，市场数据能改变人的思想。”较好的产品配置和服务方案大多数RCC的研究集中在改善产品特性上。“我们做了大量的研究以理解如何改善产品和服务或发展哪种类型的新的服务，”Roos说，“这实际上是告诉我们客户想要什么和我们需要用什么来满足他们的需求。”例如，几年以前，公司的一个竞争对手提出了Single-ratePlan，许多公司也推出了相似的方案，而这些方案的实施都是非常昂贵的。RCC则采用SPSS估计了客户的需求。“我们需要知道我们的客户需要什么而不是盲从于市场，”Roos说，“根据对竞争对手的方案进行研究发现，Single-ratePlan是非常昂贵的。同时，我们也看到方案的某些特性是客户确实需要的，例如无漫游费和更大的覆盖面积。”专业技术资料整理 WORD格式可编辑在投资前，RCC调查了他们的客户想要什么样的服务，他们想用这些服务来做什么和他们愿意为这些服务付多少钱。为了推出一项新的服务，RCC请客户讨论关键利益。“理解客户对我们的服务已经了解的程度能帮助我们决定突出那些明显的或隐蔽的利益，”Roos解释道。改进资源分配能力利用SPSS，RCC分析了市场数据以决定如何分配资源。据Roos所说，“基于市场数据的决策对底线有直接的影响。你拥有的信息越多，你的效率越高。利用SPSS来做出的决策能够影响我们做的每一件事情例如，通过分析数据，有可能发现用户拥有电话的数量与用户年龄等级之间的相关。这样，就可利用这个信息，根据满足不同目标市场的需求来分配资源。“SPSS能够帮助我们更好的理解将钱花在什么地方，”Roos说，“例如，我们是将钱花在扩大通讯覆盖范围还是推广新的服务如语音拨号上？没有SPSS来解答这些问题，我们可能会在投资上有失误，例如，当客户需要高质量的服务时，我们却将钱花在推广新的服务内容上。”增加品牌形象的意识程度RCC每年进行品牌调查以评估它们给客户的形象是否就是它想要给客户的形象。调查中，请客户回忆RCC的广告并鉴别他们对品牌的印象。RCC也收集客户对RCC的品牌形象与竞争对手的品牌形象对比的数据。利用SPSS，RCC能够比较满意的评估数据以决定客户是否能将它的品牌从竞争对手的品牌区分出来。“研究品牌调查的数据能够帮助我们衡量广告的有效性和评估我们是否走在正确的轨道，”Roos说，“我们是在建立我们想要的名声吗？我们的品牌是突出的还是与别的品牌混杂在一起？如果我们的客户难于将我们从竞争对手中分辨出来，那们这将是一个价格问题而且是我们不想要的结果。”9.1.1英国电信公司面临问题：为了从市场营销预算中获得最大的价值，英国电信需要建立模型来预测潜在客户的购买倾向和他们变为用户之后可能的价值。在对客户类别作了准确描述之后，英国电信公司希望针对某个客户群体设计一种新产品，以期达到以下结果：更高的市场活动回应率，增加产品收入，更高的市场占有率。解决方案：英国电信选用了SPSS的数据挖掘产品Clementine，来为其“Business专业技术资料整理 WORD格式可编辑Highway”活动分析数据和建立探索模型，“BusinessHighway”是为小型商业客户设计的一款产品。如今，英国电信公司已经对这些客户及其电信消费行为有了一个更好的理解。在未来，该公司将继续依赖Clementine可视化的快速建模环境为其未来的营销活动指引道路。结果：一向太平的电信行业现在已充满了火药味。前垄断者—英国电信公司依然是英国本地电话、国内长途、国际长途和数据服务提供商的领袖。该公司虽然每年约有290亿元的销售额，但来自英国其它约160个电信公司的竞争，使其不得不去了解哪些人会购买它的产品和服务，以保留现有客户、获取新客户、从每个客户身上获得最大价值。　　该公司特地成立了一个由高级咨询顾问StephenO'Brien带领的客户和市场分析小组，以更好地了解客户。该小组的首次任务就是为新产品—“BusinessHighway”的市场活动建立客户特征描述。“BusinessHighway”是一款为小商业用户提供一条线三个号码的产品。1998年9月进行了一次包括大型直邮和国家媒体广告的市场活动。数据：收集信息相关的客户、产品、帐单和历史数据分散在公司的各个部门。因此，分析小组首先集中数据，形成一个新的数据集市，以便于数据库营销。由于必须从各不同系统中抽取数据，并进行匹配，清洗工作，所以准备工作要花费大量时间。只有在做好这些数据准备工作之后，才能开始作数据分析工作。数据准备和数据分析均可利用Clementine工具进行。工具包：用数据挖掘发现隐含的模式为对样本数据进行挖掘并从中发现潜在的模式和趋势，英国电信公司选择了SPSS公司的快速建模环境—Clementine。O'Brien之所以选择Clementine为其数据挖掘工具，是“因为Clementine为客户和市场分析小组提供了多种分析方法—包括聚类、神经网络、关联规则和决策树。它也能容易地处理常规数据问题，如异常值、缺失值和低价值数据。”分析数据和建模过程分析小组用Clementine作为其主要的数据分析和建模工具。在数据分析过程中，首先，该部门员工利用Clementine进行了数据质量主题分析，熟悉数据及其分布，排除了与购买“BusinessHighway”产品不太相关的数据属性。然后，对和客户购买产品的倾向相关的单个数据属性的预示力度进行测量。例如：两位地区数字代码、地理指示器，与回应和购买属性明显相关。专业技术资料整理 WORD格式可编辑在这些分析之后，分析小组利用Clementine提供的决策树算法构建并检验了一系列探索性模型。O'Brien称该工具的最吸引人的地方是：“你不会在数据挖掘项目中迷惑，Clementine让你快速试验各种想法并排除一些错误想法，你可以在几天内构建多个探索性模型，从而降低了数据挖掘项目的失败率。”向销售人员和营销活动提供了“最佳潜在客户”清单“Clementine的主要输出结果是对数据的洞察力—那是数据挖掘的全部所在—和这些洞察结果的可视化展示。”O'Brien说。“我们提供给销售人员和营销活动的是客户清单和图形，并表明了为什么他们应该向这些客户推荐’BusinessHighway’产品。”直邮活动回应率提高了100%　　“BusinessHighway项目的成功说明了如何在商业活动中通过数据挖掘获利。有了Clementine，先前所作的探索性数据分析和可视化结果，使我们能够制订出满意的客户选择标准。甚至在完成最终模型之前，我们就已经可以超越原始目标，并使活动的回应率提高了100%。”O'Brien说。还有更多的事情要做。下一步，分析小组计划使用Clementine识别有最大潜在利润的客户和垃圾客户。未来他们或许会尝试确定客户欺诈模式是否与客户流失模式一致。建模：投资回报成功地客户特征描述需要商业知识、合适的数据和合适的产品。英国电信新的建模方案使之可以在产品和活动的整个生命周期中定位目标客户，确定不断变化的市场的发展趋势并加强在不同市场领域的渗透。SPSS的数据挖掘工作平台—Clementine将为营销活动提供快速、可靠的统计分析。而回报呢？就像英国电信的”BusinessHighway”案例所表明的：更好的客户和更高的销售额。9.1国内成功案例9.2.1某省级电信公司专业技术资料整理 WORD格式可编辑面临问题小灵通用户是某省电信企业利润的主要来源之一，也是市场竞争的焦点。在目前的市场形势下，发展新客户的成本远远大于留住已有客户的成本。但在其电信经营分析与决策支持系统中无法做到提前预警，挽留用户。某省级电信公司希望借助Clementine数据挖掘技术发现离网小灵通用户的潜在模式，提前进行预测，从而变被动服务为主动服务。解决方案选用了SPSS的数据挖掘产品Clementine，使用企业级数据挖掘平台Clementine，按照CRISP-DM数据挖掘标准流程，以全省某特定时间离网的后付费小灵通用户为研究对象，同时选取同期在网的后付费小灵通用户作为对照研究对象；在用户产品订购数据、用户消费行为特征数据和用户其他行为特征数据的基础上，分别建立神经网络模型、C5．0模型和Logistic回归模型，最终得到预测的具体离网用户名单以及离网概率和离网用户的特征描述信息。结果通过应用Clementine数据挖掘结果，发现了离网小灵通用户的潜在模式特征，为下一步的客户挽留提供可靠依据某省级移动公司面临问题公司希望借助数据挖掘软件识别客户特征，通过了解客户的概貌指导公司制定合适的营销策略从而达到保持、拓展现有的客户价值。解决方案使用企业级数据挖掘平台Clementine，按照CRISP-DM数据挖掘标准流程，结合客户资料数据、客户服务数据以及计费帐务数据，使用Clementine中的各种聚类算法生成客户分群模型，分析不同算法得到的分群结果，基于行业应用评估标准对已生成的模型评估，最后使用决策树算法得到各客户群特征。结果Clementine良好的稳定性和卓越的性能大大提高数据挖掘生产效率，可视化编程模式让业务人员和行业专家能够参与到数据挖掘项目过程中，业务经验和数据挖掘技术的完美结合，提高了数据挖掘模型的质量。通过数据挖掘专家和行业专家的合作，对移动客户业务方面提供了如针对性差异化套餐设计、差异化客户服务以及设计促销活动等多方面建议。9.2.1部分国内外电信客户的名单（排名不分先后）专业技术资料整理 WORD格式可编辑AT&T——美国BPL移动公司——印度英国电信——英国西班牙电信——西班牙Etisalat——阿联酋KPM——荷兰NTT——日本Orange——瑞士Panafon——希腊SingTel——新加坡Telecel——葡萄牙TelemigCellular——巴西Verizon——美国VIAGInterkom——德国Vodafone——澳大利亚Westel——匈牙利中国电信总公司武汉电信新疆电信中国移动总公司江苏移动内蒙古移动辽宁移动吉林移动专业技术资料整理 WORD格式可编辑第三部分制造行业应用1.简介面临的挑战经济一体化的浪潮席卷全球，社会化生产与地域资源优势的整合，给中国企业成为“世界制造工厂”提供了前所未有的机遇。自从中国加入WTO以来，中国企业将面临着更加激烈的国际市场竞争。市场竞争是实力的竞争，是品质的竞争，归根结底是企业管理水平和效率的竞争。面临的问题制造业需要从以前的粗放式生产经营模式过度到精细化的生产管理。由于质量是现代企业核心竞争力最基础、最根本的要素，如何提升质量水平，以达到控制不合格品率，降低生产成本成为许多企业面临的严峻问题。另外对原材料的供应和产品的销售进行预测，了解产品质量状况的分布模式并对之进行中长期的预测分析也是现代企业面临的挑战。SPSS与制造业在美国，85%以上的制造业公司在应用SPSS的分析工具。SPSS通过评估订货模式、库存水平和可替换零部件的定价等的结合，在维持较高客户满意度的同时帮助制造业公司提高盈利水平。SPSS预测分析工具可以计算出最优的库存策略，决定某个部件的最优订购时刻和最优数量。SPSS简单易用的质量控制图表程序可以对产品质量进行监测和控制。SPSS的质量控制图模块可以对产品的各个质量指标进行监测和控制，及时扑捉到生产过程中质量指标的变化，告警质量分析人员，分析或调整生产过程，使生产线正常运行。SPSS的方差分析工具主要用于实验数据的分析确定哪些因数位级（水平）或组合影响产品的质量特性，从而优选出最佳机型、流程或配方等。SPSS的方差分析工具包括单因素方差分析（ANOVA）、协方差分析（ANCOVA）、多因素方差分析（MANOVA）。SPSS的回归分析主要用于寻找有关质量特性与各个生产因素之间的关系，以作出科学预测或确定最佳作业条件。回归分析主要包括线性回归、Probit、专业技术资料整理 WORD格式可编辑Logit、多变量回归、Logistic回归、非线性和约束非线性回归（NLR和CNLR）等。在生产过程中的抽样数据往往带有时序性，时间序列技术可以更好地分析数据之间的关系（如自相关性）。时间序列技术包括ARIMA、EXSMOOTH、SEASON、SPECTRA、AREG等，它们是分析产品过程的有利利器。SPSS提供了从产品设计、生产过程分析到产品质量监控，产品差错分析到质量控制和预测的各种相关工具。A）产品设计方法如果应用正交试验设计方法来进行产品的质量设计，可以用尽可能少的试验次数，确定哪些因数位级（水平）或组合影响质量特性，从而优选出最佳机型、流程或配方等，找出组成比较合适的生产条件的各个因素的合适的生产水平。这样可以减少工作量，降低生产误差和生产费用。应用试验设计可以找出各个因素对考核指标的影响规律，比如，哪些因素是起主要作用，哪些因素是起次要作用的的？那些因素只起单独作用，哪些因素除了自己单独作用以外，它们之间还产生综合作用？这种作用的效果有多大？SPSS提供的实验设计法、多变量解析法、方法研究、抽样调查方法、功能检查方法等可以实现以上的分析和设计方法。SPSS的强大的方差分析工具，如单因素方差分析（NOVA）、协方差分析（ANCOVA）、多因素方差分析（MANOVA）是高级产品设计分析的最佳选择。B）质量控制通过SPSS可以实现全面的统计质量控制管理，并且使质量管理过程变得简单、直观、易于实现。日本著名的质量管理专家石川馨曾说过，企业内95%的质量管理问题，可通过企业上上下下全体人员活用质控七工具而得到解决。SPSS可以实现统计质量控制的七个基本工具（或叫品管七大手法），它们是控制图、因果图、直方图、帕累托图（Pareto）、统计分析表、数据分层法、散布图。运用这些工具，可以从经常变化的生产过程中，系统地收集与产品质量有关的各种数据，并用统计方法对数据进行整理，加工和分析，进而画出各种图表，计算某些数据指标，从中找出质量变化的规律，实现对质量的监测和控制。SPSS-质量控制图表专业技术资料整理 WORD格式可编辑SPSS通过菜单和语法的形式，可实现各种控制图的绘制。除了帕累托图、直方图、散布图等统计分析表外，还包括一些特有的图表，如误差图、规则违反表、时序图等一些质量管理中常用的图表分析方法。通过菜单可以方便地绘制以下控制图：X-S控制图（均值-标准差控制图）X-R控制图（均值-极差控制图）X-Rs控制图（单值－移动极差控制图）不合格品率的控制图-P图不合格品数的控制图-Pn图不合格数的控制图-C图单位不合格数控制图-U图另外，SPSS还可以在以上控制图上应用以下控制规则:如果控制图上的点子同时满足下述两个条件，则认为生产过程处于统计控制状态：绝大多数点子位于控制界限以内。连续25个点中没有一个点在界外(控制图上界和下界之间)。连续35个点中至多一个点在界外(控制图上界和下界之间)。连续100个点中至多有两个点在界外(控制图上界和下界之间)。点子排列无下述异常现象。同侧链。连续7点或多于7点位于中心线同一侧。单调链。连续7点或多于7点单调上升或下降。间断同侧链。连续11点中至少有10点位于中心线同一侧；或者连续14点中至少有12点在中心线同侧；或连续17点中至少有14点在中心线同侧；或者连续20点中至少有16点落在中心线同侧.高位或低位链。连续3点中至少有2点落在两倍于上界与中心线距离以外；或者连续7点中至少有3点落在两倍于上界与中心线距离以外◆均值控制图、np、u控制图：专业技术资料整理 WORD格式可编辑 ◆控制图的诊断SPSS控制图附带的规则违反表可以用于分析生产过程是否处于统计控制状态，帮助找到失控的部件或失控的生产时刻。 ◆带控制规则的X-Bar(均值）控制图专业技术资料整理 WORD格式可编辑 ◆控制图统计量---执行能力和运行能力指标统计 C）Clementine数据挖掘在制造业中的应用Clementine是业界领先的数据挖掘产品，它集成了最先进的数据挖掘模型和算法,例如K-means,C5.0,Quest,CHAID等分类算法，Kohonen,K-means,两步法等聚类算法，Apriori,GRI,GARMA等关联规则算法。制造行业可以利用它来实现以下传统方法所不能完成的预测分析：专业技术资料整理 WORD格式可编辑·需求规划·需求预测·产品定价·产品质量状况模式和预测·生产过程短期监控分析·生产过程长期走势分析·生产过程异常模式分析·产品质量分析·供销预测·原材料需求预测·销售收入预测o其他各种财务指标分析、预测·经营分析o分析经营中的问题和原因，例如盈利增长或者降低的原因o各分公司的情况对比分析o预测故障的发生，防患于未然 D)制造业成功案例---POSCO(韩国)基于Clementinede的预测和控制系统POSCO,南韩的世界级钢铁公司,使用Clementine作为基础引擎开发了预测和控制系统,从而有效地稳定了钢的输出质量Y.当Y的预测偏离了目标值,系统自动地提示工程师重新设置指定的关键参数到某一水平.为了满足预测和控制的项目目标,POSCO使用了Clementine‘sC&RTree模型在成百上千的监测变量中确定了关键的驱动因子,建立了一个简洁的预测模型,并使用回归模型确定控制型驱动因子的置换.结果控制/预测系统成功地见效于最终产品质量波动性的降低。过去六个月利用生产过程数据的内部评估，显示出该系统带来10-20%的改善，预示着在生产线实施部署该系统的美好前景专业技术资料整理

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 138



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

大家都在看

近期热门

数据挖掘商业案例分析与实现

数据挖掘商业案例分析与实现

最近更新

大家都在看

相关文章

相关标签