logistic回归方法及在客户流失分析中的应用

logistic回归方法及在客户流失分析中的应用

ID:23542307

大小:79.00 KB

页数:5页

时间:2018-11-08

logistic回归方法及在客户流失分析中的应用_第1页
logistic回归方法及在客户流失分析中的应用_第2页
logistic回归方法及在客户流失分析中的应用_第3页
logistic回归方法及在客户流失分析中的应用_第4页
logistic回归方法及在客户流失分析中的应用_第5页
资源描述:

《logistic回归方法及在客户流失分析中的应用》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、Logistic回归方法及在客户流失分析中的应用1Logistic回归方法1.1Logistic回归方法概述Logistic回归是一种描述多种独立变量与因变量(只有两种结果)之间关系的模型逼近法,其主要目的是为了进行分类,同时预估事件发生的概率。它可以考察多个属性变量在识别将要流失客户方面的集成贡献。应用Logistic回归方法可以深入理解客户流失的原因,分析哪些因数对于客户流失有影响,从而得到如何处理客户流失的线索。1.2Logit变换在客户流失分析问题中,给定一个客户,我们可以设客户选择方案Y=1

2、表示客户正常使用,Y=0表示客户流失;P表示客户选择某一方案的概率,那么一定有0SPS1。由于Y取值离散,因此很难用线性模型描述概率P与自变量的关系,另外如果P接近两个极端值,此时一般方法难以较好地反映P的微小变化。为此在构建P与自变量关系的模型时,变换一下思路,不直接研究P,而是研究P的一个严格单调函数G(p),并要求G(p)在P接近两端值时对其微小变化很敏感。于是Logit变换被提出来:Logit(p)=ln(—)1-P其中当p从0—1变化时,Logit(p)从-00—+00,这个变化范在模型数据

3、处理上带来了很大的方便,解决了上述面临的难题。1.3Logistic回归模型若用X=(X:,x2,x3,x4,x5,…,xn)表示可以在用户消费数据库中得到的描述性变量,那么我们建立的逻辑回归模型的数学表迗式为:Logit(P)=ln(p(卜11x))=a+31X1+32X2+33X3+-+I3nXI1p(r=olx)=(1+乞似(1)i=]其中:P(Y=ljX)+P(Y=0IX)=1式(1)中,Xi是自变量,代表参与逻辑回归分析的各种描述性字段;L是逻辑回归后各个自变量的系数,表示:当因数Xi每改变

4、一个测量单位是所引起的对数的自然改变量;a代表截距。Logistic回归模型的建立不是一个简单的过程,它的基本流程简要说明如下:(一)定义变量。强大的数据库资源是进行建模的坚实基础,在众多自变量中尽量选择对因变量产生影响作用的变量,将没有影响或影响较小的变量排除在模型之外,对这些变量进行定义并收集足够的数据资料。(二)数据预处理。采用统计软件,选取合适的自变量筛选方法,筛选出对因变量产生影响的关键变量,得出符合模型需要的变量系数、最大似然估计值和显著性等数据。(三)根据得出的一系列数据建立模型。(四)

5、将模型推广到整个客户市场,分析客户流失状况,实旋结果评价与分析。Logistic回归方法作为数据挖掘工具中的一种,可以将观察所得的分类结果和与分类结果有关的变量指标结合起来,发现它们之间的某种关系,这种关系的可靠程度往往取决于观察分类的精确度和有关变量指标集合的充分程度。Logistic回归采用观察分类结果作为输入相当于在建模过程中包含输入性系统误差,因此对新样本的分类必然会以准确率为代价产生一些错误分类。尽管如此Logistic回归方法仍然不失为一种有效的辅助分类工具。在具体应用时,不可能在分类上做

6、到尽善尽美,但是应该尽量使误差最小。在对Logistic回归方法进行筒要了解之后。结合实际情况建立Logistic回归模型对客户进行流失预测并分析导致其流失的关键变量。2Logistic回归方法的应用下面以通信公司为例,介绍Logistic回归方法在客户流失分析中的实际运用。2.1定义变量根据变量的定义,将客户流失状况作为因变量,其他变量作为自变量。>客户流失:客户是否从公司流失,0:客户流失,1:正常使用。>年龄(单位:岁):数值型变量。性别:0:男,1:女。>所在地区:客户所在的地区,1:市区,2

7、:市郊。>教育程度:1:高中及以下;2:大专,3:本科及以上。>通话时长(单位:分钟):平均每个客户每月的通话时间。>主叫比例:主叫比例二主叫次数/(被叫次数+主叫次数)。>短信条数(单位:条):用户收发短信的总条数。>基本月租(单位元):指不同品牌用户每月向通信公司缴纳的固定月租费。>投诉次数(单位:次):数值型变量。>入网时长(单位:月):客户入网的时间长度。>GPRS费用(单位:元):用户由于使用GPRS数据业务而产生的通信费用,该业务按照使用数据流量计费。>3G/4G(单位:元)费用:用户由于

8、使用3G/4G数据业务而产生的通信费用,该业务按照使用数据流量计费。2.2数据预处理使用SPSS11.5统计软件(LogisticRegression)对数据进行预处理。由于自变量很多,并且不一定都是有效的自变量。所以在建模是需要引入对因变量有影响作用的变量,将没有影响或者影响不明显的变量排除在模型之外。因此,可以采取假设检验为基于最大似然估计值的向前逐步回归法。2.3建立Logistic回归模型及分析在回归模型的建立过程中,根据虚拟的客户数据,共筛选出

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。