cox风险比例模型分析客户流失时间

cox风险比例模型分析客户流失时间

ID:10596510

大小:377.00 KB

页数:10页

时间:2018-07-07

cox风险比例模型分析客户流失时间_第1页
cox风险比例模型分析客户流失时间_第2页
cox风险比例模型分析客户流失时间_第3页
cox风险比例模型分析客户流失时间_第4页
cox风险比例模型分析客户流失时间_第5页
资源描述:

《cox风险比例模型分析客户流失时间》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、数说工作室www.jiayounet.comCox模型分析客户流失时间Cox模型分析客户流失时间一、生存分析与cox比例风险模型11.生存分析12.cox比例风险模型1二、案例分析31.案例说明32.SAS实现33.SPSS实现44.SPSSClementine实现6一、生存分析与cox比例风险模型1.生存分析生存分析是研究和预测生物和人的生存时间的分析方法,最初源于生物学和医学。而“生存”可以广义的理解为自然界、人类社会、技术过程和市场行为中某种状态持续的时间,因此生存分析还广泛的应用于工程科学、心理学、经济学和市场研究分析。本文要

2、研究的,就是客户能够保持购买行为的时间,换言之,客户在什么时候会流失。2.cox比例风险模型(1)模型基本形式令h(t)为风险率,是患者在t时刻仍存活,在时间t后的瞬间死亡率。其中,不存在因素X1、X2…Xp的影响的t时刻死亡率为,存在因素X1、X2…Xp影响的t时刻死亡的风险率为h(t)。借助logit模型的构造思想,cox比例风险模型为:数说工作室www.jiayounet.com它的常见形式为:由于是未知的,所以又称为半参数模型。该模型通过建立偏似然函数,使对数偏似然函数最大并用最大似然法的Newton-Raphson迭代得到参

3、数的估计值。假设检验通过似然比检验,构造卡方统计量对系数进行检验。(2)系数意义该模型的系数意义为:表示存在因素下,死亡的风险率是不存在因素的倍。为风险指数(hazardindex),简称HI,又称预后指数(prognosticindex)或预后得分(prognosticscore)。HI=0代表风险处于平均水平;HI<0代表风险处于低水平;HI>0代表风险处于高水平。(3)生存函数生存函数S(t

4、x)代表一直生存至t时间的概率,即生存时间t的累积密度函数。令它的概率密度函数为f(t

5、x),那么有,解微分方程得,(4)PH假定PH假定

6、即比例风险假定(proportionalhazardsassumption),即一个比例风险模型具有不同个体有成比例的性质,即对于两个协变量X1和X2,h(t

7、X1)/h(t

8、X2)不随时间t改变,这是由比例风险模型的形式决定的。同时,它意味着二次对数生存曲线(log-logsurvivalcurves)应该平行。即两边取对数,两边对数值加上负号,再取对数log{-log[S(t)]}=log{-log[S0(t)]}+bx这是二次对数生存率,记为LML,可以发现,不同的LML相差只是个常数:LML1-LML2=b(x1-x2),与t

9、无关。如下图示的一个例子就满足PH假定。数说工作室www.jiayounet.com二、案例分析1.案例说明在成功预测了客户流失可能性之后(参见《Logit模型预测客户流失》),电信公司对客户的“流失时间很感兴趣”,他们想知道哪些因素会导致客户在很短时间内更换使用其他电信服务,为此,随机选取了一些客户样本,和他们作为客户的时间,以及其他一些变量。数据文件仍为telco.sav。2.SAS实现(1)数据清理数据在《Logit模型预测客户流》已装入sasuser库中,本例中直接使用。(2)模型构建用SAS的phreg过程构建cox比例风险

10、模型,注意建模去掉一些变量,包括缺失值过多的变量、电信专家认为不需要的变量。procphregdata=sasuser.telco;modelx2*y(0)=x3-x5x7-x20x26-x34x40x41/selection=stepwiseslentry=0.05slstay=0.1;baselineout=teloutsurvival=s_tstderr=stderr/method=ch;run;procprintdata=telout;procgplotdata=telout;plots_t*x2;run;数说工作室www.j

11、iayounet.com(3)生存分析建模结果如下模型信息显示删失观测值共726个,表示尚未流失的客户量。已删失的观测值不能用于计算回归系数,但可用于计算基线风险。模型的迭代过程一共进行12步,最后一步保留的变量及回归系数如下:最终的模型包含了地址、就业、居住、设备、电话卡、longmon、equipmon、多线程、声音、因特网、callid、电子账单这几个变量,这说明COX比例风险模型认为这几个变量将影响客户流失时间。基本生存曲线是平均意义上客户预测流失时间的可视化显示,由下图可见,55个月后曲线不在平滑,这是由于可获取的信息变少的

12、缘故。数说工作室www.jiayounet.com3.SPSS实现(1)数据导入由于文件telco.sav是spss文件格式,故可以直接用SPSS打开。(2)模型构建选择analyze-survival-coxregre

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。