[精选]客户流失分析.pptx

[精选]客户流失分析.pptx

ID:62591056

大小:839.27 KB

页数:62页

时间:2021-05-13

[精选]客户流失分析.pptx_第1页
[精选]客户流失分析.pptx_第2页
[精选]客户流失分析.pptx_第3页
[精选]客户流失分析.pptx_第4页
[精选]客户流失分析.pptx_第5页
资源描述:

《[精选]客户流失分析.pptx》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、客户流失分析 (数据挖掘案例分析)上海****通信技术有限公司()培训大纲一、统计知识二、案例背景三、商业理解四、数据理解与数据准备五、建立模型与模型评估六、模型应用七、总结(即跨行业数据挖掘标准流程”的缩写),是一种业界认可的用于指导数据挖掘工作的方法。指标变量获取从业务系统中取出的数据都是根据业务的需要考虑设计的,但往往不能达到取得良好数据挖掘结果的目的.这时需要对数据进行各种变换或者生成相关的衍生变量。下面介绍一些数据的常用变换形式和衍生变量生成的常用方法。、单变量的变换为了建立模型的便利,经常要对现有的变量

2、进行某种形式的变化。这里总结出以下几个类型的单变量变换方法。指标变量获取连续变量向连续变量的转化。连续变量的变换通常有这样几种情况:①使数据便于计算和比较进行的变化,例如由单位是分变为单位是元、入网时间(时间型号变量)向在网时长的转化②为了修正数据的分布对数据进行适当的变化,例如对数变换、倒数变换等③使不同量纲和数量级的数据具有可比性的变化,即标准化变化。标准化变换通常有两种形式:一种是(原值平均值)标准差,另一种是(原值最小值)(最大值最小值),这种变换后取值范围在之间。指标变量获取连续变量向离散变量的转化。一个

3、变量取值是大是小,往往只是相对而言,分析中经常需要把一个连续取值变换为离散的分级变量以使业务上更好理解。连续变量向离散变量的转化可以完全基于业务来考虑,比如对客户的年龄分群,有些企业就是把岁算作他们的青年客户。如果从统计学角度考虑,连续型变量向离散型变量转换主要是进行分箱变换,可以分为三种:①、按照等距离进行分箱②、按照等数量进行分箱③、按照分布进行分箱。例如把数据分为段,小于平均数个标准差为第一段;大于平均数个标准差且小于平均数个标准差为第二段;大于平均数个标准差为第三段。指标变量获取离散变量向连续变量的转化。对

4、于有些分级类型的离散变量,可以将它理解为对连续变量做处理和建立模型。例如:对于二分的标志变量,也可以将它们转化为连续变量,即将标量的一个取值记为,另一个取值记为。这样,如果将理解为,将理解为。则这个标志变量可以理解为是分布在之间的一个连续变量,只不过这个连续变量比较特殊,在观察到数据中只有和两个取值。离散变量向离散变量的转化。当离散变量的类别数特别多时,可以对它们适当的归并,例如将个数特别少的类别统一归为其它就是典型的一种。另外,一个多分的离散变量也可以变为多个二分的标志变量,比如有一个离散变量是,它有三个取值,那

5、么完全可以把它变为三个变量,每个变量有和两个取值,而当取值为时,对应的情况是取值为,而的取值都为。指标变量获取、衍生变量为了更清晰的说明衍生变量的生成,我们把数据分为两类:一类是横截面数据(指某一时点上收集到的数据),另一类是时间序列数据,一条记录代表一个时间点或者时间段上的取值,通常会有一个表示时间的变量。对横截面数据的衍生变量来说有以下一些常用的生成衍生变量的方法:①、强度相对指标:有一个联系的两个指标之间相比的结果得到的指标。例如平均通话时长总通话时长总通话次数②、比例相对指标:用来反映总体中各组成部分所占比

6、例的一个指标。指标变量获取、衍生变量对时间序列数据有以下一些常用的生成衍生变量的方法:①、滞后类指标:对于时间序列数据,各条记录之间联系更加紧密,我们通常会取上一条记录(例如代表上月取值)及上年同期(例如去年同月),与当前记录相比得到环比增长率(例如本月值上月值)和同比增长率(例如本月值上年同期值);为了消除波动,有时我们还对多个时间段数值进行求和、平均等操作。例如股市中常用的股价日平均值,这类指标可以被归结为滞后类指标。②、汇总类指标:汇总类指标:求和,平均值,最小值,最大值,标准差,记录数等。指标变量获取、趋势

7、类指标对时间序列变量来说,一个重要的方面是看趋势。例如在这个案例中,我们特别关注每个客户的通话时长等指标的趋势,是变多,变少,还是随机性的波动?我们有理由猜测,如果一个客户的通话时长趋势是变少,那么这个客户流失的可能性会更大。但是如何衡量趋势呢?最朴素的想法是用最后一个月的取值除以第一个月的取值看增长率,但是这样会丢失很多中间月份的数据信息。我们还可以使用下面的方法来查看趋势。即建立变量与时间的回归模型(例如在这个案例中,自变量为月份,因变量为通话时长),将自变量的回归系数作为趋势(也可以使用标化回归系数作为趋势)

8、,这个值大于0,则趋势是变多;这个值小于0,则趋势是变少。趋势的计算公式如下(以作为月份,代表通话时长,代表月份数量),则:指标变量获取、波动类指标对时间序列变量来说,趋势只反映了大致方向,但是这个方向的过程是一帆风顺,还是惊淘骇浪呢?可以使用波动指标来进行度量。简单地,可以使用标准差或变异系数来衡量波动,也可以使用如下公式计算波动:培训大纲一、指标变量获取

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。