数据挖掘技术在电信行业异常客户识别中的应用研究.pdf

数据挖掘技术在电信行业异常客户识别中的应用研究.pdf

ID:52955355

大小:215.00 KB

页数:4页

时间:2020-04-03

数据挖掘技术在电信行业异常客户识别中的应用研究.pdf_第1页
数据挖掘技术在电信行业异常客户识别中的应用研究.pdf_第2页
数据挖掘技术在电信行业异常客户识别中的应用研究.pdf_第3页
数据挖掘技术在电信行业异常客户识别中的应用研究.pdf_第4页
资源描述:

《数据挖掘技术在电信行业异常客户识别中的应用研究.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、>>技术广角技术广角数据挖掘技术在电信行业异常客户识别中的应用研究熊仕平1王雷12李勇21中国联通湖南分公司长沙4100082清华大学博士后科研工作站北京100084摘要:主要讨论数据挖掘技术在电信行业的应用,以异常客户的识别为例阐述了数学挖掘模型的构建与使用。关键词:数据建模数据挖掘主成分分析异常客户1引言题。根据已有的异常客户数据归纳其特性,随着电信运营商逐渐从“以业务为中当拥有新的客户数据时,以此预测识别具有心”向“以客户为中心”的转变,电信运营异常倾向的客户,如识别具有离网倾向或欺商迫切需要对

2、各种业务的客户满意情况进行诈倾向的客户。这样可有助于改进电信运营分析和预测,对客户构成以及客户行为进行商的服务水平,减少收益流失,增强客户的预测识别。而借助数据挖掘技术构建的数学忠诚度等。模型恰恰可以解决分群客户的偏好归纳、客在建立异常客户分析模型过程中,将根户离网倾向预测、客户欺诈行为识别等运营据实际模型的效果对影响客户异动行为的相商最为关心的问题。由于客户离网以及客户关变量做进一步的约简和处理。欺诈等客户异常行为直接关系到电信运营商最关心的收益提高问题,因此本文主要以异2.1数据属性约简常客户识别

3、为例介绍电信行业数据建模技术影响异常客户判定的影响属性通常多种应用。多样,这些属性之间存在着或强或弱的相关关系,以全部属性作为细分标准显然过于复2异常客户分析模型杂,并且也难于在实时环境中识别和追溯目异常客户分析识别主要是对电信客户所标;而任意选取其中某个或某几个属性又会处状态的一种判断,其本质是一种分类问影响对客户异常行为的解释力度,降低细分80TELECOMMUNICATIONSTECHNOLOGY/2006·3效果。因此,较为有效的方法是从这量的分析达到解决问题的目的。在数较少的互不相关的新的组

4、合变量些相互关联的影响属性中,通过约这种降维思想下便产生了处理高维进行分析来达到解决问题的目的。简算法抽取对客户异常行为起关键数据的主成分分析(Principal例如,假设影响客户离网的属性有影响的属性;或者对这些属性进行ComponentAnalysis)法。服务价格、通话质量、信号覆盖率、抽取整合,重新构造少数关键指标,2.1.2多规则神经网络电话掉线率以及客户信用度等,对这些指标是原有影响属性(或称因使用多规则神经网络进行属性客户的这5个影响属性用“1~10”子)的线性组合,能综合原有影响属约简

5、是将原始属性数据作为多准则进行评分,分数大小对应表示非常性的最大信息,相互之间的相关性神经网络的输入,通过自适应学习,不重要到非常重要,由于这5个影响较小。经过约简的数据属性能对客逐步改进客户数据各属性的权值大属性之间存在较强的相关性,不宜户异常行为进行最好的解释,有助小,按各属性对分类的重要程度来直接用来建模,因此可以进行主成于异常客户识别模型取得较好的预进行属性约简。分分析。根据主成分分析方法可以测效果。以原始属性作为输入,构建一得到两个关键属性,它们的准确程2.1.1主成分分析个3层的多规则神经

6、网络结构,如图度达到86%。主成分分析又称关键因素分析,1所示。此时有:主成分1=0.532X1-是属性约简时常用的统计方法。其中,输入层分别对应客户属0.348X2-0.067X3-0.136X4+在数据分析问题的研究中,往性;隐含层的神经元调节网络的收0.734X5往会涉及众多有关的变量,但是,属敛速度与精度,其数目可以动态调主成分2=-0.32X1+0.641X2性太多不但会增加计算的复杂性,节;输出层对应异动客户类别,两个+0.712X3-0.531X4+0.12X5而且会给合理分析问题和解决

7、问题输出节点分别对应具有异动趋向和其中X1为服务价格得分,X2为带来困难。一般来说,每个变量都提没有异动趋向的客户。通话质量得分,X3为信号覆盖率得供了一定的信息,但其重要性有所2.1.3属性约简方法应用分,X4为电话掉线率得分,X5为客不同,而在很多情况下变量之间有主成分分析用于属性约简的主户信用度得分。一定的相关性,从而使这些变量所要作用是将某些具有相似性的属性根据各相关属性在两个主成分提供的信息在一定程度上有所重叠,进行组合,通过将原有影响属性(或上的负荷,可以将主成分1和主成分因此人们希望对这

8、些变量加以改造,称因子)进行线性或非线性组合,综2分别定义为经济表现属性和服务通过对为数较少的互不相关的新变合原有影响属性的最大信息,用为性能表现属性。在此基础上即可使用这两个主成分作为客户离网识别数学模型的输入变量,从而降低模型的复杂程度。多规则神经网络主要在原有影响属性中删除对目标属性不具有明显作用的属性,保留具有显著影响作用的属性。例如,假设考虑影响客户欺诈的属性有客户类型、手机型号、行业类别、支付方式、时段总费用以及客户信用度等,将客户是否发生欺

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。