数据挖掘技术在电信行业客户流失分析中的应用分析

数据挖掘技术在电信行业客户流失分析中的应用分析

ID:32072880

大小:1.24 MB

页数:59页

时间:2019-01-31

上传者:U-10915
数据挖掘技术在电信行业客户流失分析中的应用分析_第1页
数据挖掘技术在电信行业客户流失分析中的应用分析_第2页
数据挖掘技术在电信行业客户流失分析中的应用分析_第3页
数据挖掘技术在电信行业客户流失分析中的应用分析_第4页
数据挖掘技术在电信行业客户流失分析中的应用分析_第5页
资源描述:

《数据挖掘技术在电信行业客户流失分析中的应用分析》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

引言在当前竞争日益激烈的电信市场竞争下,客户己经成为关系到企业成败最重要的资源,理解不同消费者群体的购物态度、偏好、价格观念是市场营销成功的关键。明智的商家和营销人员会根据不同城市的不同消费群体,以及不同的产品的不同阶段,有效地规划市场策略。如何保有客户、吸引客户、充分发掘客户的消费潜力已经成为电信运营商们广泛关注的焦点。由于客户选择的余地大大增加,迫使各电信运营商围绕着客户尤其是大客户的争夺也愈演愈烈,使得电信运营商们面临着前所未有的竞争压力。也就是说,对客户的争夺,已经成为当前各大电信运营商竞争的焦点。客户数量一直都是电信运营商最关心的问题,因此客户数量流失预测就显得很有必要,它是电信运营商进行工程设计和编制网络发展规划的基本依据,客户的流失预测分析可以为运营商制定业务发展计划、改善经营管理、做出经营决策提供决策支持。在美国,电信行业在20世界90年代解除管制,便携式电话极大的改变了发展前景,虽然早些时候这股热浪已经袭击了欧洲和亚洲的一些小国家。在这个竞争极其激烈的市场背景下,许多公司争相寻找了了解他们客户的方法。如何保持客户和获得客户已经成为市场营销中最优先考虑的事项。电信公司相互竞争着设计、提供最好的产品从而吸引客户。由此,竞争的压力将电信公司引向了数据挖掘。所有的主要电信行业公司已经采用了这项技术,并获得了很大的收益。几个数据挖掘供应商和咨询公司专门研究该行业的问题。客户的流失有着重大的利害关系。在现今竞争激烈的市场中,客户一遇到问题,就很容易受到诱惑而流失或者转网到其他竞争对手中,在这样的环境下很难挽留住原有的客户。一些数据挖掘供应商专门研究适合电信行业的数据可视化产品。这些方法可以使用户面对别的竞争者的诱人条件时挽留住客户;通过客户流失分析将来使用是否会有所增加;发现有利可图的服务项目;最有可能吸引客户的套餐;向现有的客户推销某些附加的产品和服务;找出影响客户使用电话的因素等等。1 1绪论1.1选题的背景和意义在社会经济高速发展、科技进步的影响下,我国的电信市场逐渐扩大,电信业务的需求量也不断增长。由此大大吸引了电信市场新运营商的加入,激发了新的市场进入者的竞争积极性。从经济学的角度分析,随着电信市场垄断局面的打破,市场上的利润由垄断时期的高额利润降至市场平均利润水平。在这种情况下,保持和发展客户的重要性就在竞争中凸现出来。从电信企业自身的角度来说,客户是企业生存发展的根本。预计在近五年中,这种战略转移将成为潮流。随着国内三大电信运营商的战略重组,三大电信运营商分别都拥有了自己的固话业务和移动通讯业务,导致国内电信运营商间的竞争也越来越激烈,而网络服务质量等方面的差别也在逐渐减少,单纯的价格战对竞争的双方甚至三方都造成损失。因此,电信企业都在寻求改善服务质量、提高市场竞争力的方法。面对这样越来越激烈的市场竞争,电信企业迫切地需要通过某种手段来提高企业自身的科学决策能力,增强在市场经营等方面的正确判断能力,因此,电信运营商需要数据仓库和数据挖掘技[1]术。由于电信运营商积累了大量的业务运营数据,并且电信行业有较为成熟的联机事务处理系统,为数据仓库和数据挖掘提供了数据的电子化的客观条件。另外,电信行业面临激烈的市场竞争的压力,为数据仓库和数据挖掘的建立提供外在的动力。目前,国内的电信行业已经具备了上述这两个基本条件,因此,数据仓库技术以及在数据仓库的基础上进行的数据挖掘操作技术将在国内的电信领域发挥重要的作用。面对电信市场激烈的竞争,电信运营企业都在不断地降低成本,开发新业务,保留已有的客户,争取新的市场份额,对市场变化做出快速反应。业务数据是电信运营商最宝贵的资产之一,最大限度的利用好这些数据可以为企业带来高额回报,从而提高企业的竞争力。由于电信市场日趋饱和,所以获取新客户的成本比留住现有客户群要昂贵得多,并且竞争对手、技术以及法律法规等动态市场变化更容易使客户流失到其他公司。因此,在开发新用户的同时,尽量减少老用户的流失(降低用户流失率)问题,就摆到了[2]电信运营企业面前。[3]对电信运营商来说,客户流失管理是企业生存发展的需要。有关数据显示:1)发展一位新客户的成本是挽留一个老客户的4倍;2)客户忠诚度下降5%,则企业利润下降25%;3)向新客户推销产品的成功率是15%,然而,向现有客户推销产品的成功率是50%;2 4)如果将每年的客户关系保持率增加5个百分点,可能使利润增长85%;5)向新客户进行推销的花费是向现有客户推销花费的6倍;6)如果公司对服务过失给予快速关注,70%对服务不满的客户还会继续与其进行商业合作;7)60%的新客户来自现有客户的推荐;8)一个对服务不满的客户会将他的不满经历告诉其他8-10个人,而一位满意的客户则会将他的满意经历告诉2-3人。9)电信市场的二次性决定于这样的特点:客户加入的时间越长,对电信运营商的价值越高。由此可见用户流失对业绩的巨大影响。客户离网给电信运营商带来的主要问题包括:1)客户群的大进大出,对营销成本造成很大损失。2)是业务收入增长缓慢的主要原因之一。目前,新增用户是带动收入增长的主要因素,而离网用户造成的收入损失占新增用户收入的很大一部分,大大降低了收入增幅。数据仓库和数据挖掘的出现在客户流失分析作为企业经营分析系统中具有重要的意义。它不仅提高了电信企业数据的存储及处理数据的能力,而且也提高了分析问题的能力,数据挖掘能够让人们发现很多从来就没有意识到的知识,并给企业带来相应的效益。提高企业的竞争力,而数据中心的实施,即建立企业级的数据仓库和进行数据挖掘将在其中起到关键的作用。目前,国内的电信企业已建有大量成熟的数据库业务系统,如计费系统、管理信息系统、网管系统等。通过这些系统,积累了大量的原始数据和各种业务处理数据,这些数据真实的反应了电信企业各种业务环境的经济动态。然而,这些宝贵的数据未得到企业充分的利用,没有为企业决策提供很好的支持,其主要原因如下:1)已建成的业务系统都是联机事务处理系统,强调的是密集的数据更新性能和系统的可靠性,而数据挖掘可能需要运行几个小时,从而消耗大量的系统资源。2)由于缺乏集中存储和管理,所以业务数据相对分散于异构的数据环境中,同时这些独立的业务系统缺乏标准的接口。3)业务系统和数据挖掘所需要的数据不同。1.2研究现状及发展趋势[4]世界各地很多电信运营商正经历着不同程度的客户流失,仅以1999年为例,欧洲的客户流失率为25%,美国为30%,亚洲则达到48%。对于世界各地已经建立真正竞争机制的市场而言,电信业的客户流失现象由于若干原因而不可避免。在我国,3 [5]电信业的发展刚刚起步,技术研究主要是业务支持系统(BSS)的更新换代。近几年来,一些电信企业也意识到挽留高价值客户的必要性,开始逐步着手对历史数据进行分析、挖掘。但是,大部分都只是试探性的建立简单的模型,有的还处于调研与可行[6]性分析阶段,并没有实际可用的成熟产品投入使用。1.2.1流失影响因素的相关研究为了发现导致电信业客户流失的原因,国内外有多位学者对此进行了研究,主要集中在客户满意度、客户忠诚度以及客户转换成本对客户流失的影响。[7]在国外,Maddenetal研究了澳大利亚ISP市场,认为客户流失与月消费正[8]相关,与家庭收入负相关;LeeandFeick研究了法国移动通信市场,利用回归的方法探讨满意度对客户忠诚度与转换成本对客户忠诚度的主要作用与中介作用。结果表明在相同的满意度水平下,高的转换成本会导致高的客户忠诚度,低的转换成本会[9]带来较低的客户忠诚度;KimandKwon研究了韩国电信市场,认为网络规模的选择[10]与客户保持有密切关系;Gerpottetal研究了德国电信市场,认为号码可移植性的开放对客户保持有影响等等。[11]在国内,周支立提出基于数据挖掘的客户流失分析方法,通过分析流失客户之间的关系以及客户的消费行为,给出了客户流失的规律;吴丽娜等将流失客户分为[12]三类,并从客户流失本身的特征和流失客户消费行为特征两方面进行了分析,发现女性客户容易流失,年轻的客户相对不稳定,拨打客户服务电话频率,可作为客户流失预警的重要指标。李竞明从客户价值和客户满意的角度,分析了主动放弃、主动离[13]开、被挖角、被吸引和被迫离开等导致客户流失的主要原因。孔昳等将客户流失分[14]为竞争性客户流失和非竞争性客户流失,并分析了导致这两种流失的原因。1.2.2挖掘技术的相关研究数据挖掘领域方法众多,往往是根据所挖掘的知识的不同而采取不同的方法。[15]一般来说,分类是把数据项映射到其中一个事先定义好的类中的这样一个过程。分类可用于预测,预测的目的是从历史数据记录中自动推倒出对给定数据的推广描述,从而能对未来数据进行预测。分类技术已经在很多领域得到了成功的应用,如医疗诊断,客户流失预测,信用度分析等等。常见的分类方法有决策树、神经网络、贝叶斯分类、遗传算法、支持向[16]量基和逻辑回归等。目前,在电信行业预测客户流失中前人做了大量的工作,也采用了不同的挖掘方[17][18]法。其中采用决策树作为挖掘算法的有邱义堂、郭明;采用神经网络的有[19][20][21][22]Mozer;采用逻辑回归的有KIM、石永华;采用支持向量基的有夏国恩等等。利用数据挖掘方法对企业客户流失进行预测,前人已经做了大量的研究。根据现4 有文献的研究结果,决策树和神经网络在客户流失预测方面有比较好的效果。然而这些方法在客户流失预测方面仍有一些不足:1)大部分研究都采用单个的数据挖掘方法进行预测,这样往往会训练出相似的模式,应用到新的数据时,没有稳定的预测效果。2)未能很好的对流失特点进行分析。研究都只得出模型预测的准确率,没有利用预测结果对企业进行流失原因分析。1.3本文的主要研究内容基于国内电信行业小灵通业务管理系统数据以及其在客户流失预测方法的不足,结合前人的研究成果,本文拟利用决策树和神经网络算法相结合的模型对客户流失预测行为进行预测。文章主要内容包括:1)我国电信行业的发展现状、客户流失现状以及对客户流失管理的必要性。概括阐述了数据挖掘的定义、技术分类、算法分类和应用中面临的问题;详细介绍了数据挖掘中的决策树算法和人工神经网络算法。2)客户流失模型的建模过程。这一部分主要是对决策树和神经网络挖掘算法进行比较,并将两种算法相结合进行建模。混合预测模型如图1.1:模数型预A模测据型模B型图1.1混合预测模型3)在数据仓库基础之上进行的数据挖掘技术研究。并且对所得模型进行充分的验证,直到得出最终满意的模型。4)模型的验证与评估。提出一种客户流失分析的解决方案,并通过对实际案例的应用,对其有效性和实际操作性进行了验证,取得了良好的效果1.3.1要重点解决的关键问题1)建立基础数据集的过程中异构数据的问题。主要是从原文件或原数据库中获[23]取数据,并经过集成、清洁、转换、优化后,将其加载到基础数据集的过程。2)选取适合电信客户流失模型的分类算法。在决策树分类、贝叶斯分类、神经网络、遗传算法等几种分类方法中选择决策树和神经网络相结合做为分类算法。5 3)在决策树算法建树过程中高信息增益结点的判断,此问题基于决策树结点所含信息熵来判断。1.3.2本课题所要达到的目的1)提高客户流失预测的精度。本文结合两种数据挖掘算法来建立混合模型,从而提高模型预测的精度。2)用测试集数据对建立好的模型进行合理化的评估。3)利用预测结果来指导企业的实践,为企业提供有价值的信息,从而帮助企业制定客户挽留策略,进行客户流失预警。数据挖掘的算法比较多,在面对具体应用时,挖掘算法跟具体的业务相结合。一个数据挖掘应用可能会同时使用到几个数据挖掘方法,在一个挖掘过程中,不同的步骤可能要用到不同的算法,某个算法可能要利用另一个算法的结果,其输出也可能是另一个算法的输入。因此,在一个挖掘应用中,要经过评价之后,选择效果最好的算法。1.4本文的组织结构本文首先对当前我国电信企业在客户流失分析中应用的技术进行了分析,针对客户流失管理的问题进行了研究,结合所学的数据挖掘方法和技术建立了一个预测模型,并对该方法的可行性进行检验。本论文共分为五章:第一章主要阐述了我国电信行业的发展现状、客户流失现状及对客户流失进行管理的必要性,明确论文的研究目的、研究对象和研究重点。第二章主要介绍了论文所涉及的相关理论知识,概括阐述了数据挖掘的定义、技术分类、算法分类以及业务建模和数据挖掘的相关理论;介绍了CRISP-DM数据挖掘过程参考模型以及基于此标准的Clementine数据挖掘软件。第三章详细叙述了面向具体小灵通业务的主题分析,包括商业目标、客户流失的表现形式、客户流失的定义、流失因素的分析以及对业务的理解;。第四章建立客户流失模型并对该模型进行评估,以测试数据为对象,用建立的预测模型进行挖掘,最后给出数据挖掘的结果,并对多种模型挖掘的结果进行了比较。第五章对山西电信L分公司进行了实例分析,并给出客户挽留意见。第六章给出了全文的总结、后续工作及展望。6 2数据挖掘理论基础与技术2.1数据挖掘理论2.1.1数据挖掘概述数据挖掘,顾名思义就是从大量的数据中挖掘出有用的东西,即从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中发现隐含的、规律的、人们事先[24]未知的,但又是潜在有用的并且最终可理解的信息和知识的非平凡过程。非平凡通常是指数据挖掘过程不是线性的,在挖掘过程中有反复、有循环,所挖掘的知识往往不易通过简单的分析就能得到,这些知识可能隐含在表面现象的内部,需要经过大量的数据的比较分析,应用一些专门处理大数据量的数据挖掘工具。当然,数据挖掘并没有一个完全精确的定义,在不同的文献或应用领域也有一[24]些其他的定义,如Zekulin定义数据挖掘是一个从大型数据库中提取以前未知的、可理解的、可执行的信息,并用它来进行关键的商业决策的过程;数据挖掘以数据仓库和多维数据库中的大量数据为基础,分别利用不同的方法和技术,从不同的角度去[23]发现知识;Ferruzza定义数据挖掘是用在知识发现过程中,来辨识存在于数据中的未知模式的一些方法;Jonn则定义数据挖掘是发现数据中有益模式的过程;Parsay则认为数据挖掘是我们为那些未知的信息模式而研究大型数据集的一个决策支持过程。这些定义主要从数据挖掘的商业应用出发,从此角度看,数据挖掘的主要特点是对商业数据库中的大量事物数据进行抽取、转化、分析和模式化处理,从中提取商业决策的关键知识,也就是说从数据库中自动发现相关商业模式。我们设法在一个商业环境中理解这项技术。就像所有其他决策支持系统一样,数据挖掘传递信息,图2.1显示了决策支持系统的演进。注意最早的方法就是决策支持系统的原始类型。下一个方法是数据库,它提供了更多有用的决策支持信息。在20世纪90年代,用户通过数据仓库联通查询和报表工具来获得他们需要的决策支持信息,这些数据仓库开始成为决策信息主要的、有价值的来源。更复杂的分析可以使用OLAP工具。到此为止,获取信息的方法是由用户驱动的。但数据的透明性使得任何人都无法使用分析和查询工具来辨别有用的模式。例如,在市场分析中,几乎不可能通过查询和下钻数据仓库的方法来考虑所有可能的联系并了解其内在的关系。这时就需要一项技术,它能学习过去的联系和结果并预测客户的行为,并由自己完成知识发现,且是一个数据驱动的方法而不是用户驱动的方法。这就是数据挖掘需要插手并从用户那里接管过来的地方。7 OLAP系统早期基于数据库系统文件系统数据仓库数据挖掘应用系统用于多维分基本的核操作型系用于决策支析的数据选择和抽算资料统数据持的数据取数据没有决策原始的决真正的决复杂的分知识发现支持策支持策支持析和计算查询和报特别的发现的模特殊的表查询/分式/关系报表析||--------------------------------由用户驱动------------------------------||----由数据驱动--|||图2.1数据挖掘的决策支持过程数据挖掘是一个利用各种分析工具在海量数据中发现模型和数据间关系的过程,并且使用这些模型和关系可以进行预测,它帮助决策者寻找数据见潜在的关联,发现被忽略的因素,因而是解决当数据爆炸而信息贫乏问题的一种有效方法。数据挖掘通常也被称为KDD——数据库中的知识发现。也就是说,在KDD(Knowledge[24]DiscoveryinDatabase)中进行知识学习的阶段称为数据挖掘。数据挖掘是KDD中的一个非常重要的环节。数据挖掘是一门交叉学科,融合了人工智能、数据库、统计学、机器学习等多个领域的理论和技术。数据库、人工智能和数理统计是数据挖掘研究的三根强大的技术支柱。数据挖掘的方法和数学工具包括统计学、决策树、神经网络、模糊逻辑、线性规划等。2.1.2数据挖掘的作用8 数据库系统经过数十年的发展,已经保存了大量的日常业务数据。随着数据库和各类信息系统应用的不断深入,数据量的日益积累,每年都要积累大量的数据,并呈增量发现趋势。大量的信息是当今信息社会的特征,是我们的宝贵财富,然而面对海量数据,我们往往无所适从,无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势。导致了“我们淹没在数据的海洋中,但却缺少知识”的现象。如何才能不被信息淹没,而是在信息中及时的发现有用的知识,提高信息的利用率?我们希望运用数据挖掘技术从这些数据当中挖掘出知识来。大量数据的背后隐藏了很多具有决策意义的信息,通过对海量数据的分析,发现数据之间的潜在联系,为[24]人们提供自动的决策支持。数据挖掘技术是人们长期对数据库技术进行研究和开发的结果。数据库技术最初用于联机事务处理,即实现对大量数据的统一存储,并提供对数据的查询、插入、删除等事物性操作随着大量数据的积累,人们不满足只是简单地查询和修改数据,而是希望能够发现数据之间的潜在的关系,因此,对数据库技术提出了新的要求,随着一些相关学科和研究领域的日渐成熟,以及现实世界中商业竞争的压力日渐残酷,企业急切地希望通过怪色处理这些数据获得有利于企业进一步发展的决策依据,而是否能够最大限度的使用信息资源来管理和影响企业决策流程,将决定企业是否能够拥有[24]最大程度的竞争优势,数据挖掘技术于是出现了,并得到快速的应用。数据挖掘可以应用在各个不同的领域。数据挖掘工具能够对将来的趋势和行为进行预测,从而很好的支持人们的决策,如银行可以使用数据挖掘发现有价值的客户,保险公司和证券公司可以使用数据挖掘来检测欺诈行为等等。数据挖掘自动在大量数据中寻找预测性信息,因此,以往需要领域专家和分析人员进行大量人工分析的问题,[24]如今可以直接由数据本身迅速得出基于知识的决策。2.1.3数据挖掘的流程数据挖掘是一个反复的过程,通常包含多个相互联系的步骤,如定义和分析主题、数据预处理、选取算法、提取规则、评价和解释结果、将模式构成知识,最后是应用。并且随着应用需求和数据基础的不同,数据挖掘处理的步骤可能也会有所不同。通常,数据挖掘的基本步骤包括:1)问题定义与主题分析进行数据挖掘,首先必须分析应用的领域,包括应用中的各种知识和应用目标[24]。问题定义了解相关领域的有关情况,熟悉背景知识,弄清用户要求。清晰地定义出业务问题,认清数据挖掘的目的是数据挖掘的重要一步。开始真正的数据挖掘之前最先也是最重要的就是了解用户的数据和业务问题。精确定义所要解决的问题是数据挖掘成功的关键要素之一。要想充分发挥数据挖掘的价值,必须对用户的目标有一个9 清晰明确的定义,有效的问题定义还应该包含一个对数据挖掘的结果进行衡量的标准。在确定用户的需求后,应对现有的资源如已有的历史数据进行评估,确定是否能够通过数据挖掘技术来解决用户的需求,然后进一步确定数据挖掘的目的和制定数据挖掘计划。数据是数据挖掘工作成败的基础,因此,分析主题的任务包括对数据进行进一步的理解,如确定数据挖掘所需要的具体数据,对数据进行描述,检查数据的质量等等。数据挖掘永远不会代替有经验的商业分析师或管理人员所起的作用。数据挖掘需要有一个明确的主题目标,该主题目标决定了此后数据挖掘的各种操作。数据挖掘的主题目标在数据挖掘过程中是可修正的,但其基本原则内容要保持稳定。在数据挖掘过程中,面对不同的用户要制定不同的主题。2)数据准备数据挖掘所处理的数据集通常不仅具有海量的数据,而且可能存在大量的噪声数据、冗余数据、稀疏数据或不完全数据等等。解决数据的应用质量问题,充分利用[24]有用的数据清除虚假无用的数据是数据挖掘的基础。数据准备包含两方面:一是从多个数据源去整合数据挖掘所需要的数据,保证数据的综合性、易用性、数据的质量和数据的时效性,这有可能要用到数据仓库的思想和技术;另一方面就是如何从现有数据中衍生所需要的指标,这主要取决于数据挖掘者的分析经验和工具的方便性。数据准备包括数据抽取、清洗、转换和加载,具体包含数据的清洗、集成、选择、变换、规约,以及数据的质量分析等步骤。数据挖掘是由可以获取的数据驱动的,数据挖掘的成败在很大程度上取决于数据的数量和质量。从大量的企业客户数据中找到与分析问题有关的样本数据子集,这样可以减少处理的数据量,但需要保证子集具有典型的代表性。明确要使用的数据并定义所需数据模型。具有代表性的数据模型将定义所用的数据类型、数据来源、数据描述、数据内容等。然后对数据进行预处理、分析,尽可能的对问题解决的要求进一步明确、进一步量化。按问题要求对数据进行修改或组合生成新的数据,以体现对问题状态的有效描述。数据预处理包括对的数据清理、集成和变换、归约、数据离散化以及概念分层。3)使用算法建立模型在问题进一步明确的基础上,就可以形成知识的模型,对训练数据集建立一个预测模型,然后再用测试数据集对这个模型进行测试。这一步是数据挖掘的核心环节,一个好的模型不可能做到与已有数据百分之百的相符,但模型对将要预测的数据应有10 较好的预测。建立模型是一个反复训练的过程,需要仔细考察不同的模型以判断哪个模型对所需要解决的问题最优化。数据挖掘中的建模实际上就是利用已知的数据和知识建立一种模型,这种模型可以有效的描述已知的数据和知识,希望该模型能有效的应用到未知的数据或相似情况中。也就是说,建模把一些专业经验、一般规律或普遍情况抽象成一种分析模型。[24]一旦模型建好之后,就可以把它用到那些情形相似而结果未知的判断中。数据挖掘算法执行阶段首先根据对问题的定义明确挖掘的任务或目的,如分类、聚类、关联规则发现或序列模式发现等。确定了挖掘任务之后,就要决定使用什么算法。在选择好数据挖掘的技术和方法后,下面就要对其建立模型,这是数据挖掘的核心环节。数据挖掘还包括针对特定业务需求而选择最合适的挖掘算法的关键步骤,不仅包括对要使用的适当技术或技术合成定义,还包括技术的应用方式。不同的技术方案产生的结果模型有很大不同,而且模型结果的可理解,也存在较大差异。例如,用决策树方法产生模型结果就比用神经网络技术的结果易于理解。另外,对结果的分析和描述即进行知识发现也很关键,不恰当的描述会造成误导。可以根据客户的需求,为不同行业的用户建立各种行业的业务分析模型,如电信行业的呼叫行为分析模型、欺诈模型;金融行业的客户信用模型;证券行业的客户资产模型、交易行为模型;零售行业的客户消费习惯模型等等。挖掘数据的过程就是按照人们设计的模型对数据进行处理、分析、预测的过程它是人的经验、分析过程在计算机中的实现。4)对模型的评估模型评估将发现的知识以用户能了解的方式呈现,根据需要对数据挖掘过程中的某些处理阶段进行优化,知道满足要求为止。评估的方法一种是直接使用原先建立的挖掘数据库中的数据来进行检验,也可以另找新的测试数据对其进行检验,另一种方法是使用实际运行环境中的当前数据进行检验。检测的目的是对整个数据挖掘过程的前面几个步骤进行评估,确定下一步的该怎么做,是发布模型,还是对数据挖掘过程进行进一步的调整,如重新选择数据、采用新的数据挖掘算法等等。5)知识的应用数据挖掘的目的是为了应用,因此我们需要将数据挖掘中发现的规则整合到业务系统当中。在采取任何行动之前一定要经过分析,否则可能得不到预期的效果。在确认数据挖掘的结果后,必须将所得到的知识集成到业务信息系统的组织结构中去,并在业务系统中进一步验证,在知识集成过程中可以采用预先、可信的知识检查和解决知识中可能的矛盾。11 将知识集成到业务系统后,还需要对这些知识进行日常的检测和维护。企业可获得的知识是多方位的,但并不是所有的知识都能够或应该获取。由于知识的时效性和不确定性,许多时候更多的知识并不能带来竞争优势。知识的应用需要根据企业的要求提供对知识及其使用的测量和评价,鉴定哪些是企业所需要的知识,建立从应用到知识的反馈。2.1.4数据挖掘技术分类预测的目的是从历史数据记录中自动推导出给定数据的一般性描述,从而能对未来数据进行预测。分类技术作为数据挖掘用于预测的有效手段之一,其目的是学会一个分类函数或分类模型,该模型能把数据库中的数据项映射到给定类别中的某一个,可以利用历史数据记录并从中自动推导出对给定数据的一般性描述,从而能对未来事物进行判断。因此,要建立电信客户流失预测模型,需要对数据挖掘分类技术进[25]行选择。目前,针对分类问题已有了许多不同领域方法的算法,例如统计学、机器[26]学习、神经网络和粗糙集理论等等。1)统计分析方法在数据库字段项之间存在两种关系函数关系能用函数公式表示的确定性关系和相关关系不能用函数公式表示,但仍是相关确定性关系,对它们的分析可采用统计学方法,即利用统计学原理对数据库中的信息进行分析。可进行常用统计、回归分析、[27]相关分析、差异分析等。2)决策树方法决策树作为一种常用的机器学习方法,主要用于建立预测模型,它通过将大量数据有目的分类,从中找到一些有价值的、潜在的信息。它的主要优点是描述简单,分类速度快,特别适合大规模的数据处理。最有影响和最早的决策树方法是由[28]Quinlan提出的著名的基于信息熵的ID3算法。该算法存在的主要问题是ID3是非递增学习算法;ID3决策树是单变量决策树,复杂概念的表达困难;同性间的相互关系强调不够;抗噪性差。针对上述问题,出现了许多较好的改进算法,如Schlimmer[29]和Fisher设计了ID4递增式学习算法;钟鸣、陈文伟等提出了IBLE算法等。3)神经网络方法神经网络由于本身良好的鲁棒性、自组织自适应性、并行处理、分布存储和高度容错等特性,非常适合解决数据挖掘的问题,因此近年来越来越受到人们的关注。典型的神经网络模型主要分3大类:以感知机、BP反向传播模型、函数型网络为代表[30]的,用于分类、预测和模式识别的前馈式神经网络模型;以Hopfiled的离散模型和连续模型为代表的,分别用于联想记忆和优化计算的反馈式神经网络模型;以ART模型、Koholon模型为代表的,用于聚类的自组织映射方法。神经网络方法的缺点是12 “黑箱”性,人们难以理解网络的学习和决策过程。4)关联规则方法基于关联规则的分类方法是一种新的数据挖掘分类方法,该方法是将数据挖掘中使用最广泛的关联规则挖掘理论引入到分类问题中而提出的以Apriori算法为核心[31]的分类方法。该方法对布尔型数据的分类有较强的处理能力,通过离散化处理后也可以处理连续型数据。数据实验发现基于关联规则的分类方法在处理包含孤立点的非连续模型时就有比C4.5更强的精确性。5)基于粗糙集的分类[32]粗糙集理论(RoughSet)由波兰数学家Pawlak于1982年首先提出。目前,粗糙集理论己经成为知识发现领域的一种重要的数学工具。粗糙集理论利用等价类、上近似集、下近似集等概念对数据进行分类,可以发现不精确数据及噪声数据的内在结构关系。粗糙集分类方法主要用于具有离散属性值的数据进行分类,而对连续属性值数据分类则需要进行离散化处理。以上算法中,大部分都不是专为解决某个问题而特制的,算法之间也并不互相排斥,不能说一个问题一定要采用某种算法,其他的就不行。一般来说,并不存在所谓最好的算法,在最终决定选取哪种模型或算法之前,需要评测各种不同的算法,然后再选取一种挖掘结果较好的,不同算法在不同的数据环境中,优劣会有所不同。如神经网络为解决大复杂度问题上提供了一种有效的简单方法,可以很容易地解决具有上百个参数的问题,但挖出的结果却很难解释,并且所耗的资源也是最大的,而决策树相对来说,其结构和规则推理的过程是开放的、清楚的,可浏览的。数据挖掘的应用中,最终的目标都是发现有价值的知识和信息,有共同的解决方法和步骤,但也存在很大的差异和区别。由于各种方法都有自身的功能特点以及不同的应用领域,数据挖掘技术的选择将影响最后结果的质量和效果,通常是将多种技[33][34]术结合使用,形成优势互补。2.2采用的数据挖掘技术与工具2.2.1决策树技术决策树是一个类似于流程图的树结构,其中每个内部节点表示在一个属性上的[35]测试,每个分支代表一个测试输出,而每个叶节点代表类或类分布。它的基本思想是使用有属性描述的训练数据,根据属性构造决策树。它是能够被看作一棵树的预测[36]模型。树的每个分支都是一个分类问题,树叶是带有分类的数据分割。从根节点到叶节点为一条生成规则。整棵树就代表着决策集的树形结构。用这棵树(或由这棵树形成的规则集)就可以对测试样本进行分类预测。决策树算法通常分为两个阶段:决策树构建(Building)阶段和决策树修剪13 [37](Pruning)阶段。在决策树构建阶段,对属性的选择也就是依据什么技术对记录进行分割是关键的一步,目前决策树算法从这点来分可分为两类:基于信息论(InformationTheory)的方法和最小GINI指标(LowestGINIindex)方法。基于前者的算法有ID3、C4.5,后者有CART、SLIQ和SPRINT。在决策树的修剪阶段,目前有三种修剪策略:基于代价复杂度的修剪(Cost——ComplexityPruning)、悲观修剪(PessimisticPruning)和MDL(MinimumDescriptionLength)修剪。不同的算法采用的修剪策略也不尽相同。C4.5算法是Quilan在1993年提出的。它在建树阶段采用了信息增益的方法,修剪阶段采用了悲观修剪。在应用于单机的决策树算法中,C4.5算法不仅分类准确[38]而且是速度最快的。下面就详细的介绍一下C4.5算法。1)建树阶段在建树阶段该算法从树的根节点处的所有训练样本开始,选取一个属性值用于区分这些样本。对属性的每一个值产生一个分支,分支属性值的相应样本子集被移到新生成的子节点上,这个算法递归地应用于每个子节点上,直到节点的所有样本都分区到某个类中,到达决策树的叶节点的每条路径表示一个分类规则。这种自顶向下的决策树的生成算法的关键性决策就是对节点属性值的选择。选择不同的属性值会使划分出来的记录子集不同,影响决策树生长的快慢以及决策树结构的好坏,从而导致找到的规则信息的优劣。此算法对属性选择的基础是基于使生成的决策树中节点所含的信息熵最小。所谓熵在系统学上是表示事物的无序度。熵越小那么记录集合的无序性越小,也就是说记录集合内的属性越有顺序有规律,这也正是我所追求的目标。集合的熵的[38]计算公式2.1如下:kInfoS()=−∑((freqCS(,)/|iiS|)log(×2freqCS(,)/|S|))(2.1)其中freqCS(,)代表集合S中属于类C(k个可能类中的一个)的样本数量。||S表ii示集合S中的样本数量。上面的公式仅仅给出了一个子集的熵的计算,如果按照某个属性进行分区后就涉及到若干个子集,需要对这些子集进行熵的加权和的计算,公式2.2如下所示:InfoTxii()=−∑((||/||)TT×InfoT())(2.2)其中T是按照属性x进行分区的集合。为了更加明显的比较不同集合的熵的大小,计算分区前的集合的熵和分区后的集合的熵的差(也称作增益),增益大的就是我们要14 选取的节点。公式2.3如下:GainX()=InfoT()−InfoT()(2.3)x以下是一个简单的电信客户资料集合来说明决策树的建立。给出数据集,其中有9个样本,通过三个输入属性描述并且全部属于两个类(流失、不流失)之一。以表格的形式给出数据集合如表2.1所示:表2.1电信客户资料表性别男女女女男男女女男年龄244523484651303543入网不优不优优不优不优优不优优不优优惠惠惠惠惠惠惠惠惠惠是否流流不流不流不流流不流不流不流流失失失失失失失失失失我们需要研究得出的就是三个属性中分别属于流失和不流失的共性的值。分区前的熵为:InfoT()=−39log3969log69−=0.9184比特22首先,分别根据客户性别和优惠情况对样本进行分类,所得到的信息增益如下所示:InfoT()=−49(12log1212log12)59(15log1545log45)−+−−=0.9比x12222特Gainx()=0.91840.9−=0.0184比特1Info()T=−39(13log1323log23)69(13log1323log23)−+−−=0.9183比特x32222Gainx()=0.91840.9183−=0.0001比特3其中x,x分别表示客户性别属性和是否优惠,现在客户年龄属性还没有计算,13因为客户年龄属性是个连续变量,我们必须把它离散化处理。这里的离散化是把连续的样本排成顺序,然后找出它的中间某个值(称作阀值),使得根据阀值计算出来的信息增益达到最大。我的例子中客户年龄的阀值是{23,24,30,35,43,45,46,48,51},从这几个值中选取最优阀值(最高信息增益),对于我的例子来讲阀值选定为48。Info()T=29(12log1212log12)79(27log2757log57)−−+−−=0.721比特x22222Gainx()=0.91840.7210.1974−=比特2现在比较一下三个属性的信息增益,可以看出客户年龄具有最高信息增益率0.1974比特,所以选择客户年龄对决策树进行首次分区。如图2.2:15 年龄大于48小于等于48男优惠流失男不优惠流失女不优惠不流失女不优惠流失男不优惠不流失女优惠不流失女优惠不流失女不优惠不流失男不优惠不流失图2.2首次分区后的决策树初始分区以后,第二个集合子节点的样本仍然不同属于一个类,所以还要继续对第二个数据集采取同样的方法进行分区,直到树的每个分支都属于同一个类为止。实际上创建决策树的过程就是一个递归的过程。下面每一步建树的过程和第一步类似,最后得出结果如图2.3:年龄大于48小于等于48男优惠流失男不优惠流失女不优惠不流失女不优惠流失男不优惠不流失女优惠不流失女优惠不流失女不优惠不流失男不优惠不流失优惠女不流失女不流失图2.3决策树分区后的结果图对上面的结果进行处理去掉数据就得到一颗决策树,如图2.4:16 年龄>48<=48流失是否优惠=优惠不流失图2.4决策树规则图我们从这棵决策树可以很明显的得到一些信息当年龄大于48岁的时候流失;当年龄小于或等于48岁并且入网时享受优惠时客户不流失,并且全部是女客户。当然,我们举的这个小例子并不能实际指导什么问题,在这里我们只是利用它对算法加以说明。2)对未知属性值的处理在一个实际的数据集中,经常会缺少某些字段的属性值——这种属性值的缺失在实际应用中非常典型。由于该属性值和某个样本是不相关的,或搜集样本时没有对它进行记录,或把数据输入数据库时有人为的误差,就可能出现属性值的丢失情况。为了解决缺失值的问题,有两种选择:(1)抛弃数据库中有丢失数据的样本。(2)定义一个新的算法或改进现有的算法来处理丢失的数据。第一个解决方案很简单,但当样本集中存在大量的丢失值时就不能采用这种方法了。在C4.5以及C5.0算法中,有缺失值的样本是按照己知值的频率随即分布的,这是常用的使用法则。我们可以用系数F合理的修正增益参数,该参数表示所给的属性已知的概率(F=数据库中的一个给出的属性值具有已知值的样本的数量/数据集中[38]样本数量总和)。新的增益标准有以下形式:GainX()(()=FInfoT−InfoT())(2.4)x3)剪枝阶段决策树修剪的主要任务是剪掉一个或更多的子树,并用叶替换这些子树,使决策树更加简化。在替换这些子树时,我们希望算法减低预测误差率来提高分类模型的质量。基本思想是用“完全生长”的树T去预测剪枝训练集S。用训练集数据测试树T,使得误差值偏小,最后用二项分布的方法来重新估计误差值。具体方法如下:设树T由训练集S产生。用树T对训练集S进行测试,设某个叶节点记录数为N,预测错误的记录数为E,由于用训练集来测试,所以E是不准确的而且是乐观偏小的。17 使用二项式分布进行修正:EN−EfENp(;,)(!/[!(=×NENEp−)!])(1)−p(2.5)其中p是预测一条记录可能出现误差的概率,f(;,)ENp是预测N条记录误差出E现E次的概率。设∑f(;,)ENpa=,其中a被叫做置信度。C4.5算法默认的a的值i=0是0.25。在给定E,N,a的情况下,可得到p的估计值。叶节点的预测错误记录数'**估计值为ENp=×。设T是T的子树,T共有m个叶节点。用训练集S作为测试m*/对象,子树T的全部叶节点中预测错误记录数估计值为∑E。用一个叶节点代替子i=1**树T。再用训练集S作为测试对象,叶节点中,预测错误记录数估计值为E,如果m*/EE≤∑,则需要剪枝,否则保留子树。i=1从节点一下开始,测试所有的内节点,一旦某个内节点下的子树被剪枝,该内节点以下的所有内节点将不再测试。对树进行剪枝的方法还有很多,但无论是通过什么方法来得到正确规模的树,一个关键的问题是使用什么样的标准来确定最终正确的树的规模。剪枝的标准有如下[39]两种:1)期望错误率最小原则:选择期望错误率最小的子树进行剪枝,对树中的内部节点计算其剪枝和不剪枝可能出现的期望错误率,比较后加以取舍;2)最小描述长度原则:最简单的解释是最期望的,对决策树二进位编码,编码所需二进位最少的树即为最佳剪枝树。2.2.2人工神经网络技术1)神经网络原理人工神经网络(ArtificialNeutralNetwork,简记为ANN)可以模仿人的头脑,通过向一个训练数据集学习和应用所学知识来生成分类和预测的模式。在数据室不定型的并且没有任何明显模式的情况下,这种算法很有效。人工神经网络的基本单元模仿了人脑的神经元。基本单元被称为节点,它是神经网络模型的两个主要的结构之一,另一个结构是链接(link),相当于人脑中神经元之间的连接。我们通过一个简单的例子来理解神经网络是如何做出预测的。神经网络在输入节点处接受变量值或预测值。如果有15个不同的预测值,那么就有15个输入节点。预测值还是经过适当的加权(weight)。神经网络中可以有若干个内部层对预测值进行操作,从一个节点到另外一个节点,知道发现的结果在输出节点上表示出来。内部层也被称为隐含层,因为随着输入的数据集经过多次的反复的处理,内部层一次又一次的改头换面的重复着这些预测值。人工神经网络理论是多学科交叉发展的产物,人工神经网络仿照生理神经网络18 结构的非线性预测模型,通过学习进行模式识别。传统的计算方法采用自底向上的方法,对一个待解决的问题,首先对它进行全面的分析,然后在全面分解,最后为他建立一个计算模型,与编写模仿人脑思维方式的计算机程序来实现智能的自底向上的方法不同,人工神经网络是一个建立人脑的神经网络的方针的自顶向下的方法。人工神经网络系统通过不断采集数据集合中的样本来进行学习的方法来建立数据模型,神经网络系统靠大量的样本不断学习,在大量样本训练的基础上建立计算模型,从而建立神经网络模型。在结构上,可以把一个神经网络划分为输入层、隐含层和输出层。输入层的每个节点对应一个预测变量。输出层的节点对应目标变量,可有多个。在输入层和输出层之间是隐含层,隐含层的层数和每层节点的个数决定了神经网络的复杂度。图2.5[40]给出了一种最基本的神经网络结构:W输输入出层层隐含层图2.5基本神经网络模型除了输入层的节点,神经网络的每个节点都与很多它前面的节点(称为此节点的输入节点)连接在一起,每个连接对应一个权重,此节点的值就是通过它所有输入节点的值与对应连接权重乘积的和作为一个函数的输入而得到,这个函数称为活动函数或激励函数。由于神经网络隐含层中的可变参数太多,如果训练时间足够长的话,神经网络很可能把训练集的所有细节信息都“记”下来,而不是建立一个忽略细节只具有规律性的模型,我们称这种情况为训练过度。显然这种模型对训练集会有很高的准确率,而一旦离开训练集应用到其他数据,准确度很可能急剧下降。为了防止这种训练过度的情况,可以在训练的同时用一个测试集来计算神经网络在此测试集上的正确率,一旦这个正确率不再升高甚至开始下降时,那么就认为此时神经网络已经达到了最好的状态,可以停止训练。2)神经网络的分类及特点按照学习方式,神经网络可分为两种:一种是有指导的学习,也叫做监督学习。19 在这种学习方式中,期望的输出是已知的,对网络的输出和期望的输出进行比较通过调整网络的权值,使得两者之差最小;另外一种是无指导学习,也叫做无监督学习,这时只规定学习方式或某些规则,网络按照这些规则自动调借权值或结构,使得网络最终具有模式分类等功能。[30]按照连接模式和信号传播的方向,神经网络可以分为前馈神经网络(FeedForwardNetwork)、反馈网络(RecurrentNetwork)和自组织神经网络。人工神经网络之所以能够在众多研究领域得到广泛应用,正是由于它具有下述[41]特点:1)并行处理人工神经网络是由大量的神经元组成的,各神经元都可以独立工作,这就决定了大量的神经元可同时进行处理,因而人工神经网络支持大规模的并行处理。2)存贮分布性信息在神经网络内的存储是按内容分布于大量的神经元之中,而且每个神经元实际上存储着多种不同信息的部分内容。3)高度非线性在绝大多数人工神经网络中,总有部分或全部神经元的激励函数是非线性函数,如函数,如Sigmoid函数等。这就决定了整体神经网络的高度非线性。1989年,RobertHecht-Neilsen证明了对于任何在闭区间内的一个连续非线性函数都可以用一个拥有足够多隐层神经元的三层前向神经网络来逼近,这也说明了神经网络具有的高度非线性。4)自适应性和自组织性人工神经网络具有自学习性,是可训练的,因此其具有高度的自适应性和自组织性。由于人工神经网络具有了上面一些特性,因此它能解决常规信息处理方法难以解决或无法解决的问题,尤其是哪些属于思维、联想、推理及意识方面的问题。2.2.3两种算法的比较决策树和神经网络各有优缺点,在客户流失预测方面,决策树得出的模型很容易被人理解,但是在预测客户流失率的细分群时精确度较低,神经网络可以产生很好的预测模型,但是这些模型往往很难理解。两种算法的比较如表2-2所示:20 表2.2决策树与神经网络算法的比较决策树算法神经网络算法可以生成可理解的规则;计算量相对来说有良好的自组织、自学习和自适应能力,面优不是很大;可以很好的处理离散型数据,对复杂多变的外界系统,神经网络可以通过连续型数据经过离散化后也可以用该方其良好的抗干扰能力,去掉冗余信息,掌握点法处理;决策树可以清晰的显示哪些字段系统的内部规律,以自身机构表达的方式进或属性比较重要。行知识的推理。对连续型数据较难预测;对有时间顺序的神经网络的实体与预处理的问题在形式上缺数据,需要进行很多预处理的工作;当类相距甚远,很难用数据化的节点、权值和连别太大时,错误可能会增加的比较快,对接来对所要解决的问题加以描述,它的推理点与测试属性缺失的数据,决策树处理有缺是一种“黑箱推理”,难以对终端用户提供陷。可信的解释能力。2.2.4数据挖掘工具1)挖掘过程参考模型CRISP-DMCRISP-DM数据挖掘过程模型是从进行数据挖掘方法学的角度强调实施数据挖掘项目的方法和步骤,并独立于每种具体数据挖掘算法和数据挖掘系统,所提出的过程[42]模型均在实际项目中得到实践和验证,因此具有一定的代表性。1999年中期,CRISP-DM1.0问世。随后,SPSS公司和NCR公司的专业服务组已经采纳了CRISP-DM,并在大量的涉及许多工商业问题的消费者应用中,成功地运用了CRISP-DM。CRISP-DM之所以成功,就在于它建立在人们进行数据挖掘项目实践和真实经验基础之上。CRISP-DM数据挖掘过程参考模型概括描述了数据挖掘过程中的各个阶段、任务[43]以及结果,并对一个数据挖掘项目需要做什么进行了介绍。其结构如图2.6所示:商业理解数据理解模型发布数数据准备建立模型模型评估图2.6CRISP-DM参考模型21 数据挖掘项目的生命周期由六个阶段组成。图2.6展示了这一数据挖掘过程的各个阶段,这些阶段之间的顺序并不固定,在不同阶段之间来回流动往往是非常有必要的。下一步要执行某个阶段或者哪一个特定的任务,都取决于每一个阶段的结果。图中的箭头表明了各个阶段之间的依赖关系。六个阶段为商业理解、数据理解、数据预处理、建立模型、模型评估、模型发布。当前这个数据挖掘的程序模型,为数据挖掘项目的生命周期提供了一个综合的描绘。它包括了一个数据挖掘项目所要经历的各个阶段,各阶段的任务以及这些任务之间的相互关系。从描绘的层面来看,是不可能鉴别出所有这些任务之间的关系的。但本质上看,这些任务之间是否存在关系,取决于使用者的目的,背景及其利益所在,与此同时,更重的还在于数据。数据挖掘本质是循环的,得出一个方案并不意味着挖掘的结束,在挖掘过程中得出的信息和知识常常会触发一些新的问题,引发新一轮的挖掘。2)Clementine数据挖掘根据数据挖掘软件的开发目的和用途,一般可以分为专业型和通用型两种。专业型数据挖掘软件一般是针对某个特定领域的问题提供解决方案,在设计算法的时候充分考虑到数据的规模、类型以及研究者的需求等特点,并作了优化;而通用型数据挖掘软件不区分具体数据的含义,能处理常见的数据类型,具有较为广泛的使用范围,其所包含的数据挖掘方法也较为全面。而且通用型数据挖掘软件还具有良好的数据库管理能力以及其他常规的统计分析方法。SPSS公司的Clementine数据挖掘工具就属于通用型数据挖掘软件。SPSSClementine是一个开放式数据挖掘工具,它不但支持整个数据挖掘流程,从数据获取、转化、建模、评估到最终部署的全部过程,还支持数据挖掘的行业标准——CRISP-DM。Clementine的可视化数据挖掘使得“思路”分析成为可能,即将精力集中在要解决的问题本身,而不是局限于完成一些技术性工作(比如编写代码)。提供了多种图形化技术,有助于理解数据之间的关键性联系,指导用户以最便捷的途径找到问题的最终解决办法。Clementine具有数据挖掘的全部分析方法关联分析、分类、预测、聚类等。在研究客户流失问题时可以分别使用或组合使用这些分析方法。它的CRISP-DM标准可以帮助规范数据挖掘流程。图2.7说明了Clementine对CRISP-DM挖掘过程模型标准的支持。22 图2.7Clementine对CRISP-DM标准的支持从图中可以看到,Clementine软件对项目的管理是按照CRISP-DM标准过程来实施的,其中包括六大部分:商业理解(BusinessUnderstanding)、数据理解(DataUnderstanding)、数据准备(DataPreparation)、数据建模(Modeling)、模型评估(Evaluation)和模型发布(Deployment)。在项目的开发过程中,我们可以把各阶段产生的报告、数据、模型等结果,存储到相应的各个开发阶段中,以便于管理。下面在看看Clementine软件对数据挖掘分析算法及其它功能的支持,如图2.8所示:图2.8Clementine11.1支持的数据挖掘算法从上图可以看到,Clementine挖掘软件对建模算法支持很多,其中包括了主要的神经网络算法、C5.0决策树算法、C&RTree、Apriori、Logistic等等算法,通过使用Clementine软件可以使分析过程更简单、直观。另外Clementine软件包括对其它功能的支持:1)数据源选项,内容包括了对数据源的支持,可以支持数据库、SAS文件、SPSS文件、Excel文件以及人工输入等;2)数据记录处理选项,功能包括选择、抽样、平衡、汇总、排序、合并、追加、区分等;3)属性字段处理选项,功能包括字段类型定义、字段过滤、填充、更新分类,分区、字段重排、时间区间、更新结构化等;23 4)图形选项,其中分析图形包括散点图、分布图、集合、网络图、评估图、时间散点图等;5)输出选项,其中的结果输出方式包括表格、矩阵、报告、数据审核、变量、统计量、均值等;6)导出选项:导出内容包括数据库、平面文件、SPSS导出、SAS导出、Excel、Publisher等。24 3小灵通客户流失主题分析3.1商业理解及流失客户的定义在建立任何建模过程中,对业务问题的定义都要求非常明确,不明确的定义会严重影响模型的准确性和使用的效果。因此,在客户流失分析中,我们需要准确把握电信企业对于模型的期望及电信企业对客户流失的定义。3.1.1业务问题的定义商业理解是对客户流失分析实施的第一步,主要完成客户需求的理解和确认,并展开相关的客户流失分析的设计工作。为了解决电信企业面临的客户业务问题,就需要明确所要建立的模型所面向的用户及其工作目的。1)用户群该客户流失预测系统的用户大致分为两类:一类是业务系统分析员;第二类是部门经理或决策人员。2)用户群的工作目的业务系统分析员可以利用数据挖掘技术进行业务数据的分析及报表分析,决策人员可以把数据挖掘的分析结果作为其决策的依据。对于本论文的分析,定义的研究目标为对已离网流失的客户群体进行挖掘,并对得到的数据进行分析,发现流失的特性,使其可以应用于电信公司的客户管理,及时的挽留客户。3.1.2流失客户的定义在电信移动小灵通业务系统中,客户的基本状态(STATE)分为五大类,为别是:正常状态(F0A)、注销状态(F0X)、停机保号状态(F0J)、欠费状态(F0M)以及拆机状态。图2.9显示了7月份当前全部客户的状态信息。25 图2.9七月份客户状态上图显示有将近67.89%的客户状态为正常;停机保号状态的客户为0.33%,此类客户较少;13.75%的客户欠费;注销的客户百分比为3.29%;剩下的14.74%的客户状态为拆机状态。对于潜在的流失客户,我们没有能力也没有必要都展开相应的营销措施,我们构建客户流失分析模型的目的不是杜绝流失,而是通过这些分析,来找到潜在的流失客户中是否包括核心客户,从而采取有效的措施,以将损失降到最低。首先,我们来判断什么情况下客户存在流失的风险:1)客户的花费连续数月呈下降趋势;在这种情况下,不管该客户的消费是大还是小,只要持续下降,就很可能存在流失的风险,就进入潜在流失客户名单,此时,只要找出下降原因,并采取相应有力的措施,则极有可能挽回损失。2)客户连续数月的消费都没有超过某个金额;在这种情况下,如果连续数月都没有消费,即金额为0,则说明该客户极有可能已经流失;如果设定一个大于0的某个经验值,则可以找出那些通话消费逐月下降的客户。如果反应及时,仍有机会将这部分潜在的客户进行挽留。目前山西电信某市分公司对现有用户状态定义了五种类别,分别为:正常状态的用户、欠费停机用户、要求停机用户、双停用户、注销用户。在这五类用户中,注销用户是已经流失了的;双停用户虽然暂未注销,但是根据电信业务人员的经验,这类用户也会在短时期内注销;而要求停机用户和欠费停机用户通常来说流失的概率也比较大。因此在对流失用户进行定义的时候,将这五类用户分为流失用户和非流失用户。26 非流失用户为正常用户,而除正常用户外的其它种类用户为流失用户,流失用户中又根据用户状态分为不同等级的流失用户,赋予不同的流失可能性。客户的流失点定义为用户状态变更日期。3.2客户流失的表现形式在营销手段日益成熟的今天,我们的客户仍然是一个很不稳定的群体,因为他们的市场利益驱动杠杆还是偏向于人、情、理的。如何来提高客户的忠诚度是现代企业营销人一直在研讨的问题。为了使用更好的市场营销策略,必须采用智能化的解决方案,使用数据挖掘工具,深入分析研究客户的消费行为特征。电信公司在近些年建设中,已采用了客户关系管理等方法如数据仓库技术,对市场、客户等做了一些OLAP(OnLineAnalyticalProcessing联机分析处理)分析,为了从更多的历史数据中发现客户的消费行为及流失规律,并且采用数据挖掘技术,理解客户的行为,按客户行为进行分类,控制高价值客户的流失等。客户的流失,通常主要出现在以下几种情况:1)公司人员流动导致客户流失这是现今客户流失的重要原因之一,特别是公司的高级营销管理人员的离职变动,很容易带来相应客户群的流失。2)竞争对手夺走客户任何一个行业,客户的总数毕竟是有限的,特别是优秀的客户,更是弥足珍稀的,无论任何行业都遵从的二八法则,即20%的优质客户能够给一个企业带来80%的销售业绩,这是个恒定的法则。所以往往优秀的客户自然会成为各大厂家争夺的对象。3)诚信问题让客户失去电信运营商的诚信出现问题,有些业务经理喜欢向客户随意承诺条件,结果又不能兑现,或者返利、奖励等不能及时兑现给客户,客户最担心使用没有诚信的企业产品。4)市场波动导致失去客户任何企业在发展过程中都会遭受震荡,企业的波动期往往是客户流失的高频段位。5)细节的疏忽使客户离去客户与企业是利益关系纽带牵在一起的,但情感也是一条很重要的纽带,一些细节部分的疏忽,往往也会导致客户的流失。6)店大欺客,客户不堪承受压力店大欺客是营销中的普遍现象,一些大型电信运营商的苛刻的市场政策常常会27 使一些中小客户不堪重负而离去。或者是心在曹营心在汉,抱着一定抵触情绪来使用产品。一旦遇到其他电信运营商好的服务时,就会甩手而去,从而选择转网而造成部分客户流失7)企业管理不平衡,令中小客户离去营销人士都知道2、8法则,很多企业都设立了大客户管理中心,对小客户则采取不闻不问的态度。广告促销政策也都向大客户倾斜,使得很多小客户产生心理不平衡而离去。8)自然流失有些客户的流失属于自然流失,企业在管理上的不规范,长期与客户缺乏沟通,都是造成客户转网的因素等。关键所在就是企业的市场营销和管理不到为,不能够的与一线的市场做更多的沟通,现在的商业领域很广泛,生产企业也处在供大于求的状态,所以电信企业如果不能够很好的去维护你的客户,那么流失客户的资源是非常正常的表现。3.3流失分析的目标及策略国际化的市场环境要求国内的公众电信运营企业在经营管理上向国外先进的电信运营企业看齐,以迎接电信运营业的国际化竞争。同时随着国家改革的深化,国内电信业的市场环境已渐趋合理且竞争将日益加剧。国内、国际电信业的如此态势,对公众电信运营企业的服务内容、服务方式、服务质量、经营管理以及服务意识提出了严峻的挑战。企业的经营模式和服务体系正以客户的价值取向和消费心理为导向,真正体现“创造需求”、“引导消费”的现代客户服务意识与理念。主要策略是根据以前拥有的客户流失数据建立客户属性、服务属性和客户消费数据与客户流失可能性关联的数学模型,找出客户属性、服务属性和客户消费数据与客户流失的最终状态的关系,并给出明确的数学公式。只要知道客户属性、服务属性和客户消费数据,我们就可以计算出客户流失的可能性。市场/销售部门可以根据得到的数学模型随时监控客户流失的可能性。如果客户流失的可能性过高,高于事先划定的一个限度,就可以通过多种促销手段提高客户的忠诚度,防止客户流失的发生,从而可以大大降低客户的流失率。基于严格数学计算的数据挖掘技术能够彻底改变以往电信企业在成功获得客户以后无法监控客户的流失,无法实现客户关怀的状况,把基于科学决策的客户关系管理全面引入到电信企业的市场或者销售工作中来。客户流失分析模型建成以后应该注意的是,由于地区经济差异的原因,模型不能完全照搬。所以可以由某部门建立一个通用的模型,各分部门在此基础上利用本地28 数据进行进一步修正,得到适用于本地的精确模型。模型在应用一段时期后,或经济环境发生重大变化后,有可能模型的偏差会增大,这时候就可以考虑重新建立一个更合适的模型。本文要解决的是客户关系管理系统中的客户流失预测专题,该问题的关键是对小灵通客户历史数据的分析,而建模是数据分析的关键一环。有了数据之后必须将其置于相关模型之中才能发挥这些数据的价值、发现行为模式。本文利用决策树、神经网络相结合的挖掘算法来做流失客户识别模型。两种算法都有优缺点,需要在现实数据环境中加以验证,依照结果比对选择预测效果最佳的算法,使得模型的解释效果达到最佳。29 4客户流失混合模型的建立本章将详细描述利用决策树方法和神经网络相结合的方法建立客户流失模型的全过程,即如何利用电信内部的历史数据建立客户流失模型,如何应用该模型对现有的客户进行流失预测,并根据各方面的因素给出有效控制客户流失的策略。在客户流失分析中,应用数据挖掘技术的主要方式是根据以前拥有的客户流失数据建立客户属性、客户消费数据与客户流失可能性关联的模型,找出客户属性、客户消费数据与客户流失的最终状态的关系,并给出最终的预测模型,从而计算出客户流失的可能性。我们将根据己经发生流失的客户和没有流失的客户性质和消费行为进行挖掘分析,建立客户流失预测模型,分析哪些客户容易流失,流失客户的消费行为如何以及客户流失的其他相关因素,如对手的优惠套餐、经济运行环境等,为市场经营与分析人员制定相应的策略和留住客户提供策略依据,并进一步预测在该策略下客户流失情况。客户流失模型的建立过程如下所示:1)从小灵通业务数据中抽取适当的字段并且对数据进行处理组成客户分析数据库,为客户流失模型的预测提供数据源,这一步根据自己和电信业务人员的经验从业务数据库中抽取数据。2)将客户分析数据库分为两部分,一部分作为建立模型的训练数据,另一部分作为测试的时候用的测试数据。3)用测试数据对流失模型进行检测,调整流失模型的准确度。4)用调整完后的流失模型对当前客户数据库中的客户进行预测,找出有流失倾向的客户流失的属性特点。5)结合流失模型分析客户可能的流失原因,采取相应的措施防止和减少客户流失。4.1数据理解论文的研究工作以山西省某市电信无线市话小灵通历史数据为对象,以数据挖掘过程为线索,通过对历史数据的理解、处理、探索、准备等,来建立客户流失预测模型。进行的数据理解是数据挖掘的第一个过程,数据挖掘的对象是数据,只有对数据充分了解之后才能进行数据挖掘的工作。数据理解的过程首先始于数据的收集工作,接下来就是要对数据理解、熟悉客户数据,能够将商业理解转化为对数据的理解,从而有针对性地开展数据挖掘。据了解,现在电信的信息管理系统主要包括:计费系统、账务系统、营业系统、10060客服系统、网络管理系统等等。根据客户流失数据挖掘所需要的资料和历史数30 据,我从这几大系统中主要提取以下几方面的资料数据客户基本资料、客户缴费资料、客户账单资料等。这些数据通常存储在不同的数据库系统中,甚至历史文件磁带中。例如存放客户账单信息资料的数据库文件就是SCV格式的,所以做数据挖掘时首先就要先进行数据的转换。数据描述是对提取的数据进行描述,包括数据格式、数据性质等,由于所涉及到的数据众多,下面只对无线市话小灵通的客户账单资料和客户缴费资料的重点字段加以描述。1)客户基本信息客户基本信息主要包含一些客户的基本情况信息,例如客户地址、客户类型、客户VIP标示、社会类别、用户类型等等,如下表4.1、表4.2、表4.3、表4.4所示:表4.1用户地址表字段名称字段含义类型空值ADDRESS_ID(PK)地址标识号NUMBER(9)NOTNULLPROVINCE_NAME省名VARCHAR2(20)NULLCITY_NAME市名VARCHAR2(40)NULLSTREET_NAME街道名称VARCHAR2(40)NULLSTREET_NBR门牌号VARCHAR2(60)NULLDETAIL详细信息VARCHAR2(160)NULLPOSTCODE邮政编码VARCHAR2(10)NULL表4.2客户类型字段名称字段含义类型空值CUST_TYPE_ID(PK)客户类型标识NUMBER(4)NOTNULLTYPE_NAME客户类型名称VARCHAR2(20)NULLSTANDARD_CODE标准编码VARCHAR2(6)NULLSTATE状态VARCHAR2(3)NULL表4.3客户重要标示字段名字段含义类型空值VIP_FLAG(PK)重要标志CHAR(1)NOTNULLREMARK描述VARCHAR2(40)NOTNULL31 表4.4社会类别表字段名字段含义类型可否空值SOCIAL_ID_TYPE社会类别标识NUMBER(4)NOTNULL(PK)STANDARD_COE标准编码VARCHAR2(2)NULLTYPE_NAME社会类别名称VARCHAR2(40)NOTNULL由以上表结构可以看出,涉及客户基本信息的表有大量我们并不需要的字段信息,我们只需要从众多信息表结构当中选择对我们分析有用的部分字段进行分析即可。2)客户账单信息这部分资料主要是用户使用设备的详细账单信息账务关系信息组成。用户的通信行为信息,费率信息等主要由这些表来统计汇总生成。由于相关内容众多我只列举部分,其主要相关内容如表4.5、表4.6所示。表4.5客户账务关系表字段名称字段含义类型空值SERV_ID(PK)用户标识NUMBER(10)NOTNULLSERV_SEQ_NBR(PK)用户序列号NUMBER(3)NOTNULLACCT_ID(PK)局编合同号NUMBER(8)NOTNULLACCT_SEQ_NBR(PK)合同号序列号NUMBER(3)NOTNULLACCT_ITEM_TYPE_ID(PK)帐目类型标识NUMBER(6)NOTNULLSTATE状态VARCHAR2(3)NOTNULLSTATE_DATE变更日期DATENULL32 表4.6账目类型信息部分字段NUMBERACCT_ITEM_TYPE_IDNAME10全部费用21市话费(归并)32长话费(归并)43租费(归并)54信息费(归并)65营业区内通话费(归并)76本地网通话话费(归并)87上网通话费(归并)98国际长途通话费(归并)109国内长途通话费(归并)1110滞纳金费用(归并)1211数据费用(归并)1312公话管理费(归并)1622本地网通话话费18120月租费优惠费21121营业区内通话费优惠2228国际长途通话费2329国际长途通话费调整24122本地网通话费优惠2531省内长途通话费2632国内长途通话费调整2834基本租费(归并)2935附属产品租费(归并)37190代办费40191电路(归并)4450滞纳金话费45108月租费调整费用4652来电显示租费4753三方通话租费49107基本月租费33 根据上表,可以得出用户的月平均话费、长途多还是市话多、国内长途通话费调整、卡易通优惠、附属产品租费、来电显示租费、本地呼出费用、长途呼出费用、营业区内通话费优惠、数据费用、信息费等。3)客户信用度信息这部分数据记录用户信用度等级信息。如表4.7所示:表4.7信用度等级字段名称字段含义类型空值CREDIT_GRADE_TYPE_ID信用度指标类别Number(2)NOTNULL(PK)EVALUATE_FLAG(PK)评估标志Varchar2(9)NOTNULLCREDIT_GRADE信用度Number(5)NOTNULL其中信用度字段记录了当前评估标志对应的信用度值,信用度的指标类别为固定值,包括客户类别、重要客户标示、客户级别、付费方式、交费及时情况、累计欠费月份等信息如表4.8所示:表4.8信用度等级字段描述Credit_grade当前评估标志对应的信用度值Credit_grade_type_id评估类别为固定值1客户类别2重要客户标识3客户级别4付费方式5当前拥有设备情况6交费及时情况7当前发生话费情况8累计欠费月份Evaluate_Flag评估标志,每个评估类别对应一组不同的评估标志4)资费套餐信息套餐信息包含了客户当前选择的资费套餐以及与之对应的收费标准和所包含的业务服务信息如表4.9所示:34 表4.9套餐信息字段名字段含义字段定义空值备注PACKAGE_ID套餐编号NUMBER(8)NOTNULLPKPACKAGE套餐名称VARCHAR2(40NOTNULL_NAME)PACKAGE_TYPE套餐类型NUMBER(2)NOTNULL1用户群套餐(认为是通用的资费政策)2个性化协议套餐3自选套餐EFF_TIME有效期NUMBER(2)NULL表示无限期数字表示月份CREATE_DATE创建时间DATETIMENOTNULLREMARK套餐说明VARCHAR2(100)FRESH_FLAG有效标志NUMBER(1)NOTNULL0,无效1,有效STAFF_ID员工号NUMBER(6)NOTNULL5)欠费处理信息这部分内容显示客户在欠费状态下,系统对当前客户的记录信息,包括需要缴纳的费用、滞纳金以及停机状态的情况,如表4.10所示:表4.10欠费客户工单表OWE_DUN_ID流水号(主键)唯一标识STAFF_ID操作员工号SERV_ID用户标识CHARGE费用DUE滞纳金ACTION1:单向停机2:双向停机3:单向复机4:双向复机5:保号停机复机CREATED_DATE生成时间STATE_DATE状态改变时间4.2数据准备客户流失预测分析的目标就是要对有流失倾向的客户进行有针对性的有效挽留,减少客户流失率。根据客户流失原因,可确定不同种类的客户流失。客户流失分析,就是利用数据挖掘等分析方法,对已流失客户过去一段时间的信息、拨打客户服务投诉或交费等信息进行分析,分析出流失或有流失趋势客户的行为特征,建立客户35 流失预测模型,并将该模型应用于现实的客户服务中,预测潜在流失客户,并采取相应的营销手段做到客户挽留和发展客户。我在对数据理解的基础上选取了一些分析变量的范围,确定用来分析建模的数据库系统包括电信业务客户管理系统、客户交费信息系统、客户账单管理系统数据库。从中抽取包括客户基本信息、客户通话交费信息、客户账单信息等,一次为数据依据来进行分析预测的基础,分析系统数据基础结构图如4.1所示:客户管理系统选择、抽取基本信息、账单信息、客户交费系统基础数据…………过滤交费信息客户账单系统图4.1基础数据结构图为了建立客户流失模型,在数据准备阶段必须收集所有的原始数据,并将其格式转换成数据模型所需的格式,以此作为建模或者项目的其他分析工作之用。数据准备是在数据理解的基础上,搜寻并检查分析客户的数据信息,并得到相应的数据项。数据被整合到一起,删除不恰当的记录、填补不完整的记录从而产生数据集,并从数据集中抽样生成训练数据集和测试数据集。4.2.1数据选择由于电信历史数据量巨大,所以在数据准备之前有必要确定数据采集的时间。这里我选取了四个月当中的三个月的无线市话小灵通数据作为训练数据。研究哪些客户即将流失时,将其定位为一个分类问题,即将现有客户分为流失和不流失两类。对于客户流失预测来说,需要针对客户流失的不同种类分别对业务问题进行定义即明确预测目标。因此首先需要明确何为流失,进而区别处理。数据选择的实现是在数据挖掘工具Clementine中选择节点得到的。其中选择的模式存在两个条件选项:包含选项和丢弃选项,选项根据自定义条件。包含选项中选择所需要的数据记录;丢弃选择是根据自定义的条件剔除不用的数据记录。通过选择节点功能也可以选择所涉及数据的百分比,例如,可以创建下面这样的条件:State="F0A"andcharge=271.836 上面的意思是选择客户状态为“正常”并且费用等于271.8的用户。数据选择节点如图4.2所示:图4.2选择节点条件表达式4.2.2数据清洗数据清洗也可被称为数据清理。数据清洗是在数据中消除错误和不一致,并解决对象识别问题的过程。数据清洗包括对空值的处理、噪声数据处理以及一些不一致的数据处理等。数据的不一致性会导致数据挖掘结果的可信度降低。数据清理去除噪声或不相关的数据,并处理数据中缺失的数据域。数据清洗主要是针对多个数据源中数据的不规范性、二义性、重复或不完整等问题,针对有问题的数据进行相应的清洗操作。例如,关于“高薪”和“低收入”的含义在不同的数据集中可能有不同的定义,在一个数据集中“高薪”的人在另一个数据集中则可能不是,因此,所挖掘的数据必须有一致的含义。数据清洗首先需要将数据值进行标准化,即相同含义的值应具有统一的形式。如人员的出生地在不同的数据源中可能分别使用“上海”、“沪”、“上海市”、“沪市”、“申”、“申域”、“Shanghai”、“SH”等表示上海出生地人员,因此,应将这类值统一表示。在不同的数据源中,相同类型的数据可能表示为不同的格式,例如,电话号码通常定义为字符型数据,但是在有些数据源中可能将其定义为数值型数据,因此应先将其进行标准化处理。对于含空值比例比较小的数据集,删除含空值的记录不失为一种简单有效的方法。然而当空值比例较大时,有一些不同的不齐空值的方法如下:1)均值替换法,计算数据集中空缺值域属性的平均值,并用该值替换空缺值。2)专家经验法,业务领域专家制定相应的领域规则,然后根据这些规则推测空值的取值。3)回归分析法,利用回归分析方法分析空缺值属性和其他属性的关系,从而推测空缺值的取值等等。37 在Clementine数据挖掘工具中,对缺失值的处理比较完善和方便。在字段选项中的类型节点,对有空缺值的字段可以有效处理。如图4.3所示:图4.3字段缺失值的处理如上图中,在选定的下拉菜单中,选择自定义就可以在弹出的对话框中进行对缺失值的处理。4.2.3数据过滤原始数据中不可避免地存在着一些空缺值、噪声数据、不正确数据等“脏”数据,它们可能使建模过程陷入混乱,导致不可靠的输出,因此需要进行数据过滤及转换。很多数据表中存在大量的与我需要分析的字段无关,这时我们可以选择数据的过滤功能过滤掉那些对我们没有用的字段,在Clementine中我们可以选用字段选项中的过滤节点来进行此项任务,如图4.4所示:图4.4数据过滤功能上图可以看到在所有的字段中,我们使用数据过滤功能过滤掉了acc_nbr字段、acct_id字段和state_date字段。利用此项功能可以剔除那些在表中大量出现但对我们的分析重要不大的字段。例如,以下是对7月份客户状态中,把客户状态为正常的用户过滤出来,如图4.5所示:38 图4.5过滤为正常状态客户图示我们同样可以用此项功能把客户其他的四种状态过滤出来,以便于分析流失客户。4.2.4数据抽样模型开发的一个重要标准是:“用模型开发过程中未使用过的数据来验证模型”。这条准则可以验证模型的稳定性。也就是说,模型在建模数据集上总是运行良好的。如果模型在一个类似的数据集上同样也有良好的表现,那么可以判定,该模型不是针对个别数据集进行的建模。这也就是为什么我要把数据分为训练集和测试集的原因。首先利用训练集数据进行模型训练,然后用测试集的数据进行验证。数据集在分割方式上可以采用“50/50”、“60/40”、“70/30”,等方式,本文中采用常用的70/30的方式。本文的数据分割工作主要做了以下工作:1)将流失和未流失的客户数据分成两个数据文件。2)按照比例从分开的两个文件中分别随机抽取70%的数据合并成新的文件作为39 训练集。3)将第一次分开的两个文件中剩下的那30%的数据合并成新的数据文件作为数据的测试集合。此过程在Clementine中可以选择用记录选项中的抽样节点进行处理,如图4.6所示:图4.6样本抽样图示以上例图中可以选择抽取样本的条数;从多少样本中取出一个以及抽取样本的百分比,我这里选择随机%选项,定为70%。4.2.5数据格式化数据的格式化主要是改变数据的格式,以满足数据分析的需要。许多数据挖掘方法包括神经网络和一些统计方法不能处理分类数据。因此将分类数据变换为等价的数值数据是一种常见的数据转换。另外,一些数据挖掘技术不能处理初始格式的数值数据。例如,决策树算法需要将数值数据转换为离散数据,是进行数据分类和采用数据项的二元分裂。如果属性的取值区间变化较大,在进行属性相关性分析时,取值较大的属性比取值小的属性会产生更大的影响。为了使分析不受到取值范围不同的影响,在分析前对数据进行标准化处理,使它们都处于相似的区间。4.3建立客户流失混合模型本阶段是在前面工作的基础上,把抽取出来的训练数据建立客户流失预测模型。我将结合最常用的分类算法——决策树算法和神经网络算法,利用SPSS公司的数据挖掘软件Clementine11.1进行客户流失预测混合模型的建立。4.3.1训练决策树模型决策树模型的产生过程如下图所示:40 图4.7决策树模型训练过程我将2008年7月、8月、9月三个月的客户费用以及客户状态信息作为训练集数据,经过对字段的过滤合并成新的数据集合便于训练决策树模型。建立预测模型后,必须要根据测试集的预测效果对模型进行一定的调整和优化才能提高模型的预测效果。常采用调整模型参数和误分类损失的方法。不同的数据挖掘方法建立的模型结构不一样,参数也不同,对于决策树算法来说,模型参数主要是调整树的结构,比如设定每个节点的分枝数等。对于神经网络算法来说,主要是调整神经网络结构,比如每个层隐藏节点的数量或者隐含层的数量等。在Clementine中决策树算法预测模型共有20种误分类损失,如下图所示:图4.8误差分类损失如果模型预测准确,即把实际正常的客户预测为正常;把实际欠费的客户预测为欠费;把停机保号的客户预测为停机保号;把拆机的客户预测为拆机;把注销的客户预测为注销,这时是没有误差分类损失成本的,因此这五种误差分类损失的成本都为0。但这种情况仅仅是模型非常精准且没有误差时的情况,实际上任何一种预测模型达到误差分类损失成本为0是几乎不可能的。我们往往把实际状态正常的客户预测成为流失或者其他状态的客户,或者把实际注销的客户预测成正常或者其他状态的客41 户,以及其他一切预测错误的情况。大多数预测模型默认预测错误的代价是相同的,因此这20个误差分类损失成本都是1。根据电信企业管理人员往日的经验,对于客户状态中的停机保号状态的客户、欠费的客户的流失率非常大,而注销的客户状态实际上已经是流失的状态了,所以我们把客户的停机保护状态、注销状态、欠费状态统一认定为流失状态的客户。这样以来我们就可以把五类客户状态再次分为两大类客户状态,即客户的正常状态和流失状态。这样以来我们就可以把客户的分类误差分为两类,如表4.11所示:表4.11两种误分类矩阵样本中客户状态预测正常预测流失实际正常01实际流失10对客户流失预测来说,各种错误的预测所带来的损失是不一样的。这是由于正常情况下,流失客户所占比例很小,客户流失预测的目的是尽可能多的预测出即将流失的客户。为了达到这个目的,我们一般宁可错误的把一些非流失客户以及一些边缘客户认定为流失客户。因此,把流失客户预测为非流失客户的成本应该高于把非流失客户预测为流失客户的成本。参考训练样本数据中非流失客户与流失客户的比例,我们采用流失客户加权的方法,逐步增大流失客户误分类损失的成本。在决策树模型训练过程中,我们分别以误分类损失成本为1、2、3、4进行训练,得出的训练模型分别用模型A、模型B、模型C、模型D表示,并用测试数据加以验证,具体模型测试结果如下表4.12所示:表4.12四种决策树模型分类矩阵模型类型分类矩阵预测正常预测流失正确率模型A实际正常3993136正确4121983.87%实际流失78941288错误793016.13%模型B实际正常39613354正确4332988.16%实际流失54663716错误582011.84%模型C实际正常39308659正确4357688.66%实际流失49144268错误557311.34%模型D实际正常38988979正确4345588.41%实际流失47154467错误569411.59%从表4.12中可以看出,随着误差代价的逐步增大,预测出的流失客户中实际流42 失的客户数目在逐步增加,预测出的正常的客户数目中实际正常的数目在减少,流失预测的正确率也在逐步增加。但是当我们测试误分类损失成本为4,也就是模型D时,预测模型的正确率出现了下降。显然,模型C相对于其他三个模型准确率较好,能够正确预测出客户的数量也最多,因此我选取决策树模型C作为下一步预测的主要模型。4.3.2建立混合结构我将之前训练好的决策树模型作为输入的一部分,用来训练神经网络模型,从而得出所要的混合模型,训练的过程如图4.9所示:图4.9混合结构的建立过程其中节点模型C是我们上一步经过优选得出的决策树模型,节点state是要训练的神经网络模型。在这一步中,我们将决策树模型的结果和原始数据属性一起作为输入变量来训练神经网络模型,目的是使得混合模型的预测更加准确。我在建立神经网络模型的过程中,采用了六种方法来建立神经网络模型,它们分别是:1)快速法:利用经验法则和数据的特性来建立一个合适的网络拓扑结构。这种方法会产生少一些的隐含层从而快速训练出模型。2)动态法:产生一个内部的拓扑结构,在训练过程中可以通过添加或移除隐含单元来修改网络拓扑结构。3)多重法:通过产生多个神经网络拓扑(具体的数据取决于训练集数据)。在训练过程结束的时候,具有最低RMS(均方根值)的模型被认为是最优模型。4)剪枝法:从最大的网络开始,通过剪枝去除隐含层和输入层最差的神经元。这种方法训练时间常常比较久,但是它的收益常比其他方法要好。5)RBFN:径向基网络使用类似于K-聚类的技术,根据目标变量的值来对数据进行分类。43 6)穷举剪枝法:与前面提到的剪枝法类似,该方法从最大的网络开始,通过剪枝去除隐含层和输入层的最差的神经元。同时,可以通过选择网络训练参数来保证对所有可能的模型空间进行搜索找到最优的一个。在训练神经网络过程中,系统会自动将数据分为训练集和经验集。神经网络模型由训练集产生,而模型的准确性由验证集来评估。我们也可以根据需要来调整用于训练和用于测试的数据比例。Clementine中提供设置随机种子来设置随机数,通过产生一系列的随机值来对网络的权重进行分配,从而每次训练的时候都可以得到不同的模型。我分别采用快速法、动态法、多重法、剪枝法、RBFN以及穷举剪枝法这六种方法对模型进行训练,并用测试数据加以验证,得出的混合模型我分别用模型CA、模型CB、模型CC、模型CD、模型CE以及模型CF来表示,具体模型预测的验证结果如下表4.13所示:表4.13混合模型分类矩阵模型类型分类矩阵预测正常预测流失正确率模型CA实际正常39716251正确4368588.88%实际流失52133969错误546411.12%模型CB实际正常39308659正确4357688.66%实际流失49144268错误557311.34%模型CC实际正常39595372正确4369188.89%实际流失50864096错误545811.11%模型CD实际正常39651316正确4371388.94%实际流失51204062错误543611.06%模型CE实际正常39310657正确4355788.62%实际流失49354247错误559211.38%模型CF实际正常39611356正确4371488.94%实际流失50794103错误543511.06%从表中可以看到,最高的正确率为88.94%,分别是模型CD和模型CF,而在相同样本数量且同样正确率的情况下,我选择预测出最多的流失客户模型,因此,我们可以认为模型CF就是最优的混合模型。4.4流失模型的评测在数据准备阶段已经把原始数据拆分为训练数据和测试数据两部分,流失预测44 模型建立阶段,使用训练数据训练了客户流失模型。这个模型是用训练数据建立起来的,而测试数据集对它们而言是全新的,我们所要的客户流失分析模型应该具有较强的通用性,而不能仅仅适用于某一特定的数据集合,因此我们用测试数据集来分析模型的准确性和通用性。4.4.1评测指标一般来说,客户流失预测模型的评价标准有:预测覆盖率、预测命中率、预测准确率和提升系数。预测命中率表示在被预测出的流失客户当中,实际流失客户所占的比率,它是描述模型精确性的指标;预测覆盖率表示在实际流失客户中,被预测出流失客户所占的比率,它是描述模型普适性的指标,预测准确率是预测出的流失和非流失客户占总客户的比例。我们引入客户流失评价矩阵如下表4.14:表4.14客户流失评价矩阵预测正常预测流失合计实际正常ACA+C实际流失BDB+D合计A+BC+DA+B+C+D其中,A代表预测正常,实际正常的客户;B代表预测正常,实际流失的客户;C代表预测流失,实际正常的客户;D代表预测流失,实际流失的客户。由此得出:D预测命中率=∗100%(4.1)CD+D预测覆盖率=∗100%(4.2)BD+由上面的计算公式,可得到混合预测模型与单个算法的模型的评估结果,如表4.15所示:表4.15混合模型与单个数据挖掘模型比较测试集数据测试集数据模型名称正确率命中率覆盖率正确率命中率覆盖率决策树模型88.66%86.62%53.52%89.17%85.42%47.93%神经网络模型81.38%78.43%44.65%82.06%67.24%44.13%混合模型88.94%92.02%44.69%89.45%90.79%45.97%从表4.15可以看出,混合模型在准确率、命中率方面都比单个算法的数据挖掘模型高。模型覆盖率比决策树模型低,这是由于在决策树模型中我们增大了流失客户被误判的代价,因此决策树模型能够更多地预测出流失客户。综合来看,混合的流失预测模型还是达到了较好的预测效果。4.4.2图形评估45 Clementine提供了很多可视化的评价方法,可以看到预测模型的整体表现。具体的图形评估我使用软件中的评估图表节点来进行。利用评估节点对三种模型进行评估,评估的内容包括模型的响应、模型的利润以及模型的收益。1)模型的响应图所谓响应就是简单的累计客户数占总客户数量的百分比,它的公式是:累计客户记录数Response=∗100%(4.3)总客户的记录数三种模型的对比如下图4.10所示:图4.10三种模型的响应图对比上图横坐标表示百分位数,纵坐标表示响应率(响应%),STSTE=“FOA”表示没有流失的用户,BEST-STATE代表理想情况下的最佳响应曲线;N1-STATE代表混合模型的响应曲线;N-STATE代表神经网络模型的响应曲线;C-STATE表示决策树的响应曲线。对于一个较好的模型来说,模型响应曲线在左上方将从100%附近开始,当使用者向右移动时也能够保持一个较高的稳定状况,然后在图表右端突然下降在整体响应率附近。该响应图表明应用混合预测模型为三者中最稳定的。2)模型利润图表Profit=(分位点中所有客户记录总数)-(分位点中所有记录正常的客户)(4.4)三个模型的利润图标,即能预测尽可能多的流失客户能力,如下图4.11所示:46 图4.11三种模型的利润图对比上图横坐标表示百分位数,纵坐标表示利润,客户状态STATE=FOA表示正常客户。对于一个好的模型来说,利润曲线将会在图表中部的某个地方展现一个定义得很好的最高点。对于一个提供信息很少的模型来说,这条线将会相对地比较直。通过对利润图的分析可以得知何时是最大利润点,这将有助于决策者对经营策略的实施和对市场的控制,及时判断出哪些要流失的客户。3)收益图评估47 图4.12三种模型的收益图对比上图横坐标表示百分位数,纵坐标表示收益率(收益%),STATE表示客户状态。一般来说收益图中,距离对角线的基线越远的模型,其收益就越好,我们可以看出,在收益评估图当中混合模型也表现出了很好的性能。4.4.3总体评估从模型的各项评估指标来看,能够满足当前客户流失分析的需求。一般情况下,一个电信行业客户流失预测模型提升率值(Lift值)接近5时就被认为是一个较好的模型。提升率值的计算公式如下:命中率Lift=(4.5)不使用模型时的流失率本文中所建立的混合模型的提升率值:测试集Lift=÷=86.62%18.68%4.64验证集Lift=÷=85.42%17.98%4.75根据以上评估结果,可以看到混合的客户流失预测模型总和性能较高,得到的模型命中率、正确率和提升率都达到了预期的目标。由此可以借助该流失预测模型辅助决策人员对客户进行相应的挽留工作。4.5模型的发布模型建立并通过经评测之后,如果效果较好就可以使用了。模型的使用有两种方法。第一种是提供给市场决策人员当做参考,由决策人通过察看和分析这个模型之后提出行动方案建议。比如可以把模型检测到的聚集、模型中蕴含的流失信息拿给市48 场决策人员看。另一种方法是把此模型应用到不同的数据集上。模型可以用来标识一个事例的类别,给一项申请打分等。还可以用模型在数据库中选择符合特定要求的记录,以用OLAP工具做进一步的分析。通常情况下,模型是某个商业过程的组成部分,如流失预测、价值评估、忠诚度分析或欺诈检测。在应用了模型之后,当然还要不断的监控模型的效果。即使在开始使用这个模型之后觉得效果非常好,也不能放弃监控,因为数据是在不断发展变化,很可能过一段时间之后,模型有可能要发生改变。我们知道人们的购买方式随着社会的发展而变化。因此随着使用时间的增加,要不断的对模型进行重新测试,有时甚至需要重新建立模型。这也我是的下一阶段的工作。49 5山西电信L分公司实例分析山西电信L分公司是山西省一个较大规模的地级电信公司,用户规模120多万,是当地能够提供移动通信、本地电话、长途数据与互联网的综合电信运营公司。近年来,随着移动通信技术的进步和市场的变化,客户流失已成为L电信公司急需解决的问题之一。5.1利用混合模型进行流失预测上一章经过对数据的理解、数据的准备工作建立了预测客户流失的模型,下面我将利用这个模型对山西电信L公司的客户流失情况做一次实例分析。首先,我在山西电信L公司的实时系统中选取部分数据用来进行客户流失分析。把这些数据同样经过上一章的流程,比如:对数据进行选择、数据清洗、数据过滤、数据抽样以及格式化后,用我建立好的模型来进行客户流失预测。预测过程如图5.1所示:图5.1电信L公司实例分析图在流失模型建立后,一个重要的工作就是找出流失概率高的客户对其进行挽留。根据本文建立的混合模型,我们可以得到实际流失客户中,预测为流失的客户的特征分布情况。由于流失概率高的客户是需要企业重点关注的,因此这里实时数据中该部分客户进行分析。我对客户的重要标志等级、客户类型、客户计费类型、客户消费额等比较典型的属性特征进行分析。50 图5.2流失客户计费类型图5.2中横坐标表示客户的两种基本状态(state):FOA正常状态,FOB流失状态。纵坐标BILLINGTYPEID表示客户的计费类型,如政府、工厂、科研等。流失客户主要集中在客户计费类型为1、6、18、32的客户中,而客户计费类型为3和9的客户则几乎不流失。图5.3流失客户类型图5.3中横坐标表示客户的两种基本状态,纵坐标CUSTTYPEID表示客户类型,如住宅、企业、事业等。流失客户的类型重要集中在客户类型为34、36、51、85、88中,我们可以查阅电信行业数据字典,从而对这些类型的用户多加关注。51 图5.4流失客户重要等级标记图5.4中横坐标表示客户的两种基本状态,纵坐标VIPFLAG表示客户/用户(服务)重要标志,即客户重要程度,分一般(1、2)、重要(3、4、5)、特别重要(6、7、8)等,9表示其它。可以看出客户流失主要发生在重要等级为一般的用户当中,而重要客户和特别重要客户不容易流失。图5.5流失客户类型与费用关系52 图5.5X坐标STATE表示客户状态,Y坐标CUSTTYPEID表示客户类型,Z坐标表示客户的费用。我们可以看出,流失客户的消费水平主要集中在-100到100之间,且几乎多为负值,而100元以上的客户不易流失,我们可以根据这一情况重点观察消费水平不高的客户,以便尽可能早的发现准流失客户。5.2客户流失特点及挽留措施客户流失的原因是多方面的,在这一问题上国内外学者从不同的角度对客户流失及影响客户流失的因素进行了广泛的探讨,主要涉及对顾客满意度、服务品质、顾客忠诚度、顾客特征与客户行为等方面。了解了流失客户的属性特征,电信企业就可以对具有这些特征的用户重点关注,采取合适的挽留策略。根据在山西电信L分公司的了解情况,我发现小灵通客户的消费群体主要集中在中、低端用户,这部分用户由于ARPU值及转网成本相对较低,所以用户的忠诚度较低,在市场竞争中容易流失。随着移动、联通对低端市场争夺的加强使得小灵通在价格上的优势无法突显出来。在手机价格接近小灵通的情况下,小灵通由于建设时间短,其相对的网络覆盖能力弱、通话质量差、移动性能差等技术弱点被暴露无遗,客户流失就成为制约小灵通发展的因素。根据本文所做的工作,结合山西电信L分公司的实际情况和客户流失的原因,为降低客户的流失率,提出一下几点建议:1)开展新的小灵通业务,深挖用户需求提高小灵通用户的ARPU值是固网运营商当前增加电信收入所要考虑的问题。更深层次的问题是面对3G电信企业将如何过渡并保持住这部分用户。2)在对客户进行挽留时,针对客户流失的原因,提供相应的客户挽留处理建议,例如针对客户具体情况进行资费套餐的优化,能极大地提高了挽留的质量。客户维系和挽留真正为运营商提升了竞争优势。3)客户流失原因做深层次的分析。例如:与运营商直接相关的客户流失原因大致有:价格、业务种类、网络质量以及服务等几个重要因素。4)开展个性化服务。电信运营商可以为客户推出个性化的可订制的服务,增强与客户的互动,让客户参与到服务订制与套餐制定上来。5)加大小灵通客户的转网壁垒,以及采用“积分回报”策略,根据客户的入网时间、在网时长、话费等情况,通过累计积分的方式推行长期回馈计划。当用户积分达到规定的程度时,就可以获赠一定的通话时间或现金奖励等等。53 6总结与展望中国电信山西分公司从近些年就开始着手数据工作,而数据挖掘在小灵通方面的应用为企业细分客户群、挽留老用户做出了积极的探索。08年中国通信市场竞争异常激烈,全国三大电信运营商的战略重组完成,中国电信拥有了原属于中国联通的G网移动通讯业务,而随着移动联通竞相降价,小灵通价格优势不再明显,几十万用户协议到期,小灵通存量保卫战任务十分艰巨。本文在数据挖掘理论研究的基础上,借鉴国内外的一些研究经验与结论,较为系统性地研究了数据挖掘技术在我国电信运营业的应用,提出并试着建立了关于预测客户流失分析的混合数据模型。为了研究数据挖掘技术在电信业中客户流失预测系统中的应用,本文以中国电信山西分公司某市的无线小灵通市话为研究对象,描述了数据挖掘的过程。本文的内容主要包括以下几方面:1)研究了数据挖掘技术及其算法,包括决策树、人工神经网络算法;数据挖掘过程CRISP-DM模型及数据挖掘工具SPSSClementine软件;研究了数据挖掘过程各步骤主要的工作及结果。2)分析了某市无线小灵通历史数据,包括对数据的理解与描述、训练数据和测试数据的抽取及探索、历史数据客户流失分析模型的建立以及对该模型的评价工作。3)针对无线市话的商业理解以及历史数据的属性进行了探索,并利用数据挖掘技术对电信无线市话的客户流失模型进行了系统的开发研究,并建立了一种基于决策树和神经网络的混合模型。4)对山西电信L分公司的情况做了实例分析,初步得出了流失原因并提出了客户的挽留措施。本文的研究是理论与实践相结合的研究,对数据挖掘技术用于电信公司客户流失研究做了初步探索,取得了一些成绩,但本文在实践操作上还存在一些需要完善的地方,主要表现在:1)对电信无线市话的历史数据建立数据仓库,数据的更新准备和清理工作在数据仓库中完成。2)广泛研究数据挖掘的其它算法技术,吸取其它技术的优点,多种技术结合使用进行客户流失预测。3)对客户流失预测模型的实践检验以及客户端的开发等。总之,随着数据挖掘技术在电信客户流失应用研究中的广泛深入,以及电信运营商的更加人性化的客户服务,相信不久的将来,电信业中的客户流失现象将有所好转,电信企业的竞争力将更加强大。54 参考文献[1]段云峰,吴唯宁,李剑威.数据仓库及其在电信领域中的应用.电子工业出版社,2003,10:83-97[2]胡世良.我国电信市场环境的一点变化.通讯世界,1999(8):6-8[3]叶松云.我国电信行业客户流失管理的建模分析及应用研究.厦门:暨南大学,2004:12-14[4]UFayyad,GPiatetsky,ShapiroandPSmyth.KnowledgeDiscoveryandDataMining:TowardsaUnifyingFramework.ProceedingsoftheSecondInternationalConferenceonKnowledgeDiscoveryandDataMining(KDD-96).Portland,Oregon,August(2-4),1996,AAAIPress:82-88[5]http://www.eo.net.en/Speeial/Artiele.asp?Speeialld=24&Speeia1Rowld=28&Id=4[6]张弦,数据仓库在电信领域应用的研究.华北电力大学,工学硕士,2002:16-24[7]MaddenG.,SavageS.,CobleN.G.SubscriberchurnintheAustralianISPmarket.InformationEconomicsandPolicy,1999(11):195-207[8]LeeJ.,FeickL.Theimpactofswitchingcostsonthecustomersatisfaction-loyaltylink:mobilephoneserviceinFrance.JournalofServicesMarketing,2001,15(1):35-38[9]KimH.S.,KwonN..Theadvantageofnetworksizeinacquiringnewsubscribers.InformationEconomicsandPolicy,2003,15(1):17-33[10]GerpottT.J.,RamsW..Customerretention,loyalty,andsatisfactionsintheGermanmobilecellulartelecommunicationsmarket.TelecommunicationsPolicy,2001(25):249-269[11]周支立,刘斌.基于客户信息的电信企业客户流失问题分析.情报方法,2003(12):97-99[12]吴丽娜,周支立,刘斌.移动通讯公司流失客户信息分析.情报杂志,2005(5):112-115[13]李竞明.客户流失的原因分析和防范.江苏商论,2005(5):24-25[14]孔昳.探究电信行业客户流失.经营论坛,2004(1):5-6[15]MehmedKantardzic,数据挖掘--概念、模型、方法和算法,闪四清、陈茵、程雁,清华大学出版社,2003:120-140[16]O1iviaParrRud,数据挖掘实践,朱扬勇、左子叶、张忠平,第一版,机械工业出版社,2003:3-21[17]邱义堂.通信资料库之资料挖掘:客户流失预测之研究.国立中山大学资讯管理学系研究所论文,2000:24-28[18]郭明.基于决策树的客户流失分析.广东通信技术,2004(11):37-4055 [19]MozerMC.PredictingSubscriberDisatisfactionandImprovingRetentionintheWirelessTelecommunicationsIndustry.IEEETransonNeuralNetworks,2000,11(3):690-696[20]KIMH.S.,YoonC.H..DeterminantsofsubscriberchurnandcustomerloyaltyintheKoreanmobiletelephonemarket.Telecommunicationspolicy,2004,28(9):751-765[21]石永华.电信业务流失建模的研究.广东通信技术,2003(6):15-20[22]夏国恩.电信企业客户流失预测模型.企业管理,2006(10):163-164[23]周学君,杨敏.面向高校就业的数据仓库中数据析取技术及实现.三峡大学学报(自然科学版),2005(6):27-3[24]张云涛,龚玲.数据挖掘原理与技术.电子工业出版社,2004,4:1-12[25]ChrisC,BhavaniT.Emergingstandardsfordatamining.computerstandards&Interfaces,2001,23(3):187-193[26]朱氏全.数据挖掘技术.东南大学出版,2006:22-37[27]梁循.数据挖掘算法与应用.北京大学出版社,2006:31-43[28]史忠值.知识发现.清华大学出版社.2002.1:34-65[29]SchlimmerJCandFisher.D.ACaseStudyofIncrementalConceptInduction[C].InProcedingsofAAA1-8,1986[30]J,M,Jain,andK,Mohiuddin.Artificialneuralnetwork:atutorial.IEEEComputer,Mar.1996(10):31-44[31]AlexBerson,SteptenSmith,KurtThearling著.贺奇,郑岩等译.构建面向CRM的数据挖掘应用.人民邮电出版社,2001[32]Pawlak,Z.rough,Sets:Theoreticalaspectsofreasoningaboutdata.Norwell,Mass;KluwerAcademicPr.1991[33]吴志勇,吴跃.数据挖掘在电信业中的应用研究.计算机应用,2005,12:213-214[34]陈京民.数据仓库与数据挖掘技术.电子工业出版社,2002,1:25-26[35]周学君,王宗祯.数据仓库技术在决策支持中的应用.武汉水利电力大学(宜昌)学报,1998(12):20-4[36]唐华松,姚耀文.数据挖掘中决策树算法的探讨.计算机应用研究,2001(18):18-2[37]杨清,杨岳湘.基于决策树的学习算法,湘潭师范学院学报,1999,20(3):1-3[38]JiaweiHan,michelinekamer,数据挖掘-概念与技术,范明,通小峰.机械工业出版社.2003,185-211[39]杨凯.基于数据挖掘技术的客户流失分析.硕士学位论文.南京航空航天大学,2004[40]史忠植.知识发现.清华大学出版社,2002:2-3556 [41]孟祥武.神经网络研究综述.电脑学习,1998,1:1-3[42]Johnshawe_taylor,keithHowkerandPeterBurge.DetectionofFraudinBobileTelecommunication.InformationSecurityTechnialReport,2002,4(1):202-203[43]CRISP-DM1.0据挖掘方法论指南,CRISP-DM协会.200057 后记研究生阶段的学习伴随着论文的完成就要结束了,在这里我要向我的导师及所有关心帮助我的老师和同学致以衷心的感谢!首先,要对我的导师周学君副教授表示深深的谢意和崇高的敬意。周老师严谨的治学态度,渊博的专业知识,是我永远学习的地方。从我的论文开始选题,到全文的完成都离不开周老师的悉心指点,论文的字里行间无不渗透了导师的心血。在研究生期间,周老师在学术上给我以启迪,拓宽了我的科研思路,引导了我的学术思维,赋予了我自由宽松的学习科研环境。感谢我的堂姐陈艳红,正是她的帮助才使我的研究工作有了坚实的保障,使我的论文有了圆满的结果。感谢所有帮助过和关怀过我的朋友、老师和同学们,正是因为有这么多人的支持和鼓励,我才能圆满完成硕士期间的学业。他们的教诲和鼓励是我一生中最宝贵的财富。最后,感谢我的家人,谢谢你们对我的支持,感谢所有给予我帮助和支持的人,衷心的谢谢你们。58 附录:攻读硕士学位期间发表的部分学术论著1.田瑞,周学君.大型数据库中的聚类方法研究.计算机时代,2008(6):10-1159

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
关闭