烟草数据挖掘论文.doc

烟草数据挖掘论文.doc

ID:61807773

大小:26.50 KB

页数:3页

时间:2021-03-21

烟草数据挖掘论文.doc_第1页
烟草数据挖掘论文.doc_第2页
烟草数据挖掘论文.doc_第3页
资源描述:

《烟草数据挖掘论文.doc》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、学无止境烟草数据挖掘论文1研究背景目前现有的针对烟草营销策略的研究,多采用数据挖掘的思想,基于数据挖掘的营销策略是对终端客户进行分类,根据用户的销量和诚信记录把用户分为多个等级,但这种分级策略只能反应用户的销量信息,把这个分类作为营销策略依据太单薄,只能起一定的辅助作用。更深入地研究是根据客户的资料和历史订单数据对现有商户进行聚类,获取到自主的商户分类,但盲目的聚类会导致商户的分类没有实际意义,或获取的结果是无助于营销目的的。2技术关键本系统采用基于营销目的的商户聚类,技术关键包括三部分内容:数据预处理中的特征选择、基

2、于限制目标的商户精确聚类和基于聚类结果的多层关联规则算法的研究。2.1特征选择假定获取的数据的维数为n,通常情况下n是很大的一个数,为简化模型,也为了防止模型陷入过拟合(维数灾难),需要进行降维处理,即仅把对项目改造判定起关键作用的因素挑选出来。本系统采用PCA算法来进行降维处理,过程如下:1)计算标准化后的矩阵Z的样本的协方差矩阵Cov;2)计算协方差矩阵Cov的本征向量e1,e2,…,en的本征值。本征值按大到小排序;3)投影数据到本征矢张成的空间之中,利用贡献分析取前m个向量Y1,Y2,…,Ym。2.2基于营销目

3、标限制的商户精确聚类算法3学无止境现有聚类算法一般没有约束条件,只根据相似度来进行聚类,为了能够体现约束条件,需要在聚类相似度或者样本距离之间把限制条件增加进去,这样在样本聚类的时候即可使得具有相同营销特性的样本或者客户被划分到同一个类中。烟草终端商户的大部分属性是分类属性,例如:地区、类别等,此外还有数字型属性、日期型属性,由于存在不同类型的属性,常规的聚类算法无法使用,为此,采用把数字属性和日期属性划分区间的思路,这样可以转化成分类属性的方式来进行聚类。进而可建立如下商户模型:分类对象X∈Ω,X=[A1=x1]∧[

4、A2=x2]∧…∧[Am=xm],其中xj∈DOM(Aj),1≤j≤m,为简便起见,将对象X∈Ω用向量(x1,x2,…,xm)表达,如果属性Aj的值不存在,则Aj=ε。令Χ={X1,X2,…,Xn}为n个分类对象的集合,用集合方式表达分类对象,则Xi={xi,1,xi,2,…,xi,m},如果属性Aj的值不存在,则集合中不出现xi,j,容易得到

5、Xi

6、≤m。如果存在Xi,j=Xk,j,1≤j≤m,则Xi=Xk。为方便聚类,利用聚类汇总来压缩原始数据,从而达到提高算法效率的目的。一个类C可以由如下三元组(n,I,S)来表

7、示。其中n为类C中的对象数量,I={i1,i2,…,iu}是C内所有属性值的集合,S={s1,s2,…,su},其中sj为ij在类C中的数量,ij∈I,1≤j≤u。集合S按升序排列,即s1≤s2≤…≤su,这同时也暗示集合I的元素按其在C中的数量按升序排列。三元组(n,I,S)被称作类C的聚类汇总CS,CS的三个成员分别记作CS.n、CS.I和CS.S;对于CS.I的任一元素ij∈CS.I,则记作CS.I.ij,对于sj∈CS.S,则记作CS.S.sj,其中1≤j≤u。2.3基于烟草营销的多层关联规则的研究针对本项目,

8、对关联规则定义进行扩展,对形如:XY的关联规则,不再限定X和Y为一个项目集,而把X和Y定义为条件的合取范式,每个条件Ai=True/False为布尔表达式。此时的Ai为一个项目集,它的含义与原来的X和Y的含义相同,如果把结果中的条件布尔表达式写成Cj=True/False,则关联规则有如下形式:(A1=True/False)∧(A2=True/False)∧…∧(An=True/False)(C1=True/False)∧(C2=True/False)∧…∧(Cm=True/False)关联规则的开采问题可以分解成以下

9、两个子问题:①从数据集合或交易集合D中发现所有的频繁项目集。②3学无止境从频繁项目集中生成所有置信度不小于用户定义的最小置信度minconf的关联规则。即对任一个频繁项目集F和F的所有非空真子集S,SF,如果sup(F)/sup(F-S)≥minconf,则(F-S)S就是一条有效的关联规则。按上述方法发现所有类似的规则。这两个步骤中第2步要相对容易,因此项目的研究将更关注第1步,由于最大频繁项目集已经隐含了所有频繁项目集,所以可以把发现频繁项目集的问题转化为发现最大频繁项目集的问题。针对烟草营销的客户,进行关联规则挖

10、掘时,是在上一步的基础上,即针对每一个商户群进行规则挖掘。在获取到最大频繁项目集后,顺序生成频繁项目集,然后获取到可用的关联规则。此时获取的关联规则是底层关联规则,然后再采用概念树的方法对获取的底层关联规则进行汇总。概念树由烟草领域专家根据属性的领域知识提供,按特定属性的概念层次从一般到具体排序。树的根结点是用any表示最一般的概

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。