Data Mining 数据采矿的技术与应用

Data Mining 数据采矿的技术与应用

ID:40961355

大小:21.07 KB

页数:4页

时间:2019-08-12

Data Mining 数据采矿的技术与应用_第1页
Data Mining 数据采矿的技术与应用_第2页
Data Mining 数据采矿的技术与应用_第3页
Data Mining 数据采矿的技术与应用_第4页
资源描述:

《Data Mining 数据采矿的技术与应用》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、DataMining数据采矿的技术与应用功能说明技术适用领域分类(Classification)-根据数据的特性,将其指定到现有事先定义好的类别/群集中-事前必须对数据的结构,解释及定义有一定的了解-Profiling-判定树(decisiontree)-记忆基础推理(memory-basedreasoning)-将信用卡风险分为高中低风险-将客户以年龄,性别,居住地区,来看的电影作区分-将客户分为20岁以下,20-30,30-40,40以上推估(Estimation)-使用模型为输入变量做评分,依输出分数设定门坎值

2、,完成分类-根据既有连续性数值(如教育程度)之相关属性数据,以推估某一属性未知之值-回归分析-统计关联分析-类神经网络-推估家庭中孩童的数量-推估家庭的总收入-推估客户的终身价值-推估顾客接受转账缴款的机率-推估申请人的信用卡消费量预测(Prediction)-推估未来的数值的趋势-以历史数据为模型,将最新数据为输入值,以获得关于未来的输出预测值-根据对象属性的历史观察值来推估该属性之未来值-回归分析-时间序列分析-类神经网络-购物篮(marketbasket)-记忆基础理解(MBR)-由顾客过去卡消费量预测未来刷卡

3、消费量-杂货店中那些商品会被同时购买-若持卡人以转账付款,预测本月的余额会有多少-那些客户未来6个月会流失关联分组(AffinityGroupingorAssociation)-发觉那些事物总是同时发生-建立交叉销售的基础-决定那些相关对象应放在一起-购物篮分析-决定超市中那些货品应放在同一货架上(同时买面包及牛奶)-建立交叉销售促销案-建立搭售之套餐组合-决定型录的编排方式群集化(Clustering)-将一群异质的群体区隔为同构型较高的群集-群集并非以事先定义的类别来分类,而是让数据自然产生区隔,且靠事后的阐释来

4、得知意义-让群组内数据相似度最高,让群组与群组间数据相似度最低(群内同质,群间异质)-通常是数据采矿及模型化的前置作业-K-means-Agglomeration法-分析那一群顾客喜欢那一类的促销的分群工作-描述-描述在复杂的数据库中发生-购物篮分(Description)什么事?--趋势图-两变量关联或比较图序列模式(SequencePattern)-顾客通常在购买某类商品后,经过一段时间会再购买另一类商品-关联规则关心同一时间发生相关的交易,序列模式关心不同时间发生相关的交易-租过第一集,经过一段时间后,会再租第

5、二集,然后第三集-买过绵被,枕头,床单后,一段时间会再购买纸尿裤及奶粉-监督式数据采矿,是以top-down方式,先有假设,及变量,以预测模型来验证;非监督式数据采矿,是以bottom-up方式,找出特定变量,让数据变量间的关系自己说话的方式,自动产生样式及规则,由用户判断规则的重要与否.-通常在分析过程中需要产生衍生变量,包括某两个变量间的总和,相差,比例等.-源数据包括(1)通联数据库(contactdatabase):含CTI,DM,Fax,storevisit;(2)事务数据库(transactiondata

6、base):含每日授权,请款交易,CDR,购买产品,退货交易;(3)缴款/风险数据库(payment/riskdatabase):含延迟缴款,呆账,还款,客户风险评分(CVS);(4)人口变项数据库(demographicdatabase):含profile,年龄,性别,居住地等;(5)营销数据库(campaigndatabase):促销案,DM,电话营销之目标,响应,拒绝客户数据.-判定树(decisiontree),选择最重要且最有分隔能力的属性来分隔数据.步骤为(1)选择一属性(2)利用属性作分类(3)计算分类

7、后之平均分散度,能使分散度降到最低,即为最佳分隔属性.,直到没有属性可以降低分散度.-购物篮(marketbasket)分析常使用在有足够数据却不清楚规律主题或规则时,可适用于监督式及非监督式,可用于探讨两变量间的关系,如果买了A,也会购买B的机率;通常结果会出现明显的结果(业界老手已经知道的事),及无法理解的结果(看来没有解释的).通常购物篮分析会(1)选择正确的组合,利用分类,加上虚拟卷标作差异变量,去除outlier,(2)计算超过门坎的商品,分析可能同时发生之机率.优点是有简单明了的结论,非常适用于非监督式分

8、析,缺点是商品增加时,运算会成几何级数增加,很难决定适当的商品数,且容易剔除罕见的商品.-记忆基础理解(MBR)是利用人工智能的方式,将现有数据库对新数据进行分类和预测,流程是(1)选择历史数据,抽样的数据必须能代表原始数据,转换历史数据以减少记录数量,(2)设定距离函数,组合函数,和邻近数据的数目(K),加入回归分析,(3)选择正确的训练数据

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。