数据挖掘的方法论.ppt

数据挖掘的方法论.ppt

ID:57828802

大小:604.55 KB

页数:14页

时间:2020-04-09

数据挖掘的方法论.ppt_第1页
数据挖掘的方法论.ppt_第2页
数据挖掘的方法论.ppt_第3页
数据挖掘的方法论.ppt_第4页
数据挖掘的方法论.ppt_第5页
资源描述:

《数据挖掘的方法论.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第3章数据挖掘方法论数据挖掘将商业需求和所需要的数据联系在一起,它是对客户和商业前景的理解,理解产品和市场,理解供货方和合作伙伴,理解销售的全过程,并用数据将他们整合到一起。为了成功运用数据挖掘,对数据挖掘技术层面的理解至关重要,尤其是应该了解如何将数据变成有用信息的过程。数据挖掘方法论CRISP-DM和SEMMACRISP-DM(CRoss-IndustryStandardProcessforDataMining)即为”跨行业数据挖掘过程标准”,该模型将一个KDD工程分为6个不同的,但顺序并非完全不变的阶段:。CRISP-DM模型在各种KDD过程模型中占据领先位置,采用量达到近60%。

2、SAS数据挖掘方法论─SEMMASAS将数据挖掘过程看成5个阶段Sample─数据取样Explore─数据特征探索、分析和预处理Modify─问题明确化、数据调整和技术选择Model─模型的研发、知识的发现Assess─模型和知识的综合解释和评价CRISP-DM与SEMMA的区别CRISP-DM是从数据挖掘项目执行的角度谈方法论,SEMMA则是从对具体数据集的一次探测和挖掘的角度来谈方法论,CRISP-DM的考虑的范围比SEMMA要大。CRISP-DM关注商业目标、数据的获取和管理,以及模型在商业背景下的有效性;SEMMA不否认商业目标,但更强调数据挖掘是一个探索的过程。SEMMA体现了

3、不同算法在项目过程的不同阶段有不同的重要性,没有如同CRISP-DM一样详细而规范的文本,从项目管理的需要来看CRISP-DM更适用一些。由于CRISP-DM在阶段间可以反馈,整个流程又是循环的,在逻辑上CRISP-DM是可以实现SEMMA的,它们互不矛盾。但由于强调的重点不同,在实践上则会有明显的区别。面向CRM的数据挖掘方法论数据挖掘四个重要的业务过程所构成:理解业务问题;将数据转换成可执行的结果;结果实施过程;评价结果的实施。成功实现数据挖掘需要全部四个过程,每一步产生的结果不断向后传播,由数据不断产生信息。从数据中提炼信息,不断更新建模技术,根据以前努力的结果改进数据挖掘过程,如

4、此往复生成新的有用的知识。1.正确识别业务问题(1)实施数据挖掘是否必要?(2)是否有最让人感兴趣的客户子群或客户细分?(3)相关的行业规则有哪些?(4)关于数据(5)检验领域专家的观点2.数据转换成可操作的决策(2)建立数据挖掘模型是一个互动的过程2.数据转换成可操作的决策(2)(1)确认和获取数据(2)生成有效数据、探索数据以及清洗数据(3)将数据转换成适合的粒度的数据(4)加入衍生变量(5)准备建模数据集(6)选择建模技术和训练模型(7)检测模型的性能3.将结果生成决策(1)新的认知(2)用于特定商业活动的结果(3)可被储存的结果(4)周期性预测结果(5)实时得分(6)修复数据4.

5、评测模型的有效性5.成功建立预测模型的要点(1)预测模型的时间范围第一个时间范围是训练模型的时间间隔。第二个时间范围是模型产生得分的阶段。(2)模型的使用有效期什么是模型使用有效期?什么是模型预测的有效期?预测模型在使用之前必须得到的训练6.建立预测模型的假设假设1:过去是将来的预言家假设2:数据是可以获得的假设3:数据中包括我们的预期目标

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。