SPSS_Clementine_数据挖掘入门

SPSS_Clementine_数据挖掘入门

ID:39468354

大小:973.00 KB

页数:31页

时间:2019-07-04

SPSS_Clementine_数据挖掘入门_第1页
SPSS_Clementine_数据挖掘入门_第2页
SPSS_Clementine_数据挖掘入门_第3页
SPSS_Clementine_数据挖掘入门_第4页
SPSS_Clementine_数据挖掘入门_第5页
资源描述:

《SPSS_Clementine_数据挖掘入门》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、SPSSClementine目录SPSSClementine数据挖掘入门(1)2客户端基本界面3项目区3工具栏3源工具(Sources)3记录操作(RecordOps)和字段操作(FieldOps)4图形(Graphs)4输出(Output)4模型(Model)4数据流设计区4管理区5Outputs5Models5SPSSClementine数据挖掘入门(2)61.定义数据源62.理解数据83.准备数据94.建模135.模型评估146.部署模型15SPSSClementine数据挖掘入门(3)17分类20决策树20NaïveBayes23神经网络24回归26聚类

2、27序列聚类30关联3131SPSSClementineSPSSClementine数据挖掘入门(1)  SPSSClementine是Spss公司收购ISL获得的数据挖掘工具。在Gartner的客户数据挖掘工具评估中,仅有两家厂商被列为领导者:SAS和SPSS。SAS获得了最高abilitytoexecute评分,代表着SAS在市场执行、推广、认知方面有最佳表现;而SPSS获得了最高的completenessofvision,表明SPSS在技术创新方面遥遥领先。   31SPSSClementine  客户端基本界面  SPSSClementine(在此简称c

3、lementine)在安装好后会自动启用服务,服务端的管理需要使用SPSSPredictiveEnterpriseManager,在服务端clementine没有复杂的管理工具,一般的数据挖掘人员通过客户端完成所有工作。下面就是clementine客户端的界面。     一看到上面这个界面,我相信只要是使用过SSIS+SSAS部署数据挖掘模型的,应该已经明白了六、七分。是否以跃跃欲试了呢,别急,精彩的还在后面^_’  项目区  顾名思义,是对项目的管理,提供了两种视图。其中CRISP-DM(CrossIndustryStandardProcessforDataM

4、ining,数据挖掘跨行业标准流程)是由SPSS、DaimlerChrysler(戴姆勒克莱斯勒,汽车公司)、NCR(就是那个拥有Teradata的公司)共同提出的。Clementine里通过组织CRISP-DM的六个步骤完成项目。在项目中可以加入流、节点、输出、模型等。  工具栏  工具栏总包括了ETL、数据分析、挖掘模型工具,工具可以加入到数据流设计区中,跟SSIS中的数据流非常相似。Clementine中有6类工具。  源工具(Sources)  相当SSIS数据流中的源组件啦,clementine支持的数据源有数据库、平面文件、Excel、维度数据、SA

5、S数据、用户输入等。31SPSSClementine  记录操作(RecordOps)和字段操作(FieldOps)  相当于SSIS数据流的转换组件,RecordOps是对数据行转换,FieldOps是对列转换,有些类型SSIS的异步输出转换和同步输出转换(关于SSIS异步和同步输出的概念,详见拙作:http://www.cnblogs.com/esestt/archive/2007/06/03/769411.html)。  图形(Graphs)  用于数据可视化分析。  输出(Output)  Clementine的输出不仅仅是ETL过程中的load过程,它

6、的输出包括了对数据的统计分析报告输出。     ※在ver11,Output中的ETL数据目的工具被分到了Export的工具栏中。    模型(Model)  Clementine中包括了丰富的数据挖掘模型。     数据流设计区  这个没什么好说的,看图就知道了,有向的箭头指明了数据的流向。Clementine项目中可以有多个数据流设计区,就像在PhotoShop中可以同时开启多个设计图一样。  比如说,我这里有两个数据流:Stream1和Stream2。通过在管理区的Streams栏中点击切换不同的数量流。31SPSSClementine     管理区  

7、管理区包括Streams、Outputs、Models三栏。Streams上面已经说过了,是管理数据流的。  Outputs  不要跟工具栏中的输出搞混,这里的Outputs是图形、输出这类工具产生的分析结果。例如,下面的数据源连接到矩阵、数据审查、直方图工具,在执行数据流后,这个工具产生了三个输出。在管理区的Outputs栏中双击这些输出,可看到输出的图形或报表。    Models  经过训练的模型会出现在这一栏中,这就像是真表(TruthTable)的概念那样,训练过的模型可以加入的数据流中用于预测和打分。另外,模型还可以导出为支持PMML协议的XML文件

8、,但是PMML没有给定所

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。