大数据仓库与大数据挖掘--决策树实验

大数据仓库与大数据挖掘--决策树实验

ID:33798300

大小:782.00 KB

页数:13页

时间:2019-02-27

大数据仓库与大数据挖掘--决策树实验_第1页
大数据仓库与大数据挖掘--决策树实验_第2页
大数据仓库与大数据挖掘--决策树实验_第3页
大数据仓库与大数据挖掘--决策树实验_第4页
大数据仓库与大数据挖掘--决策树实验_第5页
资源描述:

《大数据仓库与大数据挖掘--决策树实验》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、实用文案实验3决策树一、实验目的1.了解决策树的基本概念。2.掌握决策树挖掘分析的操作步骤。二、实验内容对三国志4武将数据.xls中的数据进行决策树分析。三、实验仪、设备计算机、visualstudio2008、分析用数据、数据库服务四、实验步骤准备工作:三国志4武将数据.xls数据导入数据库中。(1)打开visualstudio2008,新建项目,选择商业智能项目,analysisservices项目图1新建项目(2)在解决方案资源管理器中,右键单击数据源,选择新建数据源图2数据源向导标准文档实用文案(1)在该界面中选择

2、新建,进行数据源具体设置图3新建数据源(2)在服务器名中填写要连接的数据库服务器名称,或者单击服务器名右方下拉按钮进行选择;勾选使用windows身份验证;选择或输入一个数据库名中填写将要分析数据所在的数据库或者单击右方下拉按钮进行选择图4数据源具体设置标准文档实用文案(1)确定后配置完的数据源已显示在窗口上,继续下一步图5完成数据源具体设置(2)勾选使用服务账户,继续下一步图6模拟信息设置(3)数据源名称保持默认,完成标准文档实用文案图7完成数据源设置向导(1)在解决方案资源管理器中,右键单击数据源视图,选择新建数据源视

3、图图8数据源视图向导(2)下一步图9选择数据源(3)在可用对象中,将要分析数据所在表添加到包含的对象中,继续下一步标准文档实用文案图11选择包含对象(1)默认名称,完成图12完成数据源视图向导(2)在解决方案资源管理器中,右键单击挖掘结构,选择新建挖掘结构图13数据挖掘向导(3)勾选从现有关系数据库或数据仓库,继续下一步标准文档实用文案图14选择定义方法(1)选择microsoft决策树,继续下一步图15创建数据挖掘模型结构(2)下一步图16选择数据源视图(3)勾选事例,继续下一步标准文档实用文案图17指定表类型(1)在键

4、列勾选序号码,在输入列勾选出身、国别、魅力、统御、武力、政治、智慧、忠诚,在可预测列勾选身份,继续下一步图18指定定型数据(2)下一步标准文档实用文案图19指定内容和数据类型(1)勾选允许钻取,完成图21完成数据挖掘向导(2)单击挖掘模型查看器标准文档实用文案图22完成设置(1)询问是否部署项目,是图23部署项目(2)询问是否继续,是图24处理模型(3)单击运行标准文档实用文案图25运行挖掘项目(1)待处理完成后,关闭图26处理结果(2)关闭处理窗口后,就可在挖掘模型查看器的决策树中看到系统经过分析得出的结果图27分类关系

5、图标准文档实用文案依赖关系网络:图27分类剖面图(1)在挖掘模型中,右键单击挖掘模型可以设置算法参数图28算法参数(2)算法参数的意义COMPLEXITY_PENALTY:禁止决策树生长。减少此值会增加拆解的可能性,而增加此值则会减少拆解的可能性。FORCE_REGRESSOR:强制算法使用的数据行作为回归公式的回归输入变量,而不考虑其在算法计算中的重要性为何。MAXIMUM_INPUT_ATTRIBUTES:指定在叫用功能选项之前,算法可以处理输入属性的最大数目。MAXIMUM_OUTPUT_ATTRIBUTES:指定在

6、叫用功能选项之前,算法可以处理输出属性的最大数目。MINIMUM_SUPPORT:指定分叶节点必须包含的最小个例数目SCORE_METHOD:指定用来计算分割准则的方法。SPLIT_METHOD:指定用来节点分杈的模式。标准文档实用文案图29设置算法参数(1)设定完算法后,再次点击挖掘模型查看器进行数据处理,处理完成后所得出的结果就是设置算法后的结果。一、实验心得体会标准文档实用文案通过这次关于决策树的实验,让我对决策树的应用有了相对具体的理解,并且为决策树的学习提供了一个好的铺垫,在学习过程中,决策树中的算法由于利用系统

7、本身,所以并没有具体理解ID3这个算法的具体运转环节,但是有了这次实验的铺垫,使自己能够更加容易之后的ID3算法的学习。一、思考题决策树对数据分类的正确率是否可以达到100%?答:不可以达到100%决策树一般都是自上而下来生成的。决策树由一个决策图和可能的结果(包括资源成本和风险)组成,用来创建到达目标的规划。每个决策或事件都可能引出两个或多个事件,导致不同的结果,把这种决策分支画成图形很像一棵树的枝干,所以称作决策树。对于那些各类别样本数量不一致的数据,在决策树当中信息增益的结果偏向于那些具有更多数值的特征。决策树的这种

8、明确性可能带来误导。决策树分类准确率极限理论:定理1:有经验风险和结构风险时,决策树分类准确率的极限不存在。定理2:无经验风险、有结构风险时,决策树分类准确率的极限不存在。定理3:有经验风险、无结构风险时,决策树分类准确率的极限存在。定理4:无经验风险和结构风险时,决策树分类准确率的极限存在。以上定理都

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。