实验八 关联和决策树

实验八 关联和决策树

ID:38673067

大小:4.10 MB

页数:25页

时间:2019-06-17

实验八  关联和决策树_第1页
实验八  关联和决策树_第2页
实验八  关联和决策树_第3页
实验八  关联和决策树_第4页
实验八  关联和决策树_第5页
资源描述:

《实验八 关联和决策树》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、云南大学软件学院实验报告课程:大数据分析及应用任课教师:蔡莉实验指导教师(签名):学号:20131120233姓名:王依专业:软件工程日期:2015.12.10成绩:实验八关联和决策树一、实验目的1.理解关联分析和决策树的相关知识;2.掌握使用Modeler进行关联分析的基本过程;3.掌握利用关联分析的数据建立一个决策树的过程。二、实验内容及步骤(一)使用Modeler进行关联分析实验内容:对实验文件BASKETS1进行分析,掌握购买数据之间的关联情况。实验步骤:1.打开并查看数据文件。利用“可变文件”节点将“BA

2、SKETS1n”添加节点中。然后使用“输出”选项卡下的“表”查看数据,如图1所示。这里的数据是某商场中的购买记录,共18个字段,1000条记录,在后面的列中,值“T”表示已购买该商品,值“F”表示没有购买该商品。图1251.确定关联分析字段。在这里中,需要对购买商品之间进行关联分析,即确定客户购买商品之间是否存在关联性,也就是说客户在购买一种商品时,购买另一种商品的概率是多少。所以,在这里,将选择记录中能够体现是否购买某商品的字段进行关联分析,其中有fruitveg,freshmeat,dairy,cannedve

3、g,cannedmeat,frozenmeal,beer,wine,softdrink,fish,confectionery,共11个字段。2.读入分析字段的类型。在工作区生成“类型”节点,并双击编辑,将上一步骤选出的11个字段的角色设定为“两者”,如图2。图23.添加模型节点。分别在“类型”之后添加“Apriori”模型节点和“Crama”模型节点,如图3所示。其中,“Apriori”模型是基于“最低支持度”和“最小置信度”进行关联性分析。图3251.运行并查看“Apriori”关联模型结果。运行“Apriori

4、”模型的数据流,在右上侧生成数据模型,右键查看,如图4所示。表中可以看出,客户同时购买frozenmeal、beer、cannedveg的概率很高。因此,商家可以将这三种商品放在相邻的位置,以促进销量。图42.运行并查看“Carma”关联模型结果。运行“Carma”模型的数据流,在右上侧生成数据模型,右键查看,如图5所示。同样可以看出,客户同时购买frozenmeal、beer、cannedveg的概率很高。图53.利用“网络”图进行定性关联分析。选定“类型”节点,双击“图形”选项卡下的“网络”,既可添加“网络节点

5、”。然后,需双击编辑“网络”节点,将步骤(5)中选择的11个字段选定为分析字段。运行该“网络”节点,则右上区域生成关联模型,查看该关联模型,如图6。从图中表明,两点之间的线越粗,表示两者间相关性越强。同时可以通过调节下面的滑动点,查看相关性。25图6(二)建立决策树实验内容:在上一步数据关联的基础上,分析哪些顾客是“健康食品购买者”,即同时购买fruitveg和fish。实验步骤:1.如何标志健康食品购买者。点击“字段选项”选项卡下的“导出”增加一个属性(Healthy)来标识健康食品购买者。编辑“导出”节点,将字

6、段类型设为“标志”,并编辑“fruitveg='T'andfish='T'”,该公式表示消费者同时购买fruitveg和fish这两种商品,如图7。图72.查看增加“Healthy”之后的数据表。利用“表”来查看数据表,如图825,可以看到表中增加了一个“Healthy”字段,描述是否为健康食品购买者。图81.接入一个“类型”节点。在这里,需要重新编辑字段的角色,如图9所示。其中与用户相关的信息字段(除cardid外)角色都设定为“输入”,而“Healthy”变为“输出”,其他的选择“无”。图92.接入C5.0决策

7、树模型。双击“建模”选项卡下的“C5.0”模型,既可以完成添加。如图10。25图101.运行决策树模型。分别运行“决策树”和“规则集”两种形式,查看两者得到的结果分别如图11和图12所示。两者都分别有不同的表示方式。图中显示哪些类型的顾客是健康食品购买者。图1125图121.其他属性的功能,如图13。“组符号”是指当有多个字段在同一个分支时,将这几个字段放在一组;“使用boosting”是指使用部分数据作为再次生成决策树,最后综合这些决策树来提高决策树的精度;“交互验证”是指一部分数据用来生成决策树,一部分作为测试

8、;“简单”是指生成决策树的准确度,但是精确度高的决策树的移植性不高;“专家”下的“修剪严重性”是指修剪的程度。图132.将决策树模型加入数据流。首先选择“字段选项”下的“类型”节点,然后分别双击右上侧的“tree”和“no-cut”(已重命名),在这之后,分别添加“分析”节点作为输出,得到如图14的数据流。25图141.分析“修剪严重性”为75%的正确性。运

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。