数据挖掘模拟卷_答案

数据挖掘模拟卷_答案

ID:5226983

大小:159.00 KB

页数:4页

时间:2017-12-06

数据挖掘模拟卷_答案_第1页
数据挖掘模拟卷_答案_第2页
数据挖掘模拟卷_答案_第3页
数据挖掘模拟卷_答案_第4页
资源描述:

《数据挖掘模拟卷_答案》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、《数据挖掘》模拟卷答案一、填空题(每格1分,共20分)1、划分方法、层次方法、基于密度的方法。2、星型模式、雪花模式和事实星座模式。3、描述性的数据挖掘和预测性的数据挖掘。4、不物化、全物化和部分物化。5、数据库技术、统计学、机器学习。6、模式分层、集合分组分层、操作导出的分层和基于规则的分层。7、数据立方体方法(或OLAP)和面向属性的归纳方法。二、单选题(请选择一个正确答案填入括号内,每题2分,共20分)1、C2、___B_____3、___D____4、____C____5、____C___

2、__6、_____A___7、___B_____8、__B_____9、___E____10、___C_____三、多选题(请选择两个或两个以上正确答案填入括号内,每题3分,共15分)1、___BD_2、___BD__3、_ABCD_4、__ABC___5、_ABCD__四、简答题(共25分)1.简述面向属性归纳的基本思想,并说明什么时候使用属性删除,什么时候使用属性概化。(7分)答:面向属性归纳的基本思想是:首先使用关系数据库查询收集任务相关的数据;然后通过考察任务相关数据中每个属性的不同值的个

3、数,进行概化(通过属性删除或者属性概化)。聚集通过合并相等的广义元组,并累计他们相应的计数值进行。这压缩了概化后的数据集合。结果广义关系可以映射到不同形式,如图表或规则,提供用户。(3分)使用属性删除的情况:如果初始工作关系的一个属性上有大量的不同值,但是(1)在此属性上没有概化操作符,或(2)它的较高层概念用其他属性表示;(2分)使用属性概化的情况:如果初始工作关系的一个属性上有大量的不同值,并且该属性上存在着概化操作符。(2分)2.为什么在进行联机分析处理(OLAP)时,我们需要一个独立的数据

4、仓库,而不是直接在日常操作的数据库上进行。(6分)答:使用一个独立的数据仓库进行OLAP处理是为了以下目的:(1)提高两个系统的性能操作数据库是为OLTP而设计的,没有为OLAP操作优化,同时在操作数据库上处理OLAP查询,会大大降低操作任务的性能;而数据仓库是为OLAP而设计,为复杂的OLAP查询,多维视图,汇总等OLAP功能提供了优化。(2)两者有着不同的功能操作数据库支持多事务的并行处理,而数据仓库往往只是对数据记录进行只读访问;这时如果将事务处理的并行机制和恢复机制用于这种OLAP操作,就

5、会显著降低OLAP的性能。(3)两者有着不同的数据数据仓库中存放历史数据;日常操作数据库中存放的往往只是最新的数据。3.对于具有递减支持度的多层关联规则挖掘,分别都有哪些搜索策略?各有什么特点?(6分)答:具有递减支持度的多层关联规则挖掘中使用的搜索策略包括:逐层独立:完全的宽度搜索,没有频繁项集的背景知识用于剪枝。考察每一个节点,不管其父节点是否频繁。特点是条件很松,可能导致在低层考察大量非频繁的项,找出一些不重要的关联;(2分)层交叉k-项集过滤:一个第i层的k-项集被考察,当且仅当它在第(i

6、-1)层的对应父节点的k-项集是频繁的。特点是限制太强,有些有价值的模式可能被该方法过滤掉;(2分)层交叉单项过滤:一个第i层的项被考察,当且仅当它在第(i-1)层的父节点是频繁的。它是上述两个极端策略的折中。(2分)4.跟其他应用领域相比,在电子商务中进行数据挖掘有哪些优势?(6分)答:跟其他应用领域相比,在电子商务中进行数据挖掘的优势包括:电子商务提供海量的数据:“点击流”(Clickstreams)将会产生电子商务挖掘的大量数据;丰富的记录信息:良好的WEB站点设计将有助于获得丰富的关于商品

7、、分类、访客等等信息;干净的数据:从电子商务站点收集的都是电子数据,无需人工输入或者是从历史系统进行整合;研究成果容易转化:在电子商务中,很多知识发现都可以进行直接应用;投资收益容易衡量:所有数据都是电子化的,可以非常方便的生成各种报表和计算各种收益。五、算法题(共20分)1、答:(1)Aprior算法的基本步骤包括:连接与剪枝(2)使用Apiori性质由L2产生C31.连接:C3=L2L2={{A,C},{B,C},{B,E}{C,E}{{A,C},{B,C},{B,E}{C,E}}={{A,B

8、,C},{A,C,E},{B,C,E}}2.使用Apriori性质剪枝:频繁项集的所有子集必须是频繁的,对候选项C3,我们可以删除其子集为非频繁的选项:{A,B,C}的2项子集是{A,B},{A,C},{B,C},其中{A,B}不是L2的元素,所以删除这个选项;{A,C,E}的2项子集是{A,C},{A,E},{C,E},其中{A,E}不是L2的元素,所以删除这个选项;{B,C,E}的2项子集是{B,C},{B,E},{C,E},它的所有2-项子集都是L2的元素,因此保留这个选项。

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。