最新数据仓库和数据挖掘题库new

最新数据仓库和数据挖掘题库new

ID:19612116

大小:96.00 KB

页数:11页

时间:2018-10-04

最新数据仓库和数据挖掘题库new_第1页
最新数据仓库和数据挖掘题库new_第2页
最新数据仓库和数据挖掘题库new_第3页
最新数据仓库和数据挖掘题库new_第4页
最新数据仓库和数据挖掘题库new_第5页
资源描述:

《最新数据仓库和数据挖掘题库new》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、一、填空题(2×10=20分)1、数据仓库就是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合。 2、元数据是描述数据仓库内数据的结构和建立方法的数据,它为访问数据仓库提供了一个信息目录,根据数据用途的不同可将数据仓库的元数据分为技术元数据和业务元数据两类。 3、数据处理通常分成两大类:联机事务处理和联机分析处理。4、ROLAP是基于关系数据库的OLAP实现,而MOLAP是基于多维数据结构组织的OLAP实现。5、调和数据是存储在企业级数据仓库和操作型数据存储中的数据。6、数据抽取的两个常见类型是静态抽取和增量抽取。静态抽取用于最初填充数据仓库,增量抽取用于进行数据仓库的维护。7、维度

2、表一般由主键、分类层次和描述属性组成。对于主键可以选择两种方式:一种是采用自然键,另一种是采用代理键。 7、雪花型模式是对星型模式维表的进一步层次化和规范化来消除冗余的数据。 8、数据仓库中存在不同综合级别的数据。一般把数据分成4个级别:早期细节级、当前细节级、轻度综合级和高度综合级。 9、数据仓库的概念模型通常采用信息包图法来进行设计,要求将其5个组成部分(包括名称、维度、类别、层次和度量)全面地描述出来。10、确定了数据仓库的粒度模型以后,为提高数据仓库的使用性能,还需要根据用户需求设计聚合模型。11、粒度是对数据仓库中数据的综合程度高低的一个衡量。粒度越小,细节程度越高,综合程度越低,回

3、答查询的种类越多。12、数据仓库的数据量通常较大,且数据一般很少更新,可以通过设计和优化索引结构来提高数据存取性能。13、聚类分析包括连续型、二值离散型、多值离散型和混合类型4种类型描述属性的相似度计算方法。14、OLAP的实现方式有以下两种:基于关系数据库系统的实现和基于多维数据库系统的实现。15、数据仓库的逻辑模型通常采用星型图法来进行设计,要求将星型的各类逻辑实体完整地描述出来。 16、当维表中的主键在事实表中没有与外键关联时,这样的维称为退化维。它于事实表并无关系,但有时在查询限制条件(如订单号码、出货单编号等)中需要用到。17、数据仓库数据库常见的存储优化方法包括表的归并与簇文件、反

4、向规范化引入冗余、表的物理分割(分区)。18、两种常用的大数据集的数据概化方法是数据立方体的方法(或OLAP)和面向属性的归纳方法。19、目前,使用的多维数据模型主要有星型模型、雪花模型、星网模型、第三范式等。20、按照事实表中度量的可加性情况,可以把事实表对应的事实分为4种类型:事务事实、快照事实、线性项目事实和事件事实。21、SQL Server SSAS提供了所有业务数据的同意整合试图,可以作为传统报表、在线分析处理、关键性能指示器记分卡和数据挖掘的基础。22、确定性时间序列分析就是设法消除随机型波动,拟合确定性趋势,因而形成了长期趋势分析、季节变动分析和循环变动测定等一系列确定性时间序

5、列分析方法。二、名词解释1. 数据仓库:是一种新的数据处理体系结构,是面向主题的、集成的、不可更新的(稳定性)、随时间不断变化(不同时间)的数据集合,为企业决策支持系统提供所需的集成信息。 2. 孤立点:指数据库中包含的一些与数据的一般行为或模型不一致的异常数据。 3. OLAP:OLAP是在OLTP的基础上发展起来的,以数据仓库为基础的数据分析处理,是共享多维信息的快速分析,是被专门设计用于支持复杂的分析操作,侧重对分析人员和高层管理人员的决策支持。 4. 粒度:指数据仓库的数据单位中保存数据细化或综合程度的级别。粒度影响存放在数据仓库中的数据量的大小,同时影响数据仓库所能回答查询问题的细节

6、程度。 5. 数据规范化:指将数据按比例缩放(如更换大单位),使之落入一个特定的区域(如0-1)以提高数据挖掘效率的方法。规范化的常用方法有:最大-最小规范化、零-均值规范化、小数定标规范化。 6. 决策树:是用样本的属性作为结点,用属性的取值作为分支的树结构。它是分类规则挖掘的典型方法,可用于对新样本进行分类。7. 数据挖掘:从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。 8. 数据归约:缩小数据的取值范围,使其更适合于数据挖掘算法的需要,并且能够得到和原始数据相同的分析结果。 9. 遗传算法:是一种优化搜索算法,它

7、首先产生一个初始可行解群体,然后对这个群体通过模拟生物进化的选择、交叉、变异等遗传操作遗传到下一代群体,并最终达到全局最优。 10. 聚类:是将物理或抽象对象的集合分组成为多个类或簇(cluster)的过程,使得在同一个簇中的对象之间具有较高的相似度,而不同簇中的对象差别较大。 11. 关联规则:同时满足最小支持度阈值和最小可信度阈值的规则称之为关联规则。三、简答题1.何谓数据挖掘?它有哪些方面的

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。