数据仓库与数据挖掘重点.doc

数据仓库与数据挖掘重点.doc

ID:59194694

大小:27.50 KB

页数:4页

时间:2020-09-10

数据仓库与数据挖掘重点.doc_第1页
数据仓库与数据挖掘重点.doc_第2页
数据仓库与数据挖掘重点.doc_第3页
数据仓库与数据挖掘重点.doc_第4页
资源描述:

《数据仓库与数据挖掘重点.doc》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、《数据仓库与数据挖掘》一、填空(1’*15)1、数据库中存放的数据基本上是保存当前的数据。2、数据库是为满足事务处理需求而设计和建立的,从而使计算机在事务处理上发挥了极大的效果。3、联机事务处理(OLTP)是在网络环境下面向交易的事务处理,利用计算机网络技术,以快速的事务响应和频繁的数据修改为特征,使用户利用数据库能够快速的处理具体的业务。这样的系统也称为实时系统。4、OLAP专门用于支持复杂的分析操作,侧重对分析人员和高层管理人员的决策支持,可以应分析人员的要求快速、灵活的进行大数据量的复杂处理

2、,并且以一种直观易懂的形式将查询结果提供给决策制定人,以便他们准确掌握企业的经营情况,了解市场需求,制定正确方案,增加效益。5、元数据在数据仓库中是描述数据仓库中数据及其环境的数据。在数据仓库中引入元数据的概念,它不仅仅是数据仓库的字典,而且还是数据仓库本身功能的说明数据。元数据在数据仓库中不仅定义了数据仓库有什么,还指明了数据仓库中信息的内容和位置,刻画了数据的抽取和转换规则,存储了与数据仓库主题有关的各种商业信息,而且整个数据仓库的运行都是基于元数据的。它已成为为整个数据仓库的核心。6、数据仓

3、库中数据量的比重是索引和综合数据占2/3,原始数据占1/3。7、OLAP是在多维数据结构上进行数据分析的。一般在多维数据库中取出(切片、切块)二维或三维数据来进行分析,或对层次的维进行钻取操作、向下钻取获得更详细的数据,向上钻取获得更综合的数据。OLAP要适应大量用户同时使用同一批数据,适用于不同地理位置的分散化的决策。OLAP的功能和算法包括聚合、分配、比率、乘积等描述性的建模功能。8、数据挖掘是从人工智能机器学习中发展起来的。机器学习的方法有归纳学习法、遗传算法、发现学习算法等。9、数据仓库结

4、构包括当前基本数据、历史基本数据、轻度综合数据、高度综合数据、元数据。10、数据仓库是企业级的,能为整个企业各个部门的运行提供决策支持手段;而数据集市则是部门级的,一般只能为某个局部范围内的管理人员服务,因此也称之为部门级数据仓库。11、数据集市有两种,即独立的数据集市和从属的数据集市。12、数据仓库系统由数据仓库(DW)、仓库管理和分析工具三部分组成。13、仓库管理包括数据建模;数据抽取、转换、装载(ETL);系统管理等四部分。14、使用的多维数据模型主要有星型模型、雪花模型、星网模型、第三范式

5、等。15、元数据分为四类,分别为关于数据源的元数据、关于数据模型的数据库、关于数据仓库映射的元数据和关于数据仓库使用的元数据。16、联机分析处理是共享多维信息的快速分析。17、基本的多维数据分析操作包括切片、切块、旋转、钻取等。18、向下钻取是使用户在多层数据中通过导航信息而获得更多的细节性数据。19、Codd将数据分析模型分为四类:绝对模型、解释模型、思考模型和公式化。20、数据仓库分析与设计由需求分析、概念模型设计、逻辑模型设计和物理模型设计四个部分组成。21、数据仓库索引技术:位索引技术、标

6、识技术与广义索引。22、细化程度越高,粒度级别越小;相反,细化程度越低,粒度级别越高。23、数据仓库的用户有两类:信息使用者和探索者。24、文本分析包括关键词或特征提取;相似性检索;文本聚类和文本分类等。25、数据浓缩包括两方面:属性约简;元组(记录)压缩。26、数据挖掘各种方法获得的知识的表现形式,主要有六种:规则、决策树、知识基(浓缩数据)、网络权值、公式和案例。27、规则知识由前提条件和结论两部分组成。前提条件由字段项(属性)的取值的合并(与)和获取(或)组合而成。结论为决策字段项(属性)的

7、取值或类别组成。28、一个传递信息的系统是由发送端(信源)和接收端(信宿)以及连接两者的通道(信道)三者组成。29、ID3在选择重要特征时利用了互信息的概念,算法的基础理论清晰,使得算法较简单。30、用信息增益率来选择属性,它克服了用信息增益选择属性时偏向选择取值多的属性的不足。31、感知机网络是双层模型。一、名词解释(3’*5)1、元数据被定义为关于数据的数据。2、数据仓库是面向主题的、集成的、稳定的、不同时间的数据集合,用于经营管理中决策制定的过程。3、商业智能以数据仓库为基础,通过联机分析处

8、理和数据挖掘技术帮助企业领导者针对市场变化的环境,做出快速、准确的决策。4、数据集市是一种更小、更集中的数据仓库,为公司提供了一条分析商业数据的廉价途径。数据集市是指具有特定应用的数据仓库,主要针对某个具有战略意义的应用或者具体部门级的应用。5、切片就是在某两个维上取一定区间的维成员或全部维成员,而在其余的维上选定一个维成员的操作。6、数据立方体是数据仓库结构图中的综合数据层(轻度和高度)。7、关联规则时发现交易数据库中不同商品(项)之间的联系,这些规则找出顾客购买行为模式。一、简

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。