数据挖掘与数据仓库 知识点总结

数据挖掘与数据仓库 知识点总结

ID:47107233

大小:101.51 KB

页数:8页

时间:2019-08-04

数据挖掘与数据仓库 知识点总结_第1页
数据挖掘与数据仓库 知识点总结_第2页
数据挖掘与数据仓库 知识点总结_第3页
数据挖掘与数据仓库 知识点总结_第4页
数据挖掘与数据仓库 知识点总结_第5页
资源描述:

《数据挖掘与数据仓库 知识点总结》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、1、数据仓库定义:数据仓库是一种新的数据处理体系结构,它与组织机构的操作数据库分别维护,允许将各种应用系统一起,为统一的历史数据分析提供坚实的平台,对信息处理提供支持。数据仓库是面向主题的、集成的、相对稳定的、反映历史变化的数据集合,为企业决策支持系统提供所需的集成信息。设计和构造步骤:1)选取待建模的商务处理;2)选取商务处理的粒变;3)选取用于每个事实表记录的维;4)选取事实表中每条记录的变量系统结构:(1)底层是仓库数据服务器,总是关系数据库系统。(2)中间层是OLAP服务器,有ROLAP和MOLAP,它将对多维数据的操作

2、映射为标准的关系操作(3)顶层是前端客户端,它包括查询和报表工具、分析工具和数据挖掘工具2、数据仓库的多维数据模型:(1)星形模式:在此模型下,数据仓库包括一个大的包含大批数据并且不含冗余的中心表,一组小的附属表,维表围绕中心事实表显示的射线上。特征:星型模型四周的实体是维度实体,其作用是限制和过滤用户的查询结果,缩小访问范围。每个维表都有自己的属性,维表和事实表通过关键字相关联。【例子:sales数据仓库的星形模式,此模式包含一个中心事实表sales,它包含四个维time,item,branch和location。(2)雪花型

3、模式:它是星形模式的变种,其中某些维表是规范化的,因而把数据进一步分解到附加的表中。特征:雪花模型通过最大限度地减少数据存储量和联合较小的维表来改善查询性能,增加了用户必须处理的表数量和某些查询的复杂性,但同时提高了处理的灵活性,可以回答更多的商业问题,特别适合系统的逐步建设要求。【例子同上,只不过把其中的某些维给扩展了。(3)事实星座形:复杂的应用可能需要多个事实表共享维表,这种模式可看作星形模式的汇集。特征:事实星座模型能对多个相关的主题建模。例子:有两个事实表sales和shipping,它们可以共享维表time,item

4、和location。3、OLAP:即联机分析处理,是在OLTP基础上发展起来的、以数据仓库基础上的、面向高层管理人员和专业分析人员、为企业决策支持服务。特点:1.实时性要求不是很高。2.数据量大。3.因为重点在于决策支持,所以查询一般是动态的,也就是说允许用户随机提出查询要求。OLAP操作:上卷:通过沿一个维的概念分层向上攀登,或者通过维归约,对数据立方体进行类聚。下钻:是上卷的逆操作,它由不太详细的数据得到更详细的数据,下钻可以通过沿维的概念分层向下或引入附加的维来实现。切片:对给定方体的一个维进行进行选择,导致一个子立方体。

5、切块:通过对两个或多个维执行选择,定义子立方体。转轴:是一种可视化操作,它转动数据的视角,提供数据的替代表示。OLTP:即联机事务处理,是以传统数据库为基础、面向操作人员和低层管理人员、对基本数据进行查询和增、删、改等的日常事务处理。OLTP的特点有:a.实时性要求高;b.数据量不是很大。C.交易一般是确定的,是对确定性数据进行存取。d.并发性要求高且严格的要求事务的完整性,安全性。OLTP和OLAP的区别:1)用户和系统的面向性:OLTP面向顾客,而OLAP面向市场;2)数据内容:OLTP系统管理当前数据,而OLAP管理历史的

6、数据;3)数据库设计:OLTP系统采用实体-联系(ER)模型和面向应用的数据库设计,而OLAP系统通常采用星形和雪花模型;4)视图:OLTP系统主要关注一个企业或部门内部的当前数据,而OLAP系统主要关注汇总的统一的数据;5)访问模式:OLTP访问主要有短的原子事务组成,而OLAP系统的访问大部分是只读操作,尽管许多可能是复杂的查询。7、PageRank算法原理:1)在初始阶段:构建Web图,每个页面初始设置相同的PageRank值,通过迭代计算,会得到每个页面所获得的最终PageRank值。2)在一轮中更新页面PageRank

7、得分的计算方法:每个页面将其当前的PageRank值平均分配到本页面包含的出链上。每个页面将所有指向本页面的入链所传入的权值求和,即可得到新的PageRank得分。优点: 是一个与查询无关的静态算法,所有网页的PageRank值通过离线计算获得;有效减少在线查询时的计算量,极大降低了查询响应时间。缺点:1)人们的查询具有主题特征,PageRank忽略了主题相关性,导致结果的相关性和主题性降低。2)旧的页面等级会比新页面高。因为即使是非常好的新页面也不会有很多上游链接,除非它是某个站点的子站点。5、分类:指把数据样本映射到一个事先

8、定义的类中的学习过程,即给定一组输入的属性向量及其对应的类。过程:①在已知训练数据集上,根据属性特征,为每一种类别找到一个合理的描述或模型,即分类规则;②然后根据规则对新数据进行分类。分类的方法有哪些,给出你所了解的评估分类器的方法和特点?分类方法:用基于归纳的

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。