数据仓库与数据挖掘new

数据仓库与数据挖掘new

ID:34618042

大小:839.10 KB

页数:48页

时间:2019-03-08

数据仓库与数据挖掘new_第1页
数据仓库与数据挖掘new_第2页
数据仓库与数据挖掘new_第3页
数据仓库与数据挖掘new_第4页
数据仓库与数据挖掘new_第5页
资源描述:

《数据仓库与数据挖掘new》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、数据仓库与数据挖掘主讲人:龚卫华(博士)研究方向:网格计算,数据库系统1教材与参考书¢陈文伟,数据仓库与数据挖掘教程,清华大学出版社¢安淑芝等编著.数据仓库与数据挖掘.清华大学出版社.¢JiaweiHan,MichelineKamber.数据挖掘概念与技术.范明等译.机械工业出版社.¢张云涛,龚玲著.数据挖掘原理与技术.电子工业出版社.(IBM软件学院)2主要内容与考核方式¢内容提要:¢数据仓库->DW的设计和OLAP操作¢数据挖掘->关联规则、聚类和分类算法¢考核方式:¢实验:20%¢Sqlserver2000AnalysisService¢平时:10%¢开卷试题:70%3绪论¢数据爆

2、炸问题¢自动数据收集工具和成熟的数据库技术使得大量的数据被收集,存储在数据库、数据仓库或其他信息库中以待分析。¢我们拥有丰富的数据,但却缺乏有用的信息¢解决方法:数据仓库技术和数据挖掘技术¢数据仓库(DataWarehouse)和在线分析处理(OLAP)¢数据挖掘:在大量的数据中挖掘感兴趣的知识(规则,规律,模式,约束)4数据库技术的演化(1)¢1960s和以前:¢文件系统¢1970s:¢层次数据库和网状数据库¢1980s早期:¢关系数据模型,关系数据库管理系统(RDBMS)的实现5数据库技术的演化(2)¢1980s晚期:¢各种高级数据库系统(扩展的关系数据库,面向对象数据库等等.)¢面

3、向应用的数据库系统(空间数据库,时序数据库,多媒体数据库等等)¢1990s:¢数据挖掘,数据仓库(Inmon),多媒体数据库和网络数据库¢95年数据仓库流行:IBM的BI,微软的SQLServer绑定OLAP服务器¢2000s¢流数据管理和挖掘¢基于各种应用的数据挖掘¢XML数据库和整合的信息系统6数据仓库的用途(三种)¢信息处理¢支持查询和基本的统计分析,并使用交叉表、表、图表和图进行报表处理¢分析处理¢对数据仓库中的数据进行多维数据分析¢支持基本的OLAP操作,切块、切片、上卷、下钻、转轴等¢数据挖掘¢从隐藏模式中发现知识¢支持关联分析,构建分析性模型,分类和预测,并用可视化工具呈现

4、挖掘的结果7数据仓库的应用价值¢传统的数据库针对OLTP应用理想,但不适合决策分析。原因:¢1.决策处理的系统响应时间¢可能很长,遍历大部分数据¢2.决策数据需求的问题¢动态更新,数据需要正确的集成、汇总、概括。¢3.决策数据操作的问题¢日常事务不能满足决策需要,希望对数据进行多种形式的操作。¢传统DB的操作型数据与DW的分析型数据区别8操作型数据分析型数据细节的综合的或提炼的在存取瞬间是准确的代表过去的可更新不更新操作需求事先可知道操作需求事先不知道生命周期符合SDLC完全不同的生命周期对性能要求高对性能要求宽松一个时刻操作一个单元一个时刻操作一个集合事务驱动分析驱动面向应用(OLTP

5、)面向分析(DSS)一次操作数据量小一次操作数据量大支持日常操作支持管理需求9操作型DBS与数据仓库¢操作型DBS的主要任务是联机事务处理OLTP(OnLineTransactionProcessing)¢日常操作:购买,库存,银行,制造,工资,注册,记帐等¢数据仓库的主要任务是联机分析处理OLAP(OnLineAnalyticalProcessing)¢数据分析和决策支持(DSS),支持以不同的形式显示数据以满足不同的用户需要10OLTPVS.OLAP(1)¢用户和系统的面向性¢面向顾客(事务)VS.面向市场(分析)¢数据内容¢当前的、详细的数据VS.历史的、汇总的数据¢数据库设计¢实

6、体-联系模型(ER)和面向应用的数据库设计VS.星型/雪花模型和面向主题的数据库设计11OLTPVS.OLAP(2)¢数据视图¢当前的、企业内部的数据VS.经过演化的、集成的数据¢访问模式¢事务操作VS.只读查询(但很多是复杂的查询)¢任务单位¢简短的事务VS.复杂的查询¢访问数据量¢数十个VS.数百万个12OLTPVS.OLAP(3)¢用户数¢数千个VS.数百个¢数据库规模¢100M-几GBVS.100GB-数TB¢设计优先性¢高性能、高可用性VS.高灵活性、端点用户自治¢度量¢事务吞吐量VS.查询吞吐量、响应时间¢国际评测标准(http://www.tpc.org/)¢TPC-CVS

7、.TPC-H13为什么需要一个分离的数据仓库?¢提高两个系统的性能¢DBMS是为OLTP而设计的:存储方式,索引,并发控制,恢复¢数据仓库是为OLAP而设计:复杂的OLAP查询,多维视图,汇总¢不同的功能和不同的数据:¢历史数据:决策支持需要历史数据,而这些数据在操作数据库中一般不会去维护¢数据汇总:决策支持需要将来自异种源的数据统一(如聚集和汇总)¢数据质量:不同的源使用不一致的数据表示、编码和格式,对这些数据进行有效的分析需要将

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。