数据仓库与数据挖掘概述

数据仓库与数据挖掘概述

ID:37790770

大小:1.68 MB

页数:58页

时间:2019-05-31

数据仓库与数据挖掘概述_第1页
数据仓库与数据挖掘概述_第2页
数据仓库与数据挖掘概述_第3页
数据仓库与数据挖掘概述_第4页
数据仓库与数据挖掘概述_第5页
资源描述:

《数据仓库与数据挖掘概述》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、高性能计算其他数据库统计学人工智能可视化数据挖掘数据仓库与数据挖掘是一个多学科领域,从多个学科汲取营养。这些学科包括数据库技术、人工智能、机器学习、神经网络、统计学、模式识别、知识库系统、知识获取、信息检索、高信能计算和数据可视化。本课程以数据仓库与数据挖掘的基本概念和基本方法为主要内容,以方法的应用为主线,系统叙述数据仓库和数据挖掘的有关概念和基础知识,使学生尽快掌握数据仓库和数据挖掘的基本概念,基本方法和应用背景。课程介绍教学目的本课程的目的主要是要求学生能对数据仓库和数据挖掘的基本方法和基本概念有整体的了解,掌握建立数据仓库的原理和

2、方法,从理论上掌握数据仓库、OLAP联机分析的基本概念、原理、主要算法及应用,对数据挖掘的关联规则,分类方法,聚类方法有深入的了解,并能够在Clementine软件使用过程中熟练掌握这些方法。Clementine介绍1999年SPSS公司收购了ISL公司,对Clementine产品进行重新整合和开发,现在Clementine已经成为SPSS公司的又一亮点。 作为一个数据挖掘平台,Clementine结合商业技术可以快速建立预测性模型,进而应用到商业活动中,帮助人们改进决策过程。强大的数据挖掘功能和显著的投资回报率使得Clementine在

3、业界久负盛誉。同那些仅仅着重于模型的外在表现而忽略了数据挖掘在整个业务流程中的应用价值的其它数据挖掘工具相比,Clementine其功能强大的数据挖掘算法,使数据挖掘贯穿业务流程的始终,在缩短投资回报周期的同时极大提高了投资回报率。数据挖掘工具Clementine连蝉六年桂冠CRossIndustryStandardProcess-forDataMining6个步骤业务理解数据理解数据准备建模模型评估模型部署EaseofUse:Theuserinterface数据抽取、转换、加载第1章数据仓库与数据挖掘概述数据仓库(DW)是利用数据资源提

4、供决策支持。在数据仓库中利用多维数据分析来发现问题,并找出产生的原因。能从大量历史数据中预测未来。数据挖掘(DM)是从数据中挖掘出信息和知识。数据仓库、数据挖掘和联机分析处理(OLAP)结合起来,完成支持决策的系统,称为决策支持系统(DSS)。数据仓库、数据挖掘、联机分析处理等结合起来的技术称为商业智能(BI)。商业智能是一种新的智能技术。1.1数据仓库的兴起1.2数据挖掘的兴起1.3数据仓库和数据挖掘的结合1.1数据仓库的兴起1.1.1从数据库到数据仓库1.1.2从OLTP到OLAP1.1.3数据仓库的定义与特点1.1.1从数据库到数据

5、仓库(1)“数据太多,信息不足”的现状(2)异构环境的数据的转换和共享(3)利用数据进行数据处理转换为利用数据支持决策1.数据库用于事务处理数据库作为数据资源用于管理业务中的事务处理。它已经成为了成熟的信息基础设施。数据库中存放的数据基本上是保存当前数据,随着业务的变化随时在更新数据库中的数据。不同的管理业务需要建立不同的数据库。例如,银行中储蓄业务、信用卡业务分别要建立储蓄数据库和信用卡数据库。数据仓库(DataWarehouse,DW)面向主题的、集成的、稳定的、随时间不断变化的数据库系统ETL数据抽取(Extraction)数据转换

6、(Transformation)数据加载(Loading)2.数据仓库用于决策分析数据库用于事务处理,数据仓库用于决策分析数据库保持事务处理的当前状态,数据仓库既保存过去的数据又保存当前的数据数据仓库的数据是大量数据库的集成对数据库的操作比较明确,操作数据量少。对数据仓库操作不明确,操作数据量大(1)W.H.Inmon在《建立数据仓库》一书中,对数据仓库的定义为:数据仓库是面向主题的、集成的、稳定的,不同时间的数据集合,用于支持经营管理中决策制定过程。1.数据仓库定义(2)SAS软件研究所观点:数据仓库是一种管理技术,旨在通过通畅、合理、

7、全面的信息管理,达到有效的决策支持。2.数据仓库特点(1)数据仓库是面向主题的主题是数据归类的标准,每一个主题基本对应一个宏观的分析领域。例如,银行的数据仓库的主题:客户DW的客户数据来源:从银行储蓄DB、信用卡DB、贷款DB等三个DB中抽取同一客户的数据整理而成。在DW中能全面地分析客户数据,再决定是否继续给予贷款。(2)数据仓库是集成的数据进入数据仓库之前,必须经过加工与集成。对不同的数据来源进行统一数据结构和编码。统一原始数据中的所有矛盾之处,如字段的同名异义,异名同义,单位不统一,字长不一致等。将原始数据结构做一个从面向应用到面向

8、主题的大转变。(3)数据仓库是稳定的数据仓库中包括了大量的历史数据。数据经集成进入数据仓库后是极少或根本不更新的。(4)数据仓库是随时间变化的数据仓库内的数据时限在5~10年,故数据的键码包含

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。