数据仓库与数据挖掘实验一(数据仓库构建)

数据仓库与数据挖掘实验一(数据仓库构建)

ID:22088709

大小:338.00 KB

页数:9页

时间:2018-10-27

数据仓库与数据挖掘实验一(数据仓库构建)_第1页
数据仓库与数据挖掘实验一(数据仓库构建)_第2页
数据仓库与数据挖掘实验一(数据仓库构建)_第3页
数据仓库与数据挖掘实验一(数据仓库构建)_第4页
数据仓库与数据挖掘实验一(数据仓库构建)_第5页
资源描述:

《数据仓库与数据挖掘实验一(数据仓库构建)》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、一、实验内容和目的目的:1.理解数据库与数据仓库之间的区别与联系;2.掌握典型的关系型数据库及其数据仓库系统的工作原理以及应用方法;3.掌握数据仓库建立的基本方法及其相关工具的使用。内容:以SQLServer为系统平台,设计、建立数据库,并以此为基础创建数据仓库。二、所用仪器、材料(设备名称、型号、规格等)操作系统平台:Windows7数据库平台:SQLServer2008SP2三、实验原理数据仓库是在原有关系型数据库基础上发展形成的,但不同于数据库系统的组织结构形式,它从原有的业务数据库中获得的数据形成当前基本数据层,经过综合后形成轻度综合数据层,轻度

2、综合数据再经过综合后形成高度综合数据层。数据仓库结构包括当前基本数据(currentdetaildata)、历史基本数据(olderdetaildata)、轻度综合数据(lightlysummarizeddata)、高度综合数据(highlysummarizeddata)和元数据(metadata)。数据仓库系统由数据仓库、仓库管理和分析工具3部分组成,结构形式如下图所示:关系数据库数据文件其他数据数据建模抽取、转换装载(ETL)元数据系统管理综合数据当前数据历史数据查询工具OLAP工具DM工具C/S工具-9-数据仓库的逻辑数据模型是多维结构的数据视图,

3、也称多维数据模型。对于逻辑数据模型,可以使用不同的存储机制和表示模式来实现多维数据模型。目前使用的多维数据模型主要有星型模型、雪花模型、星网模型、第三范式等。ETL过程在开发数据仓库时,占去70%的工作量。ETL过程的主要步骤概括为:(1)决定数据仓库中需要的所有的目标数据;(2)决定所有的数据源,包括内部和外部的数据源;(3)准备从源数据到目标数据的数据映射关系;(4)建立全面的数据抽取规则;(5)决定数据转换和清洗规则;(6)为综合表制定计划;(7)组织数据缓冲区域和检测工具;(8)为所有的数据装载编写规程;(9)维度表的抽取、转换和装载;(10)事

4、实表的抽取、转换和装载。四、实验方法、步骤要求:利用实验室和指导教师提供的实验软件,认真完成规定的实验项目,真实地记录实验中遇到的各种问题和解决的方法与过程,并绘出模拟实验案例的数据仓库模型。实验完成后,应根据实验情况写出实验报告。五、实验过程原始记录(数据、图表、计算等)本次实验使用MicrosoftSQLServer的示例数据库AdventureWorks,用其用户订单模型相关数据建立数据仓库。AdventureWorks由来:AdventureWorksCycles,AdventureWorks示例数据库所基于的虚构公司,是一家大型跨国生产公司。公

5、司生产金属和复合材料的自行车,产品远销北美、欧洲和亚洲市场。公司总部设在华盛顿州的伯瑟尔市,拥有290-9-名雇员,而且拥有多个活跃在世界各地的地区性销售团队。u首先安装AdventureWorks示例数据库u查看安装好的数据库信息,了解相关表结构u分析订单业务模型,设计数据仓库相关表结构,如下:DIM_ORDER_METHOD:下订单方式维表列名数据类型长度精度是否为空说明ONLINEORDERFLAGint410是idDSCvarchar200是含义DIM_SALEPERSON:销售人员维表列名数据类型长度精度是否为空说明SALESPERSONIDi

6、nt410是销售人员IDDSCvarchar200是销售人员名称SALETERRITORY_DSCvarchar500是所属区域DIM_SHIPMETHOD:发货方式维表列名数据类型长度精度是否为空说明SHIPMETHODIDint410是发货方法IDDSCvarchar200是发货方法DIM_DATE:订单日期维表列名数据类型长度精度是否为空说明TIME_CDvarchar80是日期-9-TIME_MONTHvarchar60是年月TIME_YEARvarchar60是年TINE_QUAUTERvarchar80是季度TIME_WEEKvarchar6

7、0是星期TIME_XUNvarchar40是旬DIM_CUSTOMER:客户维表列名数据类型长度精度是否为空说明CUSTOMERIDint410是客户IDCUSTOMER_NAMEvarchar1000是客户名CUSTOMERTYPEvarchar200是客户类型AGEint410是年龄SEXvarchar20是性别MaritalStatusvarchar100是婚姻状况YearlyIncomevarchar500是年收入Educationvarchar500是教育程度Occupationvarchar500是职称NumberCarsOwnedint41

8、0是有车数量TotalChildrenint410是孩子数量COUNTRY_NA

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。