数据仓库设计与实现

数据仓库设计与实现

ID:957502

大小:498.50 KB

页数:24页

时间:2017-10-20

数据仓库设计与实现_第1页
数据仓库设计与实现_第2页
数据仓库设计与实现_第3页
数据仓库设计与实现_第4页
数据仓库设计与实现_第5页
资源描述:

《数据仓库设计与实现》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、数据仓库的设计与实现第1章数据仓库的设计与实现1.1数据仓库设计过程数据仓库的设计一般从操作型数据开始,通常需要经过以下几个处理过程;数据仓库设计——数据抽取——数据管理。一、数据仓库设计根据决策主题设计数据仓库结构,一般采用星型和雪花模型设计其数据模型,在设计过程中应保证数据仓库的规范化和体系各元素的必要联系。二、数据抽取根据元数据库中的主题表定义、数据源定义、数据抽取规则定义对异地异构数据源进行清理、转换、对数据进行重新组织和加工,装载到数据仓库的目标库中。三、数据管理数据管理分为目标数据维护和元数据维护两方面。目

2、标数据维护是根据元数据为所定义的更新频率、更新数据项等更新计划任务来刷新数据仓库,以反映数据源的变化,且对时间相关性进行处理。元数据是数据仓库的组成部分,元数据的质量决定整个数据仓库的质量。当数据源的运行环境、结构及目标数据的维护计划发生变化时,需要修改元数据。1.2需求分析与决策主题的选取通过对管理者和各级别的用户的数据分析需求进行调研,我们收集并整理出了用户的决策分析需求如下:1.2.1博士学位授予信息年度数据统计分析一、按主管部门统计从主管部门的角度,分析在一个时间段(年)内,各主管部门所授予的博士学位信息统计。

3、可回答如“2008,由某部门主管的,博士学位授予一共有多少,其平均学习年限是多少,脱产学习的有多少人?”等问题。具有表格和图形两种方式来展示分析结果。典型报表格式如表1所示。表1200__年度授予博士学位情况统计表(按主管部门统计)主管部门授予人数其中学历博士其中同等学历博士其中女平均年龄少数民族平均学习年限其中一级学科授予在学期间成果论文成果专利合计中国科学院财政部……表1续 200__年度授予博士学位情况统计表(按主管部门统计)学习方式录取类别就业单位类别脱产半脱产业余定向非定向机关科研、设计单位金融单位部队待就业

4、录取研究生其他二、按性质类别统计三、按地区统计四、按单位统计五、按学科门类统计六、按一级学科统计七、按二级学科统计1.2.2硕士学位授予信息年度数据统计分析一、按主管部门统计二、按性质类别统计三、按地区统计四、按单位统计五、按学科门类统计六、按一级学科统计七、按二级学科统计1.2.3学士学位授予信息年度数据统计分析一、按主管部门统计二、按性质类别统计三、按地区统计四、按单位统计五、按学科门类统计六、按学科类别统计七、按专业统计1.3系统体系结构设计通过对当前各种主流数据仓库软件在性能、价格等方面的对比,充分考虑统计业务

5、、单位数量等实际情况,本系统决定采用SQLServer2005数据仓库软件来构建综合信息分析系统的数据仓库。本系统服务器端要求运行平台为Windows2003Server企业版,客户端要求WindowsXP,浏览器为IE6.0;采用SQLServer2005数据仓库构建方案构建数据仓库,选用VisualStudio.NET2003/SQLServer2005、Rose、PowerDesigner等开发工具进行系统开发。我们设计的综合信息分析系统构架在统计综合信息平台中,其核心功能表现为通过数据转换技术,将直报数据库及其

6、他数据源的数据库生成利于进行分析的、不同于关系数据库的数据仓库,根据不同的分析需求建立不同的专题分析数据库(多维数据库),最后对多维数据库进行利用联机分析处理、数据挖掘,其架构如图所示。图1学位授予信息统计系统架构在这个体系结构中,存放于系统数据库中的业务数据及外部数据源数据按照主题通过ETL工具被抽取到ETL数据库(数据准备区),数据在ETL数据库中完成预处理工作(清洗和转换),再通过ETL工具加载到数据仓库。数据进入数据仓库后按照维度和事实存放,采用MSAnalysisServiees作为OLAP服务器,Analy

7、sisServiees可以方便的定义维度和构建OLAP立方体。用户使用前端的查询工具、报表工具、分析工具,就可以访问决策支持系统并分析浏览数据了。由于数据预处理本身的复杂性,直接从外部数据源把数据整合到数据仓库必将导致该过程即占用许多外部操作型数据库的资源和时间,也会影响数据仓库装载数据的效率。借鉴算法研究中“以空间换时间”的思想,再结合目前硬件成本的下降,本系统中,我们在数据仓库的体系结构中添加一个专门进行数据预处理的存储区域以提高数据仓库系统整体性能。在系统设计中,应注意以下问题:一、理顺学位授予信息之间的关系以及

8、业务数据是保证数据质量的关键,抽取信息的质量依赖于用户对结果的解释,容易导致错误。二、针对不完整的数据、不一致的数据、错误的数据以及冗余数据确定数据处理规则,即ETL实施的具体规则。三、系统监控与数据管理包括维表的维护、增量数据抽取转换等的控制、系统出错报警、异常处理、数据存储及访问的安全性、海量数据的查询效率、数据各份策略等。四

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。