数据仓库的基本原理

数据仓库的基本原理

ID:36765629

大小:5.43 MB

页数:114页

时间:2019-05-10

数据仓库的基本原理_第1页
数据仓库的基本原理_第2页
数据仓库的基本原理_第3页
数据仓库的基本原理_第4页
数据仓库的基本原理_第5页
资源描述:

《数据仓库的基本原理》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、数据仓库的基本原理数据仓库系统的功能和构成第一章数据仓库概论业务数据库提取、清洗、转换数据存储OLAP数据挖掘企业决策层数据仓库决策支持多维查询预测数据仓库的体系结构数据挖掘分析系统/数据展现系统数据市场数据市场数据市场数据市场数据元数据数据仓库存储数据清洗/转换数据提取提取仓库外部系统业务操作型系统数据提取业务数据库中并不是所有的数据都是决策支持所必需的。所以要把必需的那部分提取出来。例子:某超市确定以分析客户的购买行为为主题建立数据仓库。需要提取的数据:与客户购买行为相关的关于员工的数据没有必要提取。数

2、据仓库中的关键名词DataExtraction数据清洗数据不完整性数据中的错误数据的不同步数据仓库中的关键名词按缺失的内容分别写入不同Excel文件向客户提交,要求在规定的时间内补全。补全后才写入数据仓库。错误产生的原因是业务系统不够健全,在接收输入后没有进行判断直接写入后台数据库造成的,可用SQL语句进行查找和改进DataCleaning例子:客户基本信息表客户咨询信息表客户号:100客户号:100姓名:张山姓名:张三年龄:23咨询问题:…两个表中,客户姓名不同。这是常见的错误数据清洗客户基本信息表客户业

3、务变更信息表客户号:100客户号:100姓名:张山姓名:张山年龄:23业务变更:停机手机服务状态:正常由于不同数据库之间的数据刷新不是实时的,所以数据不同步。数据清洗在ETL开发的初期可以每天向业务单位发送过滤数据的邮件,促使他们尽快地修正错误,同时也可以做为将来验证数据的依据。数据转化不同的数据库厂商,提供的数据类型可能不同。例子:不同的时间表达方式2000-2-32/3/20002000/2/3不同的坐标系统WGS84西安80’3度带北京54’3度带数据仓库中的关键名词DataTransformatio

4、n提取仓库正是因为业务数据库系统中的数据和数据格式存在不一致的问题。将数据放进数据仓库前要先放进提取仓库,等待清洗和转换。数据仓库中的关键名词数据提取清洗转换提取日志记录了仓库中数据的来源,数据的转化过程。便于保证和验证数据的质量数据仓库中的关键名词数据管理员不同于数据库管理员或系统管理员。在数据导入时负责管理数据质量的专业人员。查阅提取日志,发现数据提取中出现的错误有时还要检测源于业务系统的错误。数据仓库中的关键名词外部数据源从系统外部获取的,与分析主题相关的数据。例子:超市采购部门确定采购货单既要了解超

5、市内部产品的销售情况,还要了解市场上的信息,后者即为外部数据源。外部数据源越来越多地采用服务的技术数据仓库中的关键名词ArcGisrest服务http://services.arcgisonline.com/ArcGIS/rest/servicesOGCWMSOGCWFS地理信息服务数据仓库存储多维数据库关系型数据库两者的结合数据仓库中的关键名词DataRepository数据数据仓库中的原始数据是由业务系统提取的或外部数据源导入,经过清洗、转化而来。为了完成OLAP分析和数据挖掘,必需在原始数据基础上增加

6、冗余信息与预运算。数据仓库中的关键名词元数据数据仓库的元数据是主要包含两类数据:为了从操作型环境向数据仓库环境转换而建立的元数据,包含所有源数据项的名称、属性及其转化。用来在多维商业模型和前端工具之间建立映射的,叫做决策支持系统元数据。具体包括数据仓库中信息的种类、存储位置、存储格式;信息之间的关系、信息和业务的关系、数据使用的业务规则;数据模型;数据模型和数据仓库的关系。数据仓库中的关键名词元数据数据仓库中的关键名词数据系统数据系统元数据Polygon的例子数据集市数据仓库中的信息按照不同的主题来组织。举

7、例:市场发展趋势的分析主题,由市场部门的人使用。为避免在全部的巨量数组中检索,把某主题的数据逻辑上或物理上分离出来,可称为数据集市。数据集市面向某个部门。数据仓库中的关键名词数据集市数据仓库中的关键名词数据仓库数据仓库的特点数据的安全性本地数据的安全性:数据加密、访问权限设置。网络访问数据库:网络安全机制、网络传输中的数据加密和鉴权、防止监听和口令泄漏。数据库的功能和特征数据处理的并发性加锁解锁实现同步与互斥多线程,多进程技术,磁盘的存储优化,合适的索引提高并发访问的效率。事务处理的可靠性原子操作不能分开执

8、行,如果某步骤失败,系统必须返回并更改操作。数据库的功能和特征数据的一致性和完整性数据库设计、应用的开发、系统的维护方面共同努力。数据库的功能和特征操作型数据的特点分析型数据的特点细节的综合的、经过提炼的在存取的瞬间是准确的代表过去的数据可更新不更新操作需求通常事先可知分析需求通常不知道生命周期符合SDLC生命周期不同于SDLC对性能(如操作时延)要求高对性能要求较宽一个时刻操作一个数据单元一个时刻操作一个数据集

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。