数据仓库详细分析和说明.pdf

数据仓库详细分析和说明.pdf

ID:57067888

大小:646.95 KB

页数:13页

时间:2020-07-31

数据仓库详细分析和说明.pdf_第1页
数据仓库详细分析和说明.pdf_第2页
数据仓库详细分析和说明.pdf_第3页
数据仓库详细分析和说明.pdf_第4页
数据仓库详细分析和说明.pdf_第5页
资源描述:

《数据仓库详细分析和说明.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、数据仓库详细分析和说明发表于2016/4/515:12:22609人阅读分类:大数据神经网络数据仓库是企业统一的数据管理的方式,将不同的应用中的数据汇聚,然后对这些数据加工和多维度分析,并最终展现给用户。它帮助企业将纷繁浩杂的数据整合加工,并最终转换为关键流程上的KPI,从而为决策/管理等提供最准确的支持,并帮助预测发展趋势。因此,数据仓库是企业IT系统中非常核心的系统。根据企业构建数据仓库的主要应用场景不同,我们可以将数据仓库分为以下四种类型,每一种类型的数据仓库系统都有不同的技术指标与要求。传统数据仓库图1:传统数据仓库的架构企业会把数据分成内部数据和外部数据,内部数据通常

2、分为两类,OLTP交易系统以及OLAP分析系统数据,他们会把这些数据全部集中起来,经过转换放到数据库当中,这些数据库通常是Teradata、Oracle、DB2数据库等。然后在这上面对数据进行加工,建立各种主题模型,再提供报表分析业务。一般来说,数据的处理和加工是通过离线的批处理来完成的,通过各种应用模型实现具体的报表加工。实时处理数据仓库随着业务的发展,一些企业客户需要对一些实时的数据做一些商业分析,譬如零售行业需要根据实时的销售数据来调整库存和生产计划,风电企业需要处理实时的传感器数据来排查故障以保障电力的生产等。这类行业用户对数据的实时性要求很高,传统的离线批处理的方式不

3、能满足需求,因此他们需要构建实时处理的数据仓库。数据可以通过各种方式完成采集,然后数据仓库可以在指定的时间窗口内对数据进行处理,事件触发和统计分析等工作,再将数据存入数据仓库以满足其他一些其他业务的需求。因此,实时数据仓库增强了对实时性数据的处理能力要求,也要求系统的架构在技术层面上需要革命性的调整。关联发现数据仓库在一些场景下,企业可能不知道数据的内联规则,而是需要通过数据挖掘的方式找出数据之间的关联关系,隐藏的联系和模式等,从而挖掘出数据的价值。很多行业的新业务都有这方面的需求,如金融行业的风险控制,反欺诈等业务。上下文无关联的数据仓库一般需要在架构设计上支持数据挖掘能力,

4、并提供通用的算法接口来操作数据。数据集市数据集市一般是用于某一类功能需求的数据仓库的简单模式,往往是由一些业务部门构建,也可以构建在企业数据仓库上。一般来说数据源比较少,但往往对数据分析的延时有很高的要求,并需要和各种报表工具有很好的对接。数据仓库架构的挑战到了移动互联时代,传统架构的数据仓库遇到了非常多的挑战,因此也需要对它的架构做更多的一些演变。首先最大的问题是数据增长速度非常迅速,导致原有的数据仓库在处理这些数据存在架构上的问题,无法通过业务层面的优化来解决。譬如,一个省级农信社的数据审计类的数据通常在十几TB,现有基于关系数据库或者MPP的数据仓库方案已经无法处理这么大

5、数据,亟需一种新的更强计算能力的架构设计来解决问题。其次,随着业务的发展,数据源的类型也越来越多。很多行业的非结构化数据的产生速度非常快,使用传统Oracle/DB2的数据仓库并不能很好的处理这些非结构化数据,往往需要额外构建一些系统作为补充。再次,在一家比较大的企业内部,因为业务不同企业内部可能会有几百个数据库,各自建设方案也不同,没有一个简单的办法将数据统一到一个数据平台上。因此需要一个数据库虚拟化技术,能够通过有效的方式将各个数据库统一化,有效的进行数据分析和批处理。而在过去,这个技术并不存在。最后,过去的数据库没有提供搜索和数据挖掘的能力,而这些需求已经是企业的刚需。譬

6、如金融行业需要使用复杂的数据挖掘方法代替传统的规则引擎来做风险控制,而这无法在基于关系数据库的方案中得到解决。随着Hadoop以及Spark技术的快速成熟,基于Hadoop/Spark的数据仓库解决方案能有效的解决这些问题和挑战。基于大数据的数据仓库关键技术图2:基于Hadoop的数据仓库架构设计上图是一个典型的基于Hadoop的数据仓库的架构设计。首先有一个传统数据仓库层,它包含一个集中的数据存储平台,以及元数据管理,数据稽查和数据处理的工作调度层。数据存储平台包含多种数据源,有结构化数据和非结构化数据。结构化数据的处理分为三层,按照数据模型分成贴源层、基础明细层和公共主题模

7、型层,数据加工业务按照模型进行切分成不同的批处理业务,通过分布式计算引擎来执行离线的批处理计算。同时为了满足多个模型层的业务需求,有一个统一的资源调度层和工作流调度系统,保证每个业务能够得到给定配额的资源,确保资源分配的合理性和有效性。其次就是几个不同的应用的场景,通过资源管理层动态分配出来的逻辑集群。各个业务集群获取模型层加工的数据,并结合自身的业务使用相关的数据,同时各个业务之间也可以通过数据库联邦等技术在计算中共享数据。这类业务包含各种查询与检索业务,数据集市以及关联发现数据仓库。此外

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。