多库系统与数据集成技术.ppt

多库系统与数据集成技术.ppt

ID:48057491

大小:450.50 KB

页数:28页

时间:2020-01-13

多库系统与数据集成技术.ppt_第1页
多库系统与数据集成技术.ppt_第2页
多库系统与数据集成技术.ppt_第3页
多库系统与数据集成技术.ppt_第4页
多库系统与数据集成技术.ppt_第5页
资源描述:

《多库系统与数据集成技术.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、多库系统与数据集成技术2012年12月8日一数据集成技术简介1.1数据集成的必要性1.2数据集成的概念1.3数据集成的特征1.4数据集成的分类1.5常见数据集成方法(重点)1.6数据集成的关键问题1.7主流的数据访问技术1.1数据集成的必要性历史数据的价值开发或引进许多独立运行的应用系统存储、管理、维护数据异构环境数据源–文件数据库、网络数据库等,不同时期、不同公司、不同工具、不同平台上开发,运行在不同的操作系统和数据库平台上;–系统彼此封闭、数据无法交换共享,形成冗余数据、垃圾数据,无法数据一致性.企业应用系统需要访问各种异

2、构数据源,需要将内部数据进行发布和交换1.2数据集成的概念数据集成概念:对各种异构数据提供统一的表示、存储和管理,以实现逻辑或物理上有机地集中。–集成是指维护数据源整体上的数据一致性、提高信息共享利用的效率–透明是指用户不必考虑底层数据模型不同、位置不同等问题,能够通过一个统一的查询界面实现对网络上异构数据源的灵活访问数据集成关键:以一种统一的数据模式描述各数据源中的数据,屏蔽它们的平台、数据结构等异构性,实现数据的无缝集成。1.3数据集成的特征分布性:数据源异地分布–网络传输的性能和安全性自治性:集成系统不影响各局部应用系统

3、,局部数据源保持独立性–在不通知集成系统的前提下改变自身的结构和数据异构性:被集成数据源的运行环境、数据模型和数据语义异构性–不同的硬件设备、操作系统、网络协议;结构化数据(数据库)、半结构化数据(HTML)、非结构化数据(图片);相同语义数据的不同表达形式1.4数据集成的分类数据集成可以分为下述4个层次基本数据集成多级视图集成模式集成多粒度数据集成1.4.1基本数据集成通用标识符问题是数据集成时遇到的最难的问题之一。由于同一业务实体存在于多个系统源中,并且没有明确的办法确认这些实体是同一实体时,就会产生这类问题。处理该问题的

4、办法如下。(1)隔离。保证实体的每次出现都指派一个唯一标识符。(2)调和。确认哪些实体是相同的,并且将该实体的各次出现合并起来。1.4.1、基本数据集成当目标元素有多个来源时,指定某一系统在冲突时占主导地位。数据丢失问题是最常见的问题之一,一般解决的办法是为丢失的数据产生一个非常接近实际的估计值来进行处理。1.4.2多级视图集成多级视图机制有助于对数据源之间的关系进行集成:底层数据表示方式为局部模型的局部格式,如关系和文件;中间数据表示为公共模式格式,如扩展关系模型或对象模型;高级数据表示为综合模型格式。1.4.2多级视图集成

5、视图的集成化过程为两级映射:(1)数据从局部数据库中,经过数据翻译、转换并集成为符合公共模型格式的中间视图。(2)进行语义冲突消除、数据集成和数据导出处理,将中间视图集成为综合视图。1.4.3模式集成模型合并属于数据库设计问题,其设计的好坏常视设计者的经验而定,在实际应用中很少有成熟的理论指导。实际应用中,数据源的模式集成和数据库设计仍有相当的差距,如模式集成时出现的命名、单位、结构和抽象层次等冲突问题,就无法照搬模式设计的经验。在众多互操作系统中,模式集成的基本框架如属性等价、关联等价和类等价可最终归于属性等价1.4.4多粒

6、度数据集成多粒度数据集成是异构数据集成中最难处理的问题,理想的多粒度数据集成模式是自动逐步抽象数据综合(或数据抽象)指由高精度数据经过抽象形成精度较低、但是粒度较大的数据。其作用过程为从多个较高精度的局部数据中,获得较低精度的全局数据。在这个过程中,要对各局域中的数据进行综合,提取其主要特征。数据综合集成的过程实际上是特征提取和归并的过程。1.4.4多粒度数据集成数据细化指通过由一定精度的数据获取精度较高的数据,实现该过程的主要途径有:时空转换,相关分析或者由综合中数据变动的记录进行恢复。数据集成是最终实现数据共享和辅助决策的

7、基础。1.5常见数据集成方法(重点)1.数据转换方法(联邦数据库系统)–松散集成,通过转换工具实现应用系统之间的数据转换和交换,较低层次的集成2.数据聚合方法(中间件模式)–借助于中间件系统构造一个虚拟的全局数据模式,是一种集中式管理、分布式存储的较高层次的集成模式3.析取、转换和装载(ETL)(数据仓库模式)–通过对异构数据源中的数据进行分析、转换和装载,建立一个数据仓库,面向企业决策的数据集成方法1.5.1数据转换方法—联邦数据库系统通过转换工具在数据库之间进行模式映射,复制、转换数据库中的数据;联邦数据库系统(FDBS)

8、由半自治数据库系统构成,相互之间分享数据,联盟各数据源之间相互提供访问接口,同时联盟数据库系统可以是集中数据库系统或分布式数据库系统及其他联邦式系统。在这种模式下又分为紧耦合和松耦合两种情况,紧耦合提供统一的访问模式,一般是静态的,在增加数据源上比较困难;而松耦合则不提供统一

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。