论大数据和数据集成.doc

论大数据和数据集成.doc

ID:59320732

大小:16.00 KB

页数:6页

时间:2020-09-05

论大数据和数据集成.doc_第1页
论大数据和数据集成.doc_第2页
论大数据和数据集成.doc_第3页
论大数据和数据集成.doc_第4页
论大数据和数据集成.doc_第5页
资源描述:

《论大数据和数据集成.doc》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、论大数据和数据集成  大数据是大事务数据(即关系数据库)、大交互数据(即社交数据、网站日志、传感设备、电子邮件),以及大数据处理(即Hadoop)的大综合。大数据处理主要源自于社会化媒体、移动应用以及云计算。通过以更快的速度对更多的数据值,更多类型的数据进行分析,大数据可以驱动快速创新。  实践表明,大数据项目中80%的工作都和数据集成有关。我所说的数据集成是指访问、解析、规范化、标准化、集成、清洗、抽取、匹配、分类、修饰以及交付数据等功能。如D.J.Patil在他的书《DataJujitsu》(数据柔术)中所说的那样,大数据项目中80%的工作都

2、是清洗数据。)最近在针对来自25个公司的35名数据科学家的一次调研中,其中一个参与者说道:“还没有开始做任何实际的分析之前,我在集成、清洗,以及转换数据上花费了一半以上的时间。很多时候,在开始数据分析的工作的时候,我都感到非常庆幸。”(Kandel等,企业数据分析和可视化:一项调研访谈。IEEE可视化科学和技术(VAST),2012)。换句话说,在利用大数据做任何有意义的事情之前,必须首先进行集成。这是因为大数据来自于如此众多的不同类型是数据源,数据格式也千变万化。  不仅仅是因为有很多数据,而且由于有很多不同类型的数据源、不同类型的结构和格式。

3、在企业内外来自客户和供应商交易的数据正在被大规模地产生和使用,例如互联网、社交、云以及传感器设备等。为了从大数据中发现价值,就需要将数据从发源地和源系统中移动到大数据平台,经过集成、分析之后就可以交付这些原始数据中的价值。  在某些情况下,可以使用数据虚拟化技术以避免移动数据,利用数据虚拟化可以创建一个数据抽象层以隐藏底层数据源的复杂性。基于这个数据抽象层,可以决定是否需要连接不同的数据源或者将合并后的数据移动到一个屋里目标存储。  数据集成另外一个重要的方面就是元数据管理和数据治理。元数据管理为更好地理解数据创建了一个语义层,并且可以更好地支持

4、数据治理活动。  确实有不同的考虑。但是,我发现详细比较传统的行列格式的关系数据以及平面文件数据和多结构(即层次式、图形)以及非结构化数据会比较有用。前者很多情况下只能被传统的数据平台(即关系数据库管理系统)所处理,而后者可以使用新出现的NoSQL技术进行更为经济高效的存储和处理,例如Hadoop,还可以进一步区分高密度、高价值的数据(例如存储于关系数据库系统)和低密度的原始数据(例如:网站日志、社会化媒体文本),以便决定如何以最佳的方式存储,集成和处理数据。  如果数据集成没有做好,那么总会导致项目延期、项目失败、最终用户的参与程度降低等结果,

5、并且直接影响业务,导致较差的客户服务、低劣的产品质量、低效运营,以及不成熟的决策。考虑到不完全、不一致、不精确,以及不能准时交付给业务的数据,影响可能是跨越多个订单通道的不一致的客户体验,由于订单错误或者延期交付所导致的忠诚度下降,或者由于缺乏优化的交叉销售、纵深销售而导致现金流的损失。  大数据项目中数据集成的最佳过程就是包含了访问和挖掘、解析和准备、发现和概要分析、转换和清洗,以及抽取和交付数据等功能的过程。如前所述,大数据项目中80%的工作都是数据集成。例如,大型跨国银行将数据集成应用于和欺诈检测、风险和投资组合分析、投资建议、法规复符合性

6、,以及积极的客户开拓等相关的大数据项目中。大数据不仅仅是分析。而是整个流水线。因此,当提到大数据方案的时候,就必须考虑到所有的过程:收集、存储、组织、分析、以及分享。  数据集成常常被忽略,这是因为一个快速但粗劣的集成方式实施起来阻力会小些。在这些项目中,没有全面考虑到在大数据项目中位了支持和维护生产环境中不断增加的数据量和数据类型所必要的范围和需求。组织需要一个可以线性扩展、具备24x7可靠性的数据集成平台,以支持一个灵活可变的架构,同时提供工具以增强生产率,提高协作。  总的来说,大数据的元数据处理确实存在一些需要特别考虑之处。并不是所有的数

7、据都以与大数据项目相关的方式进行建模。原始的交互数据(即社会化数据、网页日志、传感器设备、电子邮件等)是以读取模式而不是以写入模式进行处理的。因此,在大数据项目中,元数据的缺失是其固有属性。这也是数据治理在大数据项目中发挥着关键作用的原因。元数据可以通过数据发现(即领域、关系)以及数据管理来逐渐完善(即规范化、清洗)。有些元数据可以随着数据在企业范围内被访问、集成、分析和使用的过程而自动逐渐完善。例如,法规符合性审计数据的历史以及使用模式可以通过某些集成工具而自动获取。大数据项目中有多种不同类型且非常有用的元数据(技术型、业务型、操作型)这些元数

8、据有助于增强搜索、简化数据审计、增强信任、提高协作、减少返工并增加安全性。  大数据需要一个经过优化的数据集成平台,以支持一个异构的数据

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。