云计算与大数据处理综述.docx

云计算与大数据处理综述.docx

ID:58150091

大小:283.27 KB

页数:7页

时间:2020-04-11

云计算与大数据处理综述.docx_第1页
云计算与大数据处理综述.docx_第2页
云计算与大数据处理综述.docx_第3页
云计算与大数据处理综述.docx_第4页
云计算与大数据处理综述.docx_第5页
资源描述:

《云计算与大数据处理综述.docx》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、云计算与大数据处理1.引言从某种程度上来讲,云计算是面向服务计算的一个极其成功的范例。云计算的三大理念包括:基础设施即服务(IaaS)、平台即服务(PaaS)以及软件即服务(SaaS)。这一概念甚至同样可以扩展到数据库即服务(DBaaS)抑或存储即服务(SaaS)。灵活性强、计次付费、前期低投资以及风险转移几大特性,使得云计算成为部署新型应用的一种普遍方式。大量云计算应用服务的不断涌现,也催生了各种各样的云平台。越来越多的平台和应用,同时作为生产者和消费者,也使得互联网上的数据量以惊人的速度日益扩增。可扩展数据管理

2、系统因此就成为云计算基础架构的重要一环。对于可扩展分布式数据管理的研究已经持续了许多年。大多数研究都关注于如何设计出一种同时适用于更新密集任务和专业分析任务的可扩展式系统。最初的方案有应用于更新密集型任务的分布式数据库,以及专业分析任务的并行数据库。其中并行数据库更是从原型系统一直发展到可用的商业系统水准。然而相比之下分布式数据库却发展的差强人意且从未得到商业化。2.可扩展海量数据管理系统应用服务的数据访问模式的变革,再加上急速扩增的需求,催生了一种被称作键值对(Key-Value)存储的新型系统。键值存储模式出现

3、后受到各种企业的追捧并且得到了广泛采用。在工业界和学术界,MapReduce模式以及其开源实现项目Hadoop都得到了迅速应用普及。而且更进一步,针对不同的应用场景下的可用性以及运行效率提升,也不断有各种Hadoop改良解决方案被提出。部署在云端的应用服务都有着各自对于数据管理的迫切需求,这样就有诸多的可供研究的空间。总之,为解决各领域大数据管理带来的挑战,催生了数不胜数的系统方案。各种云计算服务都需要对分布存储的、海量的数据进行处理分析。具体而言,云计算应用面临的数据管理挑战体现在数据的海量性、异构性以及非确定性

4、。针对这些特点,来构建高可用性及强可扩展性的分布式数据存储系统,目前云计算系统中的数据管理技术除了MapReduce之外,主要还包括Google的GFS、BigTable和亚马逊的Dynamo。2.1MapReduce技术MapReduce是Google提出的一个软件架构,用于大规模数据集(大于1TB)的并行计算。作为一个新的编程模型,MapReduce将所有针对海量异构数据的操作抽象为两种操作,即Map和Reduce。使用Map函数将任务分解为适合在单个节点上执行的计算子任务,通过图1.MapReduce架构模型

5、调度执行处理后得到一个“Key-Value”集。而Reduce函数则根据预先制定的规则对在Map阶段得到的“Key-Value”集进行归并操作,得到最终计算结果。MapReduce架构模型最为成功之处就在于,让人们可以根据需求将针对海量异构数据的处理操作(无论是多么复杂)分解为任意粒度的计算子任务,并能够在多个计算节点之间灵活地调度计算任务以及参与计算的数据,从而实现计算资源和存储资源配置的全局最优化。另外,MapReduce方法在将Map任务和Reduce任务分配到集群中的相应节点时,会考虑到数据的本地性(Dat

6、aLocality),即一般会将Map/Reduce安排到参与计算数据的存放节点或附近节点来执行。1.1GFS技术GFS(GoogleFileSystem)是一个大型的分布式文件系统。它为Google云计应用算提供分布式海量存储解决方案,并且与MapReduce和BigTable等技术结合十分紧密,形成Google独有的一套的云计算解决方案。GFS的架构模型如图2所示,GFS将整个系统的节点分为三类角色:Client(客户端)、Master(主服务器)和ChunkServer(数据块服务器)。Client是GFS提

7、供给应用程序的访问接口,它是一组专用接口,不遵守POSIX规范,以库文件的形式提供。应用程序直接调用这些库函数,并与该库链接在一起;Master是GFS的管理节点,其数量在逻辑上只有一个,它保存系统的元数据,负责整个文件系统的管理,是GFS文件系统中的大脑;ChunkServer负责具体的存储工作,数据以文件的形式存储在ChunkServer上,ChunkServer的个数可以有多个,它的数目直接决定了GFS的规模。GFS将文件按照图2.GFS架构模型固定大小进行分块(默认是64MB),每一块称为一个Chunk(数

8、据块),每个Chunk都有一个对应的索引号(Index)。客户端应用在访问GFS时,首先访问Master节点,获取将要与之进行交互的ChunkServer信息,然后再行直接访问这些ChunkServer完成数据存取。GFS的这种设计方法实现了控制流和数据流的分离。Client与Master之间只有控制流,而无数据流,这样就极大地降低了Master的负载,使之

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。