spark数据处理平台中内存数据空间管理技术研究

spark数据处理平台中内存数据空间管理技术研究

ID:35034184

大小:3.62 MB

页数:99页

时间:2019-03-16

spark数据处理平台中内存数据空间管理技术研究_第1页
spark数据处理平台中内存数据空间管理技术研究_第2页
spark数据处理平台中内存数据空间管理技术研究_第3页
spark数据处理平台中内存数据空间管理技术研究_第4页
spark数据处理平台中内存数据空间管理技术研究_第5页
资源描述:

《spark数据处理平台中内存数据空间管理技术研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、中文图书分类号:TP391密级:公开UDC:004学校代码:10005工程硕士学位论文M.E.DISSERTATION论文题目:Spark数据处理平台中内存数据空间管理技术研究论文作者:王海华领域:计算机技术指导教师:梁毅副教授论文提交日期:2016年6月UDC:004学校代码:10005中文图书分类号:TP391学号:S201307142密级:公开北京工业大学硕士专业学位论文(全日制)题目:Spark数据处理平台中内存数据空间管理技术研究英文题目:RESEARCHONTHEIN-MEMORYDATAMANAGEMENTTECHNOLOGY

2、ONSPARKDATAPROCESSINGFRAMEWORK论文作者:王海华领域:计算机技术研究方向:计算机网络技术申请学位:工程硕士专业学位指导教师:梁毅副教授所在单位:计算机学院答辩日期:2016年6月授予学位单位:北京工业大学独创性声明本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得北京工业大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示

3、了谢意。签名:王海华日期:2016年6月15日关于论文使用授权的说明本人完全了解北京工业大学有关保留、使用学位论文的规定,即:学校有权保留送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部或部分内容,可以采用影印、缩印或其他复制手段保存论文。(保密的论文在解密后应遵守此规定)签名:王海华日期:2016年6月15日导师签名:梁毅日期:2016年6月15日摘要摘要分布式内存计算平台Spark是海量数据处理领域的最新技术进展。Spark平台的核心特征是引入RDD(ResilientDistributedDatasets)的概念作为分布

4、式海量数据集的抽象描述,并通过基于内存的RDD数据存储和处理,提升大数据应用的执行效率。基于内存的数据存储空间管理是Spark平台的核心功能之一。通过内存数据空间管理,最大化缓存RDD数据是确保Spark平台处理高效性的关键。既有Spark平台对内存数据空间的管理主要体现为基于任务执行器的堆内存对RDD缓存数据与计算中形成的临时数据进行混合存储和统一管理;且对于任务执行器的内存数据空间采用静态、对称的分配模式。然而,上述管理方法难以适应Spark平台中普遍存在的RDD缓存数据与临时数据管理生命周期不同、任务执行器间内存空间需求异构的场景,导

5、致RDD缓存数据的频繁失效和任务重计算开销增加,降低了大数据应用的执行效率。针对上述问题,本文提出了基于共享内存的RDD缓存数据空间动态管理技术。该技术的核心思想是构建多任务执行器可共享的分布式内存数据空间,实现各任务执行器所需RDD缓存数据的聚合存储,并通过RDD缓存数据与计算临时数据的内存空间分配比例的动态调整,在保障计算任务正常运行的前提下,平衡任务执行器间异构的RDD缓存数据存储需求,最大化RDD缓存数据空间的利用率,进而提升应用执行效率。本文的主要贡献包括:1)面向Spark平台基于共享内存的RDD缓存数据空间的组织和管理模型。基

6、于计算节点构建RDD缓存数据共享内存空间,并引入分布协作式内存空间组织结构,支持RDD缓存数据在多节点内存空间间的迁移流动,提升内存数据空间利用率。采用基于Master/Slave的RDD缓存数据空间管理架构,实现平台级RDD缓存数据的统一存储管理,并实现多应用之间的RDD缓存数据共享。2)基于共享内存的RDD缓存数据空间的数据迁移策略。对Spark平台存在的计算资源和RDD缓存数据紧耦合部署、RDD缓存数据重计算代价不同、应用间存在数据共享需求等新特征设计了量化表示方法,并采用线性加权累加的方法,构建数据迁移代价量化计算模型和迁移目标节点

7、满足度量化计算模型。基于上述两个模型,以最小化任务重计算开销和最大化数据本地化处理几率为目标,设计了完整的数据迁移策略。3)面向RDD缓存数据与计算临时数据的内存数据空间动态分配策略。提出以任务执行器为粒度,通过对其中计算临时数据所需内存空间的在线预测,实现对两类内存数据空间的精准分配。对于临时数据内存空间需求量的预测,首先采-I-北京工业大学工程硕士专业学位论文用自相关方法挖掘任务执行器中计算临时数据内存空间需求量变化的周期性特征,对于具有周期性特征的任务执行器采用周期比对的方法,预测其临时数据的内存需求量;对于具有非周期性特征的任务执行

8、器采用基于离散马尔可夫链的随机过程预测方法确定其临时数据内存需求量。4)总结上述研究成果,基于开源的Spark平台,设计并实现了基于共享内存的RDD缓存数据空间动态管理原型系统S

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。