基于细粒度监控的spark优化研究

基于细粒度监控的spark优化研究

ID:35178813

大小:3.23 MB

页数:80页

时间:2019-03-20

基于细粒度监控的spark优化研究_第1页
基于细粒度监控的spark优化研究_第2页
基于细粒度监控的spark优化研究_第3页
基于细粒度监控的spark优化研究_第4页
基于细粒度监控的spark优化研究_第5页
资源描述:

《基于细粒度监控的spark优化研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、硕士学位论文基于细粒度监控的Spark优化研究RESEARCHONSPARKOPTIMIZATIONBASEDONFINE-GRAINEDMONITORING康海蒙哈尔滨工业大学2016年6月国内图书分类号:TP302.8学校代码:10213国际图书分类号:681.39密级:公开工学硕士学位论文基于细粒度监控的Spark优化研究硕士研究生:康海蒙导师:杨孝宗教授申请学位:工学硕士学科:计算机科学与技术所在单位:计算机科学与技术学院答辩日期:2016年6月授予学位单位:哈尔滨工业大学ClassifiedIndex:TP30

2、2.8U.D.C:681.39DissertationfortheMasterDegreeinEngineeringRESEARCHONSPARKOPTIMIZATIONBASEDONFINE-GRAINEDMONITORINGCandidate:KangHaimengSupervisor:Prof.YangXiaozongAcademicDegreeAppliedfor:MasterofEngineeringSpeciality:ComputerScienceandTechnologyAffiliation:Schoo

3、lofComputerScienceandTechnologyDateofDefence:June,2016Degree-Conferring-Institution:HarbinInstituteofTechnology摘要摘要Spark具有良好的容错性和扩展性,在业界已经得到了广泛的应用,但由于Spark平台底层实现技术对用户来说是透明的,而且性能优化需要综合考虑集群资源利用率、Spark负载执行效率等多种因素,使得不同类型的负载的分析优化变得十分复杂,经验不足的Spark用户常常无从入手。Spark的一个特点是支持

4、如AmazonEMR等的云服务,这个特性对于需要处理大数据的中小企业有很大的益处。因此,在云服务上执行Spark程序已经成为了一些企业和科研机构的的弹性选择。AmazonEMR为需要运行Spark负载的用户提供了便利。然而为了高效地使用租赁服务,用户需要在满足应用需求的前提下,申请分配最优的集群资源,以降低租赁成本,然而服务提供商并不能满足这样的服务需求。如此一来,集群资源分配的优化完全成为了用户的责任,这对于Spark用户来说是一个很大的挑战,更是一个亟待解决的问题。本文针对以上问题,设计并实现了Spark集群细粒度监

5、控工具,并在细粒度监控的基础上,完成了以下研究内容:(1)通过对Spark性能影响较大的因素的研究,结合集群资源和Spark历史运行数据的细粒度监控,针对不同类型的负载,对Spark的性能优化工作进行了研究,优化维度包括:数据序列化方式、Shuffle管理器、RDD的持久化、数据的压缩、资源调度、文件系统策略等,优化目标为提高集群的资源利用率、减少作业的执行时间。(2)通过对Spark负载进行性能建模,以用于预测作业的执行时间,进而优化Spark集群资源的分配,集群资源分配优化的指标为,在满足应用需求的前提下,申请分配最

6、优的集群资源,以降低资源使用成本。本文通过实验对Spark负载的优化进行了分析研究,并详细验证了Spark资源分配优化模型的准确性。实验结果表明,模型适用于Spark上运行的多种类型的Spark负载(包括文本处理、机器学习、图计算),不仅有助于用户合理地申请集群资源,而且对服务提供商优化集群资源利用率也有很大的参考价值。关键词:Spark;性能监控;性能优化;执行时间预测;资源分配优化IAbstractAbstractSparkhasgoodfaulttoleranceandscalability.Andithasbee

7、nwidelyusedinindustry.Butduetothesparkplatformistransparenttotheuser,andperformanceoptimizationneedscomprehensiveconsiderationofavarietyoffactors,Sparkoptimizationbecomesverycomplex.Inexperiencedsparkusersoftendonotknowhowtostart.OnefeatureofSparkistosupportcloud

8、servicessuchasEMRAmazon,whichhasagreatbenefitforsmallandmediumenterprisesthatneedtoprocesslargedata.Therefore,runningSparkprogramonthecloudservicehasbecomeagoo

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。