面向GPU异构集群的自学习负载均衡调度算法.pdf

面向GPU异构集群的自学习负载均衡调度算法.pdf

ID:52394168

大小:397.88 KB

页数:6页

时间:2020-03-27

面向GPU异构集群的自学习负载均衡调度算法.pdf_第1页
面向GPU异构集群的自学习负载均衡调度算法.pdf_第2页
面向GPU异构集群的自学习负载均衡调度算法.pdf_第3页
面向GPU异构集群的自学习负载均衡调度算法.pdf_第4页
面向GPU异构集群的自学习负载均衡调度算法.pdf_第5页
资源描述:

《面向GPU异构集群的自学习负载均衡调度算法.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、2015年5月西安石油大学学报(自然科学版)Mav2015第30卷第3期JournalofXianShiyouUniversity(NaturalScienceEdition)Vo1.30No.3文章编号:1673-064X(2015)03-0105-06面向GPU异构集群的自学习负载均衡调度算法刘惠,王继刚,葛铮铮,顾群,陈倩,杜军朝(1.西安电子科技大学软件学院,陕西西安710071;2中兴通讯股份有限公司,四川成都610041)摘要:由于GPU的高性能计算能力,越来越多地被用于集群系统中,但同时也给集群带

2、来节点级的异构问题,使原来适用于同构集群的调度算法在异构集群中性能大大降低。为使异构节点间的负载均衡,降低总的作业执行时间,提出了一个面向GPU异构集群的自学习负载均衡调度算法。首先对Torque调度器进行扩展,使其支持GPU作业调度,然后将提出的自学习调度算法在Rocks操作系统及Torque调度器软件中实现。真实物理集群上的实验结果表明,扩展后的Torque调度器很好地支持GPU任务的调度,自学习调度算法较原来的Torque调度算法能达到更好的负载均衡。关键词:异构集群;GPU;自学习调度算法;负载均衡中图

3、分类号:TP393文献标识码:A任务调度是集群系统的核心,它能大大提高资源利用率,提高集群总体性能。文献[1]提出了一1面向GPU的Torque集群平台扩展个基于熵的变化趋势的负载均衡算法,文献[2]提出了一个基于集群的动态负载均衡算法,文献[3]Torque是一个开源的集群资源管理软件,被广提出了一种面向集群系统的两阶段节能调度算法,泛地应用于高校和其他研究机构的高性能计算集群文献[4]提出了一个基于集群的能量有效性调度算中。Torque在资源管理方面功能强大,支持超过法,但它们都是针对同构集群提出的算法。文

4、献1500个计算节点,支持几乎全部UNIX/Linux系的[5]提出了异构集群环境下的作业调度方法,文献操作系统,并且在不断更新中。但是在实际使用过[6]提出一个基于异构集群的折衷能耗有效性和负程中发现,Torque调度性能差,集群的负载严重不平载均衡的调度算法,文献[7-8]提出一个异构集群的衡,并且无法识别和调度GPU作业。所以,现有基于历史任务运行时间的调度算法,文献[9—13]Torque集群平台不支持有GPU计算节点的异构集提出基于负载均衡的调度算法。但这些算法或是基群,GPU可以提供数十倍乃至于上百

5、倍于CPU的性于同构集群,或者基于的异构集群只是各个节点的能,在大数据时代,支持GPU成为技术发展的必然。计算能力不同,并没有考虑差异很大的GPU_l所本文对Torque上万行源码进行分析,对Torque构成的异构集群。本文研究由CPU和GPU计算节源码进行了扩展和实现,使其支持对GPU作业的调点所构成的异构集群的调度问题,提出一个自学习度。具体对Torque调度器的调度和资源获取2个负载均衡调度算法,并且在Torque集群平台上用模块进行了改进。首先,针对GPU资源的获取和保H.264软件进行了实验。存进行改

6、进,使得Torque调度器能够解析并获取计收稿日期:2014—12—15基金项目:国家自然科学基金项目(编号:61100075、61272456);高等院校基本科研业务费项目(编号:K5051323005,BDY041409)作者简介:刘惠(1976一),女,副教授,博士,主要从事大数据、并行计算、移动计算等研究。E—mail:liuhui@xidian.edu.Cll西安石油大学学报(自然科学版)GPU算节点的GPU资源信息并且保存下来;其次,在作—MEM大小,分别用rate_cpu、mem、rate_gpu

7、、mem业请求GPU资源的解析这个关键技术点上进行改_gpuCPU来表示。基于此,再定义出计算节点进,使得调度器能够解析出哪些作业请求GPU资的4个负载参数:CPU利用率、内存利用率、GPU源,从而在调度的时候将请求GPU计算资源的作业利用率、GPU内存利用率,分别用utlz—cpu、分配到配置有GPU的计算节点上。这部分扩展工utlz—mem、utlz_gpu、utlz_gpumem表示。作涉及到大量数据结构和源代码剖析,在此不作深作业模型:多用户可以在集群上提交多个作业,入阐述。本文重点论述面向GPU异构集

8、群基于历用户提交的n个作业记为集合SJOB={.,,,⋯,史信息的自学习动态负载均衡调度算法的设计与实.,},设各个作业之间没有依赖关系,相同类型的作现业可以反复多次提交(比如反复进行的科学计算,程序执行过程都相同,只不过输入数据不同)。2问题定义问题描述:基于以上GPU异构集群架构模型和作业模型,给定SJOB和SNODE两个集合,找到集本文提出了一个面向GPU异构集群的基于历合SJO

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。