一种海量数据处理平台解决方案

一种海量数据处理平台解决方案

ID:5984915

大小:27.50 KB

页数:6页

时间:2017-12-30

一种海量数据处理平台解决方案_第1页
一种海量数据处理平台解决方案_第2页
一种海量数据处理平台解决方案_第3页
一种海量数据处理平台解决方案_第4页
一种海量数据处理平台解决方案_第5页
资源描述:

《一种海量数据处理平台解决方案》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、一种海量数据处理平台解决方案  摘要:该解决方案采用构建高性能计算的大型集群系统,进行海量数据处理,并可以减少分散投资的建设成本,降低整体管理成本,为科研机构提高科研水平及企业高效运营提供统一的高性能平台。关键词:集群系统;海量数据处理;高性能中图分类号:TP391文献标识码:A文章编号:1009-3044(2013)21-4784-03当今社会,信息技术高度发达。据统计,世界上每天产生的数据量可刻满1.88亿张DVD光盘,这是一个爆炸式的增长。未来,这种增长不会停止,数据量每18至24个月就会增长一倍,而物联网的出现,会进一步加快这种信息的爆炸式增长。面对这种海量的

2、数据信息,对数据的管理和处理分析成为一个新的难题,海量数据处理技术应运而生[1]。海量数据处理基本上采用分布式存储技术,把大量信息切片,并行的进行存储和处理,以加快数据处理速度,应用属于IO密集型应用。这种分布式存储和处理架构对计算机硬件系统提出以下要求:6(1)整体架构基于水平式扩展的集群架构。(2)节点CPU要求不高。(3)节点内存需求相对较高,主要用于数据处理缓冲区、磁盘和通信cache,建议每节点CPU内核内存比1:2以上[2]。(4)节点网络通信带宽要求较高,主要用于数据传输和进程通讯,建议采用低延时高速交换网络InfiniBand。(5)节点内部存储容量要

3、求较高,用于海量数据存储,建议2TB以上。1海量数据处理平台方案1.1方案概述针对海量数据处理需求,我们采用基于高速互联的IBM刀片服务器的高性能计算集群系统,CPU配置主流Intelx86架构CPU,CPU内核与内存比达到1:4,InfiniBand低延时高速互联网络可以满足海量数据处理的数据传输的需求。同时在每个计算节点中配置2TB热插拔内置磁盘存储,用于存储分布式海量数据,计算节点采用无盘启动,无需系统盘。而外置共享存储用于科学计算数据的存储与共享,同时也可承担海量数据处理应用中外部海量数据与处理系统直接的传输中转站[3]。外置共享存储采用IBMGPFS通用并行

4、文件系统,实现计算节点与存储节点间并行文件访问协议以及RDMA传输方式(这样可以极大的提高系统IO通信带宽),同时通过CNFS/SAMBA/FTP/HTTP等二次共享方式,提供给外部客户端多种数据传输及访问方式,最大程度上支持各种各样的跨平台客户端。海量数据处理平台逻辑拓扑示意图如图1所示。1.2方案设计原则6海量数据处理平台方案设计中,主要依据以下原则:1)先进性:选择主流趋势的软硬件平台产品,使之不仅能够满足目前业务的需要,还能适应未来技术发展的趋势和需要。2)灵活性:优化系统资源配置比例,实现最大的应用灵活性。3)可扩展性:提供具有最高可伸缩性的系统,并保护用户

5、现有的投资。4)稳定性:整体系统确保稳定、高效、连续地运营,能够支持全天24小时的连续运行需求。5)开放性:系统方案采用开放标准,开放结构,开放系统组件和开放用户接口。充分满足用户投资保护和业务扩展、系统维护等方面的需求。1.3海量数据处理平台各组成部分本方案建议的集群系统中主要包含以下组成部分:管理节点、服务节点、计算节点、系统监控节点、资源/作业调度节点、登录节点、数据传输节点、存储节点、外置共享存储。主要硬件组成如表1所示,主要软件组成如表2所示。2方案优势2.1虚拟化—计算节点无盘启动最热门的行业6都是在需求和技术更新这双重的推动下前进的,在高性能计算领域中也

6、不例外。如今,在许多行业各种规模的公司都需要解决计算密集的工作负载问题。在本方案中,计算节点采用无盘启动方式,这样就把操作系统和服务器硬件的紧耦合打开,使得海量数据处理服务可以很方便的在不同服务器硬件上运行,不存在紧密的联系,所有服务器相当于一个大的资源池,用户可以根据需求,自由的调度所需资源,并且在硬件出现故障时,缩短系统恢复所需时间;同时服务器内置磁盘可以全部用作海量数据处理,提高磁盘利用率[4]。所有系统镜像采用集中式管理,在进行系统维护、软件升级、修改系统配置等常规系统维护作业时,可以极大的缩短当机时间,减少系统维护工作量;同时我们还可以针对不同的应用,定制所

7、需的不同系统镜像,在不同系统之间方便的进行切换,管理维护极其方便。2.2高可用数据服务—GPFS61)高可用性:随着集群系统规模的不断扩大,用户对数据访问的可用性要求也越来越高,如果因为集群系统中几台服务器的故障,就导致用户数据无法访问,这是不可接受的,GPFS有着无与伦比的高可用性,这是其他并行文件系统无法比拟的。首先GPFS采用仲裁节点组的集群仲裁方式,保证系统在出现网络故障的时候,不会出现头分裂的问题。其次GPFS的磁盘支持多路径访问方式,一个NSD服务器无法的情况下,GPFS客户端会自动通过下一个NSD服务器访问,一个磁盘最多可以支持8个NS

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。