案例分享-神州数码-毋果津

案例分享-神州数码-毋果津

ID:41301823

大小:936.23 KB

页数:17页

时间:2019-08-21

上传者:U-2494
案例分享-神州数码-毋果津_第1页
案例分享-神州数码-毋果津_第2页
案例分享-神州数码-毋果津_第3页
案例分享-神州数码-毋果津_第4页
案例分享-神州数码-毋果津_第5页
资源描述:

《案例分享-神州数码-毋果津》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

蓝翼俱乐部—成功案例及技术分享西安神州数码有限公司毋果津 项目背景:项目名称XX制造行业高性能计算集群系统项目建设单位:XX制造行业项目背景:XX制造行业在其信息化建设过程中,需要对其工程制造中涉及的产品进行工作状态及运行行为的模拟仿真,及早发现设计缺陷、改进和优化设计方案,拟初步建立一套高性能计算群集测试系统,测试高性能计算群集对其工程设计的效率提升程度,应用系统包括CAD、CAM等;如测试效果良好,计划后期扩大高性能计算群集的规模。我当时负责神州数码IBMX服务器的售前技术支持工作,和当地IBM销售人员及IBM售前工程师共同跟进此项目。 项目背景:客户困难:客户由于是初次进行HPC项目建设,没有此类项目的建设经验,需要为其提供从硬件平台至应用系统的整体解决方案;客户对HPC对其在工程制造的帮助无法预期,所以无法投入大量资金用于此系统的建设;客户同时希望在项目预算内,尽可能地依据工程制造行业的HPC特点,搭建尽可能接近实际生产环境的高性能硬件平台。 CAE-HPC的目标是“用最低的成本模拟真实世界”,即“用最短的时间、最少的人力、最低的资金,进行复杂单场模拟和多场耦合分析”。计算速度、网络连接、数据安全、整体管理是重点考虑对象分布式并行提高计算速度。多核,高速连接提高系统并行处理能力对于建模仿真等分布式内存应用程序,采用更大的内存,用户可以建立高保真模型。I/O瓶颈需要大内存允许中间数据存储在内存中而不需要和硬盘交换数据,可以减少I/O频度,明显提高速度。并行环境下需要考虑节点间的交互,尽可能提供高带宽低延迟的计算网络大规划计算需要考虑散热、通风以及管理问题数据安全性问题系统设计原则与选型依据 设计方案-系统架构图:整体设计方案分为三套独立网络:计算网络、管理网络和存储网络;Infiniband网络作为计算网络,保证高带宽低延迟的数据交互;FC存储网络;千兆管理网络;将管理网络与IO网络分开采用刀片服务器作为计算节点 设计方案-硬件构成:硬件构成说明:14个计算节点,采用IBM2路刀片式服务器;使用Infiniband作为计算网络;1个IO节点,采用IBM2路机架式服务器,也连接至计算网络;1个管理节点,采用IBM2路机架式服务器;1个刀片机箱,配置1个以太网交换机和1个InfiniBand交换机;1个FC接口磁盘阵列,配置5TB可用容量,通过FC线缆连接至IO节点 设计方案-计算网络:计算网络设计计算网络的网络性能是HPC集群最关键的部分,它的容量和性能直接影响了整个系统对高性能计算的适用性;由于HPC网络的复杂性,尽可能将管理、计算任务分开;由于用户是进行建模仿真,需要大批量高密度的数据交换。因此采用高带宽低延迟的Infiniband网络;将IO节点也连接至计算网络。 设计方案-存储网络:存储网络设计对于本次电子数据仿真设计HPC项目,存储只作为最终结果的存放地,不要求非常高的性能;存储网络采用SAN架构,采用4GBFC连接至存储服务器,简化数据操作的复杂性且方便扩展;一个IO节点,承担汇数据总及传输作用。 设计方案-管理网络:管理网络设计管理网络在HPC中承担着硬件状态监控、集群管理和任务分发等管理职能;采用千兆以太网络作为管理网络;使用一台机架式服务器作为管理节点。 设计方案-计算节点设备选型:计算节点的计算能力直接影响高性能计算的性能。对于建模仿真来说,需要更大内存在前后处理方面获得更好的性能;大规模计算情况下,还需要考虑节点的交互,散热和管理;计算节点采用IBM2路刀片式服务器HS22,配置2路四核Intel5560处理器,24GB内存,146GB硬盘。HS22刀片服务器 设计方案-软件和应用系统操作系统RedhatLinux硬件管理和监控IBMDirector集群管理和监控xCat作业调度OpenPBS+MauiScheduler并行库和数学库MPICH、PVM、GNUC/C++、Fortran、Java性能测试工具HPL 设计方案-性能及功耗GFlops理论Gflops:1.254GFlops(2.8G×4×4×2×14)预计效率:85%以上(infiniband效率>>千兆网络)功率设备最大总功率=1×4899+2×332+370=5933W 设计方案-硬件配置:硬件配置清单部件号说明数量BladeCenterHS22/2C/16G/14节点88524YCBladeCenterH机箱,9U,14个槽位,标准带2个2900W电源,1个AMM,2个冗余风扇,DVDRWDrive,支持高速交换机131R3335BladeCenterH2900W电源模块包,含2个独立电源模块132R1860NortelL2/3Copper以太网交换机模块,对外6口RJ45125R5785BladeCenterHIEC320C20(200-240V)2.8M电源线,对外接口为3个C19接口249Y99803mCopperQDRInfinibandQSFPCable146M6005Voltaire40GbInfiniBandSwitchmoduleforBladeCenterH1小计7870C3CHS22,Xeon4CX556095W2.80GHz/1333MHz/8MBL2,2x2GB,O/Bay2.5inSATA/SAS1444T1886IntelXeon4C处理器ModelX556095W2.80GHz/1333MHz/8MBL21444T14872GB(1x2GB)DDR31Rx4Chipkill内存1333MHzHS228443W7536146GB10KSAS(SFF)热插拔硬盘适用于HS12/HS221446M60012-port40GbInfiniBandExpansionCard(CFFh)forIBMBladeCenter14小计SysxMgt&I/O(I/O节点)1台x3650m2机架式服务器794762Cx3650M2,XeonQuadCoreE554080W2.53GHz/1066MHzFSB/8MBL2,2x1GB,O/Bay2.5inHSSAS,SRMR10i,CD-RW/DVDCombo,675Wp/s,Rack146M1084IntelXeonQCProcessorModelE554080W2.53GHz/1066MHz/8MBL2144T14801GB(1x1GB)DDR31Rx8低电压内存x3400M2,x3500M2,x3550M2,x3650M2-244T14822GBDDR3-13332Rx8LPRDIMM442D0637IBM300GB2.5inSFFSlim-HS10KSASHDD246M1075Redundant675WPowersupply143W4420Voltaire4XInfiniBandDDRExpansionCard安装在I/O节点中142C2071Emulex4GbFCHBAPCI-EControllerDualPort安装在I/O节点中1小计SysxMgt&I/O(管理节点)1台x3650m2机架式服务器794762Cx3650M2,XeonQuadCoreE554080W2.53GHz/1066MHzFSB/8MBL2,2x1GB,O/Bay2.5inHSSAS,SRMR10i,CD-RW/DVDCombo,675Wp/s,Rack146M1084IntelXeonQCProcessorModelE554080W2.53GHz/1066MHz/8MBL2144T14801GB(1x1GB)DDR31Rx8低电压内存x3400M2,x3500M2,x3550M2,x3650M2-244T14822GBDDR3-13332Rx8LPRDIMM442D0637IBM300GB2.5inSFFSlim-HS10KSASHDD246M1075Redundant675WPowersupply1小计SSDDS3400存储,可用空间5TB172642XIBMSystemStorageDS3400DualController双控制器139R6517DS30001GBCacheMemoryUpgrade缓存升级选件242D0519IBM450GB3.5inHS15KSASHDD热插拔硬盘1239R6475IBM4-GbpsOpticalTransceiver-SFP短波模块439M56961mFiberOpticCableLC-LC光纤通道线缆4小计SysxRACK/KVM93074RXS242U标准机柜1172317X1U17"液晶折叠套件(键盘可选)117353LX1x8控制台交换机139M2895USBKVM连接线缆UCO(4根一包)240K5372USB旅行键盘1小计PDU39Y8934DPISingle-phase32AFront-endPDU-HV239Y8959通用电源分配器16A/220V7个C13输出插座,线缆:4.3mGB2099.1239Y7932RackPowerCord-C13/C1428767HNXSAS半高桌面式磁带机外置盒143W8478LTO3400/800GBSAS接口磁带机半高1 产品招标参数:刀片机箱数量1台设备名称指标项技术规格要求刀片中心品牌国际知名品牌高度/密度9U高/≧14个刀片要求每个机柜最多可以放置84个刀片或者168颗处理器可靠性要求全冗余的双背板设计电源支持N+N冗余,即在刀片满配情况下,2路供电中的一路出现问题时仍需保证所有刀片不能宕机满配电源和风扇易用性要求机箱集成本地光驱DVD/RW机箱集成本地KVM集成的管理模块网络支持配置1个NortelL2/3Copper以太网交换机模块,对外6口RJ45配置1个Voltaire40GbInfiniBandSwitchmodule配置1条3mCopperQDRInfinibandQSFPCable最多支持10个网络模块支持L2-7交换机(或者基于硬件的负载均衡功能)支持Qlogic4GbFC交换机支持智能直通模块,并可升级成交换机支持SAS连接模块,与外接SAS盘柜联接支持无阻塞Infiniband连接IO虚拟化要求支持IO虚拟化,即可以为每个刀片配置虚拟的MAC地址和WWN地址IO虚拟化支持多品牌的网络交换机,如北电/BNT,思科,Brocade,Qlogic支持跨机箱的刀片自动故障切换(failover)要求提供电源管理工具,能够提供图形化电源使用监控界面,并且更具需要限定个别刀片的用电系统管理工具免费提供系统部署和维护工具包提供数据中心的管理软件服务要求为刀片中心、内装刀片及交换机提供原厂商3年7x24小时服务刀片服务器数量14台设备名称指标项技术规格要求刀片服务器品牌与刀片机箱同一品牌处理器配置2个IntelXeon4C处理器ModelX5560内存12个内存插槽配置8个2GB(1x2GB)DDR31Rx4Chipkill内存1333MHz支持四位纠错(chipkill)、内存镜像网卡标配2个千兆位网卡,支持TOE配置1个2-port40GbInfiniBandExpansionCard(CFFh)最多支持8个1Gb以太网端口支持NetXen10Gb网卡存储支持热插拔SAS硬盘或者热插拔SSD硬件支持RAID0,1配置1个146GB10KSAS(SFF)热插拔硬盘冷却CPU和内存有独立的冷却通道扩展性支持2个扩展卡支持SAS扩展子卡系统管理集成系统管理处理器具备服务器的关键部件CPU、内存、硬盘等在发生故障前能够提前报警的能力故障部件的快速诊断功能:在断电的情况下,能够通过诊断板快速定位故障的部件,提高维修速度。支持并行KVM(cKVM),即运行多个用户同时对机箱内不同的刀片进行管理BIOS支持最新的UEFI虚拟化支持内嵌讯虚拟化功能支持的操作系统Microsoftwindows2008Server;RedHatLinux;SUSELinux;NovellNetWare 产品招标参数:IO节点数量1台设备名称指标项技术规格要求IO节点总体要求国际知名品牌服务器外观机架式服务器高度2U处理器类型IntelXeon(四核5500系列)处理器数量及主频2个,≥2.53GHz5540四核处理器高速缓存三级高速缓存≥8MB系统前端总线NA内存类型DDR3RDIMM内存内存配置数目8GB内存最大支持数目≥128GB,16个内存插槽内存保护技术高级Chipkill内存保护功能,内存镜像内置硬盘类型2.5"SAS/SATA/SSD内置硬盘容量及数目配置2个300GB2.5inSFFSlim-HS10KSASHDD阵列控制器集成硬件RAID-0/1/5PCII/O插槽4个PCI-E(x8)插槽冗余冗余电源网卡双10/100/1000Mb自适应以太网卡,支持网络唤醒、网络卸载引擎(TOE)等网络高级性能(标配支持2个,无需占用PCI-E插槽就可扩展至4个)HBA卡配置1个Emulex4GbFCHBAPCI-EControllerDualPort其它配置1个Voltaire4XInfiniBandDDRExpansionCard光驱内置CDRW/DVDCombo可管理和维护性1.对CPU、内存、硬盘驱动器、电源及风扇等关键部分的潜在的故障具有提前预警能力;2.故障部件的快速诊断功能:在断电的情况下,能够通过诊断板快速定位故障的部件,提高维修速度。3.集成的IMM支持的操作系统MSWindowsSever2003(Standard和Enterprise版)、MSWindowsServer2008、RedHatLinux和SUSELinux、VmwareESXServer售后服务提供3年保修服务管理节点数量1台设备名称指标项技术规格要求IO节点总体要求国际知名品牌服务器外观机架式服务器高度2U处理器类型IntelXeon(四核5500系列)处理器数量及主频2个,≥2.53GHz5540四核处理器高速缓存三级高速缓存≥8MB系统前端总线NA内存类型DDR3RDIMM内存内存配置数目8GB内存最大支持数目≥128GB,16个内存插槽内存保护技术高级Chipkill内存保护功能,内存镜像内置硬盘类型2.5"SAS/SATA/SSD内置硬盘容量及数目配置2个300GB2.5inSFFSlim-HS10KSASHDD阵列控制器集成硬件RAID-0/1/5PCII/O插槽4个PCI-E(x8)插槽冗余冗余电源网卡双10/100/1000Mb自适应以太网卡,支持网络唤醒、网络卸载引擎(TOE)等网络高级性能(标配支持2个,无需占用PCI-E插槽就可扩展至4个)光驱内置CDRW/DVDCombo可管理和维护性1.对CPU、内存、硬盘驱动器、电源及风扇等关键部分的潜在的故障具有提前预警能力;2.故障部件的快速诊断功能:在断电的情况下,能够通过诊断板快速定位故障的部件,提高维修速度。3.集成的IMM支持的操作系统MSWindowsSever2003(Standard和Enterprise版)、MSWindowsServer2008、RedHatLinux和SUSELinux、VmwareESXServer售后服务提供3年保修服务 客户收益及方案不足点客户收益:为客户提供了从硬件架构至应用系统的HPC整体解决方案,使客户不再关注硬件设备,能够将更多精力投入到业务系统中;系统扩展性方面,在客户资金相对紧张的情况下,尽量减少后期系统升级造成的设备浪费;系统设计按照制造行业HPC应用特点,在客户预算范围内达到最佳性能。不足点:IO节点因费用限制,设计不够理想。希望能在后期的改造中增加IO节点数量以提高IO性能;将管理节点加入计算网络中。 个人在本项目中的收获个人在本项目中的收获:对HPC在制造行业中的应用有了初步了解;对不同的硬件选择、尤其是计算网络设备的选择对HPC实际性能的影响有了一定了解;在如何与客户进行由浅入深地沟通HPC项目的售前经验上积累了经验。

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
大家都在看
近期热门
关闭