HPC高性能集群平台实施规范

HPC高性能集群平台实施规范

ID:44267007

大小:359.10 KB

页数:16页

时间:2019-10-20

HPC高性能集群平台实施规范_第1页
HPC高性能集群平台实施规范_第2页
HPC高性能集群平台实施规范_第3页
HPC高性能集群平台实施规范_第4页
HPC高性能集群平台实施规范_第5页
资源描述:

《HPC高性能集群平台实施规范》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、高性能集群平台实施规范1.设备进场-12.上架布线-13.集群实施规范-23.1操作系统-23丄1操作系统版本-23.1.2系统磁盘分区-23.1.3系统批量安装工具-23.1.4系统配置-33.2集群安全规范-93.2.1系统密码强度规则-93.2.2禁止普通用户直接登录计算节点-93.2.3禁止root用户ssh直接登录(针对直接通过外网访问的节点)-93.2.4防止暴力破解fail2ban(针对直接通过外网访问的节点)-93.3软件安装-103.3.1基础软件安装规范・103.3.2测试软件安装规范・113.3.3应用软件安装规范-123.4系统备份-123.4.

2、1备份系统配置文件-123.4.2制作系统镜像文件-131•设备进场设备进场前需要和用户确认《项目实施机房进场条件调查表》中的各项内容,上架布线需要以此作为参考。若进场条件不符和要求,需反馈给相关人员及时解决。2•上架布线上架布线请按照《【hpc实施规划】方案实施项目实施规划》进行,以下简称实施规划。设备上架需要充分考虑空间、承重、供电、散热、布线等多个方面的要求,尽量平衡各种制约因素。(-)对于普通风冷机柜,基于散热及供电的需求,一般要求每个机柜的设备总功率不能超过15KW,且功耗与承重尽量平均分配。(-)根据机房的布线情况”确认是上走线或者下走线,从而将交换机布置于

3、机柜的顶部或底部。(三)交换机应尽量位于机柜排的中间机柜中,从而缩减网络连接线缆的长度。(四)控制台应该放置于自下而上19U左右高度,从而方便管理人员的管理。上架布线完成后,需要采集机房环境的照片信息,包括设备摆放情况,布线情况,以及机房整体情况等,收集各个设备序列号并记录到《【hpc实施规划2016]方案实施项目实施规划》。注解由于部分项目特殊性,工程师在编写实施规划时因存在未定因素,不能涵盖全部设备、需求,因此需要现场实施阶段对实施规划进行再次更新补充J丿3•集群实施规范3.1操作系统3.1.1操作系统版本(-)考虑到高性能集群的兼容性和性能,建议对于IntelXe

4、onE5-2600v3/v4系列及以下CPU系列,如无特殊软硬件兼容性需求,统一采用CentOS6.6或CentOS7.2版本,并选择软件包完全安装。(二)对于使用Multi-Host或IntelOPA网络的集群操作系统必须安装CentOS/RHEL7.2。注解选择CentOS或RHEL版本,以合同为准,如合同无版本要求,默认出厂为CentOS丿3.1.2系统磁盘分区如无特殊需求,针对系统磁盘空间建议采用以下分区:/boot500MB/swap64GB/剩余空间3.1.3系统批量安装工具操作系统的安装建议使用HPCInstaller软件进行操作系统的批量部署,详见HP

5、CInstaller软件使用手册。3.1.4系统配置3.1.4.1主机名规范高性能集群由于节点数量众多,需要对节点按照一定的规则编号命名,命名一般为"前缀+编号",高性能集群前缀定义原则如下:计算节点前缀:comput管理节点前缀:admin登录节点前缀:loginParastor文件系统opara节点前缀:oparaostor节点前缀:ostor其余文件系统存储节点前缀:io编号从1开始,为了方便管理和记忆,编号应按照如下原则:(一)原则1:同类相邻同一种类型节点(硬件、操作系统,用途等)应该是连续的编号(二)原则2:从多到少按用途:计算节点、10节点、管理节点、登录

6、节点计算节点内部:刀片最多,GPU节点其次,胖节点最少(三)原则3:从高到低高端到低端:八路、四路、双路内存容量:128G.64G、32G高度越高:5U、4U、2U、1U以上原则冲突时,优先级:原则1>原则2>原则3丄举例:CX50-G20刀片计算节点:64台GPU计算节点:8台1980八路胖节点:2台1840四路胖节点:2台162010节点:4台1620管理节点:2台1620登录节点:2台整个集群节点编号顺序为comput1-comput64刀片CX50-G20comput65・comput72GPU节点comput73-comput741980comput75・co

7、mput761840iol-io4IO节点1620adminl-admin2管理节点1620loginl-Iogin2登录节点16203.1.4.2集群IP地址规范管理网络IP地址和主机名规范为:IP地址子网掩码主机名前缀主机名别名前缀10.10.10.x255.255.0.0comput、admin、loginnode(二)IPMI远程管理网络IPMI网络IP地址和主机名规范为:IP地址子网掩码主机名前缀主机名别名前缀10.10.20.x255.255.0.0mcomput,madmin.mloginmnode刀箱管理模块IP地址和主机

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。