提升算力,支撑科研创新 ▏某大学能源学院高性能计算平台建设案例

近年来,我国高等院校在高性能计算领域发展迅速。各高校通过建设以高性能计算为基础的开放性信息化平台,不仅可以为学校或院系的科研与大规模数据应用提供高效公共服务,同时也是人才培养和国内外学术交流合作、创新的重要平台。


以下是2022年我们为国内某著名大学的能源学院实施的一个高性能计算平台案例。受制于学院现有的IT环境瓶颈和预算限制,赞华和深度合作伙伴浪潮公司在项目实施过程中提供了数个方案并经历了反复修改,最终实现了客户满意的效果。


一、客户背景与项目需求


该大学目前已经上线了由学校统一规划建设的校级公共计算服务平台,但学校能源学院作为拥有煤燃烧实验室等国家级重点工程实践中心的学院,仍需要建设自己硬件先进、资源共享的高性能计算平台,以满足重大科技发展项目和高水平合作研究的需要。


本次院方的计算平台建设项目,旨在全面升级学院煤燃烧实验室的计算集群计算水平,使其能够达到高水平的煤燃烧实验室科研需求,实现 CPU 计算节点总双精度浮点计算力不小于140万亿次/秒;CPU 计算节点物理核心数量不少于 1900 个;GPU 计算节点总双精度浮点计算力不小于 77.6万亿次/秒;存储系统合计可用容量不小于 350TB,并具备灵活的可扩充性能。


建设需求包括数据存储服务器、 高性能计算服务器、网络系统及配套设施、软件和服务等内容。


二、赞华方案


整体架构设计:


 

1、计算能力


本次高性能计算平台的组成包括:

32台两路计算节点服务器、2台四路计算节点服务器、1台GPU服务器、2台登陆管理节点、一套分布式存储服务器集群;


计算集群的 CPU双精度浮点总体计算能力为167.7万亿次,计算集群 CPU计算核心为1984个;计算集群 GPU双精度浮点计算能力为77.6万亿次。 


计算能力完全能够满足院方的实际需要。


2、存储系统  


采用浪潮数据中心级的分布式存储平台 AS13000G5;配置2台元数据节点和1台数据存储节点。合计配置的可用存储容量不小于 350TB,且支持学院持续增长的容量和性能需求。


3、高速计算网络


计算平台采用 Mellanox公司先进的 Mellanox HDR Infiniband交换机,提供40个 HDR 200Gb高速端口,可通过 HDR Y型线缆(1个200Gb端口分成2个100Gb端口)连接计算节点,配置满足集群所有节点的IB网络接入。


4、超强的作业调度和管理能力


本次计算平台采用浪潮集群管理服务平台软件 Cluster Engine,含人工智能管理组件 AIStation,包含但不限于以下功能:


可统一管理和调度 HPC和 AI集群,支持通过物理视图对节点进行管理,查看节点运行数据统计图,打开节点 shell,打开节点远程桌面,根据集群负载情况进行动态开关机操作。


5、并行编译环境


并行编译环境包含但不限于以下内容:


编译器:提供基于64操作系统的并行 Fortran、C、C++、GCC、CUDA编译器;提供 GNU系列开发工具,含 GNU Fortran、C、C++、Python 等编译系统。

并行环境:提供 MPICH2、OpenMPI、Mvapich2 等MPI环境,提供 OpenMP并行环境。

数学库:提供 MKL、ACML、BLAS、LAPACK、ScaLAPACK、FFTW、PLAPACK、PETSc、GSL、PLASMA、Boost、HDF、netCDF等函数库。


三、实施成效


本次建设高性能计算平台为院方培养高性能计算领域人才、提高科研自主创新能力、促进高性能计算研发能力、增强科技成果转化能力打下坚实基础。具体表现为:


1.先进性:平台适应国际最新技术的发展趋势,采用国际领先的技术,装备国际领先的软件。

2.开放性:是一个开放的平台,采用标准化的产品和技术,在其基础上,能够运行各种专业软件。

3.可扩展:超算平台可为将来扩展奠定基础,随着实验室对计算和存储能力的要求提升,集群能够满足以后扩展的需求。

4.可管理:超算平台具备良好的管理功能,为以后的管理工作提供方便,易于管理,易于维护。

5.安全性:超算平台可为多个用户提供服务,涉及到超算相关的技术机密和知识产权,其安全性要求较高,确保有高度的安全性。