功能特性
本章节介绍高性能计算 HPC 的相关功能,包含集群管理、作业管理、文件存储、软件管理、资源管理和操作日志。
集群管理
集群是用于高性能并行计算的资源集,由云平台弹性计算实例组成,包含了调度管理集群资源的高性能调度器,以及运行业务所需的软件栈,解决超大规模的科学,工程和商业问题。
平台提供两种集群使用模式。
-
共享集群 (HPC 集群)
创建一个登录节点,通过此节点调用平台提供共享计算资源,根据作业使用的资源量进行计费,具有很高的灵活性。
-
专属集群 (EHPC 集群)
根据需要配置专属的计算资源,可以根据不同业务模式进行选择。
作业管理
作业管理系统会根据一个集群上的可用计算节点的计算资源管理和调度所有计算作业。
作业管理系统可以根据用户的需求,统一管理和调度集群的软硬件资源,保证用户作业公平合理地共享集群资源,提高系统利用率和吞吐率。
文件存储 EPFS
文件存储 EPFS(Elastic Parallel File System)是基于 Lustre 协议的网络共享的文件存储服务。您可以创建自己的文件存储挂载点,在创建集群和图形节点时可以选择挂载此共享存储,实现多节点间的数据共享。
文件存储 EPFS 是高性能计算 专用的 NAS 存储,采用全闪服务器,用户可以按需创建自己的挂载点,支持扩容、按容量计费。
软件中心
软件中心是平台提供的共享软件仓库,所有的共享集群、专属集群都挂载了软件仓库,用户可以在提交作业时指定运行的软件,减少了软件安装调试的一些时间。
用户可以收藏自己行业常用的软件,也可以通过集群的登录节点将所需的软件安装到自己的存储中,商用软件由用户自行解决版权问题。
资源管理
集群资源管理包含集群节点、队列和用户管理。
-
节点
节点是集群的构成单位,用户可以根据需求选择不同配置的节点,同时用户可以给登录节点绑定公网IP进行外网登录,并可以通过sftp实现本地大作业文件的上传和下载工作。
-
队列
队列由集群中的计算节点组成,一个队列可以由1个或多个计算节点构成,根据实际应用场景进行配置。
-
用户管理
用户是集群节点中的用户,可以通过密码登录到节点中,具有相应的权限,控制台上支持新增用户、设置用存储目录、以及重置用户密码和删除用户等功能。
操作日志
对集群、作业等操作均记录操作日志,出现问题时可以结合操作日志进行排查。