作业管理

 

作业管理列表

更新时间 2023-09-06

作业是用户在 HPC 或 EHPC 集群中提交的一个计算任务,作业在相应的集群队列中运行并输出结果。集群会对其中的作业进行统一的调度管理。

登录高性能计算 的作业管理页面,可显示当前集群的所有作业,系统提供两种提交作业的方式界面提交CLI提交

查看作业列表

  1. 登录 QingCloud 管理控制台。

  2. 选择产品与服务 > 计算 > 高性能计算 HPC,默认进入高性能计算 HPC集群管理页面。 cluster_manage

  3. 点击左侧导航栏中的作业管理,进入作业管理页面,默认显示当前 HPC 和 EHPC集群中所有作业列表。

    joblist_1

作业列表的参数说明,如下所示

参数 参数说明
作业名称/ ID 作业的名称和ID。
状态 作业当前状态,包括正在运行、排队中、运行结束、失败、暂停以及未知。
所属队列 作业所属的队列。
核心数 运行作业的核心数。
运行时长 作业运行的时长。
总计耗时 总计耗时。
用户名 提交该作业的用户的名称。
创建时间 创建作业的时间。
更新时间 作业状态更新的时间。
操作 支持针对当前作业可进行的操作:查看详情、重新提交作业和删除
  1. 点击所属集群右侧的下拉框,可通过当前平台内以创建的集群类型对作业列表进行筛选。

    joblist_2

查看作业详情

  1. 作业管理页面,勾选待查看详情的作业,点击操作 > 查看详情joblist_3

  2. 弹出的作业详情页面,主要包含以下内容。

信息类型 参数 说明
集群信息 所属集群 该作业所属集群的名称
集群 ID 该作业所属集群的 ID
集群状态 当前集群的状态,活跃为唯一正常状态。
调度器 目前采用默认调度器
共享目录 用户创建的共享目录的名称
申请/创建时间 HPC / EHPC 集群创建时间
队列信息 队列名称 该作业所属队列。HPC 集群中包括共享队列和专属队列, EHPC 集群只支持默认队列
队列规格 当前作业所属队列的规格
计费模式 包年包月或按需计费
申请时间 当前作业所属队列的申请时间
基本信息 作业名称 当前作业的名称,可自定义需根据实际情况而定
作业 ID 当前作业的 ID,提交作业时自动生成
作业状态 当前作业的执行状态
调度器作业 ID 调度器作业 ID,系统自动生成
开始时间 该作业开始执行的时间
更新时间 该作业状态更新的时间
运行信息 作业运行时长 当前作业从开始执行到运行结束所用时长
平均 CPU 使用率 该作业运行所消耗的集群内所有计算节点的平均 CPU 使用率
内存用量 该作业运行所消耗集群内计算节点的内存
作业是否闲置 true 或 false
SWAP 用量 该作业运行过程中的 SWAP 使用量
作业核心数 提交作业时已设定的该作业所需 CPU 核心数
标准输出路径 该作业运行结果所保存的路径
错误输出路径 该作业运行失败后,错误日志所保存的路径
结果文件 名称 该作业运行结束后的结果文件,其中 .out 后缀文件为输出结果,.err 后缀文件为错误日志
更新时间 该作业结果文件的更新时间
大小 结果文件所占内存的大小
操作 用户可下载或查看任一结果文件

删除/重新提交作业

用户可以对作业进行暂停或者删除操作,如作业运行失败,也可以进行命令文件更新,重新设置一些参数,然后重新提交此作业。

删除作业

  1. 作业管理页面,勾选待删除作业,点击操作 > 删除

    joblist_4

  2. 在弹出的删除相应作业的提示窗口中,点击确定即可。

    joblist_5

重新提交作业

  1. 作业管理页面,勾选待重新提交的作业,点击操作 > 重新提交作业

    joblist_6

  2. 弹出提交作业页面,根据需要相应资源、软件进行选择,并对作业执行命令进行进一步的配置修改,点击提交作业即可。

    joblist_7

这篇文档解决了您的问题吗?
0
0