查看详细作业信息
查看详细作业信息
scontrol show job显示全部作业信息,scontrol show job JOBID或scontrol show job=JOBID显 示作业号为JOBID的作业信息,输出类似下面:
JobId=77 JobName=gres\_test.bash
UserId=hmli\(10001\)
GroupId=nic\(10001\)
MCS\_label=N/A
Priority=4294901755
Nice=0
Account=\(null\)
QOS=normal
JobState=RUNNING
Reason=None
Dependency=\(null\)
Requeue=1
Restarts=0
BatchFlag=1
Reboot=0
ExitCode=0:0
RunTime=00:00:11
TimeLimit=UNLIMITED
TimeMin=N/A
SubmitTime=2019-12-01T20:10:15
EligibleTime=2019-12-01T20:10:15
AccrueTime=2019-12-01T20:10:15
StartTime=2019-12-01T20:10:16
EndTime=Unknown
Deadline=N/A
SuspendTime=None
SecsPreSuspend=0
LastSchedEval=2019-12-01T20:10:16
Partition=GPU-V100
AllocNode:Sid=login01:1016
ReqNodeList=\(null\)
ExcNodeList=\(null\)
NodeList=gnode01
BatchHost=gnode01
NumNodes=1
NumCPUs=1
NumTasks=1
CPUs/Task=1ReqB:S:C:T=0:0:\*:\*
TRES=cpu=1,node=1,billing=1
Socks/Node=\*
NtasksPerN:B:S:C=0:0:\*:\*
CoreSpec=\*
MinCPUsNode=1
MinMemoryNode=0
MinTmpDiskNode=0
Features=\(null\)
DelayBoot=00:00:00
OverSubscribe=OK
Contiguous=0
Licenses=\(null\)
Network=\(null\)
Command=/home/nic/hmli/gres\_test.bash
WorkDir=/home/nic/hmli
StdErr=/home/nic/hmli/job-77.err
StdIn=/dev/null
StdOut=/home/nic/hmli/job-77.log
Power=
主要输出项:
| 参数 | 描述 |
|---|---|
| JobId | 作业号 |
| JobName | 作业名 |
| UserId | 用户名(用户ID) |
| GroupId | 用户组(组ID) |
| Priority | 优先级,越大越优先,如果为0则表示被管理员挂起,不允许运行。 |
| Nice | Nice值,越小越优先,20到19。 |
| Account | 记账用户名 |
| QOS | 作业的服务质量 |
| JobState | 作业状态:– PENDING:排队中。– RUNNING:运行中。– CANCELLED:已取消。– CONFIGURING:配置中。– COMPLETING:完成中。– COMPLETED:已完成。– FAILED:已失败。– TIMEOUT:超时。– NODE FAILURE:节点失效。– SPECIAL EXIT STATE:特殊退出状态。 |
| Reason | 原因 |
| Dependency | 依赖关系 |
| Requeue | 节点失效时,是否重排队,0为否,1为是。 |
| Restarts | 失败时,是否重运行,0为否,1为是。 |
| BatchFlag | 是否为批处理作业,0为否,1为是。 |
| Reboot | 节点空闲时是否重启节点,0为否,1为是。 |
| ExitCode | 作业退出代码 |
| RunTime | 已运行时间 |
| TimeLimit | 作业允许的剩余运行时间 |
| TimeMin | 最小时间 |
| SubmitTime | 提交时间 |
| EligibleTime | 获得认可时间 |
| StartTime | 开始运行时间 |
| EndTime | 预计结束时间 |
| Deadline | 截止时间 |
| PreemptTime | 先占时间 |
| SuspendTime | 挂起时间 |
| SecsPreSuspend | 0 |
| Partition | 队列名 |
| AllocNode:Sid | 分配的节点:系统ID号 |
| ReqNodeList | 需要的节点列表 |
| ExcNodeList | 排除的节点列表 |
| NodeList | 实际运行节点列表 |
| BatchHost | 批处理节点名 |
| NumNodes | 节点数 |
| NumCPUs | CPU核数 |
| NumTasks | 任务数 |
| CPUs/Task | CPU核数/任务数 |
| ReqB:S:C:T | 所需的主板数:每主板CPU颗数:每颗CPU核数:每颗CPU核的线程数:启动的作业数,<tasks_per_node>:<tasks_per_baseboard>:<tasks_per_socket>:<tasks_per_core> |
| CoreSpec | 各节点系统预留的CPU核数,如未包含,则显示*。 |
| MinCPUsNode | 每节点最小CPU核数 |
| MinMemoryNod | 每节点最小内存大小,0表示未限制 |
| MinTmpDiskNode | 每节点最小临时存盘硬盘大小,0表示未限制。 |
| Features | 特性 |
| Gres | 通用资源 |
| Reservation | 预留资源 |
| OverSubscribe | 是否允许与其它作业共享资源,OK允许,NO不允许。 |
| Contiguous | 是否要求分配连续节点,OK是,NO否。 |
| Licenses | 软件授权 |
| Network | 网络 |
| Command | 作业命令 |
| WorkDir | 工作目录 |
| StdErr | 标准出错输出文件 |
| StdIn | 标准输入文件 |
| StdOut | 标准输出文件 |
