多机分布式调试工具JMT(任务管理工具)
我们还为您提供了一个命令行工具 jmt
,用于对任务进行操作(只针对开启了容错的任务)。具体操作指南如下:
您需要从任务详情-Worker列表-Webterminal登录某一个Worker
您需要配置环境,可以使用如下命令
/opt/transom/bin/launcher --login
# 上面的命令实际上是进入一个带有 PATH 环境变量的 Bash 环境,也可以像下面这样手动配置环境变量:
export PATH=/opt/transom/bin:$PATH
- 使用命令暂停当前正在运行的任务
jmt stop
- 查看任务状态,确认任务暂停(pending)
jmt status
- 执行其他jmt命令
命令:
status Show status 查看任务状态
ssh Simple SSH Client for transom 通过 Transom(容错任务) Launcher 的 SSH 通道执行命令,例如:jmt ssh transom-job-0 hostname
stop Stop task 停止任务(也可以将 run 执行的命令停止)
start Start task 恢复任务的运行状态(需要任务处于停止状态)
run Run commands in all pods 让所有 Pod 运行一条命令(需要任务处于停止状态),例如:jmt run hostname
kill Kill pods by index 杀死指定编号的 Launcher(Pod 会随之结束,需要任务处于停止状态),例如:jmt kill 1 2
run 命令除了可以执行指定命令之外,还可以执行默认的任务命令和检查器(都需要任务处于停止状态):
jmt run -t task 执行默认的任务命令
jmt run -t checker 执行检查器(GPU BURN+NCCL TEST)
需要注意的是,jmt run 是一个异步执行命令,需要通过日志来查看所执行的命令的结果。