checkpoint加速 | 大装置帮助中心
跳到主要内容

checkpoint加速

  • CheckPoint加速功能主要帮助研究员快速从异常断点任务中快速启动恢复任务。一般情况下,用户需要直接把 ckpt 存到硬盘中,这个过程 IO 时间很久,我们将用户直接写硬盘的操作替换为写共享内存,然后 server 端会异步将共享内存持久化到硬盘中(用户仅感知写共享内存的时间),且重启拉起任务时会读取checkpoint缓存文件;
  • checkpoint加速功能当前为试用功能,不收取费用,不会增加用户侧资源开销。
  • CheckPoint加速使用方式:
  1. 初始化训练镜像时,可自动挂载wheel到容器内,但用户需要在脚本执行 如下命令:
pip install /opt/transom/bin/transomSnapshot-0.1.0-py3-none-any.whl
  1. 根据镜像的训练框架,在训练任务中做不同修改:
训练框架步骤
使用deepspeed框架时只需要import transomSnapshot.engine
使用Pytorch框架时1.先import transomSnapshot.engine.engine as engine; 2.把torch.save和torch.load替换成engine.save和engine.load,其中参数不用改动;