checkpoint加速
- CheckPoint加速功能主要帮助研究员快速从异常断点任务中快速启动恢复任务。一般情况下,用户需要直接把 ckpt 存到硬盘中,这个过程 IO 时间很久,我们将用户直接写硬盘的操作替换为写共享内存,然后 server 端会异步将共享内存持久化到硬盘中(用户仅感知写共享内存的时间),且重启拉起任务时会读取checkpoint缓存文件;
- checkpoint加速功能当前为试用功能,不收取费用,不会增加用户侧资源开销。
- CheckPoint加速使用方式:
- 初始化训练镜像时,可自动挂载wheel到容器内,但用户需要在脚本执行 如下命令:
pip install /opt/transom/bin/transomSnapshot-0.1.0-py3-none-any.whl
- 根据镜像的训练框架,在训练任务中做不同修改:
训练框架 | 步骤 |
---|---|
使用deepspeed框架时 | 只需要import transomSnapshot.engine |
使用Pytorch框架时 | 1.先import transomSnapshot.engine.engine as engine; 2.把torch.save和torch.load替换成engine.save和engine.load,其中参数不用改动; |