快速开始【模型微调】
针对示例模型如LLama3、Qwen2系列模型的精调训练,平台提供了内置的训练脚本和示例数据集,通过快速开始入口,通过简化后的任务创建配置,协助新用户快速跑通训练任务,任务提交后,在任务列表中,可以看到完成的训练任务配置信息,也允许用户登入容器内部查看训练代码,以了解平台的基本使用方式,以及容错重试、checkpoint加速、任务异常检测等算力池等训练优化能力使用方法。
基础信息
针对示例模型如LLama3、Qwen2系列模型内置了LoRA微调和SFT全参微调的训练脚本,可按需选择LoRA微调或全参微调。
资源配置
可以使用工作空间预先关联的集群或配额进行任务的创建。
如需使用文件存储AFS,需选择相同可用区的算力资源。
Worker角色
当需要多卡、多机并行训练时,推荐单个worker使用更高配置的容器,减少不同worker容器间的通信,提升训练效率。
训练参数中的batch size等配置,对于模型训练需要的资源有一定影响,针对当前模型最小的训练资源建议:
- 针对Qwen2 0.5B模型,单张加速卡通常可以完成全参微调和LoRA微调任务;
- 针对7B、8B模型,全参微调建议单张80GB显存加速卡进行训练,LoRA微调建议使用24GB以上显存的加速卡;
- 针对Qwen2-72B和LLama3-70B模型,推荐使用4卡以上80GB显存加速卡进行并行训练。
数据集配置
针对示例模型如LLama3、Qwen2系列模型的精调训练,平台提供了内置的示例数据集。如您有自定义的数据集,提供可访问的http或https下载地址。
训练数据接受Json格式输入,每条数据由问题、答案组成,分别用"instruction"和"output"字段表示,数据集格式示例如下:
[
{
"instruction": "hi",
"input": "",
"output": "Hello! I am {{name}}, an AI assistant developed by {{author}}. How can I assist you today?"
},
{
"instruction": "你是商汤科技开发的SenseChat吗?",
"input": "",
"output": "抱歉,我不是 商汤科技 开发的 SenseChat,我是 {{author}} 开发的 {{name}},旨在为用户提供智能化的回答和帮助。"
}
]
超参数配置
平台提供了默认的超参数配置,可以按需调整主要的超参信息。如选择了内置的示例数据集,由于数据集较小,如果长时间运行观察,可配置多个epoch。
训练输出配置
精调后的模型,可按需导出至文件存储AFS。模型文件将存储至文件存储挂载路径。
TensorBoard配置
如需使用TensorBoard观察Loss等训练指标变化,平台内置的训练代码中,已添加收集TensorBoard日志相关代码,将以TensorBoard配置的文件存储挂载路径作为日志持久化路径。