快速开始【模型微调】 | 大装置帮助中心
跳到主要内容

快速开始【模型微调】

针对示例模型如LLama3、Qwen2系列模型的精调训练,平台提供了内置的训练脚本和示例数据集,通过快速开始入口,通过简化后的任务创建配置,协助新用户快速跑通训练任务,任务提交后,在任务列表中,可以看到完成的训练任务配置信息,也允许用户登入容器内部查看训练代码,以了解平台的基本使用方式,以及容错重试、checkpoint加速、任务异常检测等算力池等训练优化能力使用方法。

基础信息

针对示例模型如LLama3、Qwen2系列模型内置了LoRA微调和SFT全参微调的训练脚本,可按需选择LoRA微调或全参微调。

资源配置

可以使用工作空间预先关联的集群或配额进行任务的创建。
如需使用文件存储AFS,需选择相同可用区的算力资源。

Worker角色

当需要多卡、多机并行训练时,推荐单个worker使用更高配置的容器,减少不同worker容器间的通信,提升训练效率。
训练参数中的batch size等配置,对于模型训练需要的资源有一定影响,针对当前模型最小的训练资源建议:

  • 针对Qwen2 0.5B模型,单张加速卡通常可以完成全参微调和LoRA微调任务;
  • 针对7B、8B模型,全参微调建议单张80GB显存加速卡进行训练,LoRA微调建议使用24GB以上显存的加速卡;
  • 针对Qwen2-72B和LLama3-70B模型,推荐使用4卡以上80GB显存加速卡进行并行训练。

数据集配置

针对示例模型如LLama3、Qwen2系列模型的精调训练,平台提供了内置的示例数据集。如您有自定义的数据集,提供可访问的http或https下载地址。
训练数据接受Json格式输入,每条数据由问题、答案组成,分别用"instruction"和"output"字段表示,数据集格式示例如下:

[ { "instruction": "hi", "input": "", "output": "Hello! I am {{name}}, an AI assistant developed by {{author}}. How can I assist you today?" }, { "instruction": "你是商汤科技开发的SenseChat吗?", "input": "", "output": "抱歉,我不是 商汤科技 开发的 SenseChat,我是 {{author}} 开发的 {{name}},旨在为用户提供智能化的回答和帮助。" } ]

超参数配置

平台提供了默认的超参数配置,可以按需调整主要的超参信息。如选择了内置的示例数据集,由于数据集较小,如果长时间运行观察,可配置多个epoch。

训练输出配置

精调后的模型,可按需导出至文件存储AFS。模型文件将存储至文件存储挂载路径。

TensorBoard配置

如需使用TensorBoard观察Loss等训练指标变化,平台内置的训练代码中,已添加收集TensorBoard日志相关代码,将以TensorBoard配置的文件存储挂载路径作为日志持久化路径。