快速开始【模型微调】

针对示例模型如LLama3、Qwen2系列模型的精调训练，平台提供了内置的训练脚本和示例数据集，通过快速开始入口，通过简化后的任务创建配置，协助新用户快速跑通训练任务，任务提交后，在任务列表中，可以看到完成的训练任务配置信息，也允许用户登入容器内部查看训练代码，以了解平台的基本使用方式，以及容错重试、checkpoint加速、任务异常检测等算力池等训练优化能力使用方法。

基础信息

针对示例模型如LLama3、Qwen2系列模型内置了LoRA微调和SFT全参微调的训练脚本，可按需选择LoRA微调或全参微调。

资源配置

可以使用工作空间预先关联的集群或配额进行任务的创建。
如需使用文件存储AFS，需选择相同可用区的算力资源。

Worker角色

当需要多卡、多机并行训练时，推荐单个worker使用更高配置的容器，减少不同worker容器间的通信，提升训练效率。
训练参数中的batch size等配置，对于模型训练需要的资源有一定影响，针对当前模型最小的训练资源建议：

针对Qwen2 0.5B模型，单张加速卡通常可以完成全参微调和LoRA微调任务；
针对7B、8B模型，全参微调建议单张80GB显存加速卡进行训练，LoRA微调建议使用24GB以上显存的加速卡；
针对Qwen2-72B和LLama3-70B模型，推荐使用4卡以上80GB显存加速卡进行并行训练。

数据集配置

针对示例模型如LLama3、Qwen2系列模型的精调训练，平台提供了内置的示例数据集。如您有自定义的数据集，提供可访问的http或https下载地址。
训练数据接受Json格式输入，每条数据由问题、答案组成，分别用"instruction"和"output"字段表示，数据集格式示例如下：

[ { "instruction": "hi", "input": "", "output": "Hello! I am {{name}}, an AI assistant developed by {{author}}. How can I assist you today?" }, { "instruction": "你是商汤科技开发的SenseChat吗？", "input": "", "output": "抱歉，我不是商汤科技开发的 SenseChat，我是 {{author}} 开发的 {{name}}，旨在为用户提供智能化的回答和帮助。" } ]

超参数配置

平台提供了默认的超参数配置，可以按需调整主要的超参信息。如选择了内置的示例数据集，由于数据集较小，如果长时间运行观察，可配置多个epoch。

训练输出配置

精调后的模型，可按需导出至文件存储AFS。模型文件将存储至文件存储挂载路径。

TensorBoard配置

如需使用TensorBoard观察Loss等训练指标变化，平台内置的训练代码中，已添加收集TensorBoard日志相关代码，将以TensorBoard配置的文件存储挂载路径作为日志持久化路径。