数据管理 | 大装置帮助中心
跳到主要内容

数据管理

简介

数据管理主要面向模型精调,支持创建不同类型的数据,帮助用户更便捷、高效的管理精调/评测任务所使用的数据。

使用指南

一、数据上传前准备

  1. 准备数据
    • 模型精调及评测需要特定格式的数据,为保证任务成功,上传数据时会对数据做格式校验,通常为对话形式,目前支持OpenAI格式,格式详见2-1创建数据部分。

二、创建数据

  1. 创建数据
    • 进入“大模型开发平台AI Studio”模块,点击“我的数据”,进入数据列表。
    • 点击“新建”,填写数据名称、描述,选择数据类型,选择数据用途,选择数据格式,选择数据来源,选择本地数据后,创建数据。
    • 单次上传单个文件不超过1GB,文件数不超过100,总大小不超过4GB。
    • 目前仅支持OpenAI格式的数据,支持json、jsonl的文件,具体示例如下:
    [
    {
    "messages": [
    {
    "role": "system",
    "content": "你是一个无所不知,无所不晓的AI助手"
    },
    {
    "role": "user",
    "content": "请介绍下文艺复兴"
    },
    {
    "role": "assistant",
    "content": "文艺复兴时期是一个关于艺术、文化和学术的复兴运动。"
    }
    ]
    }
    ]
    {"messages": [{"role": "system", "content": "You are a helpful assistant"}, {"role": "user", "content": "请介绍下文艺复兴?"}, {"role": "assistant", "content": "文艺复兴时期是一个关于艺术、文化和学术的复兴运动。"},{"role": "user", "content": "那雕塑方面如何呢?"}, {"role": "assistant", "content": "文艺复兴时期的雕塑也非常有名,几位世界级的雕塑大师都出自于这个时期"}]}
    {"messages": [{"role": "system", "content": "You are a helpful assistant"}, {"role": "user", "content": "请介绍下文艺复兴?"}, {"role": "assistant", "content": "文艺复兴时期是一个关于艺术、文化和学术的复兴运动。"},{"role": "user", "content": "那雕塑方面如何呢?"}, {"role": "assistant", "content": "文艺复兴时期的雕塑也非常有名,几位世界级的雕塑大师都出自于这个时期"}]}
![新建数据.png](./img/新建数据.png)  
  1. 数据详情

    • 在数据列表页面,点击某个数据名称,可进入数据详情。
    • 数据详情主要展示了数据文件详情,包括版本信息、文件列表等信息。

    数据详情.png

  1. 新增版本

    • 点击新建,可以新增版本。
    • 新增版本时,版本号默认累加,选择是否继承历史版本数据,若不继承,则新建版本无数据,需要新上传数据。

    新增版本1.png 新增版本2.png

  2. 上传数据

    • 点击新建,可以新增数据,也可以在新增版本后,继续上传数据。
    • 选择本地文件,单次上传单个文件不超过1GB,文件数不超过100,总大小不超过4GB。
    • 目前仅支持OpenAI格式的数据,支持json、jsonl的文件。
    • 文件上传后,可在状态详情中查看上传进度。

    文件上传.png
    文件上传进度.png

  1. 数据预览

    • 在数据详情中,点击某个文件,可查看文件内容。
    • 可通过关键字检索文件内容。

    数据预览.png