数据标注平台 AAS
版本记录
版本名称 | 功能描述 | 发布时间 |
---|---|---|
数据标注平台 v0.1.0 | 提供标注任务、采集任务创建、查看进度、查看数据、验收和保存功能,支持用户在数据标注平台上闭环数据数据标注业务和数据采集业务。 | 2023-6-30 |
数据标注平台 v0.2.0 | 支持LLM大语言模型相关的标注能力,提供答案评分、排序、判断和对比标注功能。 | 2023-7-30 |
数据标注平台 v0.3.0 | 支持多云环境下完成标注任务、采集任务的全生命周期流程。 | 2023-10-30 |
产品概述
面向大模型微调、RLHF、AIGC、自动驾驶等场景,为企业提供一站式的高质量、低成本的数据标注服务,以帮助企业提高人工智能算法的准确性和模型的开发效率
产品优势
- 一站式的标注服务:用户只需描述标注需求,分钟级创建标注任务,平台通过完善的标注流程管理,用户即可获得高质量的标注结果
- 按时交付海量标注:基于标注基地,可根据任务时间要求,弹性的安排标注人力,确保标注需求按期交付
- 高质量的标注流程:设置多个审核、质检、验收环节,同时支持第三方质检,流程和工具把关标注质量
- 覆盖广的标注场景:基于商汤在CV、大模型领域的标注经验,支持图片、音频、视频、点云标注,以及最新的LLM标注,覆盖250+标注场景
标注流程
在标注服务流程中,定义标注需求文档、试标注、任务分发、标注、打回、质检和验收环节。通过这些环节,可以实现高效、准确和可靠的数据标注
计费方式
采用线下协商和线下结算的方式计费
项目管理
在创建标注需求或采集需求前,需要由角色为数据标注平台项目创建者的用户先创建采标项目,创建后该用户自动成员数据标注平台项目管理员。如果项目由多个人共同使用,需要给使用者添加数据标注平台项目管理员或者数据标注平台项目成员角色
创建采标项目
创建项目前,请确保您具备数据标注平台项目创建者角色。如果没有,请参考如何为用户授权 步骤,让租户管理员为您添加该角色。
进入数据标注平台,在我的项目点击创建采标项目,创建完成后,在项目列表中会新增一个项目,您将成为该项目的第一个项目管理员
项目权限管理
如果您想让多人管理项目,可以给项目添加成员,点击授权调整到云管的权限管理界面,您可以给用户添加数据标注平台项目管理员角色或者数据标注平台项目成员角色
两个角色的差异:
角色名 | 权限范围 |
---|---|
数据标注平台项目管理员 | 具备项目内的任务所有权限,授权成员 |
数据标注平台项目成员 | 具备项目内的任务所有权限 |
标注需求管理
平台提供如下标注工具和标注能力:
- 支持LLM大语言模型比较标注,例如答案指标评分、答案指标判断、答案排序
- 支持点云拉框、多边形标注,如点云障碍物、车道线、车辆等拉框
- 支持图片分类、拉框、标点、标线、多边形、3D框、分割、OCR等标注
- 支持视频分类、内容提取、事件检查等标注
- 支持音频分类、内容提取、事件检查等标注
创建标注需求
进入数据标注平台,在我的标注点击创建标注任务,填写标注需求,填写完成后提交任务,后台运营人员审核任务,进入标注服务环节,等待运营人员联系
第一步填写任务信息
- 填写任务名称
- 选择项目,有权限的项目都可以选择,请根据实际情况选择
- 填写手机号码,手机号码用于后台运营人员沟通需求,请务必填写正确
- 填写期望完成时间,请根据您的实际要求填写任务交付时间
- 填写合格率,不同合格率对应不同的标注和验收要求,请准确填写
- 填写预期效果,请简述您的标注要求和效果
- 上传任务描述文档,任务描述文档为需求的详细说明文档,用于指导标注员准确完成任务,请参考填写要求,任务描述文档目前仅支持PDF/PNG/JPG格式
第二步填写数据配置
- 选择标注工具,默认选择数据标注平台的默认工具集,如果您有特殊要求,可以选择第三方工具,并说明工具名称
- 选择数据类型,目前支持的数据类型有图片、视频、音频、点云。图片文件的后缀名目前限制为jpg/jpeg/png/bmp/gif,送标时请避免带有EXIF信息,尤其避免在EXIF信息中携带图片旋转信息;视频文件请送标h.264格式的mp4;点云请送标pcd格式;LLM大语言模型标注请送送标Json格式;音频请送标mp3/aac/wav/pcm/m4a格式
其中LLM仅支持Json格式送标,一个问题一个Json文件,多个文件可以放到一个目录及其子目录下,LLM Json文件格式示例:
{
"question": "今天晚上吃什么?", //同一个问题或者提示词,不限制答案的个数
"answerList": [
{
"order": 1,
"answer": "金百味"
},
{
"order": 2,
"answer": "全刀手"
},
{
"order": 3,
"answer": "肯德基"
}
]
}
- 选择存储参数,目前仅支持AOSS存储的数据送标
- 选择存储路径,选择待标数据的AOSS存储路径,请确保对AOSS的存储桶具备读写权限,否则会创建失败。文件夹内图片数量最好不要超过150万张。若要进行视频连续帧标注,请确保图片按照字典序排列后顺序正确,帧号位数不足的需要在前方补0;来自不同段视频的数据,请确保每段视频单独文件夹放置
- 选择标注单元,当数据类型为图片,可以选择逐个标注或者是两图一组。需要对两张图片在对照情况下进行标注(例如:自动驾驶的鱼眼相机图&bev图、遥感卫星的违规用地监测、是否为同一人物的分类标注等),则可以使用两图一组标注,同时需要上传文件结构列表配置文件
两图一组文件结构列表配置文件格式:
{ "name": "unit1", // 单元名称,必填,唯一 "pathList": [ "fileName1.png", "fileName2.png", "fileName1.txt", "file/failsss.jpg" ] // 文件路径列表,必填,长度大于等于1 }
两图一组文件结构列表配置文件示例:
{"name": "unit1","pathList": ["0001-fileName1.png", "0001-fileName2.png", "0001-fileName1.txt", "0001/foo.jpg"]} {"name": "unit2","pathList": ["0002-fileName2.png", "0002-fileName3.png", "0002-fileName4.txt", "0002/bar.jpg"]}
- 选择标注单元,当数据类型为点云时,需要选择点云标定文件,同时需要上传文件结构列表配置文件
文件格式如下
{"name": "demo1213-0", "lidar": "lidar/0.pcd", "cameras": [{"image": "image/P2/0.png", "calib": "calib/P2/0.json"}]}
{"name": "demo1213-1", "lidar": "lidar/1.pcd", "cameras": [{"image": "image/P2/1.png", "calib": "calib/P2/1.json"}]}
{"name": "demo1213-2", "lidar": "lidar/2.pcd", "cameras": [{"image": "image/P2/2.png", "calib": "calib/P2/2.json"}]}
{"name": "demo1213-3", "lidar": "lidar/3.pcd", "cameras": [{"image": "image/P2/3.png", "calib": "calib/P2/3.json"}]}
{"name": "demo1213-4", "lidar": "lidar/4.pcd", "cameras": [{"image": "image/P2/4.png", "calib": "calib/P2/4.json"}]}
其中calib的json文件定义如下:
{
"calName": "P2",
"timestamp": 1,
// 3 x 4 的相机内参矩阵
"P": [
[721.5377, 0, 609.5593, 44.85728],
[0, 721.5377, 172.854, 0.2163791],
[0, 0, 1, 0.002745884]
],
// 3 x 3 的校正矩阵,若无则为单位矩阵即可
"R": [
[0.9999239, 0.00983776, -0.007445048],
[-0.009869795, 0.9999421, -0.004278459],
[0.007402527, 0.004351614, 0.9999631]
],
// 3 x 4 的相机外参矩阵, Lidar => Camera
"T": [
[0.007533745, -0.9999714, -0.000616602, -0.004069766],
[0.01480249, 0.0007280733, -0.9998902, -0.07631618],
[0.9998621, 0.00752379, 0.01480755, -0.2717806]
]
}
第二步展开高级选项
7. 选择文件送标顺序,可以选择顺序标注或乱序标注
8. 选择数据预标注和预标注位置(可选),支持图片和点云的预标注导入,标注文件先要到对象存储AOSS中。预标注可以作为参考源帮助标注员提高标注效率,如果是多步骤的标注,预标注也可以作为原数据,进行下一步标注
- 目前仅支持Annotator的数据标注格式。关于预标注的标注结果格式,详细请下载附件查看
- 支持多步预标注数据同时上传,此时请用 step_1/step_2... 区分,并正确填写工具名称(toolname)。结果的"id"字段,请使用随机8位字符串,以免出现兼容性问题
- 标注文件为Json格式,标注文件的文件目录结构、文件名与图片的目录结构、文件名一致并对应
原始文件存放示例:
./EP12_test_data4/20200824/night_city/NOR_20200824_182033_00027.mp4/00000039.jpg
./EP12_test_data4/20200824/night_city/NOR_20200824_182033_00027.mp4/00000015.jpg
./EP12_test_data4/20200824/night_city/NOR_20200824_182033_00027.mp4/00000031.jpg
预标注文件存放示例:
./EP12_test_data4/20200824/night_city/NOR_20200824_182033_00027.mp4/00000039.jpg.json
./EP12_test_data4/20200824/night_city/NOR_20200824_182033_00027.mp4/00000015.jpg.json
./EP12_test_data4/20200824/night_city/NOR_20200824_182033_00027.mp4/00000031.jpg.json
- 填写完成后点击提交,创建任务成功,任务进入运营审核状态,等待运营人员沟通需求细节
查看任务进度
点击任务名称,即可看到任务详情、任务进度、以及数据包的进度
可视化查看标注
在任务执行或者验收中,可以可视化的查看标注结果
标注任务验收
当任务完成后,进入验收环节,在验收过程中支持随机抽检、批注、整体返工、按包返工,对于有问题的标注请批注,标注人员将根据批注内容修改和沟通
在任务完成后,请您务必及时验收,超过15个工作日系统将自动通过验收。逾期验收但仍需要返工的任务,将按照新的标注任务收取服务费用
标注结果保存
当任务验收后,即可获取标注结果,支持保存到AOSS或者下载到本地
导出到AOSS的路径格式为"s3://+桶名称+路径",示例,s3://aas-test/bee/textTool/8673,请确保对AOSS的存储桶具备读写权限,否则会导出失败
采集需求管理
创建采集需求
进入数据标注平台,在我的采集点击创建采集需求,填写表单,填写完成后提交任务,后台运营人员审核任务,进入采集服务环节,等待运营人员联系
- 填写需求名称
- 选择项目,有权限的项目都可以选择,请根据实际情况选择
- 填写手机号码,手机号码用于后台运营人员沟通需求,请务必填写正确
- 填写期望完成时间,请根据您的实际要求填写期望交付时间
- 填写采集数量,根据实际需求填写大概数量
- 选择采集方式,现阶段只支持人工采集
- 上传任务描述文档,任务描述文档为需求的详细说明文档,用于指导采集人员完成任务,请参考填写要求,任务描述文档目前仅支持PDF/PNG/JPG格式
- 填写备注信息
填写完毕后,点击下一步,进入运营审核环节,等待运营人员沟通需求
查看需求和任务进度
点击需求名称,即可看到需求详情,查看需求状态、总体采集进展、以及需求下的采集任务状态
点击任务名称可进入查看任务详情,查看任务进度,包括审核进度、执行采集进度、验收进度
查看采集数据和验收
在执行任务完成后,点击查看,可以查看数据详情,根据实际情况进行验收
在执行任务完成后,请您务必及时验收,超过15个工作日系统将自动通过验收。逾期验收但仍需要返工的任务,将按照新的采集需求收取服务费用
采集结果保存
在任务验收后,进入任务详情,可以查看采集结果,并导出数据到对象存储AOSS
导出到AOSS的路径格式为"s3://+桶名称+路径",示例,s3://aas-test/bee/textTool/8673,请确保对AOSS的存储桶具备读写权限,否则会导出失败
在任务验收后,请务必及时保存采集结果,由于信息安全要求,超过15个工作日系统将会自动删除采集数据。逾期数据丢失需要重新采集的,将按照新的采集需求收取服务费
用户须知和文档说明
用户须知
- 用户上传的各类数据(包括但不限于图文、音频、视频等)应符合《中华人民共和国网络安全法》、《中华人民共和国数据安全法》、《中华人民共和国个人信息保护法》
- 用户在上传数据时,须注意不得侵犯任何个人、企事业单位或社会团体的合法权益,包括但不限于姓名权、名称权、名誉权、荣誉权、肖像权、隐私权、知识产权等权利,否则,用户应对其自身行为及对由此产生的任何后果承担全部法律责任
- 用户不得以任何方式(包括但不限于盗链、冗余盗取、非法抓取、模拟下载、深度链接、假冒注册等)直接或间接获取未经授权的商汤或者第三方的数据
- 因违法、违规(包括但不限于提供违法、不真实、不正当信息,侵犯第三方的任何合法权益等)给商汤或其他的第三方造成的任何损失,由用户自身承担由此造成的全部法律后果及损害赔偿责任
- 在数据标注任务、采集任务收到完成通知后,请务必在15个自然日内完成数据验收。如在上述期限内,未收到您的验收申请,将默认数据已验收合格
- 在数据标注任务、采集任务验收后的第15个自然日,采集和标注数据将会被自动删除。如期限内未进行数据提取导致数据丢失,由用户承担后果及责任
- 上传的各类数据,包括但不限于图文、音频、视频等,不得涉及黄、暴、恐、政等信息,否则,用户应对其自身行为及对由此产生的任何后果承担全部法律责任
- 在对标注结果进行验收批注时,禁止评论涉黄、暴、恐、政等相关敏感信息,否则,用户应对其自身行为及对由此产生的任何后果承担全部法律责任。
- 本协议及本协议任何条款内容的最终解释权及修改权归商汤所有
标注需求文档规范
在创建任务时需上传任务需求文档,用于指导人工标注和人工质检。需求文档需详细描述标注要求,减少后期因标注员理解偏差造成的工作失误,降低标注员和用户的沟通成本,提高标注员和用户的工作效率
标注需求文档包含两部分,概述标注内容以及详细标注要求,下面是一个通用模板,不同场景的标注需求填写要求请点击下载查看
标注内容描述
内容信息 | 描述 |
---|---|
使用场景 | [比如训练大语言模型,自动驾驶ADAS... ] |
标注类型 | [比如拉框、多边形、点云... ] |
数据描述 | [ 此处需要写明要标注什么数据,数据格式 ] |
待标注目标 | [ 此处需要写明需要标注什么 ] |
数据规模 | [ 此处需要写明待标图片的张数/视频的段数 ] |
标注要求描述
标注范围
- 标注距离(例如:120米半径的范围圈,障碍物点全部在范围圈外不标注)
- 需要如何标注(3D拉框、标点、多边形等方式)
- 待标目标是哪些:车辆、行人、机动车、非机动车、交通标志等;
- 待标目标的点数要求:例如少于5点不标;
- 待标目标的尺寸要求,如行人的高度限制在1.5-1.8米
- 被截断目标是否需要标注(截断到何种程度不需要标注)
- 被遮挡目标是否需要标注(被遮挡多少不需要标注)
- 2D图是否需要标注;
- 是否标注模糊2D图像
- 是否标注目标影像(玻璃幕墙或其他物体反射)
- 是否标注完全被遮挡,但能够透过近处车窗可以较清晰看见的目标(带图说明)
- 其他要求
标注规则及示例
- 正样例(需要标注情形的示例....)和负样例(误标、漏标、错标....)带图说明
- 数据模糊或者损坏时的处理方式(跳过不标、标注为无效图片,或者其他)
- 对标注顺序、目标大小是否有要求
- 待标物是否支持使用复制上一页功能
- 标注距离描述
- 倾斜地面怎么标
- 被遮挡是否需要人工补全
- 目标点云不全,是否需要脑补人工补全
- 是否需要标注trackID,trackID的特殊情况怎么处理
- 标注精细度(是否严格要求外切框标注,带图说明)
- 其他要求
无效标注说明
- 无效框规则及示例
- 无效框标注标准(是否和有效框同样要求)
- 有效框和无效框的区分
- 是否可以多个无效物体同拉一个无效框,细节说明(无效框大小说明、是否可以做大的无效框处理)
- 被遮挡目标标为无效框时,是否只需要标注出露出部分还是需要脑补标注(带图说明)
采集需求文档规范
采集需要描述的越详细越好,下面是一个通用描述模板,需要根据业务场景相应的调整。
标注内容描述
内容信息 | 描述 |
---|---|
数据采集目的 | [应用的场景,如自动驾驶、LLM等] |
待采集目标 | [ 此处需要写明需要采集什么 ] |
采集的数据规模 | [ 此处需要写采集数据的量,比如多少张、多少G ] |
采集工具 | [ 此处需要写明工具来源:开发新工具及工具使用文档(app)、使用当前设备或需求方提供设备 ] |
交付数据格式 | [ 此处需要写明任务交付时需要数据团队交付的数据格式 ] |
采集内容说明
- 图片的类型大
- 拍摄角度
- 人物表情
- 手势动作
- 设备摆放位置(包括高度,距离)
- 补充说明一些需要注意的事项,容易出问题的地方,和一些必须不能用的地方等
- 每个动作,姿势,表情等可以放入正样本图片,需要注意的地方放入负样本图片,这样方便沟通理解。
视频采集内容说明
- 视频的格式
- 视频时间的长短
- 拍摄角度
- 人物表情,姿势,动作等
- 设备摆放,需不需要固定设备等
- 补充说明一些需要注意的事项,容易出问题的地方,和一些必须不能用的地方等。
- 每个动作,姿势,表情等需要给出正样本视频,需要注意的地方给出负样本视频。有特别说明的加以特别说明。
采集场景说明
- 对该任务的内容做一个详细的说明
- 添加一些采集的必要要求
- 场景要求(室内/室外)
- 光照条件(光照强度:亮光,正常光,逆光,暗光)包括自然光和人造光,还有光线打在的位置,如脸上,五官上,边缘上,或者随机等加以说明
- 每种场景需要采集的内容(包括数量和内容)
- 采集视频或图片的顺序(包括场景顺序,人物出场顺序,动作顺序,表情变化顺序等)
- 文件的命名要求(包括文件夹数量),如按场景分,按人物分,按动作分,按姿势表情分等
- 数据的交付(图片或视频的格式,数据的总数量)
- 还有一些特别的任务加以特别的说明
采集要求
- 说明被采集者和设备的距离
- 说明设备的操作流程,如采集时设备是否需要移动,设备的高度变化,角度范围等
- 说明被采集的要求,如采集人的年龄段比例,男女比例等
- 说明被采集者的动作和着装遮挡等要求,如佩戴帽子,眼镜脸部首饰等
- 说明室内室外的场景要求,如是否指定场景,或者尽可能多的变化场景等
- 说明光线的要求,如直射光尽量不要打在五官上,或者脸上,逆光暗光条件人脸的清晰程度等
- 特殊要求说明
标注格式
无论是验收导出的标注结果还是导入的预标注,数据标注平台采用统一的标注格式,暂不支持其他标注格式,各种标注工具的标注格式详细请下载附件查看 。