检索公开数据集
POST /aids/aidmp/data/v1/datasets
请求头(Request Header)
请求体(Request Body)
名称 | 类型 | 必须 | 默认值 | 取值范围 | 描述 |
---|---|---|---|---|---|
page | integer | 否 | 1 | - | 当前页的开始值. |
page_size | integer | 否 | 10 | 0-1000 | 本次请求的分页大小. |
keyword | string | 否 | - | - | 检索公开数据集的关键字. |
repos_tags | array[object] | 否 | - | - | 检索的标签组,支持标签检索. |
其中,repo_tags
的参数如下
名称 | 类型 | 描述 |
---|---|---|
tag_name | string | 标签名称. |
tag_type | string | 标签类型. |
num | integer | 该标签在数据集中出现的次数. |
请求示例(Request Example)
curl --location 'https://aidmp.cn-sh-01.sensecoreapi.dev/aids/aidmp/data/v1/datasets' \
--header 'Content-Type: application/json' \
--data '{
"page": 1,
"page_size": 10,
"keyword": "IM"
}'
# 支持标签检索
curl --location 'https://aidmp.cn-sh-01.sensecoreapi.dev/aids/aidmp/data/v1/datasets' \
--header 'Content-Type: application/json' \
--data '{
"page": 1,
"page_size": 10,
"repos_tags": [
{
"tag_name": "指令微调",
"tag_type": "自定义标签"
},
{
"tag_name": "自然语言处理",
"tag_type": "应用场景"
}
]
}'
响应(Response)
名称 | 类型 | 描述 |
---|---|---|
datasets | array[object] | 带标签信息的公开数据集列表. |
total | integer | 公开数据集总数. |
其中,datasets
的参数如下
名称 | 类型 | 描述 |
---|---|---|
repo | object | 数据集信息. |
tenant_code | string | 数据集所属租户名. |
tags | string | 数据集的标签array(json)的字符串 例如:'[{"数据类型":["图片", "视频"]},{"应用场景":["自动驾驶"]}]. |
其中,repo
的参数如下
名称 | 类型 | 描述 |
---|---|---|
id | string | 数据集ID. |
name | string | 名称. |
display_name | string | 显示的名称,例如url上. |
create_user_id | string | 数据集的创建者ID(用于用户界面). |
desc | string | 数据集的描述. |
tenant_id | string | 所属租户ID. |
branch_num | integer | 分支数量(用于用户界面). |
commit_num | integer | 版本数量(用于用户界面). |
file_num | integer | 数据集中不同文件的总数,即有多少个不同的SHA. |
is_empty | boolean | 数据集是否空(用于用户界面). |
prefix_uri | string | 固定前缀(用于用户界面). |
create_username | string | 创建用户名称(用于用户界面),对应云管/v1/users/{user_id}接口返回结果里面的username. |
last_commit_time | string | 最新一次的提交时间(用于用户界面). |
create_time | string | 创建时间. |
update_time | string | 最后更新时间. |
default_branch | string | 默认分支名. |
is_public | boolean | 是否是公开数据集. |
is_allow_public | boolean | 是否允许公开. |
repo_type | integer($enum) | 数据集类型. |
oss_path | string | 对象存储路径. |
is_async | boolean | 是否是创建中状态,true表示数据集状态为Creating. |
acl_list | array[integer($enum)] | 用户在此数据集所拥有的权限. |
其中,repo_type
有如下情况
状态 | 数值 | 含义 |
---|---|---|
COMMON | 0 | 普通数据集,默认值 |
IMPORT | 1 | 导入的数据集 |
其中,acl_list
有如下情况
状态 | 数值 | 含义 |
---|---|---|
UNKNOWN | 0 | 未知 |
READ | 1 | 读权限 |
WRITE | 2 | 写权限 |
响应示例(Response Example)
{
"datasets": [
{
"repo": {
"id": "3278ae1b-cd6f-41a9-95c0-593420b89334",
"name": "IMDB",
"display_name": "IMDB",
"create_user_id": "8c51e632-b68a-4c51-b80e-ec4a0963df26",
"desc": "",
"tenant_id": "45592f2c-8cb2-4cdc-8ee6-368e0551778d",
"branch_num": 1,
"default_branch": "",
"commit_num": 2,
"file_num": "0",
"is_empty": false,
"prefix_uri": "",
"create_username": "aidmpdev1user1",
"last_commit_time": "2023-09-14T08:08:45.576Z",
"create_time": "2023-09-14T08:08:08.331Z",
"update_time": "2023-09-14T08:08:45.576Z",
"is_public": null,
"is_allow_public": false,
"repo_type": 2,
"oss_path": "",
"is_async": false,
"acl_list": []
},
"tenant_code": "aidmpdev1",
"tags": ""
},
{
"repo": {
"id": "49bedd8f-1338-4be6-91ff-a505e0363da4",
"name": "IMDB2",
"display_name": "IMDB2",
"create_user_id": "62dfe9be-ea09-4927-b8e1-eb6c4f19c4ed",
"desc": "大型电影评论数据集。这是一个用于二元情感分类的数据集,包含比以前的基准数据集多得多的数据。我们提供了一组 25,000 条极地电影评论用于训练,25,000 条用于测试。还有其他未标记的数据可供使用。",
"tenant_id": "6b9eebaa-4960-4ccf-98c2-6ef843032a68",
"branch_num": 1,
"default_branch": "",
"commit_num": 8,
"file_num": "0",
"is_empty": false,
"prefix_uri": "",
"create_username": "aidmp-dataset",
"last_commit_time": "2023-08-02T12:52:37.268Z",
"create_time": "2023-04-03T00:24:06.187Z",
"update_time": "2023-08-02T12:52:37.268Z",
"is_public": null,
"is_allow_public": true,
"repo_type": 0,
"oss_path": "",
"is_async": false,
"acl_list": []
},
"tenant_code": "scproduction",
"tags": "[{\"name\":\"应用场景\",\"value\":[\"自然语言处理\"]},{\"name\":\"数据来源\",\"value\":[\"学术公开\"]},{\"name\":\"标注来源\",\"value\":[\"专家生成\"]},{\"name\":\"自定义标签\",\"value\":[\"预训练数据集\"]},{\"name\":\"数据类型\",\"value\":[\"文本\"]},{\"name\":\"任务类型\",\"value\":[\"文本分类\"]},{\"name\":\"标注类型\",\"value\":[\"文本分类\"]},{\"name\":\"语言\",\"value\":[\"英文\"]},{\"name\":\"数据大小\",\"value\":[\"10K\\u003c=n\\u003c100K\"]}]"
}
],
"total": 2
}