检索公开数据集 | 大装置帮助中心
跳到主要内容

检索公开数据集

POST /aids/aidmp/data/v1/datasets

请求头(Request Header)

参考认证(authentication)

请求体(Request Body)

名称类型必须默认值取值范围描述
pageinteger1-当前页的开始值.
page_sizeinteger100-1000本次请求的分页大小.
keywordstring--检索公开数据集的关键字.
repos_tagsarray[object]--检索的标签组,支持标签检索.

其中,repo_tags的参数如下

名称类型描述
tag_namestring标签名称.
tag_typestring标签类型.
numinteger该标签在数据集中出现的次数.

请求示例(Request Example)

curl --location 'https://aidmp.cn-sh-01.sensecoreapi.dev/aids/aidmp/data/v1/datasets' \
--header 'Content-Type: application/json' \
--data '{
"page": 1,
"page_size": 10,
"keyword": "IM"
}'
# 支持标签检索
curl --location 'https://aidmp.cn-sh-01.sensecoreapi.dev/aids/aidmp/data/v1/datasets' \
--header 'Content-Type: application/json' \
--data '{
"page": 1,
"page_size": 10,
"repos_tags": [
{
"tag_name": "指令微调",
"tag_type": "自定义标签"
},
{
"tag_name": "自然语言处理",
"tag_type": "应用场景"
}
]
}'

响应(Response)

名称类型描述
datasetsarray[object]带标签信息的公开数据集列表.
totalinteger公开数据集总数.

其中,datasets的参数如下

名称类型描述
repoobject数据集信息.
tenant_codestring数据集所属租户名.
tagsstring数据集的标签array(json)的字符串 例如:'[{"数据类型":["图片", "视频"]},{"应用场景":["自动驾驶"]}].

其中,repo的参数如下

名称类型描述
idstring数据集ID.
namestring名称.
display_namestring显示的名称,例如url上.
create_user_idstring数据集的创建者ID(用于用户界面).
descstring数据集的描述.
tenant_idstring所属租户ID.
branch_numinteger分支数量(用于用户界面).
commit_numinteger版本数量(用于用户界面).
file_numinteger数据集中不同文件的总数,即有多少个不同的SHA.
is_emptyboolean数据集是否空(用于用户界面).
prefix_uristring固定前缀(用于用户界面).
create_usernamestring创建用户名称(用于用户界面),对应云管/v1/users/{user_id}接口返回结果里面的username.
last_commit_timestring最新一次的提交时间(用于用户界面).
create_timestring创建时间.
update_timestring最后更新时间.
default_branchstring默认分支名.
is_publicboolean是否是公开数据集.
is_allow_publicboolean是否允许公开.
repo_typeinteger($enum)数据集类型.
oss_pathstring对象存储路径.
is_asyncboolean是否是创建中状态,true表示数据集状态为Creating.
acl_listarray[integer($enum)]用户在此数据集所拥有的权限.

其中,repo_type有如下情况

状态数值含义
COMMON0普通数据集,默认值
IMPORT1导入的数据集

其中,acl_list有如下情况

状态数值含义
UNKNOWN0未知
READ1读权限
WRITE2写权限

响应示例(Response Example)

{
"datasets": [
{
"repo": {
"id": "3278ae1b-cd6f-41a9-95c0-593420b89334",
"name": "IMDB",
"display_name": "IMDB",
"create_user_id": "8c51e632-b68a-4c51-b80e-ec4a0963df26",
"desc": "",
"tenant_id": "45592f2c-8cb2-4cdc-8ee6-368e0551778d",
"branch_num": 1,
"default_branch": "",
"commit_num": 2,
"file_num": "0",
"is_empty": false,
"prefix_uri": "",
"create_username": "aidmpdev1user1",
"last_commit_time": "2023-09-14T08:08:45.576Z",
"create_time": "2023-09-14T08:08:08.331Z",
"update_time": "2023-09-14T08:08:45.576Z",
"is_public": null,
"is_allow_public": false,
"repo_type": 2,
"oss_path": "",
"is_async": false,
"acl_list": []
},
"tenant_code": "aidmpdev1",
"tags": ""
},
{
"repo": {
"id": "49bedd8f-1338-4be6-91ff-a505e0363da4",
"name": "IMDB2",
"display_name": "IMDB2",
"create_user_id": "62dfe9be-ea09-4927-b8e1-eb6c4f19c4ed",
"desc": "大型电影评论数据集。这是一个用于二元情感分类的数据集,包含比以前的基准数据集多得多的数据。我们提供了一组 25,000 条极地电影评论用于训练,25,000 条用于测试。还有其他未标记的数据可供使用。",
"tenant_id": "6b9eebaa-4960-4ccf-98c2-6ef843032a68",
"branch_num": 1,
"default_branch": "",
"commit_num": 8,
"file_num": "0",
"is_empty": false,
"prefix_uri": "",
"create_username": "aidmp-dataset",
"last_commit_time": "2023-08-02T12:52:37.268Z",
"create_time": "2023-04-03T00:24:06.187Z",
"update_time": "2023-08-02T12:52:37.268Z",
"is_public": null,
"is_allow_public": true,
"repo_type": 0,
"oss_path": "",
"is_async": false,
"acl_list": []
},
"tenant_code": "scproduction",
"tags": "[{\"name\":\"应用场景\",\"value\":[\"自然语言处理\"]},{\"name\":\"数据来源\",\"value\":[\"学术公开\"]},{\"name\":\"标注来源\",\"value\":[\"专家生成\"]},{\"name\":\"自定义标签\",\"value\":[\"预训练数据集\"]},{\"name\":\"数据类型\",\"value\":[\"文本\"]},{\"name\":\"任务类型\",\"value\":[\"文本分类\"]},{\"name\":\"标注类型\",\"value\":[\"文本分类\"]},{\"name\":\"语言\",\"value\":[\"英文\"]},{\"name\":\"数据大小\",\"value\":[\"10K\\u003c=n\\u003c100K\"]}]"
}
],
"total": 2
}