获取知识导入任务详情
GET /studio/rag/data/v1/datasets/{dataset_id}/jobs/{job_id}
请求头(Request Header)
Authorization
可以使用如下两种Header
- 动态生成 Authorization Header, 参考认证(authentication)
-H "X-Date: $xdate" \
-H "Authorization: $auth"
- 直接提供完整的 Authorization Header,可以通过浏览器的开发者工具DevTools查看并复制接口调用的完整信息
-H 'Authorization: Bearer eyJhbGciOiJSUzI1NiIsImtpZCI6InB...'
请求参数(Request Parameters)
名称 | 类型 | 必须 | 描述 |
---|---|---|---|
dataset_id | string | 是 | 知识库ID. |
job_id | string | 是 | 任务ID. |
请求示例(Request Example)
curl 'https://aidmp.cn-sh-01.sensecoreapi.cn/studio/rag/data/v1/datasets/rag_feca3cbcc636484ca14195716d8aa588/jobs/54dbf6afa4d64d71a32087165cbe0c7c' \
-H "X-Date: $xdate" \
-H "Authorization: $auth" \
-X GET
响应(Response)
名称 | 类型 | 描述 |
---|---|---|
job_id | string | 任务ID. |
data_source_type | integer($enum) | 数据源类型 |
job_state | integer($enum) | 任务状态. |
creator | string | 创建者用户名. |
oss_temp_path | string | OSS临时路径,上传本地知识的临时路径. |
err_msg | string | 错误信息(如果有错误发生). |
job_info | object | 与任务文件相关的信息. |
document_info | array[object] | 已解析知识的信息列表. |
create_time | string($date-time) | 创建时间. |
finish_time | string($date-time) | 完成时间. |
target_path | string | 知识导入的目标路径. |
urls | array[string] | 上传URL(如果适用. |
document_pid | string | 知识导入的目标路径的ID. |
notion_page_ids | array[string] | notion页面ID列表. |
segment_strategy | object | 段落策略参数,可调整以适应知识分段方法. |
其中,data_source_type
有如下情况
枚举值 | 数值 | 含义 |
---|---|---|
DATA_SOURCE_TYPE_UNSPECIFIED | 0 | 开始,默认 |
LOCAL_FILE | 1 | 本地知识 |
WEB | 2 | 网络知识 |
NOTION | 3 | Notion知识 |
其中,job_state
有如下情况
枚举值 | 数值 | 含义 |
---|---|---|
STAGE_UNSPECIFIED | 0 | 未知状态 |
CREATING | 1 | 任务正在创建 |
UPLOADING | 2 | 知识正在上传 |
CRAWLING | 3 | 知识正在抓取和收集 |
PARSING | 4 | 正在解析 |
PARSE_SUCCEED | 5 | 解析完成 |
PARSE_FAILED | 6 | 解析失败 |
PARSE_CANCELLED | 7 | 解析取消 |
FAILED | 8 | 任务失败 |
CRAWLING_FAILED | 9 | 抓取失败 |
CRAWLING_QUEUED | 10 | 抓取排队 |
其中,job_info
的参数如下
名称 | 类型 | 描述 |
---|---|---|
total_document_size | int64 | 总文件大小. |
total_document_count | int64 | 文件总数. |
succeed_document_size | int64 | 成功解析文件的总大小. |
succeed_document_count | int64 | 成功解析文件的总数量. |
succeed_token_count | int64 | 成功解析的标记总数. |
failed_document_size | int64 | 解析失败的文件总大小. |
failed_document_count | int64 | 解析失败的文件总数量. |
其中,document_info
的参数如下
名称 | 类型 | 描述 |
---|---|---|
document_id | string | 文档ID. |
display_name | string | 知识名称. |
segment_count | int64 | 文档的段数量. |
document_token | int64 | 标记数. |
document_state | integer($enum) | 知识状态. |
document_error | integer($enum) | 失败原因. |
document_size | int64 | 文档大小. |
其中,document_state
有如下情况
枚举值 | 数值 | 含义 |
---|---|---|
DOCUMENT_STAGE_UNSPECIFIED | 0 | 未指定 |
DOCUMENT_PARSING | 1 | 正在解析 |
DOCUMENT_PARSED_SUCCESSFULLY | 2 | 解析成功 |
DOCUMENT_PARSING_FAILED | 3 | 解析失败 |
DOCUMENT_PARSING_CANCELLED | 4 | 已取消 |
DOCUMENT_QUEUED | 5 | 排队中 |
DOCUMENT_CRAWLING | 6 | 抓取中 |
DOCUMENT_CRAWLING_FAILED | 7 | 抓取失败 |
DOCUMENT_FAILED | 8 | 知识在其他阶段失败 |
DOCUMENT_CRAWLING_QUEUED | 9 | 爬取排队中 |
其中,document_error
有如下情况
枚举值 | 数值 | 含义 |
---|---|---|
DOCUMENT_ERROR_UNSPECIFIED | 0 | 未知原因 |
UNSUPPORTED_FORMAT | 1 | 不支持的格式 |
UNSUPPORTED_WEBSITE_CRAWLING | 2 | 不支持的网站抓取 |
OTHER_TECHNICAL_REASONS | 3 | 其他技术原因 |
DOWNLOAD_FAILURE | 4 | 文档存储失败 |
STORAGE_FAILURE | 5 | 文档存储失败 |
STORAGE_TIMEOUT | 6 | 文档存储超时 |
UPLOAD_FAILURE | 7 | 文档上传到AOSS失败 |
DATABASE_EXCEPTION | 8 | 数据库异常 |
OSS_EXCEPTION | 9 | 对象存储异常 |
DOCUMENT_STORAGE_ACCESS_EXCEPTION | 10 | 文档存储访问异常 |
FILE_CONTENT_EXCEPTION | 11 | 文件内容异常 |
其中,segment_strategy
的参数如下
名称 | 类型 | 描述 |
---|---|---|
chunk_size | int32 | 段落中允许的最大token数. |
chunk_overlap | int32 | 段落之间允许重叠的token数量. |
separators | array[string] | 用于分段文本的分隔符列表. |
响应示例(Response Example)
{
"name": "",
"job_id": "eb0297698061432a905fb00ce70dfd2e",
"data_source_type": 2,
"job_state": 5,
"creator": "adimp0224",
"oss_temp_path": "",
"err_msg": "",
"job_info": {
"total_document_size": "0",
"total_document_count": "1",
"succeed_document_size": "6490",
"succeed_document_count": "1",
"succeed_token_count": "45",
"failed_document_size": "0",
"failed_document_count": "0"
},
"document_info": [
{
"document_id": "ebebb9e0a69646ea891914d586e8be76",
"display_name": "https://www.nowcoder.com/practice/65cfde9e5b9b4cf2b6bafa5f3ef33fa6?tpId=295&tqId=724&ru=/practice/d8b6b4358f774294a89de2a6ac4d9337&qru=/ta/format-top101/question-ranking&sourceUrl=/exam/company",
"segment_count": "1",
"document_token": "45",
"document_state": 2,
"document_error": 0,
"document_size": "6490"
}
],
"create_time": "2024-09-25T08:17:38.342851Z",
"finish_time": "2024-09-25T08:18:12.639086Z",
"target_path": "",
"urls": [],
"document_pid": "",
"notion_page_ids": [],
"segment_strategy": null
}