获取知识导入任务详情 | 大装置帮助中心
跳到主要内容

获取知识导入任务详情

GET /studio/rag/data/v1/datasets/{dataset_id}/jobs/{job_id}

请求头(Request Header)

Authorization 可以使用如下两种Header

-H "X-Date: $xdate" \
-H "Authorization: $auth"
  • 直接提供完整的 Authorization Header,可以通过浏览器的开发者工具DevTools查看并复制接口调用的完整信息
-H 'Authorization: Bearer eyJhbGciOiJSUzI1NiIsImtpZCI6InB...'

请求参数(Request Parameters)

名称类型必须描述
dataset_idstring知识库ID.
job_idstring任务ID.

请求示例(Request Example)

curl 'https://aidmp.cn-sh-01.sensecoreapi.cn/studio/rag/data/v1/datasets/rag_feca3cbcc636484ca14195716d8aa588/jobs/54dbf6afa4d64d71a32087165cbe0c7c' \
-H "X-Date: $xdate" \
-H "Authorization: $auth" \
-X GET

响应(Response)

名称类型描述
job_idstring任务ID.
data_source_typeinteger($enum)数据源类型
job_stateinteger($enum)任务状态.
creatorstring创建者用户名.
oss_temp_pathstringOSS临时路径,上传本地知识的临时路径.
err_msgstring错误信息(如果有错误发生).
job_infoobject与任务文件相关的信息.
document_infoarray[object]已解析知识的信息列表.
create_timestring($date-time)创建时间.
finish_timestring($date-time)完成时间.
target_pathstring知识导入的目标路径.
urlsarray[string]上传URL(如果适用.
document_pidstring知识导入的目标路径的ID.
notion_page_idsarray[string]notion页面ID列表.
segment_strategyobject段落策略参数,可调整以适应知识分段方法.

其中,data_source_type有如下情况

枚举值数值含义
DATA_SOURCE_TYPE_UNSPECIFIED0开始,默认
LOCAL_FILE1本地知识
WEB2网络知识
NOTION3Notion知识

其中,job_state有如下情况

枚举值数值含义
STAGE_UNSPECIFIED0未知状态
CREATING1任务正在创建
UPLOADING2知识正在上传
CRAWLING3知识正在抓取和收集
PARSING4正在解析
PARSE_SUCCEED5解析完成
PARSE_FAILED6解析失败
PARSE_CANCELLED7解析取消
FAILED8任务失败
CRAWLING_FAILED9抓取失败
CRAWLING_QUEUED10抓取排队

其中,job_info的参数如下

名称类型描述
total_document_sizeint64总文件大小.
total_document_countint64文件总数.
succeed_document_sizeint64成功解析文件的总大小.
succeed_document_countint64成功解析文件的总数量.
succeed_token_countint64成功解析的标记总数.
failed_document_sizeint64解析失败的文件总大小.
failed_document_countint64解析失败的文件总数量.

其中,document_info的参数如下

名称类型描述
document_idstring文档ID.
display_namestring知识名称.
segment_countint64文档的段数量.
document_tokenint64标记数.
document_stateinteger($enum)知识状态.
document_errorinteger($enum)失败原因.
document_sizeint64文档大小.

其中,document_state有如下情况

枚举值数值含义
DOCUMENT_STAGE_UNSPECIFIED0未指定
DOCUMENT_PARSING1正在解析
DOCUMENT_PARSED_SUCCESSFULLY2解析成功
DOCUMENT_PARSING_FAILED3解析失败
DOCUMENT_PARSING_CANCELLED4已取消
DOCUMENT_QUEUED5排队中
DOCUMENT_CRAWLING6抓取中
DOCUMENT_CRAWLING_FAILED7抓取失败
DOCUMENT_FAILED8知识在其他阶段失败
DOCUMENT_CRAWLING_QUEUED9爬取排队中

其中,document_error有如下情况

枚举值数值含义
DOCUMENT_ERROR_UNSPECIFIED0未知原因
UNSUPPORTED_FORMAT1不支持的格式
UNSUPPORTED_WEBSITE_CRAWLING2不支持的网站抓取
OTHER_TECHNICAL_REASONS3其他技术原因
DOWNLOAD_FAILURE4文档存储失败
STORAGE_FAILURE5文档存储失败
STORAGE_TIMEOUT6文档存储超时
UPLOAD_FAILURE7文档上传到AOSS失败
DATABASE_EXCEPTION8数据库异常
OSS_EXCEPTION9对象存储异常
DOCUMENT_STORAGE_ACCESS_EXCEPTION10文档存储访问异常
FILE_CONTENT_EXCEPTION11文件内容异常

其中,segment_strategy的参数如下

名称类型描述
chunk_sizeint32段落中允许的最大token数.
chunk_overlapint32段落之间允许重叠的token数量.
separatorsarray[string]用于分段文本的分隔符列表.

响应示例(Response Example)

{
"name": "",
"job_id": "eb0297698061432a905fb00ce70dfd2e",
"data_source_type": 2,
"job_state": 5,
"creator": "adimp0224",
"oss_temp_path": "",
"err_msg": "",
"job_info": {
"total_document_size": "0",
"total_document_count": "1",
"succeed_document_size": "6490",
"succeed_document_count": "1",
"succeed_token_count": "45",
"failed_document_size": "0",
"failed_document_count": "0"
},
"document_info": [
{
"document_id": "ebebb9e0a69646ea891914d586e8be76",
"display_name": "https://www.nowcoder.com/practice/65cfde9e5b9b4cf2b6bafa5f3ef33fa6?tpId=295&tqId=724&ru=/practice/d8b6b4358f774294a89de2a6ac4d9337&qru=/ta/format-top101/question-ranking&sourceUrl=/exam/company",
"segment_count": "1",
"document_token": "45",
"document_state": 2,
"document_error": 0,
"document_size": "6490"
}
],
"create_time": "2024-09-25T08:17:38.342851Z",
"finish_time": "2024-09-25T08:18:12.639086Z",
"target_path": "",
"urls": [],
"document_pid": "",
"notion_page_ids": [],
"segment_strategy": null
}