创建知识导入任务 | 大装置帮助中心
跳到主要内容

创建知识导入任务

POST /studio/rag/data/v1/datasets/{dataset_id}/jobs

请求头(Request Header)

Authorization 可以使用如下两种Header

-H "X-Date: $xdate" \
-H "Authorization: $auth"
  • 直接提供完整的 Authorization Header,可以通过浏览器的开发者工具DevTools查看并复制接口调用的完整信息
-H 'Authorization: Bearer eyJhbGciOiJSUzI1NiIsImtpZCI6InB...'

请求参数(Request Parameters)

名称类型必须描述
dataset_idstring知识库的ID.

请求体(Request Body)

名称类型必须描述
data_source_typeinteger($enum)数据源类型.
target_pathstring知识导入的目标路径.
urlsarray[string]上传URL(如果适用).
document_pidstring知识导入的目标路径的ID.
notion_page_idsarray[string]notion页面ID列表.
segment_strategyobject段落策略参数,可调整以适应知识分段方法.

其中,data_source_type有如下情况

枚举值数值含义
DATA_SOURCE_TYPE_UNSPECIFIED0开始,默认
LOCAL_FILE1本地知识
WEB2网络知识
NOTION3Notion知识

其中,segment_strategy的参数如下

名称类型必须描述
chunk_sizeint32段落中允许的最大token数.
chunk_overlapint32段落之间允许重叠的token数量.
separatorsarray[string]用于分段文本的分隔符列表.

请求示例(Request Example)

curl 'https://aidmp.cn-sh-01.sensecoreapi.cn/studio/rag/data/v1/datasets/rag_d4ca853831b44ba3962ac4464377ca17/jobs' \
-H "X-Date: $xdate" \
-H "Authorization: $auth" \
-X POST \
--data-raw '{
"dataset_id":"rag_d4ca853831b44ba3962ac4464377ca17",
"data_source_type":2,
"urls":["https://www.nowcoder.com/practice/65cfde9e5b9b4cf2b6bafa5f3ef33fa6?tpId=295"],
"segment_strategy": {
"chunk_overlap": 50,
"chunk_size": 512,
"separators": [" ","。","."," "]
}
}'

响应(Response)

名称类型描述
job_idstring任务ID.
data_source_typeinteger($enum)数据源类型
job_stateinteger($enum)任务状态.
creatorstring创建者用户名.
oss_temp_pathstringOSS临时路径,上传本地知识的临时路径.
err_msgstring错误信息(如果有错误发生).
job_infoobject与任务文件相关的信息.
document_infoarray[object]已解析知识的信息列表.
create_timestring($date-time)创建时间.
finish_timestring($date-time)完成时间.
target_pathstring知识导入的目标路径.
urlsarray[string]上传URL(如果适用.
document_pidstring知识导入的目标路径的ID.
notion_page_idsarray[string]notion页面ID列表.
segment_strategyobject段落策略参数,可调整以适应知识分段方法.

其中,job_state有如下情况

枚举值数值含义
STAGE_UNSPECIFIED0未知状态
CREATING1任务正在创建
UPLOADING2知识正在上传
CRAWLING3知识正在抓取和收集
PARSING4正在解析
PARSE_SUCCEED5解析完成
PARSE_FAILED6解析失败
PARSE_CANCELLED7解析取消
FAILED8任务失败
CRAWLING_FAILED9抓取失败
CRAWLING_QUEUED10抓取排队

其中,job_info的参数如下

名称类型描述
total_document_sizeint64总文件大小.
total_document_countint64文件总数.
succeed_document_sizeint64成功解析文件的总大小.
succeed_document_countint64成功解析文件的总数量.
succeed_token_countint64成功解析的标记总数.
failed_document_sizeint64解析失败的文件总大小.
failed_document_countint64解析失败的文件总数量.

其中,document_info的参数如下

名称类型描述
document_idstring文档ID.
display_namestring知识名称.
segment_countint64文档的段数量.
document_tokenint64标记数.
document_stateinteger($enum)知识状态.
document_errorinteger($enum)失败原因.
document_sizeint64文档大小.

其中,document_state有如下情况

枚举值数值含义
DOCUMENT_STAGE_UNSPECIFIED0未指定
DOCUMENT_PARSING1正在解析
DOCUMENT_PARSED_SUCCESSFULLY2解析成功
DOCUMENT_PARSING_FAILED3解析失败
DOCUMENT_PARSING_CANCELLED4已取消
DOCUMENT_QUEUED5排队中
DOCUMENT_CRAWLING6抓取中
DOCUMENT_CRAWLING_FAILED7抓取失败
DOCUMENT_FAILED8知识在其他阶段失败
DOCUMENT_CRAWLING_QUEUED9爬取排队中

其中,document_error有如下情况

枚举值数值含义
DOCUMENT_ERROR_UNSPECIFIED0未知原因
UNSUPPORTED_FORMAT1不支持的格式
UNSUPPORTED_WEBSITE_CRAWLING2不支持的网站抓取
OTHER_TECHNICAL_REASONS3其他技术原因
DOWNLOAD_FAILURE4文档存储失败
STORAGE_FAILURE5文档存储失败
STORAGE_TIMEOUT6文档存储超时
UPLOAD_FAILURE7文档上传到AOSS失败
DATABASE_EXCEPTION8数据库异常
OSS_EXCEPTION9对象存储异常
DOCUMENT_STORAGE_ACCESS_EXCEPTION10文档存储访问异常
FILE_CONTENT_EXCEPTION11文件内容异常

响应示例(Response Example)

{
"name": "",
"job_id": "eb0297698061432a905fb00ce70dfd2e",
"data_source_type": 2,
"job_state": 1,
"creator": "adimp0224",
"oss_temp_path": "",
"err_msg": "",
"job_info": null,
"document_info": [],
"create_time": null,
"finish_time": null,
"target_path": "",
"urls": [],
"document_pid": "",
"notion_page_ids": [],
"segment_strategy": null
}