检索知识列表 | 大装置帮助中心
跳到主要内容

检索知识列表

POST /studio/rag/data/v1/datasets/{dataset_id}/documents:search

请求头(Request Header)

Authorization 可以使用如下两种Header

-H "X-Date: $xdate" \
-H "Authorization: $auth"
  • 直接提供完整的 Authorization Header,可以通过浏览器的开发者工具DevTools查看并复制接口调用的完整信息
-H 'Authorization: Bearer eyJhbGciOiJSUzI1NiIsImtpZCI6InB...'

请求参数(Request Parameters)

名称类型必须描述
dataset_idstring知识库的ID.
p_idstring父知识的ID.
dir_pathstring知识的文件路径.
order_bystring排序关键字,如:create_time desc.
page_tokenstring当前页的起始值.
page_sizeint32此请求的页面大小(最大1000).

请求示例(Request Example)

curl --location --request POST 'https://aidmp.cn-sh-01.sensecoreapi.cn/studio/rag/data/v1/datasets/{dataset_id}/documents:search' \
-H "X-Date: $xdate" \
-H "Authorization: $auth" \
-X POST \
--data-raw '{
"p_id": "parent_document_id",
"order_by": "create_time desc",
"page_size": 10
}'

响应(Response)

名称类型描述
documentsarray[object]知识文档列表.
total_sizeint32知识文档总数.
next_page_tokenstring用于分页的下一页标记字段.

其中,documents的参数如下

名称类型描述
document_idstring知识文档的ID.
display_namestring知识文档的名称.
typeinteger($enum)知识文档的类型.
document_sizeint64知识文档的大小.
token_countint64知识文档的令牌计数.
segment_countint64知识文档的段落计数.
dataset_idstring知识文档所属知识库的ID.
dataset_displaystring知识文档所属知识库的显示名称.
p_idstring父知识文档的ID.
data_source_typeinteger($enum)知识文档的数据源类型.
creatorstring知识文档的创建者.
create_timestring($date-time)知识文档的创建时间.
update_timestring($date-time)知识文档的更新时间.
segmentsarray[object]知识文档的段落详细信息列表.
uristring知识文档在OSS中的预签名URI.

其中,document.type有如下情况

枚举值数值含义
DOCUMENT_TYPE_UNSPECIFIED0未指定
WEBPAGE1网页
FOLDER2文件夹
TXT3文本文件
PDF4PDF文件
HTML5HTML文件
XLSX6XLSX文件
XLS7XLS文件
DOCX8DOCX文件
CSV9CSV文件
PPTX10PPTX文件
PPT11PPT文件,暂不支持
XML12XML文件
MARKDOWN13Markdown文件
MD14MD文件
JSON15Json文件

其中,document.data_source_type有如下情况

枚举值数值含义
DATA_SOURCE_TYPE_UNSPECIFIED0开始,默认
LOCAL_FILE1本地知识
WEB2网络知识
NOTION3Notion知识

其中,document.segments的参数如下

名称类型描述
segment_idstring段ID.
dataset_idstring知识库ID
document_idstring文档ID
contentstring段落内容
token_countint32词元数量
numberint32段落编号
metadataobject元数据
wordsint32单词数量
segment_typeinteger($enum)段落类型
table_contentstring表格内容
image_keystring图片键值
image_uristring图片URI
display_typeinteger($enum)显示类型
image_keysarray[string]图片键值列表
display_contentstring展示内容

其中,segments.metadata的参数如下

名称类型描述
key_wordsarray[string]关键词
image_name_valuestring图片名称
image_sizeint32图片大小
table_name_valuestring表格名称
table_rowsint32表格行数
table_columnsarray[string]表格列
scorefloat分数

其中,segments.segment_type有如下情况

枚举值数值含义
SEGMENT_TYPE_UNSPECIFIED0未指定状态
SEGMENT_TYPE_TEXT1文字
SEGMENT_TYPE_IMAGE2图片
SEGMENT_TYPE_TABLE3表格
SEGMENT_TYPE_WEB_IMAGE4网页图片

其中,segments.display_type有如下情况

枚举值数值含义
DISPLAY_TYPE_UNSPECIFIED0未指定状态
DISPLAY_TYPE_TEXT1文字
DISPLAY_TYPE_MARKDOWN2Markdown

响应示例(Response Example)

{
"documents": [
{
"document_id": "abc123",
"display_name": "知识文档名称",
"type": 3,
"document_size": 1024,
"token_count": 5000,
"segment_count": 10,
"dataset_id": "b2dc6d90-6b68-46e2-a1d1-fd4b323eef40",
"dataset_display": "知识库名称",
"p_id": "parent_document_id",
"data_source_type": 1,
"creator": "创建者ID",
"create_time": "2023-10-07T09:04:08.109Z",
"update_time": "2023-10-07T09:04:08.109Z"
}
],
"total_size": 1,
"next_page_token": ""
}