检索分段列表
POST /studio/rag/data/v1/datasets/{dataset_id}/documents/{document_id}/segments:search
请求头(Request Header)
Authorization
可以使用如下两种Header
- 动态生成 Authorization Header, 参考认证(authentication)
-H "X-Date: $xdate" \
-H "Authorization: $auth"
- 直接提供完整的 Authorization Header,可以通过浏览器的开发者工具DevTools查看并复制接口调用的完整信息
-H 'Authorization: Bearer eyJhbGciOiJSUzI1NiIsImtpZCI6InB...'
请求参数(Request Parameters)
名称 | 类型 | 必须 | 描述 |
---|---|---|---|
dataset_id | string | 是 | 知识库的ID. |
document_id | string | 是 | 知识文档的ID. |
请求体(Request Body)
名称 | 类型 | 必须 | 描述 |
---|---|---|---|
keyword | string | 否 | 支持关键词搜索. |
page_token | string | 否 | 当前页的起始值. |
page_size | int32 | 是 | 此请求的页面大小. |
order_by | string | 否 | 排序关键字,如:create_time desc. |
请求示例(Request Example)
curl --location --request POST 'https://aidmp.cn-sh-01.sensecoreapi.cn/studio/rag/data/v1/datasets/{dataset_id}/documents/{document_id}/segments:search' \
-H "X-Date: $xdate" \
-H "Authorization: $auth" \
-X POST \
--data-raw '{
"keyword": "example",
"page_token": "",
"page_size": 10,
"order_by": "create_time desc"
}'
响应(Response)
名称 | 类型 | 描述 |
---|---|---|
segments | array[object] | 段列表 |
total_size | int32 | 总数 |
next_page_token | string | 用于分页的下一页令牌字段. |
其中,segments
的参数如下
名称 | 类型 | 描述 |
---|---|---|
segment_id | string | 段ID. |
dataset_id | string | 知识库ID |
document_id | string | 文档ID |
content | string | 段落内容 |
token_count | int32 | 词元数量 |
number | int32 | 段落编号 |
metadata | object | 元数据 |
words | int32 | 单词数量 |
segment_type | integer($enum) | 段落类型 |
table_content | string | 表格内容 |
image_key | string | 图片键值 |
image_uri | string | 图片URI |
display_type | integer($enum) | 显示类型 |
image_keys | array[string] | 图片键值列表 |
display_content | string | 展示内容 |
其中,segments.metadata
的参数如下
名称 | 类型 | 描述 |
---|---|---|
key_words | array[string] | 关键词 |
image_name_value | string | 图片名称 |
image_size | int32 | 图片大小 |
table_name_value | string | 表格名称 |
table_rows | int32 | 表格行数 |
table_columns | array[string] | 表格列 |
score | float | 分数 |
其中,segments.segment_type
有如下情况
枚举值 | 数值 | 含义 |
---|---|---|
SEGMENT_TYPE_UNSPECIFIED | 0 | 未指定状态 |
SEGMENT_TYPE_TEXT | 1 | 文字 |
SEGMENT_TYPE_IMAGE | 2 | 图片 |
SEGMENT_TYPE_TABLE | 3 | 表格 |
SEGMENT_TYPE_WEB_IMAGE | 4 | 网页图片 |
其中,segments.display_type
有如下情况
枚举值 | 数值 | 含义 |
---|---|---|
DISPLAY_TYPE_UNSPECIFIED | 0 | 未指定状态 |
DISPLAY_TYPE_TEXT | 1 | 文字 |
DISPLAY_TYPE_MARKDOWN | 2 | Markdown |
响应示例(Response Example)
{
"segments": [
{
"segment_id": "08e7cbb42e4a44e3893d163562ac1663-b4875e9d-ede2-47b6-aef2-572c0adfb455",
"dataset_id": "rag_fc7dfb14e67e424385c6ea898e6c5d8c",
"document_id": "08e7cbb42e4a44e3893d163562ac1663",
"content": "# 南普陀寺\n南普陀寺背依秀奇群峰,面临碧澄海港。\n南普陀寺是福建厦门的一座唐代佛寺,位于厦门岛南部五老峰下,为全国重点文物保护单位、全国重点寺院,同时也是厦门八大风景区之一。\n该寺始建于唐朝末期,初称泗洲院,北宋时僧人文翠改建称无尽岩,元代至正年被毁,明洪武十八年(1385 年)僧觉光重建,改名为普照寺(院)。清康熙二十二年(1684 年),靖海侯施琅收复台湾后驻镇厦门,捐资重修寺院,增建大悲阁奉观音菩萨,并与浙江普陀山观音道场相类比,更名为南普陀寺,聘请临济宗三十五世传人慧日法师为开山第一代祖师。\n# 不同城市的天气信息\n以下是一些城市在不同季节的平均气温和降水量数据:\n## 春季\n",
"token_count": 380,
"number": 1,
"metadata": {
"key_words": [],
"image_name_value": "",
"image_size": 0,
"table_name_value": "",
"table_rows": 0,
"table_columns": [],
"score": 0
},
"words": 248,
"segment_type": 1,
"table_content": "",
"image_key": "",
"image_uri": "",
"display_type": 2
},
{
"segment_id": "08e7cbb42e4a44e3893d163562ac1663-9c88dde1-bc87-43f9-9cb2-0c9d95fe073c",
"dataset_id": "rag_fc7dfb14e67e424385c6ea898e6c5d8c",
"document_id": "08e7cbb42e4a44e3893d163562ac1663",
"content": "\n| 城市 | 平均气温(℃) | 降水量(mm) |\n| --- | --- | --- |\n| 北京 | 10 | 50 |\n| 上海 | 15 | 100 |\n| 广州 | 20 | 150 |\n| 深圳 | 22 | 180 |\n",
"token_count": 81,
"number": 2,
"metadata": {
"key_words": [],
"image_name_value": "",
"image_size": 0,
"table_name_value": "",
"table_rows": 4,
"table_columns": [
"城市",
"平均气温(℃)",
"降水量(mm)"
],
"score": 0
},
"words": 26,
"segment_type": 3,
"table_content": "\n| 城市 | 平均气温(℃) | 降水量(mm) |\n| --- | --- | --- |\n| 北京 | 10 | 50 |\n| 上海 | 15 | 100 |\n| 广州 | 20 | 150 |\n| 深圳 | 22 | 180 |\n",
"image_key": "",
"image_uri": "",
"display_type": 2
}
],
"total_size": 2,
"next_page_token": ""
}