控制台文档联系我们

日日新-商量图文多模态大模型 | 大装置帮助中心

跳到主要内容

日日新-商量图文多模态大模型

SenseChat-Vision

模型版本	V5.5
模型简介	日日新-商量图文多模态大模型
模型最大上下文长度限制	`16K(16384)`，单位 `token`
模型权限	公开调用
模型速率限制	60 RPM，128K TPM
适配接口	图文对话生成

特殊参数说明

请求体参数中的max_new_tokens取值范围[1, 16384]，默认值1024
请求体参数中的content最多可以包含 6张图片的信息

模型能力说明

全面实现模型基础能力优化，在对象属性识别、空间关系、动作事件识别、场景理解、情感识别、逻辑常识推理和文本理解生成上都实现了较大提升。
多样化图表理解能力提升。带有具体数据的基础统计图表如条形图、折线图、饼图、表格等图表的高精度理解，并在复杂图表的理解上有所提高。
学科相关解题能力小幅度提升，包括意图理解，过程分析，支持标准LaTeX格式输出。
中英文OCR能力优化，实现繁体、手写体识别有明显提升，书法、日韩识别能力小幅提升。
视觉能力Benchmark （表中所有的数字均基于 OpenCompass 实测获得）

Avg.Score	MMBenchv1.1	MMStar	MMMU	MathVista	HallusionBenchAvg.	AI2D	OCRBench	MMVet
SenseChat-Vision	69.9	83.0	65.4	54.6	67.2	51.9	86.9	83.8	66.2
GPT4o-0513	69.9	82.2	63.9	69.2	61.3	55.0	84.6	73.6	69.1
Claude 3.5-Sonnet	67.9	78.5	62.2	65.9	61.6	49.9	80.2	78.8	66.0
Gemini 1.5 Pro	64.4	73.9	59.1	60.6	57.7	45.6	79.1	75.4	64.0
GPT4v-0409	63.5	79.8	56.0	61.7	54.7	43.9	78.6	65.6	67.5
GLM-4v	60.8	78.6	53.2	45.6	45.6	44.9	76.1	81.4	60.7
Step-1V	59.5	78.0	50.0	49.9	44.8	48.4	79.2	62.5	63.3
Qwen-VL-Max	58.3	74.6	49.5	52.0	43.4	41.2	75.7	68.4	61.8
GPT4v-1106	57.1	73.8	49.7	53.8	48.7	46.5	75.9	51.6	56.8

速率限制说明
RPM（Requests Per Minute）：每分钟请求数
TPM（Tokens Per Minute）：每分钟处理Tokens数（输入和输出）

SenseChat-Vision