日日新-商量图文多模态大模型
SenseChat-Vision
模型版本 | V5.5 |
---|---|
模型简介 | 日日新-商量图文多模态大模型 |
模型最大上下文长度限制 | 16K(16384) ,单位 token |
模型权限 | 公开调用 |
模型速率限制 | 60 RPM,128K TPM |
适配接口 | 图文对话生成 |
- 特殊参数说明
- 请求体参数中的
max_new_tokens
取值范围[1, 16384],默认值1024 - 请求体参数中的
content
最多可以包含 6张 图片的信息 - 模型能力说明
- 全面实现模型基础能力优化,在对象属性识别、空间关系、动作事件识别、场景理解、情感识别、逻辑常识推理和文本理解生成上都实现了较大提升。
- 多样化图表理解能力提升。带有具体数据的基础统计图表如条形图、折线图、饼图、表格等图表的高精度理解,并在复杂图表的理解上有所提高。
- 学科相关解题能力小幅度提升,包括意图理解,过程分析,支持标准LaTeX格式输出。
- 中英文OCR能力优化,实现繁体、手写体识别有明显提升,书法、日韩识别能力小幅提升。
- 视觉能力Benchmark (表中所有的数字均基于 OpenCompass 实测获得)
Avg.Score | MMBenchv1.1 | MMStar | MMMU | MathVista | HallusionBenchAvg. | AI2D | OCRBench | MMVet | |
---|---|---|---|---|---|---|---|---|---|
SenseChat-Vision | 69.9 | 83.0 | 65.4 | 54.6 | 67.2 | 51.9 | 86.9 | 83.8 | 66.2 |
GPT4o-0513 | 69.9 | 82.2 | 63.9 | 69.2 | 61.3 | 55.0 | 84.6 | 73.6 | 69.1 |
Claude 3.5-Sonnet | 67.9 | 78.5 | 62.2 | 65.9 | 61.6 | 49.9 | 80.2 | 78.8 | 66.0 |
Gemini 1.5 Pro | 64.4 | 73.9 | 59.1 | 60.6 | 57.7 | 45.6 | 79.1 | 75.4 | 64.0 |
GPT4v-0409 | 63.5 | 79.8 | 56.0 | 61.7 | 54.7 | 43.9 | 78.6 | 65.6 | 67.5 |
GLM-4v | 60.8 | 78.6 | 53.2 | 45.6 | 45.6 | 44.9 | 76.1 | 81.4 | 60.7 |
Step-1V | 59.5 | 78.0 | 50.0 | 49.9 | 44.8 | 48.4 | 79.2 | 62.5 | 63.3 |
Qwen-VL-Max | 58.3 | 74.6 | 49.5 | 52.0 | 43.4 | 41.2 | 75.7 | 68.4 | 61.8 |
GPT4v-1106 | 57.1 | 73.8 | 49.7 | 53.8 | 48.7 | 46.5 | 75.9 | 51.6 | 56.8 |
速率限制说明
RPM(Requests Per Minute):每分钟请求数
TPM(Tokens Per Minute) :每分钟处理Tokens数(输入和输出)