日日新-商量图文多模态大模型 | 大装置帮助中心
跳到主要内容

日日新-商量图文多模态大模型

SenseChat-Vision

模型版本V5.5
模型简介日日新-商量图文多模态大模型
模型最大上下文长度限制16K(16384),单位 token
模型权限公开调用
模型速率限制60 RPM,128K TPM
适配接口图文对话生成
  • 特殊参数说明
    • 请求体参数中的max_new_tokens取值范围[1, 16384],默认值1024
    • 请求体参数中的content最多可以包含 6张 图片的信息
  • 模型能力说明
    • 全面实现模型基础能力优化,在对象属性识别、空间关系、动作事件识别、场景理解、情感识别、逻辑常识推理和文本理解生成上都实现了较大提升。
    • 多样化图表理解能力提升。带有具体数据的基础统计图表如条形图、折线图、饼图、表格等图表的高精度理解,并在复杂图表的理解上有所提高。
    • 学科相关解题能力小幅度提升,包括意图理解,过程分析,支持标准LaTeX格式输出。
    • 中英文OCR能力优化,实现繁体、手写体识别有明显提升,书法、日韩识别能力小幅提升。
    • 视觉能力Benchmark (表中所有的数字均基于 OpenCompass 实测获得)

    Avg.ScoreMMBenchv1.1MMStarMMMUMathVistaHallusionBenchAvg.AI2DOCRBenchMMVet
    SenseChat-Vision69.983.065.454.667.251.986.983.866.2
    GPT4o-051369.982.263.969.261.355.084.673.669.1
    Claude 3.5-Sonnet67.978.562.265.961.649.980.278.866.0
    Gemini 1.5 Pro64.473.959.160.657.745.679.175.464.0
    GPT4v-040963.579.856.061.754.743.978.665.667.5
    GLM-4v60.878.653.245.645.644.976.181.460.7
    Step-1V59.578.050.049.944.848.479.262.563.3
    Qwen-VL-Max58.374.649.552.043.441.275.768.461.8
    GPT4v-110657.173.849.753.848.746.575.951.656.8


速率限制说明

  RPM(Requests Per Minute):每分钟请求数

  TPM(Tokens Per Minute) :每分钟处理Tokens数(输入和输出)