DeepSeek

商汤大装置ModelStudio支持DeepSeek系列模型，全面融合ModelStudio推理链路，集成内容安全算子，为广大新老用户提供高效且安全的Deepseek模型服务。当前DeepSeek-R1和DeepSeek-V3限时免费，蒸馏版本完全免费。

以下模型将于近期陆续上线至ModelStudio模型广场，敬请关注！可在ModelStudio服务管理，完成模型购买，并查看模型开通状态

如果希望调用满足低时延、高并发等需求的DeepSeep R1模型，请联系客服或销售咨询商用版（页面右下角客服）

模型服务（model_id）	价格（每百万tokens）	最大上下文长度（输入+输出+思维链）	API接口	模型速率限制
DeepSeek-R1	输入4元输出16元（限时免费至5月9日）	32K	对话生成（深度推理）	1QPS 6RPM 128000TPM
DeepSeek-V3	输入2元输出8元（限时免费至5月9日）	32K	对话生成（深度推理）	1QPS 6RPM 128000TPM
DeepSeek-R1-Distill-Qwen-14B	免费	32K	对话生成（深度推理）	1QPS 6RPM 128000TPM
DeepSeek-R1-Distill-Qwen-32B	免费	8K	对话生成（深度推理）	1QPS 6RPM 128000TPM
DeepSeek-R1-Enterprise（商业版）	输入4元输出16元	128K	对话生成（深度推理）	10QPS 600RPM 1280000TPM

DeepSeek-R1

DeepSeek-R1 在后训练阶段大规模使用了强化学习技术，在仅有极少标注数据的情况下，极大提升了模型推理能力。在数学、代码、自然语言推理等任务上，性能比肩 OpenAI o1 正式版。

模型介绍

DeepSeek-R1的前身DeepSeek-R1-Zero是一种通过大规模强化学习 (RL) 训练的模型，无需监督微调 (SFT) 作为初步步骤，在推理方面表现出色。在 RL 的帮助下，DeepSeek-R1-Zero 自然而然地出现了许多强大而有趣的推理行为。然而，DeepSeek-R1-Zero 面临着诸如无休止重复、可读性差和语言混合等挑战。为了解决这些问题并进一步提高推理性能，引入了 DeepSeek-R1，它在 RL 之前整合了冷启动数据。DeepSeek-R1 在数学、代码和推理任务中实现了与 OpenAI-o1 相当的性能。为了支持研究社区，开源了 DeepSeek-R1-Zero、DeepSeek-R1 以及基于 Llama 和 Qwen 从 DeepSeek-R1 中提炼出的六个密集模型。 DeepSeek-R1-Distill-Qwen-32B 在各种基准测试中均优于 OpenAI-o1-mini，为密集模型取得了新的最先进成果。

更多信息请查看模型开源详情页

模型提供方

DeepSeek 杭州深度求索人工智能基础技术研究有限公司

模型使用声明

DeepSeek AI团队的官方声明可直接参考模型开源详情页

DeepSeek-R1-Distill-Qwen-14B模型由DeepSeek-AI团队研发，使用需遵循MIT许可协议与Apache 2.0许可协议。
第三方模型回答不代表商汤万象模型开发平台ModelStudio立场，且平台不对使用效果做任何明示/默示担保，用户使用第三方模型应自行做好内容安全与合规保障

特殊参数说明

此模型暂不支持对话生成（无会话历史）接口中的请求体参数： [n][know_ids][knowledge_config] [plugins][web_search] [associated_knowledge]

DeepSeek-V3

DeepSeek-V3 在推理速度上相较历史模型有了大幅提升。在目前大模型主流榜单中，DeepSeek-V3 在开源模型中位列榜首，与世界上最先进的闭源模型不分伯仲。

模型介绍

DeepSeek-V3，这是一个强大的混合专家 (MoE) 语言模型，总共有 671B 个参数，每个 token 激活 37B。为了实现高效的推理和经济高效的训练，DeepSeek-V3 采用了多头潜在注意力 (MLA) 和 DeepSeekMoE 架构，这些架构在 DeepSeek-V2 中得到了彻底的验证。此外，DeepSeek-V3 开创了一种无辅助损失的负载平衡策略，并设置了多 token 预测训练目标以获得更强大的性能。在 14.8 万亿个多样化和高质量的 token 上对 DeepSeek-V3 进行了预训练，然后进行监督微调和强化学习阶段，以充分利用其功能。综合评估表明，DeepSeek-V3 优于其他开源模型，并实现了与领先的闭源模型相当的性能。尽管性能出色，但 DeepSeek-V3 仅需要 278.8万 H800 GPU/小时即可完成完整训练。

更多信息请查看模型开源详情页

模型提供方

DeepSeek 杭州深度求索人工智能基础技术研究有限公司

模型使用声明

DeepSeek-V3模型由DeepSeek-AI团队研发，使用需遵循MIT许可协议与Apache 2.0许可协议。
第三方模型回答不代表商汤万象模型开发平台ModelStudio立场，且平台不对使用效果做任何明示/默示担保，用户使用第三方模型应自行做好内容安全与合规保障

特殊参数说明

此模型暂不支持对话生成（无会话历史）接口中的请求体参数： [n][know_ids][knowledge_config] [plugins][web_search] [associated_knowledge]

DeepSeek-R1-Distill-Qwen-14B

DeepSeek-R1-Distill-Qwen-14B 是基于 Qwen2.5-14B 通过知识蒸馏得到的模型。该模型使用 DeepSeek-R1 生成的 80 万个精选样本进行微调，在数学、编程和推理等多个领域展现出卓越的性能。在 AIME 2024、MATH-500、GPQA Diamond 等多个基准测试中都取得了优异成绩，其中在 MATH-500 上达到了 93.9% 的准确率，展现出强大的数学推理能力

模型介绍

通过DeepSeek-R1 671B模型的推理蒸馏技术打造。在数学推理、代码生成等复杂任务中表现卓越，尤其擅长多步推导和跨领域问题解决。关键特性：

核心能力：数学与编程能力显著超越同等规模模型
模型优化：知识蒸馏技术继承大模型思维链，推理效率较传统训练提升200%+
小模型蒸馏典范：基于R1推理数据蒸馏的14B模型，多项指标超越或持平OpenAI o1-mini

更多信息请查看模型开源详情页

模型提供方

DeepSeek 杭州深度求索人工智能基础技术研究有限公司

模型使用声明

DeepSeek-R1-Distill-Qwen-14B模型由DeepSeek-AI团队研发，使用需遵循MIT许可协议与Apache 2.0许可协议。
第三方模型回答不代表商汤万象模型开发平台ModelStudio立场，且平台不对使用效果做任何明示/默示担保，用户使用第三方模型应自行做好内容安全与合规保障

特殊参数说明

此模型暂不支持对话生成（无会话历史）接口中的请求体参数： [n][know_ids][knowledge_config] [plugins][web_search] [associated_knowledge]

DeepSeek-R1-Distill-Qwen-32B

DeepSeek-R1-Distill-Qwen-32B 是基于 Qwen2.5-32B 通过知识蒸馏得到的模型。该模型使用 DeepSeek-R1 生成的 80 万个精选样本进行微调，在数学、编程和推理等多个领域展现出卓越的性能。在 AIME 2024、MATH-500、GPQA Diamond 等多个基准测试中都取得了优异成绩，其中在 MATH-500 上达到了 94.3% 的准确率，展现出强大的数学推理能力

模型介绍

通过DeepSeek-R1 671B模型的推理蒸馏技术打造。在数学推理、代码生成等复杂任务中表现卓越，尤其擅长多步推导和跨领域问题解决。关键特性：

核心能力：数学与编程能力显著超越同等规模模型
模型优化：知识蒸馏技术继承大模型思维链，推理效率较传统训练提升200%+
小模型蒸馏典范：基于R1推理数据蒸馏的32B模型，多项指标超越OpenAI o1-mini

更多信息请查看模型开源详情页

模型提供方

DeepSeek 杭州深度求索人工智能基础技术研究有限公司

模型使用声明

DeepSeek-R1-Distill-Qwen-32B模型由DeepSeek-AI团队研发，使用需遵循MIT许可协议与Apache 2.0许可协议。
第三方模型回答不代表商汤万象模型开发平台ModelStudio立场，且平台不对使用效果做任何明示/默示担保，用户使用第三方模型应自行做好内容安全与合规保障

特殊参数说明

请求体参数中的max_new_tokens默认为 1024，最大可配置为 10000
此模型暂不支持对话生成（无会话历史）接口中的请求体参数： [know_ids][knowledge_config] [plugins][web_search] [associated_knowledge]

DeepSeek

DeepSeek-R1​

模型介绍​

模型提供方​

模型使用声明​

DeepSeek-V3​

模型介绍​

模型提供方​

模型使用声明​

DeepSeek-R1-Distill-Qwen-14B​

模型介绍​

模型提供方​

模型使用声明​

DeepSeek-R1-Distill-Qwen-32B​

模型介绍​

模型提供方​

模型使用声明​

DeepSeek-R1

模型介绍

模型提供方

模型使用声明

DeepSeek-V3

模型介绍

模型提供方

模型使用声明

DeepSeek-R1-Distill-Qwen-14B

模型介绍

模型提供方

模型使用声明

DeepSeek-R1-Distill-Qwen-32B

模型介绍

模型提供方

模型使用声明