产品动态:新增沐曦C500加速卡、应用更新过程进度控制能力、训练监控指标丰富

查看详情

弹性算力池 ECP

弹性算力池ECP(Elastic Compute Pool)是面向企业级客户AI大模型训练、推理场景的算力和AI作业管理平台,支持高性能异构算力管理,多团队任务管理,大规模作业智能调度,训练任务容错加速和模型灵活部署能力,提供模型训练、微调、部署最佳实践。提升各行业用户提升算力资源效能,加速AI工程落地,助力AI应用落地和产业智能升级。

分钟级异常恢复秒级模型CheckPoint保存
弹性算力池 ECP

产品优势

多元算力支持,高效分配调度策略,极致算力利用,高可用模型部署

多种异构算力支持

支持业内主流加速卡和多种国产化算力支持,提供算力资源管理至框架层的端到端能力,支持AI业务对多种异构算力的快速适配

资源闲置低

通过算力分配至不同团队工作空间、算力闲时共享策略,包期与按量结合,实现算力在团队间合理分配,通过支持多优先级排队和智能调度策略合理进行算力调度,实现高算力分配率

有效训练时间长

多环节网络和通信的优化,数据缓存和CheckPoint环节的IO优化,分钟级的故障定位和自动恢复策略,减少节点故障、通信异常等问题的恢复时间,提升任务的有效训练时间20%

推理服务可用性强

及时发现服务问题并进行流量摘除和副本重建,减少故障损失;按指标、按时多种伸缩策略,保障流量波动下服务稳定性;丰富更新策略,保证变更无损。多种手段保证推理服务稳定

产品功能

支持高性能异构算力管理,训练任务容错加速和模型灵活部署能力

高性能计算节点

多种高性能CPU和GPU算力,搭配高性能 SSD存储,配备高吞吐低时延独立训练网络,RDMA数据网络,满足大模型的大算力要求

高性能计算节点

企业级资源管理

支持节点、集群、工作空间灵活分配,提供预付、按量多种资源使用方式,用户可根据需求灵活配置和分配资源

企业级资源管理

大模型训练加速

提供CheckPoint读写加速,通信优化,训练环境检测,任务健康检测,自动重试等多种训练优化能力,实现大规模高效长时稳定训练

大模型训练加速

模型持续部署

丰富的健康检测手段,便捷的环境管理配置能力,可控的应用版本更新过程,多种服务暴露方案支持,灵活的弹性伸缩规则

模型持续部署

应用场景

为企业级用户提供模型训练加速,持续部署,算力和作业管理能力

  • AI模型训练

    多类型训练任务高性能、高效率,解放生产力

    Pytorch、TensorFlow、SenseParrots多种训练框架

    大规模训练加速,提升算力利用率

    训练容错和故障定位,无值守长稳训练

  • 模型持续部署
  • 企业级资源管理
AI模型训练

用AI大模型,找商汤大装置

开始使用